《数据挖掘》教学大纲

一、课程基本信息

课程名称/英文名称: 数据挖掘/Data Mining 课程代码: CS173
课程层次: 本科生课程 学 分/学 时: 3/48
主要面向专业: , 授课语言: 中英文
先修课程: 建议先修课程说明: Python, Artificial Intelligence I, Introduction to Machine Learning,并具备数据分析与建模基本知识
开课单位: 信息科学与技术学院 课程负责人: 张海鹏

二、课程简介

本课程讲授数据挖掘、分析、可视化的基础方法、工具和应用场景,指导学生完成针对包括商业数据、科研数据、社交媒体数据等数据在内的挖掘与可视分析项目,为他们进行相关科研与实践提供知识、工具与项目经验的支撑,打下基础。由于课程采用课堂教学、小组项目、面谈指导相结合的方式,为保证充分的师生互动,建议选课人数上限50人。

三、课程教学目标

知识认知能力:在本课程中,学生将掌握数据挖掘、分析、可视化的基础方法、工具和应用场景,涵盖以下的知识与工具:数据处理与建模,聚类,数据可视化方法与技术,文本挖掘,时间序列挖掘,地理数据挖掘,Python数据分析建模工具包的使用,分布式大数据分析工具(Map Reduce),大数据存储工具,社交网络分析与图算法,数据挖掘领域前沿研究与应用场景。通过贯穿整个学期的数据挖掘与可视化实践项目,向学生提供真实的商业数据、科研数据、社交媒体数据,全程指导同学进行项目的开题、中期以及结题,完成一个探索性课题的全流程,包括:想法产生、文献查阅、快速验证、pitch presentation、项目迭代、中期汇报、结题汇报、验收、报告(论文)撰写。锻炼同学的探索能力、动手能力、科研能力、演示能力,以适应未来相关科研与创新应用的需要。

综合素质能力:具备科学精神和工程师的基本素养,具备科技报国的家国情怀和使命担当;能进行团队协作,具备合作精神和人际沟通能力。

四、课程教学方法

通过课堂教学与面谈指导相结合的方式增加互动教学。教师针对同学的课程项目,以课程项目小组为单位进行面谈指导,达到充分互动的目标。课程课题将贯穿整个学期。

五、课程教学内容与安排

教学周

主要教学内容

(主要知识点)

学时安排

教学方法

(仅列名称)

1

课程介绍;另类数据挖掘

4

课堂教学

2

课程课题介绍;数据挖掘流程,数据预处理和后处理

4

课堂教学

3

数据采样与标准化;数据探索与统计分析

4

课堂教学

4

常见测度指标:相似度与距离;Python notebooksPandas library介绍

4

课堂教学

5

生物医学数据挖掘;聚类算法,K-means,层次聚类

4

课堂教学

6

课题开题;DBSCAN算法,聚类评估方式

4

课堂教学

7

有监督学习介绍;时间地理数据挖掘

4

课堂教学

8

SciKit-Learn library 及其在数据处理与建模中的应用;分布式大数据分析工具(Map Reduce),大数据存储工具

4

课堂教学

9

课题中期;网络(network)数据分析

4

课堂教学

10

NetworkX库介绍;文本挖掘;期中测试

4

课堂教学

11

文本与文档可视化;空间与地理数据可视化

4

课堂教学

12

网络可视化

2

课堂教学

13

课题结题

2

课堂教学

六、考核方式和成绩评定方法

1.作业:15%
涉及知识以及工具的应用以及文献的阅读。
2.随堂:15%
3.期中测试:25%
4.课程项目:45%
课程项目将于学期初宣布,学生将以小组为单位完成课题。项目贯穿整个课程期间,学生将在学期末完成项目,撰写报告并汇报项目。本课程鼓励同学基于课程项目完成学术论文的写作与投稿,并将提供相应的支持。

七、教材和参考书目

(一)、推荐教材

书名 作者 译者 出版社 出版年月 ISBN 版次
数据挖掘导论 陈封能(Pang-Ning Tan)等 段磊 张天庆等 机械工业出版社 2019-08 9787111631620 2
Mining of Massive Datasets Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman Cambridge University Press 2020-02 9781108476348 3
数据挖掘导论 陈封能(Pang-Ning Tan)等 段磊 张天庆等 机械工业出版社 2019-08 9787111631620 2
Mining of Massive Datasets Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman Cambridge University Press 2020-02 9781108476348 3

(二)、参考书目

书名 作者 译者 出版社 出版年月 ISBN 版次
社交网站的数据挖掘与分析 Matthew A. Russell, Mikhail Klassen 苏统华,郭勇,潘巍 机械工业出版社 2021-02 9787111674047 1
数据可视化 陈为、沈则潜、陶煜波等 电子工业出版社 2019-03 9787121357275 2
社交网站的数据挖掘与分析 Matthew A. Russell, Mikhail Klassen 苏统华,郭勇,潘巍 机械工业出版社 2021-02 9787111674047 1
数据可视化 陈为、沈则潜、陶煜波等 电子工业出版社 2019-03 9787121357275 2

八、学术诚信教育

本课程高度重视学术诚信,严禁抄袭、作弊等行为。
“在学习、科研、实习实践等活动中,学生应恪守学术道德,坚守学术诚信,保护知识产权,坚持勇于创新、求真务实的科学精神,努力培养自己严谨求实、诚实自律、真诚协作的科学态度,成为良好学术风气的维护者、严谨治学的力行者、优良学术道德的传承者。”

九、其他说明(可选)

《Data Mining》Syllabus

1.Basic course information

course name Data Mining course code CS173
Course Level Undergraduate Credit/Contact Hour: 3/48
Major: , Teaching Language Chinese and English
Prerequisite NULL Prerequisite suggestion
School/Institute School of Information Science and Technology Instructor zhanghaipeng

2.Course Introduction

3.Learning Goal

4.Instructional Pedagogy

5. Course Content and Schedule


6.Grading Policy

7. Textbook & Recommended Reading

(1) Textbook

book name author translator press publication time ISBN edition
数据挖掘导论 陈封能(Pang-Ning Tan)等 段磊 张天庆等 机械工业出版社 2019-08 9787111631620 2
Mining of Massive Datasets Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman Cambridge University Press 2020-02 9781108476348 3
数据挖掘导论 陈封能(Pang-Ning Tan)等 段磊 张天庆等 机械工业出版社 2019-08 9787111631620 2
Mining of Massive Datasets Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman Cambridge University Press 2020-02 9781108476348 3

(2) Recommended Reading

book name author translator press publication time ISBN edition
社交网站的数据挖掘与分析 Matthew A. Russell, Mikhail Klassen 苏统华,郭勇,潘巍 机械工业出版社 2021-02 9787111674047 1
数据可视化 陈为、沈则潜、陶煜波等 电子工业出版社 2019-03 9787121357275 2
社交网站的数据挖掘与分析 Matthew A. Russell, Mikhail Klassen 苏统华,郭勇,潘巍 机械工业出版社 2021-02 9787111674047 1
数据可视化 陈为、沈则潜、陶煜波等 电子工业出版社 2019-03 9787121357275 2

8.Academic Integrity

9.Other Information (Optional)