李毅副教授为山西省2016年“大数据与统计科学”暑期学校做专题报

日期：2016年07月16日点击数：

2016年7月15日下午，山西财经大学统计学院李毅副教授在我校国际交流中心报告厅做了题为“文本数据分析策略”的专题报告。山西省2016年“大数据与统计科学”暑期学校的全体学员及我校经济管理类专业教师、研究生近400人聆听了此次报告。

报告中，李毅老师首先引用C.R.劳先生的一句话，“在终极的分析中，一切知识都是历史；在抽象的意义下，一切科学都是数学；在理性的基础上，所有的判断都是统计学。”同时提出一个疑问：“下一个时代呢？或许说是大数据时代？”，以此引出本次讲座的主题------文本挖掘。然后，对大数据进行了简单的介绍，提到了大数据的局限性，大数据并不意味着数据的多样化，大数据特别是以网络为基础的大数据不能准确反映人的社会政治行为。在互联网时代，数字化的文本数量不断增长，Web中99%的可分析信息是以文本形式存在的，在这个背景下可以做文本挖掘。他详细介绍了文本挖掘的概念、CRISP-DM模型以及文本挖掘的通用流程，并讲解了如何分词和文本分类、聚类，以及主题模型和The “Actual” LDA过程和其他话题的建模过程。最后，通过一个微博上做文本挖掘的案例使大家更深刻的理解文本数据分析。

本次报告使在场学员和师生收获了很多关于大数据和文本挖掘方面的知识，为大家今后研究相关问题提供了更多研究方法和思路，开阔了研究视野，有助于学术水平的提高。（统计学院供稿）

【关闭】

首页

学院概况

学科科研

师资队伍

专业教学

党建团学

招生就业

对外交流与服务社会

统计与数据科学论坛

统计校友

李毅副教授为山西省2016年“大数据与统计科学”暑期学校做专题报