Skip to content

Winniekun/Data_Mining

Repository files navigation

数据挖掘学习笔记

记录学习过程与心得

前言

“数据挖掘”从一开始这个术语是统计学家们对盲目调查的轻蔑叫法,在该调查中,数据分析人员在没有形成合适假设的情况下,就着手寻找模式。后期在20实际90年代该术语成为主流,当时流行媒体风传一种激动人心的研究,将成熟的数据库管理系统领域和来自机器学习和人工智能的最佳算方法结合起来。’挖掘‘预示着现代的"淘金热"。”数据本身可能是珍惜商品“这一思想很快吸引商业上和技术刊物的注意,使他们无视先驱努力宣传的、更为全面的术语 ——KDD(数据库中的知识发现)如今”数据挖掘“和KDD被视为非常相近。

一些术语区分

  • 机器学习 焦点是开发能从数据中学习作出预测的算法,许多数据挖掘解决方案使用了来自机器学习的技术,但是不是所有的数据挖掘都试图从数据中作出预测或者学习。有时候,我们只是想得到一种模式
  • 预测分析 有时简称为分析,是各个领域试图从数据中作出预测的计算的解决方案的总称。有些预测分析解决方案会使用机器学习的技术进行分析,但是同样,在数据挖掘中,并不总是对预测感兴趣
  • 大数据 处理非常大量数据的问题和解决方案,与搜索数据中的模式还是简单的存储这些数据无关。关于数据挖掘和大数据这两个术语,许多数据挖掘问题在数据集很大时更为有趣,所以处理大数据所开发的解决方案迟早可用于解决数据挖掘问题。两个术语相互补充,不能互换使用
  • 数据科学家 最接近KDD过程的术语,数据挖掘是它们的一个步骤

实现的经典数据挖掘算法

Apriori

决策树

ID3算法实现

C4.5算法实现

Logistic回归