《面向程序员的数据挖掘指南》源码
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
chapter-2
chapter-3
chapter-4
chapter-5
chapter-6
chapter-7
chapter-8
.gitignore
README.md

README.md

DataminingGuideBook-Codes

《面向程序员的数据挖掘指南》 源码

目录

第一章:简介

讲述什么是数据挖掘,它所能解决的问题的是什么,以及在阅读完本书后,你可以做些什么。

第二章:推荐系统入门

介绍协同过滤,基本的距离算法,包括曼哈顿距离、欧几里得距离、闵科夫斯基距离、皮尔森相关系数。使用Python实现一个基本的推荐算法。

第三章:隐式评价和基于物品的过滤算法

这章开始讨论可供选择的用户评价体系。用户能够显示地給于评价(好、差、五星评价等),或者隐式地給于评价——如果用户在亚马逊购买了一个MP3,我们则认为他是“喜欢”这件商品的。

第四章:分类

上一章中我们使用用户对商品的评价来进行推荐,这一章我们会使用商品本身的特性来进行推荐。这种算法在潘多拉等网站中采用。

第五章:进一步探索分类

本章会讨论如何评价分类器的效果,方法包括十折交叉验证、留一法、以及Kappa检验等,同时还会引入kNN算法。

第六章:朴素贝叶斯

我们会在这章探索朴素贝叶斯分类算法,使用概率密度函数来处理数值型数据。

第七章:朴素贝叶斯算法和非结构化文本

这一章我们会尝试使用朴素贝叶斯算法来对非结构化文本进行分类。我们是否能够判断出Twitter上的一片影评是正面评价还是负面的呢?

第八章:聚类

我们会讨论层次聚类和kmeans聚类。