Skip to content
thzt edited this page Sep 18, 2015 · 3 revisions

Book Information

Review by [thzt]

  • Rank: ★★★★★
  • Hard: ★
  • Tag: 大数据,机器学习,统计分析,分类,优化,算法
  • Reviews:

python为什么越来越火?

背后肯定有推动因素,

因为数据分析学家们,和喜欢算法的人们都在用它。


通常是,

为了和那个领域的人们交流,

我们就不得不学习他们的语言,

编程语言也是如此。


这本书就是用python语言来介绍机器学习的。


机器学习是一个火热的领域,

随着大数据时代的到来,

通过少量样本建模,再用模型来预测未来,

已经越来越不必要了。


人们有了更准确的办法,

那就是利用集体智慧,

这和会议投票表决是一个思路,

只是不同的是,统计分析学家们在这条路上走的更远。


例如,投票表决是按投票数量来决策的,

但是投票数量只是这个数据集的某一个特征,

甚至连权重都没有做,也没有聚类,更没有去噪。


为了更好的挖掘数据集的隐含特征,

本书给出了一系列耳熟能详的算法,

贝叶斯分类器,决策树分类器,神经网络,

支持向量机,k-最近邻,聚类,多维缩放,

非负矩阵因式分解,模拟退火,遗传算法,

甚至后面还提到了可以自动更改算法的遗传编程。


那么,为什么我能粗略的看完一遍,

就能如此印象深刻呢?

原因就是,这是一本好书。

好书都是一步一探索,一步一总结。


本书可以分为两个部分,

第一部分属于探索阶段,

作者分别介绍了上面的每一个算法,

更重要的是,详细说明了算法引入的思路,

为了解决什么问题,为何要改进它,

有什么局限性。


第二部分比较少,只有50页,

但是总结了本书提到的所有算法,

如果前面仔细读过,再读第二部分,

感觉畅快淋漓,一览众山小。


如果书单比较多,又不得不看本书,

那么只看第二部分是个不错的选择。


这些算法,离不开数学知识,

但是高中水平已经够了,

只有少量的一些概率论,线性代数,

这也是好书的特征,

深入浅出,切入点低,眼光高。


最后,提一下本书的不足,

就是前面的探索阶段比较啰嗦,

没有耐心的读者,可能会直接陷入细节中。

因为人们更想先看看这个领域的现状。

如果把第二部分放在前面会更好一些。


随着机器学习在工业上的推广,

本书已经不得不读了。