# 第七章 机器学习最佳实践  
终于，我们机器学习入门课程进入了最后一节。作为入门课程，我们要讲的内容其实已经差不多讲完了，包括上课之初大家的疑问，什么是机器学习？为什么要使用机器学习？又如何建立一个机器学习模型？我相信各位心里也都有了大致的答案，同时我们也对个别点做了深入的讨论，我相信大家对于机器学习这门知识也都有或深或浅的认识。唯一遗憾的可能是我们还没有真正去实操过一个公司项目，因此对于机器学习系统如何嵌入我们的生产环境，机器学习能具体带来多少价值，大家的感知还比较朦胧吧，但这也是我们以后一直要努力提升的方向。  
   
一码归一码，单独对于这次的入门课程，我觉得抛砖引玉的效果已经达到了，接下来以我的知识和经验已经没有什么可以讲的了，接下来要学习哪些？如何学习？如何应用？这些问题我只能大致说个方向，如何学习就看每个人自己了。

而对于本节课，我们要讲的点主要有三个：  
- 一整个机器学习系统的生态是怎样的，又如何运作；  
- 一些机器学习的经验规则，作为我们建模优化分析问题的理论依据；  
- 我们后续的学习计划，以及资源链接。

## 1. 机器学习工程
### 生产环境机器学习系统
到目前为止，我们重点介绍了如何构建机器学习模型。不过，如下图所示，现实世界中采用的生产机器学习系统是大型生态系统，模型只是其中的一部分。
#### 机器学习系统
<img src="./material/机器学习系统.svg" width="700px" height="700px"/>
机器学习代码是现实世界生产环境机器学习系统的核心，但它通常最多只占整个生产环境机器学习系统整体代码的 很小一部分。生产环境机器学习系统会将大量资源投入到输入数据中 -- 收集输入数据、对其进行验证以及从中提取特征。另请注意，服务基础架构必须到位，例如数据库，机器资源管理，模型监控等，以便机器学习模型的预测能投入到现实世界的实际运用中。幸运的是，上图中的许多组件可以重复使用，并且我们运维都是能提前配置好的，因此我们更多的精力能够放在机器学习建模的过程。

### 静态训练与动态训练
从广义上讲，训练模型的方式有两种：
- **静态模型**采用离线训练方式（静态训练）。也就是说，我们只训练模型一次，然后使用训练后的模型一段时间。
- **动态模型**采用在线训练方式（动态训练）。也就是说，数据会不断进入系统，我们通过不断地更新系统将这些数据整合到模型中。

从广义上讲，静态训练和动态训练的选择由以下几点决定：

- 静态模型更易于构建和测试。
- 动态模型可以适应不断变化的数据。世界瞬息万变。基于去年的数据作出的销售预测很可能无法成功预测下一年的情况。  

如果您的数据集确实不会随时间而变化，则选择静态训练，因为其创建和维护成本低于动态训练。不过，事实上，很多信息源都会随时间而变化（甚至是某些您认为恒久不变的特征，例如海平面）。结论：即便是静态训练，也必须监控输入数据是否发生变化。

据我所知，由于在线训练的维护成本比较高，可控性，稳定性都比较差，风险也比较高，因此大部分的公司采用的都还是静态训练，然后定期更新的策略。因此对模型进行稳定性监控，及时更新也是必要的一环。

### 静态推理与动态推理
与训练相似，同样也有静态推理与动态推理：
- **离线推理**（静态推理），指的是提前批量进行预测。然后，将预测记录保存下来，并将它们提供给一个缓存/查询表。
- **在线推理**（动态推理），指的是使用服务器根据需要实时进行预测。

以下是离线推理的优缺点：

优点：不需要过多担心推理成本。  
优点：可以使用批量方法进行预测。  
优点：可以在推送之前对预测执行后期验证。  
缺点：更新可能延迟数小时或数天。  

以下是在线推理的优缺点：

优点：实时预测，不会有过长太长的延迟。  
缺点：计算量非常大，对机器要求高，对计算延迟较为敏感，可能会限制模型的复杂度。  
缺点：监控需求更多。  

### 数据依赖关系
机器学习系统的行为取决于其输入特征的行为和品质。当这些特征的输入数据发生更改时，您的模型也会随之变化。

在传统的软件开发中，您的注意力更多地放在代码而非数据上。在机器学习开发中，虽然编码仍是工作的一部分，但您必须同时关注数据。例如，在传统的软件开发项目中，编写单元测试来验证代码是一种最佳做法。而在机器学习项目中，您还必须不断地对输入数据进行测试、验证和监控，客户的性别分布是否又变化，自己的输入特征是否有变化等等。

#### 可靠性
以下是针对输入数据的可靠性询问的一些问题：

信号是否始终可用？信号来源是否不可靠？例如：  
信号是否来自因负载过重而崩溃的服务器？   
信号是否来自每年 8 月去度假的人群？

因为我们的模型一般是基于特定场景训练的，因此当数据分布或场景模式不同时，我们也要及时对模型进行调整。

### 反馈环
有时，模型会影响其自身的训练数据。例如，来自某些模型的结果反过来是同一模型的直接或间接输入特征。

有时，一个模型会影响另一个模型。以下列两个股价预测模型为例：

模型 A - 不理想的预测模型。     
模型 B。  

由于模型 A 有误，因此会导致错误地决定购买股票 X 的股票，而购买这些股票会抬高股票 X 的价格。模型 B 将股票 X 的股价用作输入特征，因此它很容易对股票 X 的价值得出错误结论。然后，模型 B 会根据模型 A 的错误行为购买或销售股票 X 的股份，反过来，模型 B 的行为会影响模型 A，而这样很可能会触发郁金香狂热效应或导致 X 公司的股价下滑。  

有时我们模型本身的加入可能也会对数据的分布造成影响，因此我们也要提前考虑，在模型加入后，会对我们的场景有什么影响，会不会改变我们的输入数据等等。

## 2. 机器学习规则
接下来说的是google对机器学习的一些经验总结，主要介绍了何时使用机器学习解决问题、如何部署机器学习管道、如何发布和维护机器学习系统，以及在系统达到稳定阶段时该怎么做，我们可以站在一个更高更宏观的角度了解goole这种企业是如何看待机器学习系统的，以此也可以作为在我们项目开发时分析问题的理论依据。他是以网页排名这种需要不断更新迭代的大的机器学习项目为前提讲解的。
### 术语
在我们讨论有效的机器学习的过程中，会反复提到下列术语，再大致过一下：

- 实例：要对其进行预测的事物。例如，实例可以是一个网页，您希望将其分类为“与猫相关”或“与猫无关”。
- 标签：预测任务的答案，它可以是由机器学习系统生成的答案，也可以是训练数据中提供的正确答案。例如，某个网页的标签可能是“与猫相关”。
- 特征：预测任务中使用的实例的属性。例如，某个网页可能具有“包含字词‘猫’”这一特征。
- 特征列：一组相关特征，例如用户可能居住的所有国家/地区的集合。样本的特征列中可能包含一个或多个特征。“特征列”是 Google 专用的术语。特征列在 Yahoo/Microsoft 使用的 VM 系统中被称为“命名空间”或场。
- 样本：一个实例（及其特征）和一个标签。
- 模型：预测任务的统计表示法。您使用样本训练一个模型，然后使用该模型进行预测。
- 指标：您关心的一个数值。也许（但不一定）可以直接得到优化。
- 目标：算法尝试优化的一种指标。
- 管道：机器学习算法的基础架构。管道包括从前端收集数据、将数据放入训练数据文件、训练一个或多个模型以及将模型运用到生产环境。
- 点击率：点击广告中的链接的网页访问者所占的百分比。

### 定位
要打造优质的产品：

**请把自己看成是一位出色的工程师，而不是一位机器学习专家。**

实际上，我们将面临的大部分问题都是工程问题。即使在使用出色的机器学习专家掌握的所有资源的情况下，大多数收获也是由合适的特征（而非精确的机器学习算法）带来的，因此我们应该把更多的精力放在如何利用数据构建特征上，而非花大量时间研究改进算法本身。所以，进行机器学习的基本方法是：

- 确保管道从头到尾都稳固可靠。
- 从制定合理的目标开始。
- 以简单的方式添加常识性特征。
- 确保管道始终稳固可靠。

### 概述
当了解我们的定位后，接下来我们通过以下几个部分，一起了解下建模过程中各个阶段我们要关注的点：  
- 第一部分可帮助我们了解构建机器学习系统的时机是否已经成熟。
- 第二部分介绍了如何部署第一个管道。
- 第三部分介绍了在向管道添加新特征时如何进行发布和迭代、如何评估模型，以及如何应对训练-应用偏差。
- 最后一部分介绍了当我们的机器学习系统达到稳定阶段时该怎么做。

#### 在进行机器学习之前
##### 第 1 条规则：不要害怕发布未采用机器学习技术的产品。
机器学习技术很酷，但它需要数据。特别是对于新项目，其效果很可能不如基本的基于统计的启发式算法。如果在有足够的数据支撑时，机器学习技术能为您带来 100% 的提升，那么启发式算法也可以带来 50% 的提升。

如果您要检测垃圾邮件，则可以滤除以前发送过垃圾邮件的发布商。如果您需要对联系人进行排名，可以按使用联系人的时间顺序由近及远对其排序（或按字母顺序排序）。如果您的产品并非必须使用机器学习技术，则在获得足够的数据之前，请勿使用该技术。总之，机器学习只是工具，针对不同场景选择最好的方法，越简单，效果越好，那就是好的方案。

##### 第 2 条规则：首先设计并实现指标。  
在正式确定机器学习系统的功能之前，尽可能在当前系统中确定要优化和跟踪指标的值。这样做的原因如下：

- 确定的指标相当于有了一个确定的优化方向，而机器学习的模型一般是针对某个特定的场景起作用的。
- 如果认为将来可能需要考虑某个方面的内容，最好提前开始收集相关历史数据。
- 如果在设计系统时就考虑到要测量的指标，将来会省下很多力气。
- 可以发现哪些内容发生了变化以及哪些内容始终未变。例如，假设我们希望直接优化单日活跃用户数。但是，在早期操纵系统的过程中，可能会发现用户体验的显著改变并没有使该指标发生明显变化，那么我们建模的主要方向可能就不是在优化用户体验上了，方向和目标的确定是最重要的。

##### 第 3 条规则：选择机器学习技术而非复杂的启发式算法。
简单的启发式算法有利于推出产品。但复杂的启发式算法难以维护。当获得足够的数据并基本确定自己要尝试实现的目标后，请考虑使用机器学习技术。与大多数软件工程任务一样，我们都是需要不断更新方法的（无论是启发式算法还是机器学习模型），而机器学习模型更易于更新和维护。

### 机器学习第一阶段：您的第一个管道
在机器学习的第一个阶段，应该将重点关注在第一个管道的系统基础架构上，也就是快速启动一个模型，并且建立好一整套稳定的数据流入流出的系统。同时在机器学习的第一阶段特点是，可能我们只用了一个简单的模型，我们要观测的点击率啊，转化率这些指标都会呈上升趋势，甚至那些您没有选择直接优化的指标也是如此。例如，假设您关注点击次数和用户在网站上停留的时间。如果您优化点击次数，则用户在网站上停留的时间很可能也会增加。可以理解为，整个系统的功能水平相比之前基于规则的引擎，上升了一个档次。

##### 第 4 条规则：确保第一个模型简单易用，并正确实施基础架构。
第一个模型可以最有效地提升产品质量，因此不需要花哨，简单易用即可。但是，我们可能会遇到很多预料之外的基础架构问题。在公开推出您精心构建的新机器学习系统之前，您必须确定以下几点：

- 如何为学习算法获取样本。
- 初步确定对于系统来说，“好”和“坏”的定义是什么。
- 如何将模型整合到应用中。可以在线应用模型，也可以离线使用样本对模型进行预计算，并将结果存储在表格中。例如，可能需要对网页进行预分类并将结果存储在表格中，但也可能需要在线对聊天消息进行分类。

简单的模型可为我们提供基准指标和基准行为，我们可以利用这些指标和行为测试更复杂的模型。某些团队以“中性”作为首次发布的目标 - 在首次发布时明确淡化机器学习成果，以避免分心。

##### 第 5 条规则：撇开机器学习，单独测试基础架构。
确保基础架构可测试，且对系统的学习部分进行封装，以便测试这些部分之外的方方面面。具体而言：

- 测试数据导入算法的效果。检查应填充的特征列是否已填充。在权限足够的情况下，手动检查输入到训练算法的数据。如果可能的话，查看管道中的统计信息，并与在其他地方处理的相同数据的统计信息进行比较。
- 测试从训练算法得出模型的效果。确保训练环境中的模型与应用环境中的模型给出的分数相同。

##### 第 6条规则：做好模型监控，了解系统稳定性。
如果使用一天前的模型，效果会降低多少？一周前的模型呢？一个季度前的模型呢？此类消息有助于我们了解需要优先监控哪些方面。如果一天不更新模型会对产品质量产生严重影响，则最好让工程师持续观察相关情况。大多数广告投放系统每天都有新广告要处理，并且必须每天更新。例如，如果不更新 Google Play 搜索的机器学习模型，则不到一个月便会产生负面影响。Google+ 热门信息的某些模型中没有帖子标识符，因此无需经常导出这些模型。其他具有帖子标识符的模型的更新频率要高得多。另请注意，新鲜程度会随着时间而改变，尤其是在向模型中添加特征列或从中移除特征列时。  
每个训练好的模型都有一个有效期，或长或短，当超过这个有效期时模型就会失效，因此要随时对模型的准确性做监控，有一套完善的监控机制。

##### 第 7 条规则：做好模型测试，然后再导出模型。
很多机器学习系统都会经历导出模型以应用模型的阶段。如果导出的模型存在问题，则是面向用户的问题。

在导出模型之前，请进行健全性检查。具体而言，确保模型在处理预留数据方面表现合理。或者说，如果我们一直认为数据存在问题，就不要导出模型。很多经常部署模型的团队在导出模型之前，会先检查 ROC 曲线下面积（简称 AUC）。尚未导出的模型存在问题时，需要发送电子邮件提醒；但面向用户的模型出现问题时，可能需要通过一个页面进行宣布。 因此，最好先等待检查完毕并确保万无一失后再导出模型上线，以免对用户造成影响。

##### 第 8 条规则：选择一个可观察且可归因的简单指标。
要进行建模，请先选择一个简单且容易观察的指标，最简单的指标是可直接观察到且可归因到系统操作的用户行为：

用户是否点击了此已排名链接？
用户是否下载了此已排名对象？
用户是否转发/回复/使用电子邮件发送了此已排名对象？
用户是否评价了此已排名对象？
用户是否将此显示的对象标记为了垃圾邮件/色情内容/攻击性内容？

同时不要试图让机器学习系统弄清楚以下问题：

用户在使用产品时是否感到满意？
用户是否对使用体验感到满意？
产品是否提升了用户的整体满意度？
这会对公司的整体运行状况产生什么样的影响？

所有这些都很重要，但也极难衡量。请改为使用代理指标，或者将指标细化选择一个明确的指标：如果用户感到满意，他们会在网站上停留更长时间。如果用户感到满意，他们明天会再次访问网站。就满意度和公司运行状况而言，应该进行人为判断，以便将任意机器学习目标与您销售的产品的性质和业务计划关联起来。

### 机器学习第二阶段：特征工程
在机器学习系统生命周期的第一阶段，重要的问题涉及以下三个方面：将训练数据导入学习系统、对任何感兴趣的指标进行测量监控，以及构建应用基础架构。当您构建了一个端到端的可稳定运行的系统，并且制定了系统测试和单元测试后，就可以进入第二阶段了。第二阶段特点是，所有的指标应该仍然呈上升趋势，您将会多次迭代优化和发布系统。

##### 第 9 条规则：制定发布和迭代模型计划。
对于很多模型来说，并非训练好一个模型就一劳永逸了，模型是需要不停的迭代升级的，例如我们的竞价规则也随着业务的发展改变过多次，很多团队多年来可能每季度都会发布一个或多个模型。发布新模型的三个基本原因如下所示：

- 将要添加新特征。
- 将要调整正则化并以新方式组合旧特征。
- 将要调整目标。

所以对可预见的模型优化和迭代的部分，要提前做好发布和迭代计划。

##### 第 10条规则：线性模型中学习的特征权重数目与您拥有的数据量大致成正比。
在某次谈话中，曾有人表达过这样的疑虑：从一千个样本中是否能够学到任何东西，或者是否需要超过一百万个样本，他们之所以有这样的疑虑，是因为局限在了一种特定学习方式中。关键在于根据数据规模调整我们的学习模型：

- 如果您正在构建搜索排名系统，文档和查询中有数百万个不同的字词，且您有 1000 个有标签样本，那么您应该在文档和查询特征、TF-IDF 和多个其他高度手动工程化的特征之间得出点积。您会有 1000 个样本，十多个特征。
- 如果您有一百万个样本，则使用正则化和特征选择（可能）使文档特征列和查询特征列相交。这样一来，您将获得数百万个特征；但如果使用正则化，则您获得的特征会有所减少。您会有千万个样本，可能会产生十万个特征。
- 如果您有数十亿或数千亿个样本，您可以使用特征选择和正则化，通过文档和查询标记组合特征列。您会有十亿个样本，一千万个特征。统计学习理论很少设定严格的限制，但能够提供很好的起点引导。

因此，特征的数量是和我们的样本量成正比的，当我们的样本量足够大时，我们当然可以选取使用更多的特征。

##### 第 11条规则：尽可能优先使用简单具体的特征
对于海量数据，学习数百万个简单的特征比学习几个复杂的特征更简单，且解释性与泛化性更好。

##### 第 12 条规则：衡量模型间的差异。
在向任何用户展示您的新模型之前，可以进行的最简单（有时也是最有用）的一项衡量是，评估新模型的结果与生产有多大差别。例如，如果有一项排名任务，则在整个系统中针对一批示例查询运行这两个模型，并查看结果的对称差分有多大（按排名位置加权）。如果差分非常小，那么无需运行实验，就可以判断不会出现很大变化。如果差分很大，那么我们需要确保这种更改可以带来好的结果。查看对称差分较大的查询有助于了解更改的性质。不过，请确保系统是稳定的。

##### 第 13 条规则：在衡量的错误中寻找规律，并创建新特征。
假设您看到模型“弄错”了一个训练样本，请先在当前特征集之外寻找规律。例如，如果系统似乎在降低内容较长的帖子的排名，那么只需添加一些帖子长度相关的特征，然后让模型自行处理就好了。这是实现目标最简单的方式。

##### 第 14 条规则：保存在应用时使用的特征集，然后将这些特征通过管道传输到日志，以便在训练时使用。
训练-应用偏差是指训练效果与应用效果之间的差异。出现这种偏差的原因可能是：

- 训练管道和应用管道中数据的处理方式有差异。
- 训练时和应用时所用数据有变化。
- 模型和算法之间有反馈环。

我们注意到 Google 的生产机器学习系统也存在训练-应用偏差，这种偏差对性能产生了负面影响。最好的解决方案是明确进行监控，以避免在系统和数据改变时引入容易被忽视的偏差。我们要做的，就是保存在应用时使用的特征集，然后将这些特征通过管道传输到日志，观察与训练时的数据是否有变化，再在训练时使用。

##### 第 15 条规则：如果您根据 1 月 5 日之前的数据生成模型，则根据 1 月 6 日及之后的数据测试模型。
一般来说，要衡量模型的效果，应使用在训练模型所有数据对应的日期之后的日期收集的数据，因为这样能更好地反映系统应用到生产时的行为。如果我们根据 1 月 5 日之前的数据生成模型，则根据 1 月 6 日及之后的数据测试模型。一般会发现，使用新数据时模型的效果不如原来好，但应该不会太糟。由于可能存在的一些日常影响，您可能没有预测到平均点击率或转化率，但曲线下面积（表示正分类样本的分数高于负分类样本的概率）应该非常接近。

### 机器学习第三阶段：缓慢增长、优化细化
第二阶段即将结束时会出现一些信号。首先，月增长开始减弱，指标的优化越来越困难。我们将开始在指标之间做出取舍：在部分试验中，我们会看到一些指标上升了，而另一些指标下降了。情况变得有趣起来，我们要考虑的方向也越来越多。由于越来越难实现增长，因此机器学习系统必须变得更加复杂。

##### 第 16 条规则：如果目标不协调，并成为问题，就不要在新特征上浪费时间。
当机器学习的衡量结果稳定时，我们的团队会开始关注当前机器学习系统的目标范围之外的问题。如前所述，如果现有算法目标未涵盖产品目标，则需要修改算法目标或产品目标。否要发布新的机器学习版本可能更依赖于公司的业务战略了。

##### 第 17 条规则：效果达到平稳后，寻找与现有信号有质的差别的新信息源并添加进来，而不是优化现有信号。
在添加了一些有关用户的受众特征信息，也添加了一些有关文档中字词的信息，并调整了正则化。但在几个季度的发布中，关键指标的提升幅度从来没有超过 1%。现在该怎么办？

是时候开始为截然不同的特征（例如，用户在过去一天内、一周内或一年内访问的文档的历史记录，或者其他属性的数据）构建基础架构了。您可以使用维基数据条目或公司内部信息（例如，Google 的知识图谱）。利用深度学习。开始调整您对投资回报的预期，并付出相应的努力。与在任何工程项目中一样，您必须对添加新特征的好处与增加复杂性的成本进行一番权衡。  

也就是，这时候要想再大幅提升机器学习的精度已经比较困难了，除非有一些与现有信号有质的差别的新信息源并添加进来，或者采用与之前截然不同的新技术，否则基于成本考虑，我们可能不应该再花太多时间在无意义的优化上了，而应该将精力放在新项目或者其他新方向上。

## 3. 后续学习计划
原本我是准备给一张学习路线图的，但我发现很难给出来，一方面我看的书和资源本身不多，另一方面后期的机器学习也有各个不同的专攻方向，或是计算机视觉，或是自然语言处理，或是推荐，每个分支都有很多他自己的内容，我深入不多只能大致给一些方向。

### 横向拓展
本次的机器学习课程只是算法学习的入门而已，横向拓展主要关注入门后对知识广度的学习。

#### 1. 深度学习
可能对于传统的预测和分类任务，原始的线性回归或决策树这些机器学习算法还有用武之地，他们的结构足够简单，但对于图像处理和nlp等领域，则完全是深度学习的天下了。如果想在机器学习这个领域有更多的进步，深度学习的知识绝对是绕不开的。深度学习的框架也有很多，这里推荐google的tensorflow框架，这也是当前公认最流行的框架，通过这个框架中数据流图这些组件，你可以组合出任何你想要的神经网络结构。

关于深度学习相关的资源实在太多了，随便一搜一大把，但真正的内容，看一下深度学习基本原理，再看下tensorflow如何使用就可以了，大部分书的内容都差不多，多看不如专精一本，之后再多去参加项目就好了。

<img src="./material/深度学习框架.jpg" width="200px" height="200px"/>

[吴恩达老师的深度学习课程笔记及资源](https://github.com/fengdu78/deeplearning_ai_books)、

#### 2. Spark
也许现阶段我们公司还没有说要用那么海量的数据进行分析或处理，因此涉及到spark的项目很少，但如果是对于百度，美团这些比较大型的互联网企业，那么肯定会涉及到海量数据的存储与分析，必然要用到hadoop和spark这些大数据处理平台。因此提起储配hadoop和spark的知识，对于海量数据的建模是必要的。

#### 3. 计算机视觉
当相应的技术知识都掌握后，可能要面临角色转职了，对于成熟的算法团队，算法内部的分工也是相对明确的。如果从事计算机视觉相关的研究，可能就会处理图像识别，文字识别，图像跟踪等图像相关的知识了。

#### 4. nlp自然语言处理
而如果你对文字处理，语言学比较感兴趣，另一个比较大的分支就是自然语言处理了，一般这两个分支都会设计到大量的知识和项目需求，因此单选一个方向深深研，也够有很多可以学的了。

#### 5. 推荐搜索
搜索推荐相关的内容也很多，对很多互联网公司来说搜索都是非常重要的一环，所以也有专门的搜索或推荐引擎的工程师，如何排序，如何筛选，推荐方面也是一个很大的工程，也是一个专门的分支方向。

### 纵向拓展
相对于横向拓展，纵向拓展则强调我们对机器学习这门技术的理解程度。

##### 数学知识
要想真正的理解算法内部运作的原理，而并非只是简单的掉包使用，那么对数学知识的掌握是必不可少，我们可能不用去了解的过于深入，但如果完全不了解的话，可能在某个时间你会遇到完全无法突破的瓶颈，这个时候你必须回头学习这些基础知识，才能将各种算法应用的灵活自如。Google的大佬说过：机器学习全部都是数学，可以说数学理论就是地基，地基扎得稳不稳，就决定了，我们能达到多高的程度。需要学习的点：
- 代数
- 数学分析
- 组合数学
- 概率论
- 统计学：极大似然思想、贝叶斯模型 是理论基础，朴素贝叶斯(Na?ve Bayes )、语言模型(N-gram)、隐马尔科夫（HMM）、隐变量混合概率模型是他们的高级形态。常见分布如高斯分布是混合高斯模型(GMM)等的基础。
- 数值计算
- 凸优化：凸优化和条件最优化
- 信息论

##### 项目经验
项目经验的重要程度我就不说了，这跟开发都是一样的，站在岸上学不会游泳，听人说了再多编，文档记得再清楚，不实际去操作，去踩坑，去感受可能一个中英文标点切换都会给我们的开发过程带来多大影响，就永远无法真正掌握这门技术。多去看别的项目，多去参加竞赛，一边模仿，一边思考，一边超越，所有的学习都是一样的。  

这里我发个机器学习实战的网课，之前有几节课我也是取材于这个：https://www.bilibili.com/video/av33599042

## 4. 总结&课堂任务
### 总结
<img src="./material/总结.png" width="700px" height="700px"/>

### 课堂任务
1. 自己学吧，没什么任务了。