# 机器学习概述

## 1 机器学习定义

机器学习是一门能够让变成计算机从*数据*中学习的计算机科学（和艺术）。

+ **一个笼统的定义：**
机器学习研究如何让计算机不需要明确的程序也具备学习能力。

+ **偏工程化的定义：**
一个计算机程序在完成任务T之后，获得经验E，其表现效果为P，如果任务T的性能表现P，随着E的增加而增加，可以称其为*学习*。

+ **机器学习技术定义：**
在预先定义好的可能性空间（假设空间）中，利用反馈信号的指引来寻找输入数据的有用表示。

+ **深度学习技术定义：**
学习数据表示的多级方法。

> 后面两种定义来自[《Deep Learning with Python》](https://www.amazon.com/Deep-Learning-Python-Francois-Chollet/dp/1617294438/ref=sr_1_3?__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&keywords=deep+learning&qid=1555341849&s=gateway&sr=8-3)

## 2 为什么要使用机器学习

### 2.1 传统编程

输入的是规则（即程序）和需要根据这些规则进行处理的数据，系统的输出是答案。
![传统编程方法](https://raw.githubusercontent.com/libingallin/hands-on-ml/master/cn/figures/ch1-figs/traditional-approach.png)

程序很可能变成一长串的复杂规则，很难维护；传统方法太过复杂或者甚至不存在已知算法。

### 2.2 机器学习解决方法

输入的数据和从这些数据预期得到的答案，系统输出的是规则。这些规则随后可应用于新的数据，并使计算机自主生成答案。

![机器学习解决方法](https://raw.githubusercontent.com/libingallin/hands-on-ml/master/cn/figures/ch1-figs/machine-learning-approach.png)

这样的程序简单的多，易于维护，并且可能还更准确。

而且还能自动适应变化，不需要人为干预。
![机器学习方法自适应变化](https://raw.githubusercontent.com/libingallin/hands-on-ml/master/cn/figures/ch1-figs/automatically-adapting-to-change.png)

机器学习可以帮助人类学习（如下图）：通过检视机器学习算法以了解它们学到了什么（有些算法是黑匣子，并不行）。
![机器学习能够帮助人类学习](https://raw.githubusercontent.com/libingallin/hands-on-ml/master/cn/figures/ch1-figs/machine-learning-can-help-humans-learn.png)

应用机器学习技术来挖掘海量数据，可以帮助我们发现那些此前并非立见端倪的模式，这个过程成为**数据挖掘(Data Mining)**。


**机器学习的优点在于：**
+ 通过ML方法可以简化代码，并且提升执行表现——现有解决方案需要大量手动调整或者规则列表超长。
+ 一些复杂问题利用传统手段根本无法解决，而ML技术可以找到一个解决方案。
+ 对于环境波动：ML系统可以适应新的数据。
+ 从复杂问题和海量数据中获得洞见（get insights）。

## 3 ML系统的类型

**可以将ML系统进行如下大的分类：**
+ 是否在人类监督下训练（监督、无监督、半监督和强化学习）
+ 是否可以动态地进行增量学习（在线学习和批量学习）
+ 是简单的将新的数据点和已知的数据点进行匹配，还是建立一个预测模型（基于实例的学习和基于模型的学习）

这些分类方法之间并互斥，可以以任何的方式组合，如建立一个在线的、基于模型的、监督式学习系统。

### 3.1 监督式/无监督式学习

根据训练期接受的监督数量和监督种类。

#### 3.1.1 监督式学习（Supervised Learning）

提供给算法的训练数据包含*labels*。

**一些重要的监督式学习算法:**
+ K-means++算法
+ Linear Regression
+ Logistic Regression
+ Support Vector Machines, SVM
+ Decision Trees and Random Forests
+ Neural Networks

#### 3.1.2 无监督式学习（UNsupervised Learning）

训练数据都是未经标记的。

**一些重要的无监督式学习算法：**
1. **Clustering**
  + K-Means
  + 分层聚类分析（Hierarchical Cluster Analysis, HCA）
  + 最大期望算法（Expectation Maximization）
2. **Visualization and dimensionality reduction**
  + PCA
  + Kernel PCA
  + 局部线性嵌入（Locally Linear Embedding, LLE）
  + t-distributed Stochastic Neighbor Embedding, t-SNE
3. **Association rule learning 关联规则学习**
  + Apriori
  + Eclat


*可视化算法*会尽可能地保留尽量多的结构。

*降维*的目的是在不丢失太多信息的前提下简化数据。方法之一是将多个相关特征合并为一个。

**通常比较好的做法是，先使用降维算法减少训练数据的维度，再将其提供给另一个ML算法。这样会运行得更快，数据占用的磁盘空间和内存都会更小，在某些情况下，执行算法也会更好。**

*异常检测*：系统用正常实例进行训练，然后当看到新的实例时，它就可以判断出这个新实例看上去是正常还是异常。

*关联规则学习*目的是挖掘大量数据，发现属性之间的有趣联系。

#### 3.1.3 半监督式学习（Semisupervised Learning）

有些算法可以处理部分标记的训练数据——通常是大量未标记数据和少量的已标记数据。

大多数半监督式学习算法是无监督式和监督式算法的结合。如*深度信念网络(Deep Belief Networkds, DBNs)*基于一种互相堆叠的无监督式组件，这个组件称为*受限玻尔兹曼机(Restricted Boltzmann Machines, RBMS)*。RBM以无监督的方式进行训练，然后使用监督式学习对整个系统进行微调。

#### 3.1.4 强化学习（Reinforcement Learning, RL） 

RL的学习系统（称为*智能agent*）能够观察环境，做出选择，执行操作，并获得回报reward，或者是以负面回报的方式获得惩罚。必须自己学习什么是好的策略（policy），从而随着时间推移获得最大的回报。策略代表agent在特定情况下应该选择的操作。

![RL](https://raw.githubusercontent.com/libingallin/hands-on-ml/master/cn/figures/ch1-figs/Reinforcement-learning.png)

### 3.2 批量学习和在线学习

看看系统是否可以从传入的数据流中进行增量学习。

#### 3.2.1 Batch Learning