# 极客讲坛-传统机器学习

和树繁，19人工智能专业。

- QQ：953765148
- Phone: 15634329859

## 简介

### 什么是机器学习

学习：广义的学习是指人与动物在生活过程中凭借经验产生的行为或行为潜能的相对持久的变化。——摘自百度百科

那么机器学习可以理解为：机器在计算过程中提高性能的自我改进的过程。

- 关于“机器学习”这个词也有其他解释。

从功能方面来看，机器学习是指计算机自动从数据中发现“规律”（或者说是“知识”），并且将学习到的“规律”应用到新的问题的过程。

举例：垃圾邮件识别。给定之前收到过的一些邮件，第$i$个邮件记作$M_i$；由人工手动标记每个邮件是否为垃圾邮件，记第$i$个邮件的标记为$y_i$，垃圾邮件标记$y_i=1$，非垃圾邮件标记$y_i=0$。机器学习算法通过已知的$(M_i, y_i)$数据对，学习一个函数$F(M)->y$，作用为输入一个邮件$M$输出其标签$y$。然后将学习到的这个函数$F$应用到**新的邮件中**。

在上述例子中，数据即为已知的$(M_i, y_i)$数据对，“规律”为函数$F$，新的问题为“预测新的邮件是否为垃圾邮件”。

### 机器学习的发展阶段

1. 第一阶段在20世纪50年代中期到60年代中期，属于热烈时期。其主要研究方法为不断改进系统的控制参数，提升系统的执行能力。这里面不涉及到与具体任务有关的知识。
2. 第二阶段在20世纪60年代中期到70年代中期，被称为冷静时期。主要研究方法为模拟人类的概念学习阶段，采用逻辑结构或图结构作为机器内部描述。
3. 第三阶段在20世纪70年代中期到80年代中期，被称为复兴时期。主要研究方法从学习单个概念扩展到学习多个概念，探索不同学习策略和方法。
4. 第四阶段始于1986年。这一阶段机器学习称为新的学课，并且逐渐开始兴起各种学习方法（如后面的深度学习）。

我们把基于深度神经网络模型的方法叫做深度学习，其他学习方法称为传统机器学习。来区分本次的内容。

### 解决问题的框架

1. 基于规则的框架。人从问题中发现规律，然后写出可以形式化的规则，最后通过该规则处理每个数据。
2. 基于学习的框架。设计一个**学习算法**，通过训练数据运行学习算法得到一个模型。通过这个模型处理每个新的数据。

## 传统机器学习

### 机器学习的三要素

1. 模型。用来描述问题的规律。
2. 策略。如何评价模型的好坏。
3. 算法。如何调整模型的参数。

### 任务分类

按照其训练数据的不同类型可以分为：

1. 有监督学习。指每个数据有输入数据和标准输出结果。
2. 无监督学习。指每个数据只有输入数据，没有标准输出结果。
3. 其他。在深度学习快速发展的现在，有半监督学习、弱监督学习等等。

按照所处理的任务不同可以分为：

1. 分类模型。模型需要给出每个输入数据所属的类别。例如垃圾邮件分类，猫狗分类。
2. 聚类模型。模型需要给出每个输入所处的类，使得类内相似度高、类间相似度低。
3. 回归模型。模型需要给出每个输入对应的输出数字。例如股票价格预测（今年美赛）。
4. 其他模型。例如策略模型（对应强化学习），不在本次讲座范围内。

### 讲座内容

我的部分主要讲解几个传统的而且常用的算法。规则学习部分、深度学习涉及较少。讲解内容及其对应的功能分类如下：

1. **K近邻算法。分类模型，有监督学习。**
2. **线性回归。回归模型，有监督学习。**
3. **K-means算法。聚类模型，无监督学习。**
4. **决策树模型。分类模型，有监督学习。**
5. **贝叶斯算法。分类模型，有监督学习。**

上述算法可以是传统机器学习的入门级算法，**可以课上大家一起做一做**。

但机器学习远不止这些算法。大家如果感兴趣的话，可以去了解一下SVM、DBSCAN、模拟退火、遗传算法、PCA和LDA、AQ15等算法。由于时间原因此处就不讲了。

## K近邻算法

### 核心思想

该模型假设：同一个类别的不同样本在样本空间的分布临近。

- 样本空间：随机试验E的所有基本结果组成的集合为E的样本空间。样本空间的元素称为样本点或基本事件。此处的随机试验也就是不同采样。

由上述假设可以引申出：对于一个新的待分类样本，搜索其最近的K个已知样本点，按照样本点所属类别来确定该待分类样本所属的类别。

### 核心代码

In [3]:
class KNN:
    """
    KNN算法的核心代码。
    此处所有数据不采用numpy形式，采用数组的形式存储。
    """
    def __init__(self, train_data, train_labels, K=5):
        """
        train_data: shape [N, D]. type float.
        train_labels: shape [N]. type any.
        K: int.
        """
        self.train_data = train_data
        self.train_labels = train_labels
        self.K = K
        self.N = len(train_data)
    
    def calc_distance(self, x, y):
        """
        这里采用了平方差距离作为距离度量函数，与欧氏距离相比不开根号了，计算更快。
        distance of x (shape [D]) and y (shape [D]).
        return: float.
        """
        distance = sum((x[i] - y[i])**2 for i in range(len(x)))
        return distance
    
    def test(self, x):
        """
        x: shape [D]. type float.
        return: int.
        """
        distance_label_list = []
        # 计算不同样本点的距离
        for i in range(self.N):
            distance = self.calc_distance(self.train_data[i], x)
            distance_label_list.append((distance, self.train_labels[i]))
        # 排序求距离小的前K个
        distance_label_list.sort(key=lambda x: x[0])
        distance_label_list = distance_label_list[: self.K]
        # 统计不同类别出现的次数
        label_count_map = {}
        for x, y in distance_label_list:
            label_count_map[y] = label_count_map.get(y, 0) + 1
        # 输出类别
        label_count_list = list(label_count_map.items())
        label_count_list.sort(key=lambda x: x[1], reverse=True)
        return label_count_list[0][0]


train_data = [
    [0, 0], [0, 1], [1, 0],
    [0, 2], [0, 3], [1, 3],
    [2, 0], [3, 0], [3, 1],
    [3, 2], [3, 3], [2, 3],
]
train_labels = [
    0, 0, 0,
    1, 1, 1,
    2, 2, 2,
    3, 3, 3,
]
model = KNN(train_data, train_labels, 3)
test_data = [1, 1]
print(model.test(test_data))

0


### 优缺点与改进

**优点**：写起来非常简单，而且不需要进行额外的参数估计（只需要存储训练数据）

**缺点**：计算复杂度方面，训练数据多的时候，预测新类别计算量大；准确度层面，训练数据不均衡的时候，预测结果可能会有偏差；存储方面，需要存储全量的训练数据。

- 训练数据不均衡：这个词的意思时不同类别的训练样本数量差异大。

**一些改进方法**

1. 针对计算复杂度方面，可以将原始样本按照近邻关系分组，分成不同的区域。每次搜索的时候在对应的区域内进行近邻搜索。
2. 针对存储问题，尝试压缩训练数据集。具体的方法可以去查。
3. 其他优化，如建立K-D tree等。

## 线性回归

顾名思义，一个线性的回归方程。

$$
\hat y = \vec a * \vec x + b = \sum_{i=0}^{d-1}( a_i * x_i ) + b = a_0 * x_0 + a_1 * x_1 + ... + a_{d-1} * x_{d-1} +b
$$

### 适用条件

在$x$与$y$是具有相关关系的两个变量，且$n$个观测值的$n$个点大致分布在一条直线附近的条件下，我们可以使用线性回归求在整体上与这n个点最接近的一条直线。

**相关关系：**

可以采用相关系数衡量。其计算公式为：

$$
r = \frac{\sum_{i=1}^n(x_i - \bar x)(y_i - \bar y)}{\sqrt{\sum_{i=1}^n(x_i-\bar x)^2 \sum_{i=1}^n(y_i - \bar y)^2}}
$$

且$|r|$越接近1，相关程度越大；$|r|$越接近0，相关程度越小。

### 评价策略

如何衡量整体上最接近？常见的度量方法是平方误差。

$$
\sum_{i=1}^n (y_i - \hat y_i)^2
$$

当然，除此之外你也可以选择其他的度量函数，如$log$距离函数，绝对值度量函数等。

### 训练算法

以平方误差度量为例，求解最优条件下的参数$a_i, b$。其优化过程可以记作：

$$
\vec a, b = \textbf{argmin}_{\vec a, b} \sum_{i=1}^n(y_i - ( \vec a * \vec x_i + b))^2
$$

求解上述方程的最小值时参数的值，就得到了最优参数。

在$x$只有**一维的条件下**，采用最小二乘法可以求解出最优解如下：

$$
b = \frac{\sum_{i=1}^n (x_i-\bar x) (y_i - \bar y)}{\sum_{i=1}^n (x_i-\bar x)^2} \\
a = \bar y - b \bar x
$$

高维条件下，也可以进行估计。但其计算过程较为复杂。可以参考：[多元线性回归参数估计](https://zhuanlan.zhihu.com/p/91095053)

**有没有其他的更适用一些的训练方法？有！**

### 梯度下降方法训练线性回归

梯度下降是什么？ 它是以评价函数为基础，向评价函数值减小最快的方向调整参数。

**值减小最快的方向：梯度的反方向。**

以多元回归为例，优化下述的评价函数。

$$
\sum_{i=1}^n(y_i - ( \vec a * \vec x_i + b))^2
$$

对$\vec a, b$求偏导：

$$
\frac{\partial z}{\partial a_k} = \sum_{i=1}^n 2 * (y_i - (\vec a * \vec x_i + b)) * (- x_{ik}) \\
\frac{\partial z}{\partial b} = \sum_{i=1}^n 2 * (y_i - (\vec a * \vec x_i + b)) * (-1)
$$

可以等价写成：

$$
\frac{\partial z}{\partial a_k} = \sum_{i=1}^n 2 * x_{ik} * (\hat y_i - y_i) \\
\frac{\partial z}{\partial b} = \sum_{i=1}^n 2 * (\hat y_i - y_i)
$$

每次调整参数为$u*\partial()$，其中$u$是一个系数。


### 基于梯度下降的代码

In [1]:
class MLR:
    """
    Multiple Linear Regression，基于梯度下降和平方误差的实现。
    使用list作为计算基本单位。
    """
    def __init__(self, x_dim):
        """
        x_dim是输入维度
        """
        self.x_dim = x_dim
        self.a = [0] * x_dim
        self.b = 0
        
    def test(self, x):
        hat_y = self.b
        for i in range(self.x_dim):
            hat_y += self.a[i] * x[i]
        return hat_y
    
    def update(self, x, y, u=0.01):
        hat_y = self.test(x)
        self.b -= u * 2 * (hat_y - y)
        for k in range(self.x_dim):
            self.a[k] -= u * 2 * x[k] * (hat_y - y)
        return (hat_y - y) ** 2

train_x = []
train_y = []

for i in range(10):
    train_x.append((i, ))
    train_y.append(2 * i + 1)

model = MLR(1)
for i in range(0, 101):
    sum_loss = 0
    for j in range(10):
        sum_loss += model.update(train_x[j], train_y[j])
    if i % 10 == 0:
        print('round {}, loss {}'.format(i, sum_loss))

print(model.a, model.b)

round 0, loss 142.10421225427925
round 10, loss 0.17275615081780765
round 20, loss 0.05970301794423334
round 30, loss 0.020632841926471763
round 40, loss 0.00713053009079708
round 50, loss 0.0024642489656518966
round 60, loss 0.0008516229350960389
round 70, loss 0.0002943134535880668
round 80, loss 0.00010171216085574863
round 90, loss 3.515083506994019e-05
round 100, loss 1.2147821811273495e-05
[2.000212855167453] 0.9979852691016


### 扩展与改进

统计软件中有非常丰富的多元回归工具包，如SPSS等软件。大家可以直接将数据输入然后点击运行就可以得到对应的参数内容。

除经典的评价函数外，你也可以使用$sigmoid$函数的差作为评价函数，然后只需要改$update$即可。当然，你也可以转化评价函数为常规的平方和评价函数，然后继续套用上面的最小二乘估计。

除一次多元回归之外，针对$y=a*x^2$的情况，可以引入一个新的辅助变量叫做$x^2$，继续进行线性回归。其他情况也可以通过引入辅助自变量的形式来满足线性回归的条件。**不过多元线性回归中不能出现多个变量线性相关的情况。**

线性回归使用前需要先进行**相关性检验**，对于不满足线性相关的数据，你用了线性回归也没有意义。

## K-means聚类算法

### 什么是聚类任务

聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起，不同数据尽量分离。

简单地说，**聚类就是把相似的东西分到一组**。

### K-means的优化目标

假设我们提取到原始数据的集合为$D(x_1, x_2, …, x_n)$，并且每个$x_i$为$d$维的向量。

K-means聚类的目的就是，在给定分类组数$k(k \leq n)$值的条件下，将原始数据分成$k$类，$S={S_1, S_2, …, S_k}$。

在数值模型上，即对以下表达式求最小值：

$$
\textbf{argmin}_{S}\sum_{i=1}^k \sum_{x_j\in S_i} ||x_j - \mu_i||^2
$$

其中$\mu_i$为分组$S_i$的平均值。

### K-means的优化过程

1. 从D中随机取k个元素，作为k个簇的各自的中心。
2. 分别计算剩下的元素到k个簇中心的相异度，将这些元素分别划归到相异度最低的簇。
3. 根据聚类结果，重新计算k个簇各自的中心，计算方法是取簇中所有元素各自维度的算术平均数。
4. 将D中全部元素按照新的中心重新聚类。
5. 重复第3-4步，直到聚类结果不再变化。
6. 将结果输出。

注：K-means聚类算法是EM算法的一个特例，有兴趣的同学可以去了解一下适用性很强的EM算法。

### K-means核心代码

In [10]:
class Kmeans:
    """
    Kmeans基础代码，所有计算基于list
    """
    def __init__(self, x_dim, K):
        """
        初始化聚类中心的存储。
        """
        self.K = K
        self.x_dim = x_dim
        self.center = [[0 for i in range(x_dim)] for j in range(K)]
    
    def calc_distance(self, x, y):
        distance = sum((x[i]-y[i])**2 for i in range(len(x)))
        return distance
    
    def train(self, train_data):
        """
        训练聚类中心
        """
        N = len(train_data)
        assert N >= self.K
        label = [-1] * N
        
        # 随机寻找K个中心点
        for i in range(self.K):
            self.center[i] = train_data[i]
        have_change = True
        
        # 重复Kmeans过程直到收敛
        while have_change:
            have_change = False
            
            # 计算所属分类
            for i in range(N):
                min_distance = self.calc_distance(train_data[i], self.center[0])
                min_label = 0
                for j in range(1, self.K):
                    distance = self.calc_distance(train_data[i], self.center[j])
                    if distance < min_distance:
                        min_distance = distance
                        min_label = j
                if min_label != label[i]:
                    label[i] = min_label
                    have_change = True
            
            # 计算类别中心
            label_count = [0] * self.K
            self.center = [[0 for i in range(self.x_dim)] for j in range(self.K)]
            for i in range(N):
                label_count[label[i]] += 1
                self.center[label[i]] = list(self.center[label[i]][j] + train_data[i][j] for j in range(self.x_dim))
            for i in range(self.K):
                self.center[i] = list(self.center[i][j] / label_count[i] for j in range(self.x_dim))
        
    def test(self, x):
        """
        测试聚类结果
        """
        min_distance = self.calc_distance(x, self.center[0])
        min_label = 0
        for j in range(1, self.K):
            distance = self.calc_distance(x, self.center[j])
            if distance < min_distance:
                min_distance = distance
                min_label = j
        return min_label

train_data = [
    [0, 1], [0, -1], [1, 0], [-1, 0],
    [5, 6], [5, 4], [6, 5], [4, 5],
]
model = Kmeans(2, 2)
model.train(train_data)
for x in train_data:
    print('Data {}, label {}'.format(x, model.test(x)))

Data [0, 1], label 1
Data [0, -1], label 1
Data [1, 0], label 1
Data [-1, 0], label 1
Data [5, 6], label 0
Data [5, 4], label 0
Data [6, 5], label 0
Data [4, 5], label 0


### 扩展与改进

Kmeans算法计算简单，逻辑清晰。但聚类的个数$K$需要提前人工给定。因此$K$的选择是一个比较大的问题。

不过，Kmeans算法是聚类算法的一种。除此之外还有层次聚类、密度聚类的算法可以选择。

## 决策树算法

### 从一个例子看起

以下图所示的数据为例：

![决策树数据示例](https://pic3.zhimg.com/v2-ed38beb4538a90f2b961233b18acc1ca_r.jpg)

如果我们学习如何要区分“好学生”和“非好学生”，那么我们可以通过建立这样的一棵树形结构来判定：

![树形结构1](https://pic1.zhimg.com/80/v2-ff4fe0d16ec17c5520837b3aad52ed54_720w.jpg)

当然你也可以构造这样一个树：

![树形结构2](https://pic3.zhimg.com/80/v2-8f6407e5ab5a58b2913aef6a332090f6_720w.jpg)

**之后每来一个新的学生样本，你都可以在树上进行分类，最终判断该样本是否属于好学生样本。**

随之而来的就有这么几个问题：

1. 如何选择每个节点所使用的分类属性？
2. 如何让构造的树规模尽量小？（泛化性更强）

### ID3决策树

ID3决策树学习算法采用**信息熵**来选择分类的属性。

1. 啥是信息熵？

信息熵是信息论中的概念。其计算公式为：

$$
- \sum_{i} p_i * \log(p_i)
$$

其中$i$表示数据中的不同类别。这里需要知道的是，熵越小说明分类结果越好。如果数据中仅含有一种类别，则其信息熵计算如下：

$$
- (1.0 * \log(1.0)) = 0
$$

如果含有两类，且分别占50%，总体信息熵计算如下：

$$
- (0.5 * \log(0.5) + 0.5 * \log(0.5)) = - \log(0.5) > 0
$$

2. 如何利用信息熵来选择属性？

思想：尝试不同的分类属性，计算选择该属性后带来的信息增益，选择信息增益最大的属性作为分类属性。

假设当前节点所含数据为$S_0$，选择属性$F$后分成了不同的子数据集合$S_1, S_2, ..., S_k$，其中每个集合的信息熵计算为：

$$
I(S) = - \sum_{i\in 所有类别}(p_i * \log(p_i))
$$

则分类后的信息增益计算公式为：

$$
gain(F) = (\sum_{i=1}^{k} I(S_i) )- I(S_0)
$$

最终选择$gain(F)$最大的$F$作为当前的分类属性。

### ID3决策树代码

[代码有点长，这是我自己的博客上的内容](https://sofanhe.blog.csdn.net/article/details/117480978)

### 扩展

ID3决策树对噪声数据的容忍度很低，归纳能力不够强，速度也相对较慢。

后续出现了很多算法，例如**C5.0决策树算法**，引入了一些剪枝、合并操作，提高了归纳能力、加快了推理速度。

## 朴素贝叶斯算法

贝叶斯算法是基于条件概率的分类方法，其包含朴素贝叶斯、贝叶斯信念网络等方法。这里讲的是朴素贝叶斯方法。

### 朴素贝叶斯的思想

对于数据$X$和$k$个不同的类别$y_1, y_2, ..., y_k$，分类任务等价于寻找下式：

$$
ans = \textbf{argmax}_{i} P(y_i | X)
$$

朴素贝叶斯中假设$X=\{a_1, a_2, ..., a_n\}$为待分类项，$a_i$为$X$的一个属性，不同属性之间相互独立。
由全概率公式可以得出：

$$
P(y_i | X) = \frac{P(X, y_i)}{P(X)} = \frac{P(X | y_i) * P(y_i)}{P(X)}
$$

由$X$不同属性相互独立可以得出：

$$
P(X|y_i) = \prod_{j=1}^{n} P(a_j | y_i)
$$

而不同的$P(a_j | y_i)$我们可以通过训练数据统计得来。然后我们就可以计算出分子中的$P(X| y_i)$。
进而，原始分类任务可以转化为：

$$
ans = \textbf{argmax}_{i} \frac{P(y_i) * \prod_{j=1}^n P(a_j | y_i)}{P(X)}
$$

由于分母$P(X)$与不同$i$取值无关，可以忽略，故简化为：

$$
ans = \textbf{argmax}_{i}( P(y_i) * \prod_{j=1}^n P(a_j | y_i))
$$

### 核心代码

In [12]:
class NBC:
    """
    Naive Bayesian Classifier核心代码实现
    注，这里做了部分偷懒。对于原始的a_j我们统一进行特征编号，这样对于某个y_i就可以采用一维数组存储P(a_j|y_i)
    但这会导致P(a_j | y_i)的计算 self.P[y_i][a_j]/sum(self.P[y_i]) 与实际不符，应该采用 self.P[y_i][a_j]/self.classes_count[y_i]
    """
    def __init__(self, max_values, classes):
        """
        max_value_in_dims: 每个维度最大的可能取值范围，建立对应的数组。
        classes：类别个数。
        """
        self.max_values = max_values
        self.classes = classes
        self.P = [[0 for j in range(max_values)] for i in range(classes)]
        self.classes_count = [0 for i in range(classes)]
        self.total_samples = 0
    
    def update(self, train_data, train_label):
        """
        train_data: list(list(数据中所含的特征))
        train_label: list()
        """
        N = len(train_label)
        total_samples += N
        for i in range(N):
            for x in train_data[i]:
                self.P[train_label[i]][x] += 1
            self.classes_count[train_label[i]] += 1
    
    def test(self, test_data):
        """test_data: list()"""
        max_label = -1
        max_p = 0.0
        for i in range(self.classes):
            Pyi = self.classes_count[i]/total_samples
            Ptot = Pyi
            for x in test_data:
                Pajyi = self.P[i][x]/self.classes_count[i]
                Ptot *= Pajyi
            
            if max_label == -1 or Ptot > max_p:
                max_p = Ptot
                max_label = i
        return i, max_p
"""
注，写的比较仓促
"""

### 扩展

对于那些特征之间存在相关关系的属性集合，可以构建贝叶斯信念网络来计算。

此外，由于数据中并不能包含所有情况，因此对于一个其他特征都符合属性$y_i$，但某个特征取值$a_k$恰好没有出现在训练集中的情况，采用上述计算方法会导致概率乘$P(a_k | y_i) = 0$。这显然不符合常理。可以引入**平滑方法**来解决上述问题。

## 后记

谢谢大家！