# 第四章：训练模型

前几章讨论的几个模型都不知道具体的实施细节。这一章，将从**线性回归模型**开始。

* 一：介绍两种非常不同的训练模型的方法。  
    * 1、通过“闭式”方程——直接计算出最适合训练集的模型参数（也就是使训练集上的成本函数最小化的模型参数）  
    * 2、使用迭代优化的方法，即梯度下降（`GD`），逐渐调整模型参数直至训练集上的成本函数调至最低，最终趋同于第一种方法计算出来的模型参数。也会研究几个梯度下降的变体，包括批量梯度下降、小批量梯度下降以及随机梯度下降。  

* 二：进行多项式回归的讨论，这是一个更为复杂的模型，更适合非线性数据集。由于该模型的参数比线性模型更多，因此更容易造成对训练数据过度拟合，我们将使用学习曲线来分辨这种情况是否发生，然后再介绍几种正则化方法，降低过度拟合训练数据的风险。

* 三：学习两种经常用于分类任务的模型：`Logistic`回归和`Softmax`回归。

了解这些系统如何工作非常有帮助。针对你的任务，它有助于快速定位到合适的模型，正确的训练算法，以及一套适当的超参数。不仅如此，后期还能更高效的执行错误调试和错误分析。

## 准备工作

In [None]:
# Python ≥3.5 is required
import sys
assert sys.version_info >= (3, 5)

# Scikit-Learn ≥0.20 is required
import sklearn
assert sklearn.__version__ >= "0.20"

# Common imports
import numpy as np
import os

# to make this notebook's output stable across runs
np.random.seed(42)

# To plot pretty figures
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

# Where to save the figures
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "classification"
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)
os.makedirs(IMAGES_PATH, exist_ok=True)

def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = os.path.join(IMAGES_PATH, fig_id + "." + fig_extension)
    print("Saving figure", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

## 线性回归

在第1章中，学过一个简单的生活满意度的回归模型：life_satisfaction=$\theta_{0}+\theta_{1} \times G D P_{-}$ per capita.

这个模型就是输入特征`GDP_per_capita`的线性函数，$\theta_{0}$和$\theta_{1}$是模型的参数。  
更为概括的说，线性模型就是对输入特征加权求和，再加上一个偏置项（也称为截距项）的常数。  
公式如下：  
<center>$\hat{y}=\theta_{0}+\theta_{1} x_{1}+\theta_{2} x_{2}+\cdots+\theta_{n} x_{n}$</center>

* $\hat{y}$是预测值  

* $n$是特征的数量  

* $x_{\mathrm{i}}$是第$i$个特征值

* $\theta_{j}$是第$j$个模型参数（包括偏执项$\theta_{0}$以及特征权重$\theta_{1}$,$\theta_{2}$,···,$\theta_{n}$）

这也可以用更为简单的向量化形式表达，公式如下：  
<center>$\hat{y}=h_{\theta}(\mathbf{x})=\theta^{T} \cdot \mathbf{x}$</center>

* $\theta$是模型的参数向量，包括偏置项$\theta_{0}$以及特征权重$\theta_{1}$到$\theta_{n}$

* $\theta^{T}$是$\theta$的转置向量

* $\mathbf{X}$是实例的特征向量，包括从$x_{0}$到$x_{n}$，$x_{0}$永远为1

* $\theta^{T} \cdot \mathbf{x}$是$\theta^{T}$和$\mathbf{X}$的点积

* $h_{\theta}$是使用模型参数$\theta$的假设函数

训练模型就是设置模型参数直到模型最适应训练集的过程。要达到这个目的，首先需要知道怎么衡量模型对训练数据的拟合程度是好还是差。在第2章中，我们了解到回归模型最常见的性能指标是均方根误差（`RMSE`）。因此，在训练线性回归模型时，需要找到最小化`RMSE`的$\theta$值，在实践中，将均方误差（`MSE`）最小化比最小化`RMSE`更为简单，二者效果相同（因为使函数最小化的值，同样也使其平方根最小。）<sup>注1</sup>

在训练集$\mathbf{X}$上，使用如下公式计算线性回归的`MSE`，$h_{\theta}$为假设函数  
<center>$\operatorname{MSE}\left(\mathbf{X}, h_{\theta}\right)=\frac{1}{m} \sum_{i=1}^{m}\left(\theta^{T} \cdot \mathbf{x}^{(i)}-y^{(i)}\right)^{2}$</center>

注1：通常情况下，学习算法优化的函数都与评估最终模型时使用的性能指标函数不同。这可能是1、前者更容易计算；2、前者具有某些后者缺乏的差异属性；3、想在训练期间约束模型。

## 标准方程