# 机器学习主要分类

+ 监督学习
+ 无监督学习 （分类、关联规则、维度缩减），例如图片降噪
+ 半监督学习
+ 强化学习 强调如何基于环境而行动，以取得最大化的预期收益

# 统计学习

+ 监督学习的实现步骤:
 1. 得到一个有限的训练上数据集合
 2. 确定模型的假设空间,也就是所有的备选模型
 3. 确定模型的选择的准则,即学习的策略
 4. 实现求解的最优模型的算法
 5. 通过学习方法选择最优模型
 6. 利用学习的最优模型对新数据进行预测或分析
 ![](1_2.png)
 > 上图中应该为 $\arg \max _{y} P(y | x)$

# 统计学习三要素

## 模型(假设空间)
+ 决策函数
$$
F=\left\{f | Y=f_{\theta}(X), \theta \in R^{n}\right\}
$$
> 假设$Y = a_0 + a_1X$,  $\theta = (a_0, a_1)^T$
+ 条件概率分布
$$
F=\left\{P\left|P_{\theta}(Y | X), \theta \in R^{n}\right\}\right.
$$
> 假设$y \sim N\left(a_{0}+a_{1}X, \sigma^{2}\right)$,  $\theta = (a_0, a_1)^T$

## 策略
+ 损失函数  
$L(Y, f(X))=\left\{\begin{array}{l}{1, Y \neq f(X)} \\ {0, Y=f(X)}\end{array}\right.$   
$L(Y, f(X))=|Y-f(X)|$  
$L(Y, f(X))=|Y-f(X)|^{2}$  
$L(Y, P(Y | X))=-\log P(Y | X)$

## 准则
+ 经验风险最小化
$$
\min _{f \in F} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)
$$
+ 结构风险最小化
$$
\min _{f \in F} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)
$$

# 模型评估和模型选择

+ 训练误差
$$
\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, \widehat{f}\left(x_{i}\right)\right)
$$
+ 测试误差
$$
\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} L\left(y_{i}, \widehat{f}\left(x_{i}\right)\right)
$$

# 正则化与交叉验证

+ 最小化结构风险
$$
\min _{f \in F} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)
$$
+ 交叉验证


# 泛化能力

+ 泛化误差上界
>对于二分类问题,当假设空间是有限个函数的集合$F={f_{1}, f_{2}, \cdots, f_{d}}$时,对任意一个函数$f \in F$,至少以概率$1-\delta$,以下不等式成立:  
$$
R(f) \leq \widehat{R}(f)+\varepsilon(d, N, \delta)
$$
其中,
$$
\varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)}
$$
$$R(f)是期望风险，\widehat{R}(f)经验风险$$
$$
\hat{R}(f)=\frac{1}{N} \sum_{i=1}^n L\left(y_{i}, f\left(x_{i}\right)\right)
$$

+ 

# 生成模型与判别模型

+ 生成方法
$$
P(Y | X)=\frac{P(X, Y)}{P(X)}
$$
+ 判别方法
$$
f(X) 或 P(Y | X)
$$

# 分类数据

>TP 将正类预测为正类  
FN 将正类预测为负类  
TN 将负类预测为负类  
FN 将负类预测为正类  
  
+ 精确类
$$
P=\frac{T P}{T P+F P}
$$
+ 召回率
$$
R=\frac{T P}{T P+F N}
$$

# 标注问题
![](1_3.png)

# 回归问题

# 作业

+ 推导下述正态分布均值的极大似然估计和贝叶斯估计
+ 数据$x_1, ...,x_n$来自正态分布$\mathrm{N}\left(\mu, \sigma^{2}\right)$,其中$\sigma^2$已知。
    1. 根据样本$x_1, ...,x_n$写出$\mu$的极大似然估计
    2. 假设$\mu$的先验分布是正态分布$\mathrm{N}\left(0, \tau^{2}\right)$，根据样本$x_1, ...,x_n$写出$\mu$的贝叶斯估计。
![](./img/1_作业_1.png)
![](./img/1_作业_2.png)

1.  根据样本$x_1, ...,x_n$写出$\mu$的极大似然估计
    + 似然函数
    $$
    L\left(\mu, \sigma^{2}\right)=\prod_{i=1}^{N} \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}}=\left(2 \pi \sigma^{2}\right)^{-\frac{n}{2}} e^{-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}}
    $$
    + 求对数
    $$
    \ln L\left(\mu, \sigma^{2}\right)=-\frac{n}{2} \ln (2 \pi)-\frac{n}{2} \ln \left(\sigma^{2}\right)-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}
    $$
    + 求导，得方程组：
    $$
    \left\{\begin{array}{l}{\frac{\partial \ln L\left(\mu, \sigma^{2}\right)}{\partial \mu}=\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right) \quad=0} \\ {\frac{\partial \ln L\left(\mu, \sigma^{2}\right)}{\partial \sigma^{2}}=-\frac{n}{2 \sigma^{2}}+\frac{1}{2 \sigma^{4}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}=0}\end{array}\right.
    $$
    + 联合
    $$
    \left\{\begin{array}{l}{\mu^{*}=\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}} \\ {\sigma^{* 2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}\end{array}\right.
    $$

2. 假设$\mu$的先验分布是正态分布$\mathrm{N}\left(0, \tau^{2}\right)$，根据样本$x_1, ...,x_n$写出$\mu$的贝叶斯估计。
![](./img/1_作业_3.png)
![](./img/1_作业_4.png)
![](./img/1_作业_5.png)
![](./img/1_作业_6.png)