## 引子

机器学习，也被称为统计机器学习，其基本思想是基于数据构建统计模型，并利用模型对数据进行分析和预测的一门学科。

机器学习最基本的做法是使用算法来解析数据，从数据中学习到规律，然后对真实世界中的事件做出决策或预测。

机器学习按其实现的目标可划分为：监督学习、无监督学习和强化学习。

- **监督学习**（Supervised Learning）：使用带有标签的训练数据集进行训练。目标是可以对新数据进行预测。
- **无监督学习**（Unsupervised Learning）：使用无标签的训练数据集进行训练。目标是对原始数据结构进行深入的分析，找出数据间的规律和关系。
- **强化学习**（reinforcement Learning）：也叫增强学习，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大化利益的习惯性行为。

强化学习更加专注于在线规划，需要在探索未知的领域和遵从现有知识之间找到平衡，它的学习过程是一个从实际环境中不断学习积累，不断进化的过程。因此，强化学习更接近生物学习的本质。

# 关于机器学习[^1]
给定任意集合 $\cal{H}$（相当于假设类或模型）和定义域 $\mit{Z}$，令 $\scr{l}$ 为 $\cal{H} \times \mit{Z}$ 到非负实数的一个映射函数，$\color {#a1f} {\scr{l}:\cal{H} \times \mit{Z} \to \Bbb{R_+}}$。我们称其为**广义损失函数**。这里我们允许 $\mit{Z}$ 可以是任意形式的定义域。



我们可以定义损失函数为其期望损失，$\mit{h} \in \cal{H}$，$\mit{Z}$ 上的概率分布为 $\cal{D}$：
\begin{align}
\mit{L}_{\cal{D}} (\mit{h}) \stackrel{def}{=} \Bbb{E}_{\mit{z} \sim \cal{D}} \sf[ \scr{l}\mit{(h,z)} \sf]
\end{align}

对于给定数据集 $\mit{S=(z_1, \cdots, z_m) \in Z^m}$ （$\mit{S}$ 是按独立同分布 $\cal{D}$ 采样得到的，即 $\mit{z}$ 是从分布 $\cal{D}$ 上随机采集到的）可以定义其经验风险为：
\begin{align}
	L_{S} (h) \stackrel{def}{=} \frac{1}{m} \sum_{i=1}^{m} \scr{l}\mit(h,z_i)
\end{align}

[^1]: https://item.jd.com/11992568.html

我们的目标是找到使得 $\mit{L}_{\cal{D}}(h)$ 最小的 $\mit {h}$，即：
\begin{align}
h^{*} = argmin_{\mit{z} \sim \cal{D}} \mit{L}_{\cal{D}}(h)
\end{align}

由于学习器并不知道数据生成分布 $\cal{D}$，只晓得训练数据 ${\mit S}$，因而，对于任意的函数 $\mit h \in \cal{H}$，学习器都可以计算：
$${\mit L_{S}(h) = L_{\cal D{(\text{在 $\mit{S}$ 上均匀分布})}} { \;\;\;\;\;  (h) }}$$

比如，对于预测问题，我们可以令 $\mit{Z}=\cal{X \times Y}$，此时有

\begin{aligned}
\begin{cases}
	{\mit L_{\cal D}(h) \stackrel{def}{ = } {\Bbb P_{(x,y) \sim \cal{D}}} \rm[h(x)\neq y\rm] \stackrel{def}{ = } \cal{D}\rm(\{(x,y):h(x)\neq y\}\rm)}&\\
	{\mit L_{S}(h) \stackrel{def}{ = } \frac{|\{i \in \rm[m\rm]:\mit h(x_i)\neq y_i\}|}{m}}  &{\mit \rm[m\rm]=\{1, \cdots, m\}}
\end{cases}
\end{aligned}

## 线性预测
我们定义**仿射函数类**：

\begin{align}
\mit L_d = \{h_{{\mit \bf w}, b} \rm: {\mit \bf w} \in \Bbb{R}^d, b \in \Bbb{R}\}
\end{align}

其中，$\mit h_{{\mit \bf w}, b} ({\mit \bf x}) = \; <{\mit \bf w, x}> + b$

In [2]:
from sklearn.cluster import KMeans

In [3]:
from sklearn import metrics
from sklearn.metrics import pairwise_distances

In [4]:
import keras 

  from ._conv import register_converters as _register_converters
Using CNTK backend


In [5]:
from keras import Model

In [9]:
Model.

<module 'keras.metrics' from 'C:\\Anaconda3\\lib\\site-packages\\keras\\metrics.py'>