#### 归一化 normalization

##### 归一化的目的

MSE损失函数是凸函数

<img src="./Img/10.png" width="40%" height="40%">   

如果样本的值X1 << X2，那么最终θ1 >> θ2

θ1和θ2数值在一开始初始化是差不多的，但是由于X1和X2的关系，我们会发现θ1从初始值到目标位置的距离要远大于θ2从初始值到目标位置，这也是第二幅图扁平的原因

每次调整θ1的幅度要远小于θ2的幅度

总结：归一化的目的是使得最终梯度下降的时候可以不同维度θ参数可以在接近的调整幅度上。

扩展：归一化可以提高精度，主要在距离计算上，样本之间的数量级不同会导致偏向性，所以归一化后就没这个问题了

##### 最大值最小值归一化

min max scaling，针对每一列，每一列取出最大最小值，然后对这一列中每个数值按公式操作

$ X_{\text{norm}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}} $

* $X$ 是原始数据点。
* $X_{min}$ 是数据集中的最小值。
* $X_{max}$ 是数据集中的最大值。
* $X_{norm}$ 是归一化后的数据点。


优点是一定可以把数值归一到0到1之间，缺点是如果有一个离群值，影响会比较大

##### 标准归一化

也是按照列来做的，求出每一列的均值和标准差

标准归一化包含了均值归一化和方差归一化，经过处理的函数符合标准正态分布，即均值为0，标准差为1，其转化函数为： 
$$
X_{\text{norm}} = \frac{X - \mu}{\sigma}
$$

方差归一化：标准差的计算会考虑到所有的样本数据，所以受到离群值的影响会小了一些。  
均值归一化：当我们梯度下降的时候，能够有更多的方向可以调整

数据不一定会缩放到0到1之间了

In [3]:
from sklearn.preprocessing import StandardScaler
import numpy as np

temp = np.array([1,2,3,5,5])
temp = temp.reshape(-1,1)
temp


array([[1],
       [2],
       [3],
       [5],
       [5]])

In [4]:
scaler = StandardScaler()
scaler.fit(temp) # fit 方法计算数据的均值和标准差

StandardScaler()

In [5]:
scaler.mean_

array([3.2])

In [6]:
scaler.var_

array([2.56])

In [7]:
scaler.transform(temp) # 对数据进行标准化

array([[-1.375],
       [-0.75 ],
       [-0.125],
       [ 1.125],
       [ 1.125]])

In [8]:
data = np.array([1,2,3,5,50001]).reshape(-1,1)

In [9]:
data

array([[    1],
       [    2],
       [    3],
       [    5],
       [50001]])

In [10]:
scaler.fit(data)

StandardScaler()

In [11]:
scaler.mean_

array([10002.4])

In [12]:
scaler.var_

array([3.99972002e+08])

In [13]:
scaler.transform(data)

array([[-0.5000875 ],
       [-0.5000375 ],
       [-0.4999875 ],
       [-0.49988749],
       [ 2.        ]])

##### 强调

在做特征工程的时候，对训练集做归一化后，测试集也同样需要做归一化，但是它的均值和方差要使用训练集的