## 数据中心化和标准化
### 1. 为什么要对数据进行中心化或者标准化处理？
数据处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。  
  
在实际问题中，我们得到的样本数据都是多个维度的，即一个样本是用多个特征来表征的。比如房价预测问题中，影响房价的因素有房子面积，卧室数量等，我们得到这样一些样本点，很显然，这些特征点量纲和数值的量级都是不一样的，在预测房价时，如果直接使用原始的数据值，那么它们对房价的影响程度将是不一样的，而通过标准化处理，可以使得不同的特征具有相同的尺度。  

- 意义： 数据中心化和标准化在回归分析中是取消由于量纲不同、资深变异或者数值相差较大所引起的误差。  
- 原理： 数据标准化：是指变量减去均值，再除以标准差。  
> 数据中心化：是指变量减去其均值。  

### 2.中心化(又叫零均值化)
中心化就是原始数据减去平均值。中心化后的数据均值为0。

### 3.标准化(又叫归一化)
#### 3.1 Z-score标准化方法
也叫0均值归一化方法，将原始数据集归一化为均值为0，方差为1的数据集，归一化公式如下：    

$$z=\dfrac{x-\mu}{\sigma}$$  
其中，$\mu,\sigma$分别为原始数据集的均值和标准差，也可以用样本标准差替代总体标准差。这种归一化方式要求原始数据的分布近似为高斯分布，否则结果会很糟糕。
#### 3.2 Normalization(正则化):
正则化的过程是将每个样本缩放到单位范数(每个样本的范数为1)。如果后面要用到如二次型(点积)或者其他核方法计算两个样本之间的相似性，这个方法很有用。  
主要思想：对每个样本计算P-范数，然后对该样本中每个元素除以该P范数，这样处理的结果是使得每个处理后的样本的P-范数都等于1.  
$${\lVert x\rVert}_p=({\lvert x_1\rvert}^p+\cdots+{\lvert x_n\rvert}^p)^\frac{1}{p}$$

#### 3.3 min-max标准化 
也称为离差标准化，是对原始数据的线性变换，使结果值映射到[0,1]之间。转换函数如下：  
其中max为样本数据的最大值，min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。  
$$newX=\dfrac{X-Xmin}{Xmax-Xmin}$$

### 4.应用场景
#### 4.1 中心化
##### 线性回归消除截距项的影响时，可以使用中心化方法。

- 解释：一元线性回归模型中 $$f(x_i)=a+bx_i$$  
损失函数为$$Q=\sum\limits_i(y_i-a-bx_i)^2$$
利用最小二乘求得参数的估计值为：  
$$\hat{a}=\bar{y}-\hat{b}\bar{x}$$
由此对输入空间和输出空间进行中心化处理，可以消除截距项。推广到多元回归模型也是如此。      

#### 4.2 标准化
在岭回归中，对数据进行标准化，保证参数求解的有效性。