### 特征归一化处理
#### 为什么要进行特征归一化处理
为了消除数据特征之间的量纲影响，使得不同指标之间具有可比性，需要进行特征归一化处理。

### 数值型特征
#### 数值型的特征如何做特征处理
1 线性函数归一化  
$$X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}$$
2 零均值归一化  
把原始数据映射到均值为0，标准差为1的分布上。假设原始特征的均值为$\mu $，标准差为$\sigma $，则归一化公式为$$z=\frac{x-\mu }{\sigma }$$
#### 数值型特征归一化对梯度下降优化算法的影响
归一化的数值型特征更新速度变得一直，更容易更快地找到最优解。  
#### 数值归一化适用范围
通常适用梯度下降法训练的模型都需要归一化处理，但对于不适用梯度下降法进行训练的算法可能不需要进行归一化。例如决策树中适用信息增益来生成决策树，显然信息增益比跟特征是否经过归一化是无关的。归一化并不会改变样本在特征x上的信息增益。

### 类别型特征
#### 为什么需要对类别型特征进行处理
类别型特征原始输入通常是字符串形式，除了决策树等少数算法可以直接处理字符串形式的输入外，**其他算法一般需要把类别型特征转换成数值型特征才能正常工作**。

#### 如何对类别型特征进行处理
1 **序号编码**  
通常用于处理类别间具有大小关系的数据。例如成绩有“高中低”之分，可对应序号编码为 3、2、1。  
2 **独热编码**  
通常用于处理类别间不具有大小之分的特征。例如血型有ABCD四种类型，对应的独热编码有：1000，0100，0010，0001。  
在独热编码下，只有一维数据是1，其余是0。因此可以利用向量的稀疏有效地节省空间。此外，独热编码容易带来**高维特征**问题：K近邻算法下，高维空间中两个点的距离难以有效地衡量。逻辑回归算法中，高维带来了更多的参数（每一维对应一个参数），容易引起过拟合问题。等等。  
**高维特征的解决方案**：配合特征选择来降低维度。等等。
3 **二进制编码**  
二进制编码主要分两步，先用序号编码给每个类别赋予一个类别ID，然后将类别ID对应的二进制编码作为结果。  

血型 |类别ID | 二进制编码 | 独热编码
 :---:| :---: | :--- | :---: 
A|1|0 0 1 | 1 0 0 0
B|2|0 1 0 | 0 1 0 0
C|3|0 1 1 | 0 0 1 1 
O|4|1 0 0 | 0 0 0 1

除上述两种编码方式外，还有Helmert Contrast,Sum Contrast等。