link: https://www.cnblogs.com/shine-lee/p/11779514.html
## 特征预处理
通过一些***转换函数***将特征数据转换成***更加适合算法模型***的特征数据的过程

### 数值类型的无量纲化
- 归一化
- 标准化

### 特征与处理 API
~~~python
sklearn.preprocessing
~~~

### 为什么要归一化/标准化？
特征的单位或大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容易影响目标结果，使得一些算法无法学习到其他特征。   
在进行距离有关的计算时，单位的不同会导致计算结果的不同，尺度大的特征会起决定性作用，而尺度小的特征其作用可能会被忽略，为了消除特征间单位和尺度差异的影响，以对每维特征同等看待，需要对特征进行归一化。

### 归一化
#### 定义
通过对原始数据进行变换把数据映射到(默认[0,1))某个范围之间  
X1 = x-min/max-min  
X2 = X1 * (mx-mi)+mi  
max是列的最大值，min是列的最小值  
mx,mi是区间的两端点的值


In [19]:
# 归一化
from sklearn.preprocessing import MinMaxScaler
import numpy as np
data = np.random.randint(0,100,(3,3))
print(f"data:\n{data}")
# feature_range 数据映射的范围
tf = MinMaxScaler(feature_range=[0,1]) 
data_new = tf.fit_transform(data)
data_new

data:
[[19 72  9]
 [47  9 45]
 [49 86 71]]


array([[0.        , 0.81818182, 0.        ],
       [0.93333333, 0.        , 0.58064516],
       [1.        , 1.        , 1.        ]])

#### 归一化有什么缺点？
如果最大值或最小值是异常值会导致归一化不准确，标准化可以避免这个问题。
### 标准化
通过对原始数据进行变换把数据变换到均值为0，标准差为1的范围内  
X1 = x-mean/σ  
作用于每一列，mean是平均值，σ是标准差  
标准差是衡量离散程度（集中程度）的值  
对于归一化来说：出现异常值，影响到最大/小值，那么结果会受到影响  
对于标准化来说：出现异常值，少量的异常值，对于平均值的影响不大，结果受影响的程度小。

In [18]:
from sklearn.preprocessing import StandardScaler
tf = StandardScaler()
data_new = tf.fit_transform(data)
data_new

array([[ 0.96761981,  1.00249915,  0.82323453],
       [-1.37699742,  0.36260608, -1.40746549],
       [ 0.40937761, -1.36510523,  0.58423096]])