## sklearn中的数据预处理和特征工程
> sklearn的六大板块有两块是关于数据预处理和特征工程的
- Classification 
- Regression
- Clustering
- Dimensionality reduction
- Model selection
- Preprocessing (几乎包含数据预处理的多有内容)

#### 数据的无量纲化
> 数据的无量纲化可以是线性的，也可以是非线性的。线性的无量纲化包括中心化处理和缩放处理。中心话的本质是让所有记录减去一个固定值，即让数据样本能够平移到某个位置。缩放的本质是通过除以一个固定值，将数据固定到摸个范围内，取对数也算是一种缩放处理

In [4]:
# preprocessing.MinMaxScaler 数据的归一化
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
pd.DataFrame(data)

Unnamed: 0,0,1
0,-1.0,2
1,-0.5,6
2,0.0,10
3,1.0,18


In [5]:
# 实现归一化
scaler = MinMaxScaler() # 实例化
scaler = scaler.fit(data) # 实际是生成min（）和max（）的故从横
result  = scaler.transform(data)
result

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [1.  , 1.  ]])

In [6]:
result_ =scaler.fit_transform(data)
result_

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [1.  , 1.  ]])

In [7]:
# 将归一化的结果逆转
scaler.inverse_transform(result)

array([[-1. ,  2. ],
       [-0.5,  6. ],
       [ 0. , 10. ],
       [ 1. , 18. ]])

In [8]:
# 当x中的特征数量非常多的时候，fit会报错并表示，数据量太大无法计算
# 此时使用partial_fit作为训练接口
# scaler = scaler.partial_fit(data)

#### 数据标准化

In [11]:
# processing.StandardScaler
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(data)  # 本质是生成均值和方差
scaler.var_

array([ 0.546875, 35.      ])

In [12]:
x_std = scaler.transform(data)
x_std

array([[-1.18321596, -1.18321596],
       [-0.50709255, -0.50709255],
       [ 0.16903085,  0.16903085],
       [ 1.52127766,  1.52127766]])

In [13]:
x_std.mean()

0.0

In [14]:
scaler.fit_transform(data)

array([[-1.18321596, -1.18321596],
       [-0.50709255, -0.50709255],
       [ 0.16903085,  0.16903085],
       [ 1.52127766,  1.52127766]])

### StandardScaler 和MinMaxScaler选择哪一个?
> 大多数的情况下会选择StandardScaler来进行特征缩放，因为MinMaxScaler对异常值非常敏感，在PCA，聚类，逻辑回归，支持向量机，神经网络这些算法中，StandardScaler往往是较好的选择

> MinMaxScaler在不涉及距离度量。梯度，协方差计算以及数据需要被亚索到特定区间时使用广泛，比如数字图像处理量化想读强度是，都会使用MinMaxScaler将数据压缩到[0,1] 之间