## 数据挖掘的五大流程  


1. 获取数据
2. **数据预处理**
数据预处理是从数据中检测，纠正或删除损坏，不准确或不适用于模型的记录的过程
可能面对的问题有：数据类型不同，比如有的是文字，有的是数字，有的含时间序列，有的连续，有的间断。
也可能，数据的质量不行，有噪声，有异常，有缺失，数据出错，量纲不一，有重复，数据是偏态，数据量太
大或太小
数据预处理的目的：让数据适应模型，匹配模型的需求
3. **特征工程**：
特征工程是将原始数据转换为更能代表预测模型的潜在问题的特征的过程，可以通过挑选最相关的特征，提取
特征以及创造特征来实现。其中创造特征又经常以降维算法的方式实现。
可能面对的问题有：特征之间有相关性，特征和标签无关，特征太多或太小，或者干脆就无法表现出应有的数
据现象或无法展示数据的真实面貌
特征工程的目的：1) 降低计算成本，2) 提升模型上限
4. 建模，测试模型并预测出结果
5. 上线，验证模型效果

## sklearn中的数据预处理与特征工程模块

+ 模块preprocessing：几乎包含数据预处理的所有内容
+ 模块Impute：填补缺失值专用
+ 模块feature_selection：包含特征选择的各种方法的实践
+ 模块decomposition：包含降维算法

## 数据预处理 Precessing &Impute

### 数据无量纲化(去单位化)

在机器学习算法实践中，我们往往有着将不同规格的数据转换到同一规格，或不同分布的数据转换到某个特定分布
的需求，这种需求统称为将数据“无量纲化”。

譬如梯度和矩阵为核心的算法中，譬如逻辑回归，支持向量机，神经
网络，无量纲化可以加快求解速度；而在距离类模型，譬如K近邻，K-Means聚类中，无量纲化可以帮我们提升模
型精度，避免某一个取值范围特别大的特征对距离计算造成影响。（一个特例是决策树和树的集成算法们，对决策
树我们不需要无量纲化，决策树可以把任意数据都处理得很好。）

数据的无量纲化可以是线性的，也可以是非线性的。线性的无量纲化包括**中心化**（Zero-centered或者Mean-subtraction）处理和**缩放处理**（Scale）。**中心化的本质是让所有记录减去一个固定值，即让数据样本数据平移到
某个位置**。**缩放的本质是通过除以一个固定值，将数据固定在某个范围之中**，取对数也算是一种缩放处理。

#### preprocessing.MinMaxScaler

当数据(x)按照**最小值**中心化后，再按**极差（最大值 - 最小值）缩放**，数据移动了最小值个单位，并且会被收敛到
[0,1]之间，而这个过程，就叫做数据**归一化**(Normalization，又称Min-Max Scaling)。注意，Normalization是归
一化，不是正则化，真正的正则化是regularization，不是数据预处理的一种手段。归一化之后的数据服从正态分
布，公式如下:

##### 归一化

>归一化：１）把数据变成(０，１)之间的小数。主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速。２）把有量纲表达式变成无量纲表达式，便于不同单位或量级的指标能够进行比较和加权。归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为纯量。

归一化:  
+ Max-min-normalization  
$$\dfrac{x - x_{min}}{x_{max} - x_{min}}$$  
+ 均值归一化  
$$\dfrac{x - \mu}{x_{max} - x_{min}}$$  


缺点：当有新数据加入时，可能导致max和min的变化，需要重新定义。

+ 非线性归一化
    + 对数函数转换：y = log10(x)
    + 反余切函数转换：y = atan(x) * 2 / π

经常用在数据分化比较大的场景，有些数值很大，有些很小。通过一些数学函数，将原始值进行映射。该方法包括 log、指数，正切等。需要根据数据分布的情况，决定非线性函数的曲线，比如log(V, 2)还是log(V, 10)等。


##### 标准化

>标准化：在机器学习中，我们可能要处理不同种类的资料，例如，音讯和图片上的像素值，这些资料可能是高维度的，资料标准化后会使每个特征中的数值平均变为0(将每个特征的值都减掉原始资料中该特征的平均)、标准差变为1，这个方法被广泛的使用在许多机器学习算法中(例如：支持向量机、逻辑回归和类神经网络)。

标准化：  
$$\dfrac{x - \mu}{\sigma} \;\;\;(其中，\mu为x的平均值,\sigma为x的标准差)$$

>中心化：平均值为0，对标准差无要求

##### 中心化
中心化：  
$$x - \mu$$

#### 为什么要归一化/标准化？

归一化/标准化实质是一种线性变换，线性变换有很多良好的性质，这些性质决定了对数据改变后不会造成“失效”，反而能提高数据的表现，这些性质是归一化/标准化的前提。比如有一个很重要的性质：线性变换不会改变原始数据的数值排序。  
1. 某些模型求解需要  

    + 在使用梯度下降的方法求解最优化问题时， 归一化/标准化后可以加快梯度下降的求解速度，即提升模型的收敛速度。如左图所示，未归一化/标准化时形成的等高线偏椭圆，迭代时很有可能走“之”字型路线（垂直长轴），从而导致迭代。  很多次才能收敛。而如右图对两个特征进行了归一化，对应的等高线就会变圆，在梯度下降进行求解时能较快的收敛。

![](images/3_1.png)  

+ 一些分类器需要计算样本之间的距离(如欧氏距离)，例如KNN。如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。

## 归一化sklearn实现

In [31]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np 
import pandas as pd

In [32]:
data = np.array([[-1, 2], [-0.5, 6], [0, 10], [1, 18]])

In [33]:
pd.DataFrame(data)

Unnamed: 0,0,1
0,-1.0,2.0
1,-0.5,6.0
2,0.0,10.0
3,1.0,18.0


### 在归一化到0-1范围

In [34]:
# 实现归一化
scaler = MinMaxScaler()
scaler = scaler.fit(data)

In [36]:
scaler.transform(data)

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [1.  , 1.  ]])

In [38]:
# 一步到位
result = MinMaxScaler().fit_transform(data)
result

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [1.  , 1.  ]])

In [40]:
# 实现复原效果
scaler = MinMaxScaler().fit(data)
result = scaler.transform(data)
result

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [1.  , 1.  ]])

In [42]:
scaler.inverse_transform(result)

array([[-1. ,  2. ],
       [-0.5,  6. ],
       [ 0. , 10. ],
       [ 1. , 18. ]])

### 归一化到指定范围


In [46]:
scaler = MinMaxScaler(feature_range=(5, 10)).fit(data)

In [51]:
scaler.transform(data)

array([[ 5.  ,  5.  ],
       [ 6.25,  6.25],
       [ 7.5 ,  7.5 ],
       [10.  , 10.  ]])

### 使用numpy实现归一化  


In [54]:
data_norm = (data - data.min(axis=0))  / (data.max(axis=0) - data.min(axis=0))

In [56]:
data_norm

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [1.  , 1.  ]])

In [61]:
# 反归一化
data_norm * (data.max(axis=0) - data.min(axis=0)) + data.min(axis=0)

array([[-1. ,  2. ],
       [-0.5,  6. ],
       [ 0. , 10. ],
       [ 1. , 18. ]])

## 标准化sklearn实现

当数据(x)按均值(μ)中心化后，再按标准差(σ)缩放，数据就会服从为均值为0，方差为1的正态分布（即标准正态分
布），而这个过程，就叫做数据标准化(Standardization，又称Z-score normalization)，公式如下：

$$x^{*} = \dfrac{x- \mu}{\sigma}$$

In [62]:
from sklearn.preprocessing import StandardScaler

In [63]:
data = np.array([[-1, 2], [-0.5, 6], [0, 10], [1, 18]])

In [64]:
scaler = StandardScaler().fit(data)

In [67]:
scaler.mean_

array([-0.125,  9.   ])

In [69]:
scaler.var_

array([ 0.546875, 35.      ])

In [70]:
scaler.fit_transform(data)

array([[-1.18321596, -1.18321596],
       [-0.50709255, -0.50709255],
       [ 0.16903085,  0.16903085],
       [ 1.52127766,  1.52127766]])

In [73]:
# 一步到位
StandardScaler().fit_transform(data)

array([[-1.18321596, -1.18321596],
       [-0.50709255, -0.50709255],
       [ 0.16903085,  0.16903085],
       [ 1.52127766,  1.52127766]])

对于StandardScaler和MinMaxScaler来说，空值NaN会被当做是缺失值，在fit的时候忽略，在transform的时候
保持缺失NaN的状态显示。并且，尽管去量纲化过程不是具体的算法，但在fit接口中，依然只允许导入至少二维数
组，一维数组导入会报错。通常来说，我们输入的X会是我们的特征矩阵，现实案例中特征矩阵不太可能是一维所
以不会存在这个问题。

## StandardScaler与MinMaxScaler如何选择？

看情况。大多数机器学习算法中，会选择StandardScaler来进行特征缩放，因为MinMaxScaler对异常值非常敏
感。在PCA，聚类，逻辑回归，支持向量机，神经网络这些算法中，StandardScaler往往是最好的选择。  

MinMaxScaler在不涉及距离度量、梯度、协方差计算以及数据需要被压缩到特定区间时使用广泛，比如数字图像
处理中量化像素强度时，都会使用MinMaxScaler将数据压缩于[0,1]区间之中。  

建议先试试看StandardScaler，效果不好换MinMaxScaler。  

除了StandardScaler和MinMaxScaler之外，sklearn中也提供了各种其他缩放处理（中心化只需要一个pandas广
播一下减去某个数就好了，因此sklearn不提供任何中心化功能）。比如，在希望压缩数据，却不影响数据的稀疏
性时（不影响矩阵中取值为0的个数时），我们会使用MaxAbsScaler；在异常值多，噪声非常大时，我们可能会选
用分位数来无量纲化，此时使用RobustScaler。更多详情请参考以下列表：

![](images/3_2.png)

## 处理缺失值