# 数据预处理
数据预处理包括：特征的标准化、数据的正则化、缺失值处理、数据特征编码、生成多项式特征、非线性变换等<br>
数据处理的api有两种接口，一种是类接口，需要先fit再transform，或者使用fit_transform。如：sklearn.preprocessing.StandardScaler.fit_transform(data)<br>
第二种是函数接口，可以直接转换。如sklearn.preprocessing.scale(data)<br>
推荐使用类接口<br>

# 一、特征的标准化
特征的标准化指的是将数据集的特征进行某种线性缩放或偏移。在许多情况下，特征的标准化可以改善机器学习算法的性能和效率。<br>
常见的标准化方式：<br>
StandardScaler:缩放至0均值，1标准差；即标准正态分布。有偏移!,with_mean=False变为无偏移！<br>
MinMaxScaler:缩放至[0,1]之间，也可以指定范围feature_range。有偏移！<br>
MaxAbsScaler:缩放至[-1,1]之间，无偏移!<br>
RobustScaler:缩放有异常值的特征<br>



注意！！！所有缩放器的输入必须为一列！！！

In [103]:
import numpy as np
import pandas as pd
from sklearn import datasets
from sklearn import preprocessing
boston=datasets.load_boston()

In [104]:
df=pd.DataFrame(data=boston.data,columns=list(boston.feature_names))#将数据转化为DataFrame格式
minmaxscaler=preprocessing.MinMaxScaler(feature_range=(0,1))#定义缩放函数
minmaxscaler.fit(df.values)   #先fit
minmaxscaler.transform(df.values)#再transform

array([[0.00000000e+00, 1.80000000e-01, 6.78152493e-02, ...,
        2.87234043e-01, 1.00000000e+00, 8.96799117e-02],
       [2.35922539e-04, 0.00000000e+00, 2.42302053e-01, ...,
        5.53191489e-01, 1.00000000e+00, 2.04470199e-01],
       [2.35697744e-04, 0.00000000e+00, 2.42302053e-01, ...,
        5.53191489e-01, 9.89737254e-01, 6.34657837e-02],
       ...,
       [6.11892474e-04, 0.00000000e+00, 4.20454545e-01, ...,
        8.93617021e-01, 1.00000000e+00, 1.07891832e-01],
       [1.16072990e-03, 0.00000000e+00, 4.20454545e-01, ...,
        8.93617021e-01, 9.91300620e-01, 1.31070640e-01],
       [4.61841693e-04, 0.00000000e+00, 4.20454545e-01, ...,
        8.93617021e-01, 1.00000000e+00, 1.69701987e-01]])

In [105]:
x=np.array([10,1000,0,0,-30,0,20,0,10,0,0,-10])
x=x.reshape(-1,1)#转化为列向量
x.shape
robustscaler=preprocessing.RobustScaler()
robustscaler.fit_transform(x)

array([[  1.],
       [100.],
       [  0.],
       [  0.],
       [ -3.],
       [  0.],
       [  2.],
       [  0.],
       [  1.],
       [  0.],
       [  0.],
       [ -1.]])

In [106]:
y=np.zeros((1,100))
y[0,96:]=[10,-10,-10,100]
y=y.reshape(-1,1)
y.shape
scaler=preprocessing.MaxAbsScaler(copy=True)
print(y.shape)
c=scaler.fit_transform(y)
c[-10:]


(100, 1)


array([[ 0. ],
       [ 0. ],
       [ 0. ],
       [ 0. ],
       [ 0. ],
       [ 0. ],
       [ 0.1],
       [-0.1],
       [-0.1],
       [ 1. ]])

In [107]:
scaler=preprocessing.StandardScaler(copy=True, with_mean=False, with_std=True)
z=scaler.fit_transform(y)
z[-10:]

array([[ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.98922663],
       [-0.98922663],
       [-0.98922663],
       [ 9.89226633]])

## 二、特征的正则化（normalize）
缩放单个样本以具有单位范数的过程,正则化有时也叫归一化，正规化。常用的向量范数有“L1”和‘L2’范数

In [108]:
from sklearn import preprocessing
x=np.array([[1,-1,2],[2,0,0],[0,1,-1]])
normalize=preprocessing.Normalizer(norm='l2')
normalize.fit_transform(x)

array([[ 0.40824829, -0.40824829,  0.81649658],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

# 三、特征的二值化
特征二值化是将数值特征用阈值过滤得到布尔值的过程

In [109]:
x=np.array([[1,-1,2],[2,0,0],[0,1,-1]])
binarizer=preprocessing.Binarizer(threshold=1.5).fit_transform(x)
binarizer

array([[0, 0, 1],
       [1, 0, 0],
       [0, 0, 0]])

# 四、分类特征编码
在机器学习中，特征经常不是数值型的而是分类型（标称型）。举个例子，一个人的性别可能是“male”或“female”。我们可以用0来表示“male”用1来表示“female”。但是这样的话，性别特征就变得有序了。<br>
为了解决这个问题我么可以使用一种叫做“one-hot”（独热）的编码方式。即用两个特征值来进行编码性别[1,0]表示“male”，[0,1]表示“female”。通常使用独热编码后会增加数据的维度和稀疏性。<br>

In [113]:
from sklearn import preprocessing
x=x=np.array([[0,0,3],[1,1,0],[0,2,1],[1,0,2]])
x


array([[0, 0, 3],
       [1, 1, 0],
       [0, 2, 1],
       [1, 0, 2]])

In [116]:
onehot=preprocessing.OneHotEncoder().fit_transform(x).toarray()
onehot

In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


array([[1., 0., 1., 0., 0., 0., 0., 0., 1.],
       [0., 1., 0., 1., 0., 1., 0., 0., 0.],
       [1., 0., 0., 0., 1., 0., 1., 0., 0.],
       [0., 1., 1., 0., 0., 0., 0., 1., 0.]])

# 五、处理缺失值
1.舍弃2.从已有的数据集推断出缺失的数据集（均值，众数，中位数）


In [122]:
import numpy as np
from sklearn import preprocessing
x=[[np.nan,2],[6,np.nan],[7,6]]
imp=preprocessing.Imputer(missing_values='NaN',strategy='mean',axis=0)
imp.fit_transform(x)




array([[6.5, 2. ],
       [6. , 4. ],
       [7. , 6. ]])