## 安装 scikit-learn
    conda update install scikit-learn
    或者：
    pip install -U scikit-learn

### 帮助信息
1. 修改内核选项 ast_note_interactivity，使Jupyter对某一个单元格中的所有变量或者语句都自动显示。
这样可以看到多个语句的运行结果的输出。
  具体步骤：
      1. 生成 jupyter 配置文件:  jupyter notebook --generate-config
      2. 编辑ipython的配置文件（不是上面那个）notepad  $HOME/.ipython/profile_default/ipython_config.py
      3. 加入： 
                # 获取配置信息
                myconfig = get_config()
                #设置在一个单元格内可以输出多个变量的值
                #Run all nodes interactively
                c.InteractiveShell.ast_node_interactivity = "all"

In [1]:
# 亦可以使用下面语句完成单一单元格中多个变量的输出，但是仅在当前notebook中起作用
#from IPython.core.interactiveshell import InteractiveShell
#InteractiveShell.ast_node_interactivity = "all"

In [2]:
# 导入sklearn库中的preprocessing模块，导入包numpy，用别名np表示。
from sklearn import preprocessing
import numpy as np

In [3]:
# 使用numpy中的array函数，创建一个3行3列的二维数组x_train。
x_train=np.array([[ 1.0,-1.0,2.0],[ 2.0,0.0,2.0],[ 0.0,1.0 ,-1.0]])
x_train

array([[ 1., -1.,  2.],
       [ 2.,  0.,  2.],
       [ 0.,  1., -1.]])

## 1.标准化

In [4]:
# 第一种方法：使用preprocessing模块中的scale函数，对x_train数组进行标准化，返回值赋值给x_scaled。
x_scaled=preprocessing.scale(x_train)
x_scaled

array([[ 0.        , -1.22474487,  0.70710678],
       [ 1.22474487,  0.        ,  0.70710678],
       [-1.22474487,  1.22474487, -1.41421356]])

In [5]:
# 输出x_scaled的零均值和单位方差。
x_scaled.mean(axis=0)
x_scaled.std(axis=0)

array([0., 0., 0.])

array([1., 1., 1.])

In [6]:
# 第二种方法：使用preprocessing模块中StandardScaler()类的fit()函数，通过数组x_train构建标准化模型scaler。
scaler=preprocessing.StandardScaler().fit(x_train)
scaler

In [7]:
# 查看训练集中的每列特征的平均值和数据的相对缩放比例。
scaler.mean_
scaler.scale_

array([1., 0., 1.])

array([0.81649658, 0.81649658, 1.41421356])

In [8]:
# 调用模型scaler的transform函数对x_train数组进行标准化。
scaler.transform(x_train)

array([[ 0.        , -1.22474487,  0.70710678],
       [ 1.22474487,  0.        ,  0.70710678],
       [-1.22474487,  1.22474487, -1.41421356]])

In [9]:
# 创建一个测试数据x_test，使用scaler模型的transform函数对x_test数据进行标准化。
# 测试集要是训练集使用同样的标准化方法进行标准化
x_test=[[-1.,1,0]]
scaler.transform(x_test)

array([[-2.44948974,  1.22474487, -0.70710678]])

## 区间缩放：标准化之规模化特征到一定的范围内

In [10]:
# preprocessing模块中的MinMaxScaler函数，创建一个实例对象min_max_scaler，
# 实例对象的fit_transform方法将x_train中的元素缩放到0-1之间，
# 缩放的结果返回到x_train_minmax中。
min_max_scaler=preprocessing.MinMaxScaler()
x_train_minmax=min_max_scaler.fit_transform(x_train)
x_train_minmax

array([[0.5, 0. , 1. ],
       [1. , 0.5, 1. ],
       [0. , 1. , 0. ]])

In [11]:
# 使用np.array函数创建元素值为-3，-1,4的一维数组x_test，
# 然后使用实例对象min_max_scaler的fit_transform方法将x_test数组中元素进行缩放到[0,1]之间。
# 同样，测试集要和训练集使用同样的实例|方法完成
x_test=np.array([ -3.,-1.,4.]).reshape(1,-1)
x_test_minmax=min_max_scaler.fit_transform(x_test)
x_test_minmax

array([[0., 0., 0.]])

In [12]:
# 使用preprocessing模块中的MaxAbsScaler函数，创建一个实例对象max_abs_scaler，
# 使用实例对象的fit_transform方法将x_train中的元素缩放到[-1, 1]之间，
# 将缩放的结果返回到X_train_maxabs中。
max_abs_scaler = preprocessing.MaxAbsScaler()
X_train_maxabs = max_abs_scaler.fit_transform(x_train)
X_train_maxabs

array([[ 0.5, -1. ,  1. ],
       [ 1. ,  0. ,  1. ],
       [ 0. ,  1. , -0.5]])

In [13]:
# 使用实例对象max_abs_scaler的fit_transform方法将x_test数组中元素进行缩放到[-1,1]之间。
X_test_maxabs = max_abs_scaler.fit_transform(x_test)
X_test_maxabs

array([[-1., -1.,  1.]])

## 2.正则化

In [14]:
# 使用preprocessing模块中的normalize函数，对x_train数组进行正则化，返回值赋值给x_normalized。
x_normalized = preprocessing.normalize(x_train, norm='l2')  
x_normalized

array([[ 0.40824829, -0.40824829,  0.81649658],
       [ 0.70710678,  0.        ,  0.70710678],
       [ 0.        ,  0.70710678, -0.70710678]])

## 3.二值化

In [15]:
# 使用preprocessing模块中Binarizer中的fit()函数，通过x_train数组创建二值化模型binarizer，
binarizer = preprocessing.Binarizer().fit(x_train)
binarizer

In [16]:
# 使用transform()方法对x_train数组进行二值化 。
binarizer.transform(x_train)

array([[1., 0., 1.],
       [1., 0., 1.],
       [0., 1., 0.]])

## 定量特征二值化

In [17]:
# sklearn.preprocessing.Binarizer(threshold=0.0, copy=True)根据阈值将数据设置为0或1的特征值。
# 调整Binarizer()函数的阀值threshold=1.1，创建二值化模型binarizer1，
binarizer1 = preprocessing.Binarizer(threshold=1.1)
binarizer1

In [18]:
# 使用binarizer1模型的transform()方法对x_train数组进行二值化 。
binarizer1.transform(x_train)

array([[0., 0., 1.],
       [1., 0., 1.],
       [0., 0., 0.]])

## 4.定性特征编码：为类别特征编码

In [19]:
# 使用preprocessing模块中OneHotEncoder()函数，创建一个实例对象enc，
# 使用enc对象的fit方法，通过[[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]数组创建一个特征编码模型，
# 讲解：[[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]，对应 3 个样本，每个特征维度的各自取值范围为：
# 第 1 维度/特征： 0，1；则，独热编码后分别为： 10，01
# 第 2 维度/特征： 0，1，2；则，独热编码后分别为： 100，010，001
# 第 3 维度/特征： 0，1，2，3；则，独热编码后分别为： 1000，0100，0010，0001
enc = preprocessing.OneHotEncoder()
enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])

In [20]:
# 使用transform()函数对[[0,1,3]]二维数组进行特性特征编码，并将结果通过toarray函数转换为数组。
# 一个新的样本[[0, 1, 3]]，注意，其中每个维度的取值为上述每个维度中的取值之一，则：
# 新样本中的第 1 个维度/特征值 0，取其上述的独热编码为： 10
# 新样本中的第 2 个维度/特征值 1，取其上述的独热编码为： 010
# 新样本中的第 3 个维度/特征值 3，取其上述的独热编码为： 0001
# 则：最终生成为： 10 010 0001
enc.transform([[0, 1, 3]]).toarray()

array([[1., 0., 0., 1., 0., 0., 0., 0., 1.]])

In [21]:
# 使用preprocessing模块中OneHotEncoder()函数，创建一个实例对象enc，
# 设置每个特征值的数量为n_values=[2,3,4]，
# 通过[[1, 2, 3], [0, 2, 0]]数组创建一个特征编码模型码(以前版本的n_values参数已经被 categories 代替)
# categories 通过list指定每个维度/特征的具体的取值范围
# 讲解：[[1, 2, 3], [0, 2, 0]]，对应 2 个样本，每个特征维度的各自取值范围在 categories 中指定，为：
# 第 1 维度/特征的取值范围为： 0，1；其中 维度/特征值为 1 时，独热编码为： 01
# 第 2 维度/特征的取值范围为： 0，1，2；其中 维度/特征值为 0 时，独热编码为： 100
# 第 3 维度/特征的取值范围为： 0，1，2，3；其中 维度/特征值为 1 时，独热编码为： 1000
enc = preprocessing.OneHotEncoder(categories=[[0,1],[0,1,2],[0,1,2,3]])
enc.fit([[1, 2, 3], [0, 2, 0]])

In [22]:
# 使用transform()函数对[[1,0,0]]二维数组进行特性特征编码，并将结果通过toarray函数转换为数组。
# 使用上述的独热编码，转换样本[[1, 0, 0]]的具体值，即为：01 100 1000
enc.transform([[1, 0, 0]]).toarray()

array([[0., 1., 1., 0., 0., 1., 0., 0., 0.]])

## 5. 离散化

In [23]:
# 默认使用分位数分割区域，并显示结果为整数值
X = np.array([[ -3., 5., 15 ],[  0., 6., 14 ],[  6., 3., 11 ]])
est = preprocessing.KBinsDiscretizer(n_bins=[3, 2, 2], encode='ordinal').fit(X)
est.transform(X)

array([[0., 1., 1.],
       [1., 1., 1.],
       [2., 0., 0.]])

## 6.缺失值计算：弥补缺失数据

In [24]:
# 使用preprocessing模块中Imputer函数，
# 设置缺失值参数missing_values='NaN', 填充缺失值的类型参数strategy='mean', 计算的轴参数axis=0，创建一个实例对象imp，
# 使用实例对象imp的fit方法，通过[[1, 2], [np.nan, 3], [7, 6]]数组创建一个缺失值模型，
# SimpleImputer替换已删除的sklearn.preprocessing.Imputer 估计器。
# preprocessing.Imputer 更改为：sklearn.impute.SimpleImputer，且无 axis 参数, missing_values 也要改为： np.nan
# imp=preprocessing.Imputer(missing_values='NaN',strategy='mean',axis=0)
from sklearn.impute import SimpleImputer
# imp=SimpleImputer(missing_values='NaN',strategy='mean')
imp=SimpleImputer(missing_values=np.nan,strategy='mean')
imp.fit([[1,2],[np.nan,3],[7,6]])

In [25]:
# 创建一个二维列表X，使用imp中的transform()函数，对X的缺失值用上面数组每列的平均值进行填充。
X=[[np.nan,2],[6,np.nan],[7,6]]
imp.transform(X)

array([[4.        , 2.        ],
       [6.        , 3.66666667],
       [7.        , 6.        ]])

## 7.生成多项式特征

In [26]:
# 使用numpy中的arange函数创建一个值由0到5的整数组成的3行2列数组X，
X = np.arange(6).reshape(3, 2)
X

array([[0, 1],
       [2, 3],
       [4, 5]])

In [27]:
# 使用preprocessing中的PolynomialFeatures函数创建一个多项特征程度为2的多项式对象poly，
# 然后使用poly的fit_transform方法生成X的多项式特征，X的特征已经从（X1，X2）变成（1，X1，X2，X1**2，X1*X2，X2**2）。
poly = preprocessing.PolynomialFeatures(2)
poly.fit_transform(X)

array([[ 1.,  0.,  1.,  0.,  0.,  1.],
       [ 1.,  2.,  3.,  4.,  6.,  9.],
       [ 1.,  4.,  5., 16., 20., 25.]])

In [28]:
# 在某些情况下，只需要特征之间的交互项(即：不要平方、立方、四次方...等项)，可以通过设定参数interaction_only=True。

In [29]:
# 使用numpy中的arange函数创建一个值由0到8连续的9个整数组成的3行3列数组X，
X = np.arange(9).reshape(3, 3)
X

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [30]:
# 使用preprocessing中的PolynomialFeatures函数创建一个多项特征程度为3的多项式对象poly，设置参数interaction_only=True，
# 然后使用poly的fit_transform方法生成X的多项式特征，
# X的特征已经从（X1，X2，X3）变成（1，X1，X2，X3，X1*X2，X1*X3，X2*X3，X1*X2*X3）。
poly=preprocessing.PolynomialFeatures(degree=3,interaction_only=True)
poly.fit_transform(X)

array([[  1.,   0.,   1.,   2.,   0.,   0.,   2.,   0.],
       [  1.,   3.,   4.,   5.,  12.,  15.,  20.,  60.],
       [  1.,   6.,   7.,   8.,  42.,  48.,  56., 336.]])

## 8.自定义函数变换

In [31]:
# 可以使用FunctionTransformer从任意函数中实现变换，例如，要构建一个在管道中应用log转换的变压器，
# 使用preprocessing模块中FunctionTransformer函数，创建一个自定义函数变换实例对象function_transformer，
# 设置变换函数参数为func=np.loglp
function_transformer = preprocessing.FunctionTransformer(np.log1p)
function_transformer

In [32]:
# 使用numpy中的array函数创建一个0到3连续整数组成的2行2列的二维数组X，
# 使用function_transformer对象的transform方法，将变换后的函数作用于数组X，其中log1p(x) = log(1+x)。
X = np.array([[0, 1], [2, 3]])
function_transformer.transform(X)

array([[0.        , 0.69314718],
       [1.09861229, 1.38629436]])

## 总结：
当拿到一批原始的数据

    1. 首先要探查有多少特征，哪些是连续的，哪些是类别的。
    2. 检查有没有缺失值，对缺失的特征选择恰当方式进行缺失值填补，使数据完整。
    3. 对连续的数值型特征进行标准化，使得均值为0，方差为1。
    4. 对类别型的特征进行one-hot编码。
    5. 将需要转换成类别型数据的连续型数据进行二值化。
    6. 为防止过拟合等原因，可能还需要将数据进行正则化。
    7. 在对数据进行探查之后发现效果不佳，可以尝试使用多项式方法，寻找非线性的关系。
    8. 根据实际问题分析是否需要对特征进行相应的函数转换。

官方文档 http://scikit-learn.org/stable/modules/preprocessing.html#preprocessing

# 以上!