In [1]:
# 1.preprocessing的scale方法提供了快速压缩的方式，0均值和单位方差  （标准化）

In [2]:
from sklearn import preprocessing
import numpy as np

In [3]:
X_train=np.array([[1,-1,2],
                  [2,0,0],
                  [0,1,-1]])
X_scaled=preprocessing.scale(X_train)
X_scaled



array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [4]:
X_scaled.mean(axis=0)  #0均值

array([0., 0., 0.])

In [5]:
X_scaled.std(axis=0)    #0方差

array([1., 1., 1.])

In [6]:
# 2.preprocessing包提供了一个类：StandardScaler，它的Transformer API可以计算训练集的均值和标准偏差，以及在之后的测试集上应用相同的变换。

In [7]:
scaler = preprocessing.StandardScaler()
scaler.fit_transform(X_train)



array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [8]:
X_test = [[-1,1,0]]
scaler.transform(X_test)

array([[-2.44948974,  1.22474487, -0.26726124]])

In [9]:
# 3.MinMaxScaler:把数据压缩到[0,1]的范围   原理是 x_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))

In [10]:
min_max_scaler = preprocessing.MinMaxScaler()
min_max_scaler.fit_transform(X_train)



array([[0.5       , 0.        , 1.        ],
       [1.        , 0.5       , 0.33333333],
       [0.        , 1.        , 0.        ]])

In [11]:
X_test = [[-3,-1,4]]
min_max_scaler.transform(X_test)

array([[-1.5       ,  0.        ,  1.66666667]])

In [12]:
# 4.MaxAbsScaler:把数据压缩到[-1,1]的范围，专门用于拓展稀疏矩阵，是推荐的解决方法。

In [13]:
max_abs_scaler = preprocessing.MaxAbsScaler()
max_abs_scaler.fit_transform(X_train)

array([[ 0.5, -1. ,  1. ],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  1. , -0.5]])

In [14]:
X_test = [[-3,-1,4]]
max_abs_scaler.transform(X_test)

array([[-1.5, -1. ,  2. ]])

In [15]:
# 5.QuantileTransformer:映射到uniform分布，提供基于分位数函数的非参数变换，将数据映射到值为0到1的均匀分布 (非线性)

In [16]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [17]:
iris=load_iris()
X,y=iris.data,iris.target
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)
quantile_transformer = preprocessing.QuantileTransformer(random_state=0)
X_train_trans=quantile_transformer.fit_transform(X_train)
X_test_trans=quantile_transformer.fit_transform(X_test)
np.percentile(X_train[:,0],[0,25,50,75,100])

array([4.3, 5.1, 5.8, 6.5, 7.9])

In [18]:
np.percentile(X_train_trans[:,0],[0,25,50,75,100])

array([9.99999998e-08, 2.38738739e-01, 5.09009009e-01, 7.43243243e-01,
       9.99999900e-01])

In [19]:
np.percentile(X_test[:, 0], [0, 25, 50, 75, 100])

array([4.4  , 5.125, 5.75 , 6.175, 7.3  ])

In [20]:
np.percentile(X_test_trans[:, 0], [0, 25, 50, 75, 100])

array([9.99999998e-08, 2.53378378e-01, 5.00000000e-01, 7.39114114e-01,
       9.99999900e-01])

In [21]:
# 6.正规化（normalization）是将单个样本缩放为具有单位范数的过程。 
# 如果您计划使用二次形式（如点积或任何其他内核）来量化任何样本对的相似性，则此过程非常有用。
# 此假设是常用于文本分类和聚类上下文的向量空间模型的基础。
# 函数normalize提供了一种快速简便的方法，可以在单个类数据集的数据集上执行此操作，使用l1或l2范数。

In [22]:
X=[[1,-1,2],
   [2,0,0],
   [0,1,-1]]
X_normalized=preprocessing.normalize(X,norm='l2')
X_normalized

array([[ 0.40824829, -0.40824829,  0.81649658],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

In [23]:
# 预处理模块还提供了一个实用程序类Normalizer.
# 它使用Transformer API实现相同的操作（即使在这种情况下fit方法是无用的：该类是无状态的，因为此操作独立地处理样本）。

In [24]:
normalizer=preprocessing.Normalizer()
normalizer

Normalizer(copy=True, norm='l2')

In [25]:
normalizer.fit_transform(X)

array([[ 0.40824829, -0.40824829,  0.81649658],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

In [26]:
normalizer.transform([[1,-1,2]])

array([[ 0.40824829, -0.40824829,  0.81649658]])

In [27]:
# normalize和Normalizer接受来自scipy.sparse的密集数组和稀疏矩阵作为输入。
# 对于稀疏输入，数据在被送入有效的Cython例程之前会转换为Compressed Sparse Rows表示（请参阅scipy.sparse.csr_matrix）。 
# 为避免不必要的内存复制，建议选择上游的CSR表示。

In [28]:
# 7.编码分类功能(Encoding categorical features)

In [29]:
# 8.离散(Discretization)

In [30]:
# 9.估算缺失值(Imputation of missing values)

In [31]:
# 10.生成多项式特征(Generating polynomial features)

In [32]:
# 11.定制变压器(Custom transformers)