In [2]:
from sklearn import  preprocessing
import numpy as np

X_train = np.array([[ 1., -1.,  2.],
                   [ 2.,  0.,  0.],
                   [ 0.,  1., -1.]])

## 标准化(Standardization)
scale: 直接标准化

StandardScaler,估计器格式的标准化类,更适合可视化编程需要的pipline.
 - copy : 是否copy元数据,默认为True.否则会直接改变原数据
 - with_mean : 是否在缩放前将数据居中,默认为True如果为True,transform时需要额外的矩阵进行运算,因此要注意内存问题.
 - with_std : 是否缩放到单位方差,默认为True

In [3]:
X_scaled = preprocessing.scale(X_train)
X_scaled

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [8]:
scaler = preprocessing.StandardScaler(copy=True,with_mean=True,with_std=True).fit(X_train)
scaler

StandardScaler(copy=True, with_mean=True, with_std=True)

In [9]:
X_train

array([[ 1., -1.,  2.],
       [ 2.,  0.,  0.],
       [ 0.,  1., -1.]])

In [10]:
scaler.transform(X_train)

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [7]:
X_test = [[-1., 1., 0.]]
scaler.transform(X_test)

array([[-2.44948974,  1.22474487, -0.26726124]])

**缩放**
**MinMaxScaler : 最大最小缩放**
  - feature_range : 数据转换的范围,默认为(0,1)
  - copy :是否复制,默认为True

**MaxAbsScaler :最大绝对值缩放**
  - copy : 是否复制,默认为True

In [12]:
min_max_scaler = preprocessing.MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train)
X_train_minmax

array([[0.5       , 0.        , 1.        ],
       [1.        , 0.5       , 0.33333333],
       [0.        , 1.        , 0.        ]])

In [13]:
max_abs_scaler = preprocessing.MaxAbsScaler()
X_train_maxabs = max_abs_scaler.fit_transform(X_train)
X_train_maxabs

array([[ 0.5, -1. ,  1. ],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  1. , -0.5]])

## 使用离群值缩放数据
**RobustScaler:**
 - with_centering:是否数据居中,默认为True.如果为True,transform时需要额外的矩阵进行运算,因此要注意内存问题.
 - with_scaling:是够将数据缩放到四分位数范围,默认为True
 - copy : 是否复制,默认为True 

In [17]:
from sklearn.preprocessing import RobustScaler
X = [[ 1., -2.,  2.],
     [ -2.,  1.,  3.],
     [ 4.,  1., -2.]]
transformer = RobustScaler().fit(X)
transformer

transformer.transform(X)

array([[ 0. , -2. ,  0. ],
       [-1. ,  0. ,  0.4],
       [ 1. ,  0. , -1.6]])

# 非线性变换
## 均匀分布

**分位数转换方法:QuantileTransformer**
 - n_quantiles:要计算的分位数。默认值= 1000或n_samples.它对应于用于离散化累积分布函数的界标数。如果n_quantiles大于样本数，则将n_quantiles设置为样本数，因为较大的分位数不能更好地近似累积分布函数估计量。
 - output_distribution: 转换后的边际分布,uniform或者normal,默认uniform.通过设置为normal,也可以将数据映射到正态分布
 - ignore_implicit_zeros:仅适用于稀疏矩阵。默认为True，则将丢弃矩阵的稀疏条目以计算分位数统计信息。如果为False，则将这些条目视为零。
 - subsample:用于估计分位数以提高计算效率的最大样本数。默认为1e5.注意，对于值相同的稀疏矩阵和密集矩阵，子采样过程可能有所不同.
 - random_state:确定用于二次采样和平滑噪声的随机数生成。近似于随机数种子,默认为None
 - copy : 是否复制,默认为True

In [14]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
quantile_transformer = preprocessing.QuantileTransformer(random_state=0)
X_train_trans = quantile_transformer.fit_transform(X_train)
X_test_trans = quantile_transformer.transform(X_test)
np.percentile(X_train[:, 0], [0, 25, 50, 75, 100]) 

  % (self.n_quantiles, n_samples))


array([4.3, 5.1, 5.8, 6.5, 7.9])

## 高斯分布
**幂转换:PowerTransformer**
 - method: 转换的方法,目前支持"yeo-johnson"和"box-cox"
 - standardize: boolean, 默认为True,设置后可进行零均值,单位方差归一化应用于转换后的输出
 - copy : 是否复制,默认为True 

In [15]:
pt = preprocessing.PowerTransformer(method='box-cox', standardize=False)
X_lognormal = np.random.RandomState(616).lognormal(size=(3, 3))
X_lognormal

pt.fit_transform(X_lognormal)

array([[ 0.49024349,  0.17881995, -0.1563781 ],
       [-0.05102892,  0.58863195, -0.57612415],
       [ 0.69420009, -0.84857822,  0.10051454]])

## 规范化(Normalization)
规范化,或者翻译为正则化,其是将单个样本缩放为具有单位范数的过程.如果计划使用点积或任何其他核的二次形式来量化任何一对样本的相似性，则此过程可能会很有用。
**normalize**
 - norm:"l1","l2","max"
 - axis: 0 or 1 .默认为1
 - copy:是够拷贝数据,默认为True
 - return_norm:是否返回计算的范数,默认为False

In [18]:
normalizer = preprocessing.Normalizer().fit(X)  # fit does nothing
normalizer

Normalizer(copy=True, norm='l2')

In [19]:
normalizer.transform(X)

normalizer.transform([[-1.,  1., 0.]])

array([[-0.70710678,  0.70710678,  0.        ]])

## 编码类别特征
序数编码器：将分类特征编码为整数数组。该转换器的输入应为整数或字符串之类的数组，表示分类（离散）特征所采用的值。要素将转换为序数整数。这将导致每个要素的一列整数（0到n_categories-1）。
**OrdinalEncoder**
 - categories:默认为"auto":根据训练数据自动确定类别。也可以输入一个list:categories[i]在第ith列中包含期望的类别。传递的类别不应将字符串和数字值混合使用，并且在使用数字值时应进行排序。
 - dtype:所需的输出dtype。默认:np.float64

In [21]:
genders = ['female', 'male']
locations = ['from Africa', 'from Asia', 'from Europe', 'from US']
browsers = ['uses Chrome', 'uses Firefox', 'uses IE', 'uses Safari']
enc = preprocessing.OneHotEncoder(categories=[genders, locations, browsers])
# Note that for there are missing categorical values for the 2nd and 3rd
# feature
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
enc.fit(X)


enc.transform([['female', 'from Asia', 'uses Chrome']]).toarray()

array([[1., 0., 0., 1., 0., 0., 1., 0., 0., 0.]])

**OneHotEncoder**
该转换器的输入应为整数或字符串之类的数组，表示分类（离散）特征所采用的值。使用单热（也称为“ one-of-K”或“ dummy”）编码方案对特征进行编码。这将为每个类别创建一个二进制列，并返回一个稀疏矩阵或密集数组（取决于sparse 参数）
**参数**
 - categories:默认为"auto":根据训练数据自动确定类别。也可以输入一个list:categories[i]在第ith列中包含期望的类别。传递的类别不应将字符串和数字值混合使用，并且在使用数字值时应进行排序。
 - drop:可选-{if_binary,first}或者一个数组,默认为None.指定一种用于删除每个功能类别之一的方法。这在完美共线特征导致问题的情况下很有用，例如将结果数据输入到神经网络或不规则回归时。但是，删除一个类别会破坏原始表示形式的对称性，因此可能在下游模型（例如，惩罚线性分类或回归模型）中引起偏差。无：保留所有功能（默认）。'first'：删除每个功能中的第一个类别。如果仅存在一个类别，则该功能将被完全删除。'if_binary'：删除具有两个类别的每个功能中的第一个类别。具有1个或2个以上类别的要素保持不变。
 - sparse:默认为为True，将返回稀疏矩阵，否则将返回数组。
 - dtype:输入数据的类型,默认为np.float
 - handle_unknown:{‘error’, ‘ignore’}, default=’error’；是在转换过程中引发错误还是直接忽略存在的未知分类特征（默认为引发）。当此参数设置为“忽略”并且在转换过程中遇到未知类别时，此功能生成的一键编码列将全为零。在逆变换中，未知类别将表示为“无”。

In [22]:
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(handle_unknown='ignore')
X = [['Male', 1], ['Female', 3], ['Female', 2]]
enc.fit(X)

enc.categories_

[array(['Female', 'Male'], dtype=object), array([1, 2, 3], dtype=object)]

In [23]:
enc.transform([['Female', 1], ['Male', 4]]).toarray()

array([[1., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0.]])

In [24]:
enc.inverse_transform([[0, 1, 1, 0, 0], [0, 0, 0, 1, 0]])

array([['Male', 1],
       [None, 2]], dtype=object)

In [25]:
enc.get_feature_names(['gender', 'group'])

array(['gender_Female', 'gender_Male', 'group_1', 'group_2', 'group_3'],
      dtype=object)

## 离散
离散化 （也称为量化或合并）提供了一种将连续特征划分为离散值的方法。具有离散特征的某些数据集可能会受益于离散化，因为离散化可以将连续属性的数据集转换为仅具有名义属性的数据集。
一键编码的离散化特征可以使模型更具表现力，同时保持可解释性。例如，使用离散器的预处理可以将非线性引入线性模型。
**K-bins离散化:KBinsDiscretizer**
 - n_bin :产生间隔的数量,默认为5
 - encode:用于编码的方法,可选{‘onehot’, ‘onehot-dense’, ‘ordinal’}, (default=’onehot’)
 - strategy:用于定义间隔宽度的方法-{‘uniform’, ‘quantile’, ‘kmeans’}, (default=’quantile’).uniform:相同宽度,quantile:分位数,kmeans:基于一维kmeans

In [27]:
X = [[-2, 1, -4,   -1],
     [-1, 2, -3, -0.5],
     [ 0, 3, -2,  0.5],
     [ 1, 4, -1,    2]]
est = preprocessing.KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
est.fit(X)

Xt = est.transform(X)
Xt  # doctest: +SKIP

array([[0., 0., 0., 0.],
       [1., 1., 1., 0.],
       [2., 2., 2., 1.],
       [2., 2., 2., 2.]])

特征二值化是阈值化数字特征以获得布尔值的过程。

**特征二值化:Binarizer**
 - threshold:阈值,低于此阈值的将编码为0,高于该阈值的将编码为1.默认为0
 - copy:布尔,默认为True;设置为False将执行就地二进制化并避免复制（如果输入已经是numpy数组或scipy.sparse CSR矩阵）。

In [28]:
X = [[ 1., -1.,  2.],
     [ 2.,  0.,  0.],
     [ 0.,  1., -1.]]

binarizer = preprocessing.Binarizer().fit(X)  # fit does nothing
binarizer

Binarizer(copy=True, threshold=0.0)

In [29]:
binarizer.transform(X)

array([[1., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.]])

## 生成多项式特征
生成由小于或等于指定度的特征的所有多项式组合组成的新特征矩阵。例如，如果输入样本是二维且格式为[a，b]，则2阶多项式特征为[1，a，b，a ^ 2，ab，b ^ 2]。
**生成多项式和交互特征:PolynomialFeatures**
 - degree:度,默认为2.生成多项式特征的程度
 - interaction_only:如果为True(default),则只有相互作用特征产生,自身不会产生多次方的特征如x_1的二次方,x_2三次方等等"
 - include_bias:默认为True,包含一个偏差项,该特征中所有多项式幂均为零.
 - order:从{'C'，'F'}中选择,默认为C.在密集情况下输出数组的顺序。“ F”阶的计算速度更快，但可能会减慢后续的估计量。

In [1]:
import numpy as np
from sklearn.preprocessing import PolynomialFeatures
X = np.arange(6).reshape(3, 2)
X

array([[0, 1],
       [2, 3],
       [4, 5]])

In [2]:
poly = PolynomialFeatures(2)
poly.fit_transform(X)

array([[ 1.,  0.,  1.,  0.,  0.,  1.],
       [ 1.,  2.,  3.,  4.,  6.,  9.],
       [ 1.,  4.,  5., 16., 20., 25.]])

In [3]:
poly = PolynomialFeatures(interaction_only=True)
poly.fit_transform(X)

array([[ 1.,  0.,  1.,  0.],
       [ 1.,  2.,  3.,  6.],
       [ 1.,  4.,  5., 20.]])