# 主要内容
- 数据预处理| 将原始数据转换成可作为模型输入的数值型特征，包 括数据标准化、离散化、特征编码等过程，也有的人将特征选择和 降维归并在数据预处理之中. 请时刻谨记 Grabage In, Garbage Out
- 特征选择 | 从原始特征全集中选择与目标特征相关的特征子集. 
- 降维 | 减少特征数量的过程，包括特征选择和特征提取，这里特指通过降维算法将多个原始特征进行组合得到新特征的 特征提取过程，如主成分分析、线性判别分析等.
- 特征学习 | 利用机器学习算法或模型自动抽取特征的过程，如自编 码器，并且大部分降维算法属于无监督特征学习算法.

In [1]:
from sklearn.datasets import load_iris
X, y = load_iris(return_X_y=True)
print(X.shape)
print(y.shape)

(150, 4)
(150,)


# 数据预处理
- 使用转换函数
- 使用转换器接口 (Transformer API)

In [2]:
from sklearn import preprocessing

# 方式一 使用转换函数
X_scaled = preprocessing.scale(X)
X_scaled[:3,:]

array([[-0.90068117,  1.01900435, -1.34022653, -1.3154443 ],
       [-1.14301691, -0.13197948, -1.34022653, -1.3154443 ],
       [-1.38535265,  0.32841405, -1.39706395, -1.3154443 ]])

In [5]:
# 方式二 使用转换器接口

scaler = preprocessing.StandardScaler()
scaler.fit(X)
X_scaled_2 = scaler.transform(X)
X_scaled_2[:3, :]

array([[-0.90068117,  1.01900435, -1.34022653, -1.3154443 ],
       [-1.14301691, -0.13197948, -1.34022653, -1.3154443 ],
       [-1.38535265,  0.32841405, -1.39706395, -1.3154443 ]])

## 标准化

- StandardScaler  Z-score标准化
- MinMaxScaler   最小化，最大化
- MaxAbsScaler   稀疏数据标准化
- RobustScaler
- QuantileTransformer 带离群值的标准化
- RobustScaler

In [3]:
from sklearn.preprocessing import StandardScaler

scaler = preprocessing.StandardScaler()  # z = (x - u) / s
scaler.fit(X)
X_scaled_2 = scaler.transform(X)
X_scaled_2[:3, :]

array([[-0.90068117,  1.01900435, -1.34022653, -1.3154443 ],
       [-1.14301691, -0.13197948, -1.34022653, -1.3154443 ],
       [-1.38535265,  0.32841405, -1.39706395, -1.3154443 ]])

## 归一化

In [4]:
from sklearn.preprocessing import Normalizer

scaler = Normalizer()  # x/l1  or x/l2
X_normal = scaler.fit_transform(X)
X_normal[:3, :]

array([[0.80377277, 0.55160877, 0.22064351, 0.0315205 ],
       [0.82813287, 0.50702013, 0.23660939, 0.03380134],
       [0.80533308, 0.54831188, 0.2227517 , 0.03426949]])

## 二值化

In [13]:
from sklearn.preprocessing import Binarizer

binarizer = Binarizer(threshold=0.0)
X_bin = binarizer.fit_transform(X)
X_bin[-3:,:]

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

## One-Hot编码

In [21]:
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(sparse=False, categories='auto')
X_encoder = encoder.fit_transform(X)
X_encoder[:1, :]

array([[0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

In [25]:
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
y_encoder = encoder.fit_transform(y)
y_encoder[:20]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

## 缺失值处理

## 数据白化

# 多项式特征生成与自定义转换

## 多项式特征生成

- 基于特征集合{X1, X2}，将产生新的特征集合{1, X1, X2, X12, X1X2, X2}.

In [29]:
from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=2)
x_cut = X[:,:2] 
print(x_cut.shape)
x_poly = poly.fit_transform(x_cut)
print(x_poly.shape)
x_poly[:3, :]

(150, 2)
(150, 6)


array([[ 1.  ,  5.1 ,  3.5 , 26.01, 17.85, 12.25],
       [ 1.  ,  4.9 ,  3.  , 24.01, 14.7 ,  9.  ],
       [ 1.  ,  4.7 ,  3.2 , 22.09, 15.04, 10.24]])

## 自定义转换
- 将所有数据进行对数转换.

In [30]:
import numpy as np
from sklearn.preprocessing import FunctionTransformer
transformer = FunctionTransformer(np.log1p)
x_log = transformer.transform(X)
x_log[:3, :]



array([[1.80828877, 1.5040774 , 0.87546874, 0.18232156],
       [1.77495235, 1.38629436, 0.87546874, 0.18232156],
       [1.74046617, 1.43508453, 0.83290912, 0.18232156]])

# 特征选择

In [32]:
from sklearn import feature_selection as fs

  return f(*args, **kwds)


## 过滤式（Filter）
- 按照特征与目标特征的相关性对各个特征进行评分，设定阈值或者 待选择阈值的个数选择特征.
- fs.VarianceThreshold(threshold) | 方差阈值过滤，去除 特征全集中方差较小的特征.
- fs.SelectKBest(score_func, k) | 保留得分排名前k的特征 (top k方式).
- fs.SelectPercentile(score_func, percentile) | 保留 得分排名前k%个特征(top k%方式)，即最终保留特征的比例为k%.

### score_func
- 分类问题
    - 卡方检验 chi2    (假设验证 方法)
    - ANOVA F 值 f_classif  (方差验证)
    - 互信息 MI mutual_info_classid （互信息(Mutual Information)是度量两个事件集合之间的相关性）
- 回归问题
    - F检验值 f_regression
    - 互信息MI mutual_info_regression

In [37]:
from sklearn.feature_selection import VarianceThreshold

threshold = VarianceThreshold(threshold=0.3)
feature = threshold.fit_transform(X, y)
feature[:4, :]

array([[5.1, 1.4, 0.2],
       [4.9, 1.4, 0.2],
       [4.7, 1.3, 0.2],
       [4.6, 1.5, 0.2]])

In [39]:
from sklearn.feature_selection import SelectKBest
best = SelectKBest(k = 2)
x_best = best.fit_transform(X, y)
x_best[:4, :]

array([[1.4, 0.2],
       [1.4, 0.2],
       [1.3, 0.2],
       [1.5, 0.2]])

In [44]:
from sklearn.feature_selection import SelectPercentile
percentile = SelectPercentile(percentile = 0.1)
x_percentile = percentile.fit_transform(X, y)
x_percentile[:4, :]

array([[1.4],
       [1.4],
       [1.3],
       [1.5]])

## 封装式(Wrapper)
    根据模型的评价指标，每次选择若干特征，或者排除若干特征，包 括序列向前搜索SFS、序列向后搜索SBS等搜索方法，特征选择与最 终的模型构建是两个独立的过程.
- fs.RFE(estimator, n_features_to_select) | 递归特征消 除法，得到指定特征个数的特征子集.
- fs.RFECV(estimator, scoring=”r2”) | 结合交􏰁验证的递 归特征消除法，得到特征子集的最优特征个数.

In [56]:
from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression

lr = LinearRegression()

rfe = RFE(lr, 2)
x_rfe = rfe.fit_transform(X, y) 
x_rfe[:4, :]

array([[1.4, 0.2],
       [1.4, 0.2],
       [1.3, 0.2],
       [1.5, 0.2]])

In [69]:
from sklearn.feature_selection import RFECV
from sklearn.linear_model import LogisticRegression
logist = LogisticRegression(multi_class='auto', solver='lbfgs')

rfe = RFECV(logist, 2, cv=2)
x_rfe = rfe.fit_transform(X, y) 
x_rfe[:4, :]



array([[1.4, 0.2],
       [1.4, 0.2],
       [1.3, 0.2],
       [1.5, 0.2]])

## 嵌入式 (Embedded)
    使用某些机器学习的算法(带正则化的线性模型、决策树以􏰂基于 决策树的集成模型)和模型自动进行特征选择，特征选择与模型评 价融合在同一过程中.
    
- fs.SelectFromModel(estimator) | 从模型中自动选择特征， 任何具有coef_或者feature_importances_的基模型都可以作为estimator参数传入.

### 基模型
- linear_model.LogisticRegression 
- linear_model.LogisticRegressionCV
- linear_model.Lasso
- linear_model.LassoCV
- svm.LinearSVC
- svm.LinearSVR
- ensemble.RandomForestRegressor
- ensemble.RandomForestClassifier

In [71]:
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier(n_estimators=100)
enbeded = SelectFromModel(rfc)
x_enbeded = enbeded.fit_transform(X, y)
x_enbeded[:4, :]

array([[1.4, 0.2],
       [1.4, 0.2],
       [1.3, 0.2],
       [1.5, 0.2]])

## 降维（特征提取）

## 主成分分析 
- 通过线性投影，将高维的数据映射到低维的空间中， 目标是最大化重构后方差.

In [73]:
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
x_pca = pca.fit_transform(X)
x_pca[:4, :]

array([[-2.68412563,  0.31939725],
       [-2.71414169, -0.17700123],
       [-2.88899057, -0.14494943],
       [-2.74534286, -0.31829898]])

## 线性判别分析
- 利用数据的类别信息，将高维的样本线性投影到低 维空间中，使得数据样本在低维空间中的类别区分度最大，即使得 相同类样本尽可能近，不同类样本尽可能远.

In [76]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

lda = LinearDiscriminantAnalysis(n_components=2)
x_lda = lda.fit_transform(X, y)
x_lda[:4, :]

array([[ 8.06179978,  0.30042062],
       [ 7.12868772, -0.78666043],
       [ 7.48982797, -0.26538449],
       [ 6.81320057, -0.67063107]])

## 多维尺度变换
- 找到数据的低维表示，使得降维前后样本之间的相 似度信息(如距离信息)尽量得以保留.

In [78]:
from sklearn.manifold import MDS
mds = MDS(n_components=2)
x_mds = mds.fit_transform(X)
x_mds[:4, :]

array([[ 2.1912652 , -1.59850629],
       [ 2.48353405, -1.14008232],
       [ 2.59888068, -1.29897625],
       [ 2.56760346, -1.05123381]])

## 其他降维方法

- 核主成分分析 decomposition.KernelPCA 
- 局部线性映射 manifold.LocallyLinearEmbedding 
- 等度量映射 manifold.Isomap
- t-SNE manifold.TSNE
- 拉普拉斯映射 manifold.SpectralEmbedding