# transformer
## sklearn.preprocessing 数据预处理
- 数据的集成：merge、concat、join、combine_first；
- 数据类型转换：字符串处理（正则表达式）、数据类型转换（astype)、时间序列处理（to_datetime）等；
- 缺失值处理：查找、定位、删除、填充等；
- 重复值处理：查找、定位、删除等；
- 异常值处理：根据原理自定义函数处理异常数据（不推荐）；
- 特征修改：增加、删除、变换（简单函数变换）、离散化等；
- 数据抽样：简单随机抽样、分层抽样等；

...
### 标准化
- StandardScaler
Standardization标准化:将特征数据的分布调整成标准正太分布，也叫高斯分布，也就是使得数据的均值维0，方差为1

- MinMaxScaler
最小-最大规范化对原始数据进行线性变换，变换到[0,1]区间（也可以是其他固定最小最大值的区间）每个特征中的最小值变成了0，最大值变成了1.

- MaxAbsScaler
- RobustScaler

### 非线性变换
- QuantileTransformer
- PowerTransformer

### 正则化（ Normalizer）
- Normalizer

### 编码分类特征
- OrdinalEncoder
特征专用，能够将分类特征转换为分类数值。

- OneHotEncoder
独热编码，比如一组特征[0,1] 那么 one-hot 就会使用两位来表示这个特征，[1,0] 表示 0， [0,1] 表示 1

- LabelEncoder
标签专用，能够将分类转换为分类数值。

### 离散化

- Binarizer
二值化

- KBinsDiscretizer
k个等宽箱的离散化特征，默认情况下，输出是one-hot编码成稀疏矩阵，并且可以使用encode参数。对于每个特性，在fit再加上分箱的数量，他们会定义间隔。

### 缺失值处理（Imputer）
最新的0.20.0版本的scikit-learn中，Imputer好象是被取代了换成了sklearn.impute这里面包含两个类：
sklearn.impute.SimpleImputer 0.20
sklearn.impute.MissingIndicator 0.20
sklearn.impute.IterativeImputer 0.21
sklearn.impute.KNNImputer 0.22

### 生成多项式特征（PolynomialFeatures）
- PolynomialFeatures

### 自定义转换器

- FunctionTransformer
自定义函数处理

## sklearn.impute 缺失值处理
- sklearn.impute.SimpleImputer
- sklearn.impute.MissingIndicator
- sklearn.impute.IterativeImputer
- sklearn.impute.KNNImputer


## sklearn.decomposition 矩阵分解
矩阵分解可以用在降维，深度学习，聚类分析，数据预处理，低纬度特征学习，推荐系统，大数据分析等领域。

奇异值分解SVD(Singular value decomposition)和主成分分析PCA(Principal Components Analysis)都属于矩阵分解算法中的入门算法，都是通过分解特征矩阵来进行降维。
[如何理解主元分析（PCA）？](https://matongxue.blog.csdn.net/article/details/82254488)

## sklearn.random_projection 随机投影
降维技术

- GaussianRandomProjection
通过高斯随机投影进行降维。

- SparseRandomProjection
通过稀疏随机投影进行降维。

## sklearn.kernel_approximation Kernel Approximation 内核近似
基本上是用来做数据转换的

## sklearn.feature_extraction: Feature Extraction 特征提取
- DictVectorizer
总字典中提取特征，可以看成是数据转换

- FeatureHasher
特征哈希
可以指定特征个数

In [1]:
import numpy as np
from sklearn import utils,preprocessing,decomposition,random_projection
# {"classifier", "regressor", "cluster", "transformer"}
utils.all_estimators(type_filter=["transformer"])




[('AdditiveChi2Sampler', sklearn.kernel_approximation.AdditiveChi2Sampler),
 ('BernoulliRBM', sklearn.neural_network._rbm.BernoulliRBM),
 ('Binarizer', sklearn.preprocessing._data.Binarizer),
 ('Birch', sklearn.cluster._birch.Birch),
 ('CCA', sklearn.cross_decomposition._pls.CCA),
 ('ColumnTransformer', sklearn.compose._column_transformer.ColumnTransformer),
 ('DictVectorizer',
  sklearn.feature_extraction._dict_vectorizer.DictVectorizer),
 ('DictionaryLearning',
  sklearn.decomposition._dict_learning.DictionaryLearning),
 ('FactorAnalysis', sklearn.decomposition._factor_analysis.FactorAnalysis),
 ('FastICA', sklearn.decomposition._fastica.FastICA),
 ('FeatureAgglomeration', sklearn.cluster._agglomerative.FeatureAgglomeration),
 ('FeatureHasher', sklearn.feature_extraction._hash.FeatureHasher),
 ('FeatureUnion', sklearn.pipeline.FeatureUnion),
 ('FunctionTransformer',
  sklearn.preprocessing._function_transformer.FunctionTransformer),
 ('GaussianRandomProjection',
  sklearn.random_proj

## sklearn.preprocessing 数据预处理
### preprocessing.Binarizer 二值化


In [3]:
# preprocessing.Binarizer(threshold=0.0,copy=True)
# 大于threshold 返回1，小于等于threshold返回0
from sklearn.preprocessing import Binarizer
X = [[ 1., -1.,  2.],
     [ 2.,  0.,  0.],
     [ 0.,  1., -1.]]
transformer = Binarizer().fit(X)  # fit does nothing.
transformer.transform(X)



array([[1., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.]])

In [5]:
from sklearn.preprocessing import FunctionTransformer

# def BinarizerFunc(x): # 这里的x参数跟fit里的X是一致的
#     if x > 0:
#         return 1
#     else:
#         return 0
#
# transformer2 = FunctionTransformer(BinarizerFunc).fit(X)  # fit does nothing.
# transformer2.transform(X)

KeyboardInterrupt: 