###
内容参考sklearn官方文档preprocessing data 部分
数据预处理是打造一个好的模型的重要的前提，常用到的数据处理方法有缩放、
归一化、序列化、二值化和缺失值处理等，这里主要以sklearn和pandas作为
工具对数据进行操作。

##编码
编码方式常用的方式主要有标签编码（LabelEncoder）和独热编码（OneHotEncoder）

标签编码：
望文生义，标签编码就是有多少个标签生成多少个编码

独热编码：简单地说就是有多少离散特征就有多少比特
1）关于为什么要将特征向量映射到欧式空间？
一个总要的考量是用独热编码将离散特征扩展到欧式空间，是的距离计算更加合理，因为常用的距离和相似度的计算都是在欧式空间上展开计算的
2）优缺点：
优点：解决了机器学习中难以处理的属性数据的问题，因为电脑是无法理解属性的，此外一定程度上起到了扩展特征的作用
缺点：特征很多的时候会造成特征空间很大，有时候需要降维操作
3）需要注意的是很多基于树的算法是不用独热编码的，对于决策树来说独热编码实质上是增加树的深度，就像上面提到的扩展特征的作用。


In [1]:
#基于sklearn的编码
#这里采用机器学习实战中隐形眼镜的数据集
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
import pandas as pd 

with open('lenses.txt', 'r') as fr:                                        #加载文件
    lenses = [inst.strip().split('\t') for inst in fr.readlines()]        #处理文件
lenses_target = []                                                        #提取每组数据的类别，保存在列表里
for each in lenses:
    lenses_target.append(each[-1])
print(lenses_target)

lensesLabels = ['age', 'prescript', 'astigmatic', 'tearRate']            #特征标签       
lenses_list = []                                                        #保存lenses数据的临时列表
lenses_dict = {}                                                        #保存lenses数据的字典，用于生成pandas
for each_label in lensesLabels:                                            #提取信息，生成字典
    for each in lenses:
        lenses_list.append(each[lensesLabels.index(each_label)])
    lenses_dict[each_label] = lenses_list
    lenses_list = []
# print(lenses_dict)                                             #打印字典信息
lenses_pd = pd.DataFrame(lenses_dict)                        #生成pandas.DataFrame
lenses_pd_copy=lenses_pd.copy()
print(lenses_pd)                                            #打印pandas.DataFrame
le = LabelEncoder()                                         #创建LabelEncoder()对象，用于序列化           
for col in lenses_pd.columns:                               #序列化
    lenses_pd[col] = le.fit_transform(lenses_pd[col])
print(lenses_pd)  

['no lenses', 'soft', 'no lenses', 'hard', 'no lenses', 'soft', 'no lenses', 'hard', 'no lenses', 'soft', 'no lenses', 'hard', 'no lenses', 'soft', 'no lenses', 'no lenses', 'no lenses', 'no lenses', 'no lenses', 'hard', 'no lenses', 'soft', 'no lenses', 'no lenses']
           age astigmatic prescript tearRate
0        young         no     myope  reduced
1        young         no     myope   normal
2        young        yes     myope  reduced
3        young        yes     myope   normal
4        young         no     hyper  reduced
5        young         no     hyper   normal
6        young        yes     hyper  reduced
7        young        yes     hyper   normal
8          pre         no     myope  reduced
9          pre         no     myope   normal
10         pre        yes     myope  reduced
11         pre        yes     myope   normal
12         pre         no     hyper  reduced
13         pre         no     hyper   normal
14         pre        yes     hyper  reduced
15         p

In [2]:
#one-hot
le = OneHotEncoder()                                                  
le.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])       # fit来学习编码
le.transform([[0, 1, 3]]).toarray()                        # 进行编码

In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


array([[1., 0., 0., 1., 0., 0., 0., 0., 1.]])

###
array([[1., 0., 0., 1., 0., 0., 0., 0., 1.]])的理解
0 0 3     左边的数据矩阵，第一列为第一个特征维度有两种取值0\1. 所以对应编码方式为10 、01
1 1 0     同理，第二列为第二个特征维度，有三种取值0\1\2，所以对应编码方式为100、010、001
0 2 1     同理，第三列为第三个特征维度，有四中取值0\1\2\3，所以对应编码方式为1000、0100、           0010、0001
1 0 2
结果中1,0；对应[0,1,3]中的0第一列只有两个取值
0,1,0 对应[0,1,3]中1该列有三个取值
0,0,0,1 对应[0,1,3]中的3该列有4个取值


数据标准化,去除均值和方差缩放Standardization or mean removal and variance scaling 
数据标准化可以实现数据中心化，0均值单位方差 zero mean and unit variance.


In [3]:
#标准化之后均值为0 ，方差为1
from sklearn import preprocessing
import numpy as np

X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])
X_scaled = preprocessing.scale(X_train)
X_scaled                                          

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [4]:
#检查均值
X_scaled.mean(axis=0)

array([0., 0., 0.])

In [5]:
#检查std
X_scaled.std(axis=0)

array([1., 1., 1.])

In [6]:
#使用StandardScaler使标准化应用在测试集上：保存标准化参数
scaler = preprocessing.StandardScaler().fit(X_train)
scaler

StandardScaler(copy=True, with_mean=True, with_std=True)

In [7]:
scaler.mean_   

array([1.        , 0.        , 0.33333333])

In [8]:
scaler.transform(X_train)   

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [10]:
#pepiline也可以实现类似功能
from sklearn.pipeline import make_pipeline
from sklearn import svm
from sklearn import model_selection
from sklearn.datasets import load_iris
iris=load_iris()
clf = make_pipeline(preprocessing.StandardScaler(), svm.SVC(C=1))
model_selection.cross_val_score(clf, iris.data, iris.target, cv=3)

array([0.98039216, 0.90196078, 0.97916667])

 Scaling features to a range
 将特征的取值缩小到一个范围（如0到1）
 使用这种缩放的动机包括对非常小的特征标准差的鲁棒性，以及在稀疏数矩阵中保持零项。 
 两个常用方法：MinMaxScaler or MaxAbsScaler

In [11]:
#MinMaxScaler方法（x-min）/max
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])
min_max_scaler = preprocessing.MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train)
X_train_minmax


array([[0.5       , 0.        , 1.        ],
       [1.        , 0.5       , 0.33333333],
       [0.        , 1.        , 0.        ]])

In [12]:
#MaxAbsScaler方法 x/max
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])

max_abs_scaler = preprocessing.MaxAbsScaler()
X_train_maxabs = max_abs_scaler.fit_transform(X_train)
X_train_maxabs                

array([[ 0.5, -1. ,  1. ],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  1. , -0.5]])

 Non-linear transformation
 非线性转化提供两种方法：QuantileTransformer and quantile_transform（幂转换） 
 分位数变换和幂变换都是基于特征的单调变换，从而保持每个特征值的秩
 分位变换在公式G−1(f(X)的基础上，将所有特征放入相同的期望分布中，其中f是特征的累积分布函数，G−1是期望输出分布G的分位函数。公式条件：(1）如果x是一个具有连续累积分布函数f的随机变量，那么f(X)在[0，1]上均匀分布；(2)如果u是[0，1]上分布均匀的随机变量，则G−1(U)具有G分布。通过进行秩变换，分位数变换消除了不寻常分布，比缩放方法更少受异常值的影响。然而，它确实扭曲了特征内部和之间的相关性和距离。
幂变换是一类参数变换，其目的是将数据从任意分布映射到接近高斯分布的位置。 

 

In [13]:
#映射到均匀分布
'''QuantileTransformer and quantile_transform
提供了一种非参数转换，将数据映射到值介于0到1之间的均匀分布
'''
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
#preprocessing.QuantileTransformer
quantile_transformer = preprocessing.QuantileTransformer(random_state=0)
X_train_trans = quantile_transformer.fit_transform(X_train)
X_test_trans = quantile_transformer.transform(X_test)
"""就是计算X_train[:,0]d第一列排序后的的[0,25,50,75,100]%数"""
np.percentile(X_train[:, 0], [0, 25, 50, 75, 100]) 


  % (self.n_quantiles, n_samples))


array([4.3, 5.1, 5.8, 6.5, 7.9])

In [14]:
#分位数转化之后
X_train_trans

array([[0.54954955, 0.43693694, 0.48198198, 0.59009009],
       [0.50900901, 0.16216216, 0.42342342, 0.41441441],
       [0.85135135, 0.43693694, 0.80630631, 0.85135135],
       [0.06756757, 0.66666667, 0.04504505, 0.13513514],
       [0.87837838, 0.57657658, 0.71621622, 0.93243243],
       [0.17567568, 0.86936937, 0.27927928, 0.32432432],
       [0.31981982, 0.91441441, 0.1981982 , 0.13513514],
       [0.17567568, 0.        , 0.35135135, 0.35585586],
       [0.74324324, 0.43693694, 0.80630631, 0.7027027 ],
       [0.80630631, 0.74774775, 0.86486486, 1.        ],
       [0.57657658, 0.01351351, 0.67117117, 0.59009009],
       [0.80630631, 0.11261261, 0.89189189, 0.7027027 ],
       [0.4009009 , 0.11261261, 0.4009009 , 0.38738739],
       [0.97747748, 0.43693694, 0.94144144, 0.93243243],
       [0.65315315, 0.74774775, 0.5990991 , 0.63063063],
       [0.36036036, 0.06306306, 0.38738739, 0.38738739],
       [0.65315315, 0.20720721, 0.63963964, 0.7027027 ],
       [0.65315315, 0.26576577,

In [15]:
#结果就是一边会无限接近0，另一端无限接近1 
np.percentile(X_train_trans[:, 0], [0, 25, 50, 75, 100])

array([0.        , 0.23873874, 0.50900901, 0.74324324, 1.        ])

幂转换提供两种方式yeo-Johnson变换和box-cox变换。
其中yeo-Johnson变换
$$\begin{split}x_i^{(\lambda)} =
\begin{cases}
 [(x_i + 1)^\lambda - 1] / \lambda & \text{if } \lambda \neq 0, x_i \geq 0, \\[8pt]
\ln{(x_i) + 1} & \text{if } \lambda = 0, x_i \geq 0 \\[8pt]
-[(-x_i + 1)^{2 - \lambda} - 1] / (2 - \lambda) & \text{if } \lambda \neq 2, x_i < 0, \\[8pt]
 - \ln (- x_i + 1) & \text{if } \lambda = 2, x_i < 0
\end{cases}\end{split}$$

其中box-cox变换
$$\begin{split}x_i^{(\lambda)} =
\begin{cases}
\dfrac{x_i^\lambda - 1}{\lambda} & \text{if } \lambda \neq 0, \\[8pt]
\ln{(x_i)} & \text{if } \lambda = 0,
\end{cases}\end{split}$$



In [16]:
'''Mapping to a Gaussian distribution
映射到高斯分布
'''
from sklearn import  preprocessing
import numpy as np

pt = preprocessing.PowerTransformer(method='box-cox', standardize=False)
'''lognormal对数正态分布
数正态分布（logarithmic normal distribution）是指一个随机变量的对数服从正态分布，
则该随机变量服从对数正态分布。对数正态分布从短期来看，与正态分布非常接近
但长期来看，对数正态分布向上分布的数值更多一些。
'''
X_lognormal = np.random.RandomState(616).lognormal(size=(3, 3))
X_lognormal                                         



array([[1.28331718, 1.18092228, 0.84160269],
       [0.94293279, 1.60960836, 0.3879099 ],
       [1.35235668, 0.21715673, 1.09977091]])

In [4]:

result=pt.fit_transform(X_lognormal)
result

array([[ 0.49024349,  0.17881995, -0.1563781 ],
       [-0.05102892,  0.58863195, -0.57612414],
       [ 0.69420009, -0.84857822,  0.10051454]])

In [18]:
'''还可以通过设置Output_Distribution=‘Normal’，
使用Quantile转换器将数据映射到正态分布'''
quantile_transformer = preprocessing.QuantileTransformer(
                        output_distribution='normal', random_state=0)
X_trans = quantile_transformer.fit_transform(X)
quantile_transformer.quantiles_

  % (self.n_quantiles, n_samples))


array([[4.3, 2. , 1. , 0.1],
       [4.4, 2.2, 1.1, 0.1],
       [4.4, 2.2, 1.2, 0.1],
       [4.4, 2.2, 1.2, 0.1],
       [4.5, 2.3, 1.3, 0.1],
       [4.6, 2.3, 1.3, 0.2],
       [4.6, 2.3, 1.3, 0.2],
       [4.6, 2.3, 1.3, 0.2],
       [4.6, 2.4, 1.3, 0.2],
       [4.7, 2.4, 1.3, 0.2],
       [4.7, 2.4, 1.3, 0.2],
       [4.8, 2.5, 1.4, 0.2],
       [4.8, 2.5, 1.4, 0.2],
       [4.8, 2.5, 1.4, 0.2],
       [4.8, 2.5, 1.4, 0.2],
       [4.8, 2.5, 1.4, 0.2],
       [4.9, 2.5, 1.4, 0.2],
       [4.9, 2.5, 1.4, 0.2],
       [4.9, 2.5, 1.4, 0.2],
       [4.9, 2.6, 1.4, 0.2],
       [4.9, 2.6, 1.4, 0.2],
       [4.9, 2.6, 1.4, 0.2],
       [5. , 2.6, 1.4, 0.2],
       [5. , 2.6, 1.4, 0.2],
       [5. , 2.7, 1.5, 0.2],
       [5. , 2.7, 1.5, 0.2],
       [5. , 2.7, 1.5, 0.2],
       [5. , 2.7, 1.5, 0.2],
       [5. , 2.7, 1.5, 0.2],
       [5. , 2.7, 1.5, 0.2],
       [5. , 2.7, 1.5, 0.2],
       [5. , 2.7, 1.5, 0.2],
       [5.1, 2.7, 1.5, 0.2],
       [5.1, 2.8, 1.5, 0.2],
       [5.1, 2

In [19]:
#正则化Normalization
'''
正则化是对单个样本进行定标，使其具有单位范数的过程。
如果您计划使用二次型(如点积或任何其他内核)来量化任意一对样本的相似性，
则此过程可能非常有用。这种假设是文本分类和聚类环境中常用的向量空间模型的基础。
函数Normalize提供了一种在单个类似数组的数据集上执行此操作的快速、
简便的方法，无论是使用l1或l2规范： '''
X = [[ 1., -1.,  2.],
    [ 2.,  0.,  0.],
    [ 0.,  1., -1.]]
X_normalized = preprocessing.normalize(X, norm='l2')
X_normalized                                      


array([[ 0.40824829, -0.40824829,  0.81649658],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

In [20]:
normalizer = preprocessing.Normalizer().fit(X)  # fit does nothing
normalizer

Normalizer(copy=True, norm='l2')

In [22]:
normalizer.transform(X)

array([[ 0.40824829, -0.40824829,  0.81649658],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

 Discretization离散化
离散化(也称为量化或绑定)提供了一种将连续特征划分为离散值的方法。某些具有连续特征的数据集可能受益于离散化，因为离散化可以将连续属性的数据集转换为仅具有名义属性的数据集。一个热编码的离散特征可以使模型更有表现力，同时保持可解释性。
这里主要说明两种方法
K-bins discretization和Feature binarization

In [24]:
''' K-bins discretization
k-离散化'''
X = np.array([[ -3., 5., 15 ],
            [  0., 6., 14 ],
            [  6., 3., 11 ]])
est = preprocessing.KBinsDiscretizer(n_bins=[3, 2, 2], encode='ordinal').fit(X)
est.transform(X)

array([[0., 1., 1.],
       [1., 1., 1.],
       [2., 0., 0.]])

In [25]:
'''Feature binarization
特征二分法'''
X = [[ 1., -1.,  2.],
    [ 2.,  0.,  0.],
    [ 0.,  1., -1.]]

binarizer = preprocessing.Binarizer().fit(X)  # fit does nothing
binarizer

Binarizer(copy=True, threshold=0.0)

In [26]:
binarizer.transform(X)

array([[1., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.]])

In [28]:
#设置阈值
binarizer=preprocessing.Binarizer(threshold=1.1)
binarizer.transform(X)

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 0.]])

关于缺省值的除一般用pandas来处理

In [31]:
from numpy import nan as NA 
import pandas as pd
data=pd.DataFrame([[1,6.5,3],[1,NA,NA],[NA,2,NA],[2,3,4]])
data1=data.copy()
data1.fillna(0)


Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,0.0,0.0
2,0.0,2.0,0.0
3,2.0,3.0,4.0


In [32]:
data1.fillna({0:1,1:2,2:3})

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,2.0,3.0
2,1.0,2.0,3.0
3,2.0,3.0,4.0


In [36]:
#生成多项式特征
import numpy as np
from sklearn.preprocessing import PolynomialFeatures
X = np.arange(6).reshape(3, 2)
X

array([[0, 1],
       [2, 3],
       [4, 5]])

In [37]:
poly=PolynomialFeatures(2)
poly.fit_transform(X)

array([[ 1.,  0.,  1.,  0.,  0.,  1.],
       [ 1.,  2.,  3.,  4.,  6.,  9.],
       [ 1.,  4.,  5., 16., 20., 25.]])

包括特征$$(1, X_1, X_2, X_1^2, X_1X_2, X_2^2)$$

In [39]:
#定制转换器
import numpy as np
from sklearn.preprocessing import FunctionTransformer

transformer=FunctionTransformer(np.log1p,validate=True)
X=np.array([[0,1],[2,3]])  
transformer.transform(X)

array([[0.        , 0.69314718],
       [1.09861229, 1.38629436]])