# 特征工程

特征工程案例演示通过使用scikit-learn对iris数据集合进行展示  
数据集可以使用自带的，也可以使用本地数据集  
numpy，pandas的DataFrame的数据结构 scikit-learn是可以直接使用的。  

IRIS数据集由Fisher在1936年整理,包含4个特征（Sepal.Length（花萼长度）、Sepal.Width（花萼宽度）、Petal.Length（花瓣长度）、Petal.Width（花瓣宽度）），特征值都为正浮点数，单位为厘米。   
目标值为鸢尾花的分类（Iris Setosa（山鸢尾）、Iris Versicolour（杂色鸢尾），Iris Virginica（维吉尼亚鸢尾））

In [3]:
from sklearn.datasets import load_iris
#导入IRIS数据集
iris = load_iris()

In [4]:
# 第二种读入方式
# import pandas as pd
# pth = r'C:\Users\qing.liu\Desktop\python\iris.csv'
# df = pd.read_csv(pth, sep = ',')

In [30]:
#特征矩阵
iris.data[:10]

array([[ 5.1,  3.5,  1.4,  0.2],
       [ 4.9,  3. ,  1.4,  0.2],
       [ 4.7,  3.2,  1.3,  0.2],
       [ 4.6,  3.1,  1.5,  0.2],
       [ 5. ,  3.6,  1.4,  0.2],
       [ 5.4,  3.9,  1.7,  0.4],
       [ 4.6,  3.4,  1.4,  0.3],
       [ 5. ,  3.4,  1.5,  0.2],
       [ 4.4,  2.9,  1.4,  0.2],
       [ 4.9,  3.1,  1.5,  0.1]])

In [26]:
#目标向量
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

# 标准化   
标准化的前提是特征值服从正态分布，标准化后，其转换成标准正态分布。区间缩放法利用了边界值信息，将特征的取值区间缩放到某个特点的范围，例如[0, 1]等, 公式如下：  

$$  x^{'} = \frac{x-\bar{X}}{S}  $$

In [6]:
from sklearn.preprocessing import StandardScaler
 
#标准化，返回值为标准化后的数据
StandardScaler().fit_transform(iris.data)[:10]

array([[-0.90068117,  1.03205722, -1.3412724 , -1.31297673],
       [-1.14301691, -0.1249576 , -1.3412724 , -1.31297673],
       [-1.38535265,  0.33784833, -1.39813811, -1.31297673],
       [-1.50652052,  0.10644536, -1.2844067 , -1.31297673],
       [-1.02184904,  1.26346019, -1.3412724 , -1.31297673],
       [-0.53717756,  1.95766909, -1.17067529, -1.05003079],
       [-1.50652052,  0.80065426, -1.3412724 , -1.18150376],
       [-1.02184904,  0.80065426, -1.2844067 , -1.31297673],
       [-1.74885626, -0.35636057, -1.3412724 , -1.31297673],
       [-1.14301691,  0.10644536, -1.2844067 , -1.4444497 ]])

# 区间缩放法  
 利用两个极值进行缩放，公式如下：   
 
 $$  x^{'} = \frac{x - Min}{Max - Min}   $$

In [7]:
from sklearn.preprocessing import MinMaxScaler

#区间缩放，返回值为缩放到[0, 1]区间的数据
MinMaxScaler().fit_transform(iris.data)[:10]

array([[ 0.22222222,  0.625     ,  0.06779661,  0.04166667],
       [ 0.16666667,  0.41666667,  0.06779661,  0.04166667],
       [ 0.11111111,  0.5       ,  0.05084746,  0.04166667],
       [ 0.08333333,  0.45833333,  0.08474576,  0.04166667],
       [ 0.19444444,  0.66666667,  0.06779661,  0.04166667],
       [ 0.30555556,  0.79166667,  0.11864407,  0.125     ],
       [ 0.08333333,  0.58333333,  0.06779661,  0.08333333],
       [ 0.19444444,  0.58333333,  0.08474576,  0.04166667],
       [ 0.02777778,  0.375     ,  0.06779661,  0.04166667],
       [ 0.16666667,  0.45833333,  0.08474576,  0.        ]])

# 归一化
$$  x^{'} = \frac{x}{\sqrt{\sum_{j}^{m} x \left [ j \right ]^{2}}}  $$

In [8]:
from sklearn.preprocessing import Normalizer

#归一化，返回值为归一化后的数据
Normalizer().fit_transform(iris.data)[:10]

array([[ 0.80377277,  0.55160877,  0.22064351,  0.0315205 ],
       [ 0.82813287,  0.50702013,  0.23660939,  0.03380134],
       [ 0.80533308,  0.54831188,  0.2227517 ,  0.03426949],
       [ 0.80003025,  0.53915082,  0.26087943,  0.03478392],
       [ 0.790965  ,  0.5694948 ,  0.2214702 ,  0.0316386 ],
       [ 0.78417499,  0.5663486 ,  0.2468699 ,  0.05808704],
       [ 0.78010936,  0.57660257,  0.23742459,  0.0508767 ],
       [ 0.80218492,  0.54548574,  0.24065548,  0.0320874 ],
       [ 0.80642366,  0.5315065 ,  0.25658935,  0.03665562],
       [ 0.81803119,  0.51752994,  0.25041771,  0.01669451]])

#  定量特征二值化

In [9]:
from sklearn.preprocessing import Binarizer

#二值化，阈值设置为3，返回值为二值化后的数据
Binarizer(threshold=3).fit_transform(iris.data)[:10]

array([[ 1.,  1.,  0.,  0.],
       [ 1.,  0.,  0.,  0.],
       [ 1.,  1.,  0.,  0.],
       [ 1.,  1.,  0.,  0.],
       [ 1.,  1.,  0.,  0.],
       [ 1.,  1.,  0.,  0.],
       [ 1.,  1.,  0.,  0.],
       [ 1.,  1.,  0.,  0.],
       [ 1.,  0.,  0.,  0.],
       [ 1.,  1.,  0.,  0.]])

# 对定性特征哑编码

In [12]:
from sklearn.preprocessing import OneHotEncoder

#哑编码，对IRIS数据集的目标值，返回值为哑编码后的数据
OneHotEncoder().fit_transform(iris.target.reshape((-1,1))).toarray()[:10]

array([[ 1.,  0.,  0.],
       [ 1.,  0.,  0.],
       [ 1.,  0.,  0.],
       [ 1.,  0.,  0.],
       [ 1.,  0.,  0.],
       [ 1.,  0.,  0.],
       [ 1.,  0.,  0.],
       [ 1.,  0.,  0.],
       [ 1.,  0.,  0.],
       [ 1.,  0.,  0.]])

# 缺失值处理  
由于IRIS数据集没有缺失值，故对数据集新增一个样本，4个特征均赋值为NaN，表示数据缺失。

In [21]:
#缺失值计算，返回值为计算缺失值后的数据
from numpy import vstack, array, nan
from sklearn.preprocessing import Imputer

#参数missing_value为缺失值的表示形式，默认为NaN
data = vstack((array([nan, nan, nan, nan]), iris.data))

#参数strategy为缺失值填充方式，默认为mean 均值, median 中位数, most_frequent  众数
Imputer( strategy='mean' ).fit_transform(data)[:10]   

array([[ 5.84333333,  3.054     ,  3.75866667,  1.19866667],
       [ 5.1       ,  3.5       ,  1.4       ,  0.2       ],
       [ 4.9       ,  3.        ,  1.4       ,  0.2       ],
       [ 4.7       ,  3.2       ,  1.3       ,  0.2       ],
       [ 4.6       ,  3.1       ,  1.5       ,  0.2       ],
       [ 5.        ,  3.6       ,  1.4       ,  0.2       ],
       [ 5.4       ,  3.9       ,  1.7       ,  0.4       ],
       [ 4.6       ,  3.4       ,  1.4       ,  0.3       ],
       [ 5.        ,  3.4       ,  1.5       ,  0.2       ],
       [ 4.4       ,  2.9       ,  1.4       ,  0.2       ]])

In [17]:
data[:10]   # 添加的行

array([[ nan,  nan,  nan,  nan],
       [ 5.1,  3.5,  1.4,  0.2],
       [ 4.9,  3. ,  1.4,  0.2],
       [ 4.7,  3.2,  1.3,  0.2],
       [ 4.6,  3.1,  1.5,  0.2],
       [ 5. ,  3.6,  1.4,  0.2],
       [ 5.4,  3.9,  1.7,  0.4],
       [ 4.6,  3.4,  1.4,  0.3],
       [ 5. ,  3.4,  1.5,  0.2],
       [ 4.4,  2.9,  1.4,  0.2]])

# 多项式转换  
多项式就是多元回归的一个变种，只不过是原来需要传入的是X向量，而多项式则只要一个x值就行。通过将x扩展为指定阶数的向量  
常见的数据变换有基于多项式的、基于指数函数的、基于对数函数的。4个特征，度为2的多项式转换公式如下：  


$$  (x_{1}^{'}, x_{2}^{'}, x_{3}^{'}, x_{4}^{'}, x_{5}^{'}, x_{6}^{'}, x_{7}^{'}, x_{8}^{'}, x_{9}^{'}, x_{10}^{'}, x_{11}^{'}, x_{12}^{'}, x_{13}^{'}, x_{14}^{'}, x_{15}^{'}) = (1, x_{1}, x_{2}, x_{3}, x_{4}, x_{1}^{2}, x_{1}*x_{2},  x_{1}*x_{3},x_{1}*x_{4}, x_{2}^{2}, x_{2}*x_{2},  x_{2}*x_{3},x_{2}*x_{4},x_{3}^{2}, x_{3}*x_{4})  $$

In [24]:
from sklearn.preprocessing import PolynomialFeatures

# 参数degree为度，默认值为2
PolynomialFeatures().fit_transform(iris.data)[:3]

array([[  1.  ,   5.1 ,   3.5 ,   1.4 ,   0.2 ,  26.01,  17.85,   7.14,
          1.02,  12.25,   4.9 ,   0.7 ,   1.96,   0.28,   0.04],
       [  1.  ,   4.9 ,   3.  ,   1.4 ,   0.2 ,  24.01,  14.7 ,   6.86,
          0.98,   9.  ,   4.2 ,   0.6 ,   1.96,   0.28,   0.04],
       [  1.  ,   4.7 ,   3.2 ,   1.3 ,   0.2 ,  22.09,  15.04,   6.11,
          0.94,  10.24,   4.16,   0.64,   1.69,   0.26,   0.04]])

#  基于自定义的函数变换

基于单变元函数的数据变换可以使用一个统一的方式完成， 以下为自定义转换函数为对数函数的数据变换：

In [56]:
from numpy import log1p
from sklearn.preprocessing import FunctionTransformer

#第一个参数是单变元函数
FunctionTransformer(log1p).fit_transform(iris.data)[:10]

array([[ 1.80828877,  1.5040774 ,  0.87546874,  0.18232156],
       [ 1.77495235,  1.38629436,  0.87546874,  0.18232156],
       [ 1.74046617,  1.43508453,  0.83290912,  0.18232156],
       [ 1.7227666 ,  1.41098697,  0.91629073,  0.18232156],
       [ 1.79175947,  1.5260563 ,  0.87546874,  0.18232156],
       [ 1.85629799,  1.58923521,  0.99325177,  0.33647224],
       [ 1.7227666 ,  1.48160454,  0.87546874,  0.26236426],
       [ 1.79175947,  1.48160454,  0.91629073,  0.18232156],
       [ 1.68639895,  1.36097655,  0.87546874,  0.18232156],
       [ 1.77495235,  1.41098697,  0.91629073,  0.09531018]])

# 特征选择   



当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说，从两个方面考虑来选择特征：   

特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。   

特征与目标的相关性：与目标相关性高的特征，应当优选选择。  



除方差法外，介绍的其他方法均从相关性考虑。　  　

根据特征选择的形式又可以将特征选择方法分为3种：   

Filter：过滤法，按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。   

Wrapper：包装法，根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。  

Embedded：集成法，先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。类似于Filter方法，但是是通过训练来确定特征的优劣。

#  方差选择法 

使用方差选择法，先要计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征

In [27]:
from sklearn.feature_selection import VarianceThreshold

#参数threshold为方差的阈值
VarianceThreshold(threshold=3).fit_transform(iris.data)[:10]

array([[ 1.4],
       [ 1.4],
       [ 1.3],
       [ 1.5],
       [ 1.4],
       [ 1.7],
       [ 1.4],
       [ 1.5],
       [ 1.4],
       [ 1.5]])

# 相关系数法
使用相关系数法，先要计算各个特征对目标值的相关系数以及相关系数的P值

In [28]:
from sklearn.feature_selection import SelectKBest
from scipy.stats import pearsonr

#选择K个最好的特征，返回选择特征后的数据
#第一个参数为计算评估特征是否好的函数，该函数输入特征矩阵和目标向量，输出二元组（评分，P值）的数组，数组第i项为第i个特征的评分和P值。在此定义为计算相关系数
#参数k为选择的特征个数
SelectKBest(lambda X, Y: array(map(lambda x:pearsonr(x, Y), X.T)).T, k=2).fit_transform(iris.data, iris.target)[:10]

array([[ 1.4,  0.2],
       [ 1.4,  0.2],
       [ 1.3,  0.2],
       [ 1.5,  0.2],
       [ 1.4,  0.2],
       [ 1.7,  0.4],
       [ 1.4,  0.3],
       [ 1.5,  0.2],
       [ 1.4,  0.2],
       [ 1.5,  0.1]])

# 卡方检验  

经典的卡方检验是检验定性自变量对定性因变量的相关性。假设自变量有N种取值，因变量有M种取值，考虑自变量等于i且因变量等于j的样本频数的观察值与期望的差距，构建统计量：  

$$   x^{2} = \sum \frac{\left ( A - E \right )^{2}}{E}  $$

In [53]:
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

#选择K个最好的特征，返回选择特征后的数据
SelectKBest(chi2, k=2).fit_transform(iris.data, iris.target)[:10]

array([[ 1.4,  0.2],
       [ 1.4,  0.2],
       [ 1.3,  0.2],
       [ 1.5,  0.2],
       [ 1.4,  0.2],
       [ 1.7,  0.4],
       [ 1.4,  0.3],
       [ 1.5,  0.2],
       [ 1.4,  0.2],
       [ 1.5,  0.1]])

# 互信息

评价定性自变量对定性因变量的相关性的

In [32]:
# 添加环境变量
import sys
sys.path.append('C:\\Anaconda2\\lib\\site-packages\\minepy-1.2.0-py2.7-win-amd64.egg')

from sklearn.feature_selection import SelectKBest
from minepy import MINE
 
#由于MINE的设计不是函数式的，定义mic方法将其为函数式的，返回一个二元组，二元组的第2项设置成固定的P值0.5
def mic(x, y):
    m = MINE()
    m.compute_score(x, y)
    return (m.mic(), 0.5)

#选择K个最好的特征，返回特征选择后的数据
SelectKBest(lambda X, Y: array(map(lambda x:mic(x, Y), X.T)).T, k=2).fit_transform(iris.data, iris.target)[:10]

array([[ 1.4,  0.2],
       [ 1.4,  0.2],
       [ 1.3,  0.2],
       [ 1.5,  0.2],
       [ 1.4,  0.2],
       [ 1.7,  0.4],
       [ 1.4,  0.3],
       [ 1.5,  0.2],
       [ 1.4,  0.2],
       [ 1.5,  0.1]])

# 递归特征消除法

递归消除特征法使用一个基模型来进行多轮训练，每轮训练后，消除若干权值系数的特征，再基于新的特征集进行下一轮训练

In [33]:
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

#参数estimator为基模型
#参数n_features_to_select为选择的特征个数
RFE(estimator=LogisticRegression(), n_features_to_select=2).fit_transform(iris.data, iris.target)[:10]

array([[ 3.5,  0.2],
       [ 3. ,  0.2],
       [ 3.2,  0.2],
       [ 3.1,  0.2],
       [ 3.6,  0.2],
       [ 3.9,  0.4],
       [ 3.4,  0.3],
       [ 3.4,  0.2],
       [ 2.9,  0.2],
       [ 3.1,  0.1]])

# 基于惩罚项的特征选择法

使用带惩罚项的基模型，除了筛选出特征外，同时也进行了降维

正则项是用来防止过拟合的，有L0， L1， L2三种。   
L1：
$$  C = C_{0} + \frac{\lambda }{\eta }\left | \omega  \right | $$   
L2:   
$$  C = C_{0} + \frac{\lambda }{2 \eta }\sum \omega ^{2}  $$   

L2可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0。 
人们普遍认为：更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合刚刚好

In [50]:
from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import LogisticRegression

#带L1惩罚项的逻辑回归作为基模型的特征选择
SelectFromModel(LogisticRegression(penalty="l1", C=0.1)).fit_transform(iris.data, iris.target)[:10]

array([[ 5.1,  3.5,  1.4],
       [ 4.9,  3. ,  1.4],
       [ 4.7,  3.2,  1.3],
       [ 4.6,  3.1,  1.5],
       [ 5. ,  3.6,  1.4],
       [ 5.4,  3.9,  1.7],
       [ 4.6,  3.4,  1.4],
       [ 5. ,  3.4,  1.5],
       [ 4.4,  2.9,  1.4],
       [ 4.9,  3.1,  1.5]])

实际上，L1惩罚项降维的原理在于保留多个对目标值具有同等相关性的特征中的一个，所以没选到的特征不代表不重要。
故，可结合L2惩罚项来优化。
具体操作为：若一个特征在L1中的权值为1，选择在L2中权值差别不大且在L1中权值为0的特征构成同类集合，将这一集合中的特征平分L1中的权值，故需要构建一个新的逻辑回归模型

In [35]:
from sklearn.linear_model import LogisticRegression

class LR(LogisticRegression):
    def __init__(self, threshold=0.01, dual=False, tol=1e-4, C=1.0,
                 fit_intercept=True, intercept_scaling=1, class_weight=None,
                 random_state=None, solver='liblinear', max_iter=100,
                 multi_class='ovr', verbose=0, warm_start=False, n_jobs=1):

        #权值相近的阈值
        self.threshold = threshold
        LogisticRegression.__init__(self, penalty='l1', dual=dual, tol=tol, C=C,
                 fit_intercept=fit_intercept, intercept_scaling=intercept_scaling, class_weight=class_weight,
                 random_state=random_state, solver=solver, max_iter=max_iter,
                 multi_class=multi_class, verbose=verbose, warm_start=warm_start, n_jobs=n_jobs)
        #使用同样的参数创建L2逻辑回归
        self.l2 = LogisticRegression(penalty='l2', dual=dual, tol=tol, C=C, fit_intercept=fit_intercept, intercept_scaling=intercept_scaling, class_weight = class_weight, random_state=random_state, solver=solver, max_iter=max_iter, multi_class=multi_class, verbose=verbose, warm_start=warm_start, n_jobs=n_jobs)

    def fit(self, X, y, sample_weight=None):
        #训练L1逻辑回归
        super(LR, self).fit(X, y, sample_weight=sample_weight)
        self.coef_old_ = self.coef_.copy()
        #训练L2逻辑回归
        self.l2.fit(X, y, sample_weight=sample_weight)

        cntOfRow, cntOfCol = self.coef_.shape
        #权值系数矩阵的行数对应目标值的种类数目
        for i in range(cntOfRow):
            for j in range(cntOfCol):
                coef = self.coef_[i][j]
                #L1逻辑回归的权值系数不为0
                if coef != 0:
                    idx = [j]
                    #对应在L2逻辑回归中的权值系数
                    coef1 = self.l2.coef_[i][j]
                    for k in range(cntOfCol):
                        coef2 = self.l2.coef_[i][k]
                        #在L2逻辑回归中，权值系数之差小于设定的阈值，且在L1中对应的权值为0
                        if abs(coef1-coef2) < self.threshold and j != k and self.coef_[i][k] == 0:
                            idx.append(k)
                    #计算这一类特征的权值系数均值
                    mean = coef / len(idx)
                    self.coef_[i][idx] = mean
        return self

In [36]:
from sklearn.feature_selection import SelectFromModel
 
#带L1和L2惩罚项的逻辑回归作为基模型的特征选择
#参数threshold为权值系数之差的阈值
SelectFromModel(LR(threshold=0.5, C=0.1)).fit_transform(iris.data, iris.target)[:10]

array([[ 5.1,  3.5,  1.4,  0.2],
       [ 4.9,  3. ,  1.4,  0.2],
       [ 4.7,  3.2,  1.3,  0.2],
       [ 4.6,  3.1,  1.5,  0.2],
       [ 5. ,  3.6,  1.4,  0.2],
       [ 5.4,  3.9,  1.7,  0.4],
       [ 4.6,  3.4,  1.4,  0.3],
       [ 5. ,  3.4,  1.5,  0.2],
       [ 4.4,  2.9,  1.4,  0.2],
       [ 4.9,  3.1,  1.5,  0.1]])

# 基于树模型的特征选择法

树模型中GBDT也可用来作为基模型进行特征选择

In [37]:
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import GradientBoostingClassifier

#GBDT作为基模型的特征选择
SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data, iris.target)[:10]

array([[ 1.4,  0.2],
       [ 1.4,  0.2],
       [ 1.3,  0.2],
       [ 1.5,  0.2],
       [ 1.4,  0.2],
       [ 1.7,  0.4],
       [ 1.4,  0.3],
       [ 1.5,  0.2],
       [ 1.4,  0.2],
       [ 1.5,  0.1]])

# 降维  

当特征选择完成后，可以直接训练模型了，但是可能由于特征矩阵过大，导致计算量大，训练时间长的问题，因此降低特征矩阵维度也是必不可少的。

常见的降维方法除了以上提到的基于L1惩罚项的模型以外，另外还有主成分分析法（PCA）和线性判别分析（LDA），线性判别分析本身也是一个分类模型。  

PCA和LDA有很多的相似点，其本质是要将原始的样本映射到维度更低的样本空间中，但是PCA和LDA的映射目标不一样：  

PCA是为了让映射后的样本具有最大的发散性；而LDA是为了让映射后的样本有最好的分类性能。  

所以说PCA是一种无监督的降维方法，而LDA是一种有监督的降维方法。

In [46]:
# PCA 从高维空间线性映射到低维空间
from sklearn.decomposition import PCA

#主成分分析法，返回降维后的数据
#参数n_components为主成分数目
PCA(n_components=2).fit_transform(iris.data)[:10]

array([[-2.68420713, -0.32660731],
       [-2.71539062,  0.16955685],
       [-2.88981954,  0.13734561],
       [-2.7464372 ,  0.31112432],
       [-2.72859298, -0.33392456],
       [-2.27989736, -0.74778271],
       [-2.82089068,  0.08210451],
       [-2.62648199, -0.17040535],
       [-2.88795857,  0.57079803],
       [-2.67384469,  0.1066917 ]])

In [41]:
# LDA

from sklearn.lda import LDA

#线性判别分析法，返回降维后的数据
#参数n_components为降维后的维数
LDA(n_components=2).fit_transform(iris.data, iris.target)[:10]

# 划分训练集及测试集

In [56]:
from sklearn.cross_validation import train_test_split 
import numpy as np

X = LDA(n_components=2).fit_transform(iris.data, iris.target)
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0) 
# 为了看模型在没有见过数据集上的表现

# 训练模型及验证

In [58]:
from sklearn.linear_model import LinearRegression
lin = LogisticRegression(C=1000.0, random_state=0)

lin.fit(X_train, y_train) 
LinearRegression(copy_X=True, fit_intercept=True, normalize=False)

lin.score(X_test, y_test) 

0.97777777777777775

# 文本挖掘特征处理

主要以gensim为处理工具，将

In [5]:
# 添加环境变量
import sys
sys.path.append('C:\\Anaconda2\\lib\\site-packages\\gensim-0.12.4-py2.7-win-amd64.egg')
sys.path.append( 'c:\\anaconda2\\lib\\site-packages\\smart_open-1.3.2-py2.7.egg')

import re
from gensim import corpora, models, similarities

In [55]:
# 文本
string = ["Google and Pinterest each have new ways to search using images.",
          "Both companies believe that people who search images may want more than just a picture of the exact item searched.",
          "Many people might seek more general information related to what is in a photo.People want to see similar images.",
          "If you find a piece of clothing you like in images, for example, you may want to see more of the same style.",
          "Or, maybe you are searching images of prepared food. ",
          "You may want the recipes connected to the pictured dish.",
          "If you are searching for a travel setting, maybe you would like to see images of similar places.",
          "Google and Pinterest now have ways to seek such additional information.",
          "These new features might inspire you with ideas, as well as provide direct answers."]

In [56]:
stoplist = set('for a of the and to in'.split())
texts = [[ word for word in re.split(r'[ .,]', sentence.lower())  if word not in stoplist and word <> ''] for sentence in string]

In [58]:
# 统计词频
from collections import defaultdict
frequency = defaultdict(int)
for words in texts:
    for token in words:
        frequency[token] += 1

In [62]:
texts = [[token for token in text if frequency[token] > 1] for text in texts]

In [59]:
dictionary = corpora.Dictionary(texts)

In [61]:
#显示单词及位置
print(dictionary.token2id)  

{u'now': 59, u'google': 1, u'want': 18, u'just': 11, u'people': 12, u'photo': 32, u'is': 28, u'searching': 46, u'related': 29, u'general': 30, u'direct': 66, u'dish': 50, u'see': 31, u'are': 48, u'have': 5, u'such': 58, u'images': 7, u'seek': 26, u'find': 38, u'might': 34, u'information': 24, u'what': 25, u'maybe': 45, u'additional': 60, u'would': 57, u'pinterest': 2, u'ways': 3, u'clothing': 41, u'travel': 54, u'ideas': 64, u'same': 37, u'food': 44, u'setting': 55, u'features': 61, u'new': 4, u'you': 39, u'if': 43, u'searched': 19, u'pictured': 53, u'more': 23, u'picture': 10, u'provide': 67, u'that': 17, u'may': 13, u'who': 14, u'style': 35, u'answers': 65, u'prepared': 47, u'connected': 52, u'using': 8, u'believe': 20, u'exact': 21, u'than': 22, u'both': 9, u'search': 0, u'like': 36, u'places': 56, u'these': 62, u'many': 27, u'recipes': 51, u'with': 69, u'companies': 15, u'as': 68, u'or': 49, u'item': 16, u'each': 6, u'well': 63, u'inspire': 70, u'piece': 40, u'similar': 33, u'examp

In [67]:
# 返回list中 单词的位置ID和频次
corpus = [dictionary.doc2bow(text) for text in texts]

# list(corpus)

In [68]:
corpora.MmCorpus.serialize(r'C:\Users\qing.liu\Desktop\python\corpus.mm', corpus)
#  SvmLightCorpus, svmlight
#  BleiCorpus,  lda-c
#  LowCorpus,   low
# load    corpus = corpora.MmCorpus('/tmp/corpus.mm')

In [78]:
#  Compatibility with NumPy and SciPy
import gensim
import numpy as np
numpy_matrix = np.random.randint(10, size=[5,2])  # random matrix as an example


corpus = gensim.matutils.Dense2Corpus(numpy_matrix)
numpy_matrix = gensim.matutils.corpus2dense(corpus, num_terms=5)

In [79]:
import scipy.sparse
scipy_sparse_matrix = scipy.sparse.random(5,2)  # random sparse matrix as example
corpus = gensim.matutils.Sparse2Corpus(scipy_sparse_matrix)
scipy_csc_matrix = gensim.matutils.corpus2csc(corpus)

In [81]:
# tfidf 指标统计
tfidf = models.TfidfModel(corpus)

In [84]:
# 应用tfidf指标
doc_bow = [(0, 1), (1, 1)]
print(tfidf[doc_bow])

[]


# Word2Vec

In [105]:
model = Word2Vec(words[0], min_count=1)