# 特征工程一：数据的特征抽取

## <mark style=background-color:pink>什么是特征抽取<mark>
    
特征抽取就是对**文本**等数据进行特征值化（转换为**数值型数据**）

## <mark style=background-color:pink>sklearn中特征抽取的API<mark>
    
- **sklearn.feature_extraction**
- **sklearn.feature_extraction.text**

## <mark style=background-color:pink>对字典数据特征抽取：DictVectorizer<mark>
    
- 类：**sklearn.feature_extraction.DictVectorizer**
- 作用：对字典数据进行特征值化
- 实例化语法：**dictvec=DictVectorizer(sparse=True，...)**


In [2]:
#导入字典特征抽取的类
from sklearn.feature_extraction import DictVectorizer

### <mark>实例化方法一：**dictvec.fit_transform(X)**<mark>

其中X为**字典或者包含字典的迭代器**，返回值：返回**sparse矩阵**

In [4]:
#实例化字典特征抽取的类
dictvec = DictVectorizer()

In [12]:
#需要进行特征抽取的<包含字典的迭代器>
X = [{'city':'北京','temperature':29},{'city':'上海','temperature':31},{'city':'深圳','temperature':30}]

In [13]:
#通过实例化方法dictvec.fit_transform()对<包含字典的迭代器>X进行特征抽取
data = dictvec.fit_transform(X)

In [14]:
#对字典数据X进行特征抽取后的返回值为sparse矩阵
print(data)

  (0, 1)	1.0
  (0, 3)	29.0
  (1, 0)	1.0
  (1, 3)	31.0
  (2, 2)	1.0
  (2, 3)	30.0


为了更好地理解sparse矩阵，使用另一个实例化方法

### <mark>实例化方法二：**dictvec.get_feature_names()**<mark>
    
返回对字典数据X特征抽取后的**类别名称**，也就是**特征名称**

In [16]:
#通过实例化方法dictvec.get_feature_names()查看特征抽取后的特征名称
print(dictvec.get_feature_names())

['city=上海', 'city=北京', 'city=深圳', 'temperature']


In [17]:
#再将sparse矩阵转化为多维数组
print(data.toarray())

[[ 0.  1.  0. 29.]
 [ 1.  0.  0. 31.]
 [ 0.  0.  1. 30.]]


则可以对sparse矩阵进行解读:

|'city=上海'|'city=北京'|'city=深圳'|'temperature'|
|-----------|----------|-----------|-------------|
|   0.      |      1.  |     0.    |     29.     |
|   1.      |      0.  |     0.    |     31.     |
|   0.      |      0.  |     1.    |     30.     |

  (0, 1)-1.0:：第一行，第二列的数据为1.0
  
  (0, 3)-29.0：第一行，第四列的数据为29.0
  
  (1, 0)-1.0：第二行，第一列的数据为1.0
  
  (1, 3)-31.0：第二行，第四列的数据为31.0
  
  (2, 2)-1.0：第三行，第三列的数据为1.0
  
  (2, 3)-30.0：第三行，第四列的数据为30.0
  
  其他位置全为0

### <mark>实例化方法三：**dictvec.inverse_transform(X)**<mark>
    
其中X为**array数组或者sparse矩阵**，返回值：返回**转换之前的数据格式**

In [18]:
data_inverse = dictvec.inverse_transform(data)
data_inverse

[{'city=北京': 1.0, 'temperature': 29.0},
 {'city=上海': 1.0, 'temperature': 31.0},
 {'city=深圳': 1.0, 'temperature': 30.0}]

## <mark style=background-color:pink>对文本数据特征抽取：CountVectorizer<mark>
    
- 类：**sklearn.feature_extraction.text.CountVectorizerr**
- 作用：对文本数据进行特征值化，统计所有文本中所有的词，重复的只看做一次，形成词的列表，再对每个文本，在词的列表里面对每个词出现的次数，单个词不进行统计
- 实例化语法：**countvec=CountVectorizer()**

In [19]:
#导入文本特征抽取的类
from sklearn.feature_extraction.text import CountVectorizer

### <mark>实例化方法一：**countvec.fit_transform(X)**<mark>

其中X为**文本或者包含文本字符串的可迭代对象**，返回值：返回**sparse矩阵**

In [20]:
#实例化文本特征抽取的类
countvec = CountVectorizer()

In [21]:
#需要进行特征抽取的<包含文本字符串的迭代器>
X = ["life is short, i like python","life is too long，i dislike python"]

In [23]:
#通过实例化方法countvec.fit_transform()对<包含文本字符串的迭代器>X进行特征抽取
data = countvec.fit_transform(X)

In [24]:
#对文本数据X进行特征抽取后的返回值为sparse矩阵
print(data)

  (0, 2)	1
  (0, 1)	1
  (0, 6)	1
  (0, 3)	1
  (0, 5)	1
  (1, 2)	1
  (1, 1)	1
  (1, 5)	1
  (1, 7)	1
  (1, 4)	1
  (1, 0)	1


为了更好地理解sparse矩阵，使用另一个实例化方法

### <mark>实例化方法二：**countvec.get_feature_names()**<mark>
    
返回对文本数据X特征抽取后的**类别名称**，也就是**特征名称**

In [25]:
#通过实例化方法countvec.get_feature_names()查看特征抽取后的特征名称
print(countvec.get_feature_names())

['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']


In [26]:
#再将sparse矩阵转化为多维数组
print(data.toarray())

[[0 1 1 1 0 1 1 0]
 [1 1 1 0 1 1 0 1]]


则可以对sparse矩阵进行解读:

|两篇文章中词的列表：|'dislike'|'is'|'life'|'like'|'long'|'python'|'short'|'too'|
|---------|---------|----|------|------|------|--------|-------|-----|
|第一篇文章|0|1|1|1|0|1|1|0|
|第二篇文章|1|1|1|0|1|1|0|1|

- 0：文章中没有出现这个词
- 1：文章中这个词出现过一次
- 注：单个字母或者单个中文词是不被统计进词的列表的


### <mark style=background-color:orange>实例化方法二：**countvec.get_feature_names()的补充**<mark>
    
当文本数据由
    
    X = ["life is short, i like python","life is too long，i dislike python"]

变为
    
    X = ["人生苦短,我爱python","人生漫长,厌恶python"]

词的列表会否发生变化？

In [28]:
#需要进行特征抽取的<包含文本字符串的迭代器>
X = ["人生苦短,我爱python","人生漫长,厌恶python"]

In [29]:
#通过实例化方法countvec.fit_transform()对<包含文本字符串的迭代器>X进行特征抽取
data = countvec.fit_transform(X)
#通过实例化方法countvec.get_feature_names()查看特征抽取后的特征名称
print(countvec.get_feature_names())

['人生漫长', '人生苦短', '厌恶python', '我爱python']


可是这不是想要的效果，想要的效果应当是类似以下词的列表
    
    ['人生','漫长', '苦短', '厌恶','python']
    
为了解决中文词的列表的提取的问题，<包含文本字符串的迭代器>X应该形如

    X=["人生 苦短,我爱 python","人生 漫长,厌恶 python"]
    
这需要借助**jieba**库

In [44]:
#导入jieba库
import jieba
#需要进行特征抽取的<包含文本字符串的迭代器>
X = ["人生苦短,我爱python","人生漫长,厌恶python"]
#利用jieba帮助X变为形如X=["人生 苦短,我爱 python","人生 漫长,厌恶 python"]
X_cut_list=[]
for i in X:
    X_cut_list.append(' '.join(list(jieba.cut(i))))
#打印看X是否变化
print(X_cut_list)
#通过实例化方法countvec.fit_transform()对<包含文本字符串的迭代器>X进行特征抽取
data = countvec.fit_transform(X_cut_list)
#通过实例化方法countvec.get_feature_names()查看特征抽取后的特征名称
print(countvec.get_feature_names())

['人生 苦短 , 我 爱 python', '人生 漫长 , 厌恶 python']
['python', '人生', '厌恶', '漫长', '苦短']


## <mark style=background-color:pink>对文本数据特征抽取：TfidfVectorizer<mark>
    
- 主要思想：如果某个人词或短语在一篇文章中出现的概率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类
- **tf**：term frequency 词在某篇文档中出现的频率
- **idf**：inverse document frequency 逆文档频率 **idf=log(总文档数量/该词出现的总文档数)**
- **tf*idf**：词的重要性程度
- 类：**sklearn.feature_extraction.text.TfidfVectorizerr**
- 作用：用以评估一个词对于一个文件或者一个语料库中的其中一份文件的重要程度
- 实例化语法：**TfidfVectorizer(stop_words=None)**

In [33]:
#导入文本特征抽取的类
from sklearn.feature_extraction.text import TfidfVectorizer

### <mark>实例化方法一：**tfidfvec.fit_transform(X)**<mark>

其中X为**文本或者包含文本字符串的可迭代对象**，返回值：返回**sparse矩阵**,返回词的**权重矩阵**

In [34]:
#实例化文本特征抽取的类
tfidfvec = TfidfVectorizer()

In [35]:
#需要进行特征抽取的<包含文本字符串的迭代器>
X = ["life is short, i like python","life is too long，i dislike python"]

In [36]:
#通过实例化方法countvec.fit_transform()对<包含文本字符串的迭代器>X进行特征抽取
data = tfidfvec.fit_transform(X)

In [37]:
#对文本数据X进行特征抽取后的返回值为sparse矩阵
print(data)

  (0, 5)	0.3793034928087496
  (0, 3)	0.5330978245262535
  (0, 6)	0.5330978245262535
  (0, 1)	0.3793034928087496
  (0, 2)	0.3793034928087496
  (1, 0)	0.47042642808546326
  (1, 4)	0.47042642808546326
  (1, 7)	0.47042642808546326
  (1, 5)	0.33471227807190734
  (1, 1)	0.33471227807190734
  (1, 2)	0.33471227807190734


为了更好地理解sparse矩阵，使用另一个实例化方法

### <mark>实例化方法二：**tfidfvec.get_feature_names()**<mark>
    
返回对文本数据X特征抽取后的**类别名称**，也就是**特征名称**

In [40]:
#通过实例化方法tfidfvec.get_feature_names()查看特征抽取后的特征名称
print(tfidfvec.get_feature_names())

['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']


In [41]:
#再将sparse矩阵转化为多维数组
print(data.toarray())

[[0.         0.37930349 0.37930349 0.53309782 0.         0.37930349
  0.53309782 0.        ]
 [0.47042643 0.33471228 0.33471228 0.         0.47042643 0.33471228
  0.         0.47042643]]


则可以对sparse矩阵进行解读:

|两篇文章中词的列表：|'dislike'|'is'|'life'|'like'|'long'|'python'|'short'|'too'|
|---------|---------|----|------|------|------|--------|-------|-----|
|第一篇文章|0.|0.37930349|0.37930349|0.53309782|0.|0.37930349|0.53309782|0.|
|第二篇文章|0.47042643|0.33471228|0.33471228|0.|0.47042643|0.33471228|0.|0.47042643|

返回词的**权重矩阵**