# 特征工程

对特征值的数据处理

## 特征抽取(提取)

将任意数据（如文本或图像）转换为可用于机器学习的数字特征

### 特征提取API

```py
sklearn.feature_extraction
```

### 字典特征提取

对字典数据进行特征值化

应用场景：
1. 数据集当中类别特征多(gender等)
2. 数据类型为字典类型

```py
sklearn.feature_extraction.DictVectorizer(sparse=True) # 实例化一个转换器类的实例
# Vector 向量
# sparse=True 返回sparse矩阵
# sparse=False 返回二维数组

# 实例化对象调用：
DictVectorizer.fit_transform(X) # X:字典或者包含字典的迭代器  返回值：返回sparse矩阵
# 一个键有几种值，该特征对应的就有几列
# sparse矩阵中有 toarray() 方法将sparse转为数组

DictVectorizer.inverse_transform(X) # X:array数组或者sparse矩阵  返回值:转换之前数据格式
DictVectorizer.get_feature_names() # 返回类别名称
```

### 示例

In [1]:
from sklearn.feature_extraction import DictVectorizer

In [2]:
data = [
  {'city': '北京','temperature':100},
  {'city': '上海','temperature':60},
  {'city': '深圳','temperature':30}
]
transfer = DictVectorizer()

data_new1 = transfer.fit_transform(data)
# data_new1
print(data_new1)
# 使用稀疏矩阵节省内存

  (0, 1)	1.0
  (0, 3)	100.0
  (1, 0)	1.0
  (1, 3)	60.0
  (2, 2)	1.0
  (2, 3)	30.0


In [3]:
transfer = DictVectorizer(sparse=False)
data_new2 = transfer.fit_transform(data)
data_new2

array([[  0.,   1.,   0., 100.],
       [  1.,   0.,   0.,  60.],
       [  0.,   0.,   1.,  30.]])

In [4]:
names = transfer.get_feature_names()
names



['city=上海', 'city=北京', 'city=深圳', 'temperature']

### 文本特征抽取 CountVectorizer

对文本数据进行特征值化

```py
sklearn.feature_extraction.text.CountVectorizer(stop_words=[])
# 返回词频矩阵
# stop_words 停用词，不进行统计的词

CountVectorizer.fit_transform(X) # X:文本或者包含文本字符串的可迭代对象 返回值：返回sparse矩阵
# 标点符号 单个字母不进行统计
# 返回的矩阵中每行为每个字符串中单词出现的次数，没有出现为0

CountVectorizer.inverse_transform(X) # X:array数组或者sparse矩阵 返回值:转换之前数据格
CountVectorizer.get_feature_names() # 返回值:单词列表
```

In [5]:
import imp
from sklearn.feature_extraction.text import CountVectorizer

  import imp


In [6]:
data = [
  "life is short,i like like python",
  "life is too long,i dislike python"
]
transfer = CountVectorizer()
data_new1 = transfer.fit_transform(data)
# data_new1
print(data_new1)

  (0, 2)	1
  (0, 1)	1
  (0, 6)	1
  (0, 3)	2
  (0, 5)	1
  (1, 2)	1
  (1, 1)	1
  (1, 5)	1
  (1, 7)	1
  (1, 4)	1
  (1, 0)	1


In [7]:
data_new2 = data_new1.toarray()
data_new2

array([[0, 1, 1, 2, 0, 1, 1, 0],
       [1, 1, 1, 0, 1, 1, 0, 1]], dtype=int64)

In [8]:
transfer.get_feature_names()

['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']

#### 停用词

In [9]:
data = [
  "life is short,i like like python",
  "life is too long,i dislike python"
]
transfer = CountVectorizer(stop_words=['is', 'like'])
data_new1 = transfer.fit_transform(data)
# data_new1
print(data_new1.toarray(), transfer.get_feature_names())

[[0 1 0 1 1 0]
 [1 1 1 1 0 1]] ['dislike', 'life', 'long', 'python', 'short', 'too']


### 中文文本特征抽取

In [10]:
data = [
  "你好你好你好啊",
  "你也好你好"
]
# 中文进行特征抽取，整句话会被认为一个词，因为中文词之间没有空格
transfer = CountVectorizer()
data_new = transfer.fit_transform(data)
data_new.toarray()

array([[0, 1],
       [1, 0]], dtype=int64)

In [11]:
data = [
  "你好 你好 你好 啊 背景",
  "你也好 你好"
]
# 手动进行分词
# 单个字不进行统计
transfer = CountVectorizer()
data_new = transfer.fit_transform(data)
print(data_new.toarray(), transfer.get_feature_names())

[[0 3 1]
 [1 1 0]] ['你也好', '你好', '背景']


#### 中文文本特征抽取 自动分词 

使用jieba进行分词处理

安装jieba库：
```
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba
```

```py
jieba.cut()
# 返回词语组成的生成器
```

In [12]:
import jieba

In [13]:
text = "我爱北京天安门"
a = jieba.cut(text)
print(a)
a = " ".join(list(a)) # 强转成列表，进行字符串的拼接
print(a)

<generator object Tokenizer.cut at 0x000001CF3F8EA880>


Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\cw\AppData\Local\Temp\jieba.cache
Loading model cost 0.869 seconds.
Prefix dict has been built successfully.


我 爱 北京 天安门


#### 示例

In [14]:
data = [
  "一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
  "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
  "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"
]
# 分词
new_data = []
for i in data:
  new_text = " ".join(list(jieba.cut(i)))
  new_data.append(new_text)
print(new_data)
# 抽取特征值
transfer = CountVectorizer()
new_data2 = transfer.fit_transform(new_data)
print(transfer.get_feature_names())
print(new_data2.toarray()) # sparse 数组转成二维数组

['一种 还是 一种 今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。', '我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去 。', '如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。']
['一种', '不会', '不要', '之前', '了解', '事物', '今天', '光是在', '几百万年', '发出', '取决于', '只用', '后天', '含义', '大部分', '如何', '如果', '宇宙', '我们', '所以', '放弃', '方式', '明天', '星系', '晚上', '某样', '残酷', '每个', '看到', '真正', '秘密', '绝对', '美好', '联系', '过去', '还是', '这样']
[[2 0 1 0 0 0 2 0 0 0 0 0 1 0 1 0 0 0 0 1 1 0 2 0 1 0 2 1 0 0 0 1 1 0 0 1
  0]
 [0 0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 0 1 3 0 0 0 0 1 0 0 0 0 2 0 0 0 0 0 1 0
  1]
 [1 1 0 0 4 3 0 0 0 0 1 1 0 1 0 1 1 0 1 0 0 1 0 0 0 1 0 0 0 2 1 0 0 1 0 0
  0]]


### 文本特征抽取 TfidfVectorizer

TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的概率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

TF-IDF作用：用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

TF-IDF：分类机器学习算法进行文章分类中前期数据处理方式

#### 公式

TF -- 词频（term frequency，tf）指的是某一个给定的词语在该文件中出现的频率
$$tf_{i,j} = \frac{第i篇文章j词语出现的次数}{第i篇文章总词数}$$

IDF -- 逆向文档频率（inverse document frequency，idf）是一个词语普遍重要性的度量。某一特定词语的idf，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到
$$idf = \log_{10}{\frac{总文章数目}{包含该词语的文章数目}} $$

$$tfidf_{i,j} = tf_{i,j} \times idf$$

```py
sklearn.feature_extraction.text.TfidfVectorizer(stop_words=[])
```

```py
TfidfVectorizer.fit_transform(X) # X: 文本或包含文本字符串的可迭代对象  返回值：词的权重矩阵
TfidfVectorizer.inverse_transform(X) # X：array数组或sparse矩阵  返回值：转换之前的数据格式
TfidfVectorizer.get_feature_names() # 返回值：单词列表
```

#### 示例

In [15]:
from sklearn.feature_extraction.text import TfidfVectorizer 

In [16]:
data = [
  "一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
  "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
  "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"
]
# 分词
new_data = []
for i in data:
  new_text = " ".join(list(jieba.cut(i)))
  new_data.append(new_text)
print(new_data)
# 抽取特征值
transfer = TfidfVectorizer()
new_data2 = transfer.fit_transform(new_data)
print(transfer.get_feature_names())
print(new_data2.toarray()) # sparse 数组转成二维数组
# 数值越大在对应的文章中越重要，越具有分类意义

['一种 还是 一种 今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。', '我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去 。', '如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。']
['一种', '不会', '不要', '之前', '了解', '事物', '今天', '光是在', '几百万年', '发出', '取决于', '只用', '后天', '含义', '大部分', '如何', '如果', '宇宙', '我们', '所以', '放弃', '方式', '明天', '星系', '晚上', '某样', '残酷', '每个', '看到', '真正', '秘密', '绝对', '美好', '联系', '过去', '还是', '这样']
[[0.30847454 0.         0.20280347 0.         0.         0.
  0.40560694 0.         0.         0.         0.         0.
  0.20280347 0.         0.20280347 0.         0.         0.
  0.         0.20280347 0.20280347 0.         0.40560694 0.
  0.20280347 0.         0.40560694 0.20280347 0.         0.
  0.         0.20280347 0.20280347 0.         0.         0.20280347
  0.        ]
 [0.         0.         0.         0.2410822  0.         0.
  0.         0.2410822  0.2410822  0.2410822  0.         0.
  0.         