# 特征工程

## 1. 特征提取
将任意数据（文本、图像等）转换为可用于机器学习的数字特征

### 1.1 字典特征提取

In [1]:
from sklearn.feature_extraction import DictVectorizer

In [2]:
data = [{'city': '北京','temperature':100}, 
        {'city': '上海','temperature':60}, 
        {'city': '深圳','temperature':30}]

# 1、实例化一个转换器类
transfer = DictVectorizer(sparse=True)

# 2、调用fit_transform()
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new.toarray(), type(data_new))
print("特征名字：\n", transfer.get_feature_names_out())

data_new:
 [[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]] <class 'scipy.sparse._csr.csr_matrix'>
特征名字：
 ['city=上海' 'city=北京' 'city=深圳' 'temperature']


### 1.2 文本特征提取

#### 1.2.1 CountVectorizer: 统计词频, 忽略单个字符

In [3]:
from sklearn.feature_extraction.text import CountVectorizer

In [4]:
data = ["Life is short,I like python", "Life is too long,I dislike python"]

# 1、实例化一个转换器类, stop_words为停用词，剔除一些无用词
transfer = CountVectorizer(stop_words=["is", "too"])

# 2、调用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new.toarray())
print("特征名字：\n", transfer.get_feature_names_out())

data_new:
 [[0 1 1 0 1 1]
 [1 1 0 1 1 0]]
特征名字：
 ['dislike' 'life' 'like' 'long' 'python' 'short']


In [5]:
# 中文文本数据如果不采用空格或符号分开，会将一整个句子当作一个字
data = ["我爱北京天安门", "天安门上太阳升"]
# 1、实例化一个转换器类
transfer = CountVectorizer()

# 2、调用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new.toarray())
print("特征名字：\n", transfer.get_feature_names_out())

data_new:
 [[0 1]
 [1 0]]
特征名字：
 ['天安门上太阳升' '我爱北京天安门']


In [6]:
# 需要对中文句子进行分词处理
data = ["我 爱 北京 天安门", "天安门 上 太阳 升"]
# 1、实例化一个转换器类
transfer = CountVectorizer()

# 2、调用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new.toarray())
print("特征名字：\n", transfer.get_feature_names_out())

data_new:
 [[1 1 0]
 [0 1 1]]
特征名字：
 ['北京' '天安门' '太阳']


In [7]:
# 使用jieba自动分词
import jieba
data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
        "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
        "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]

# 1、分词
data_new = []
for i in range(len(data)):
    data_new.append(' '.join(list(jieba.cut(data[i]))))

transfer = CountVectorizer(stop_words=["一种", "所以"])

# 2、调用fit_transform
data_final = transfer.fit_transform(data_new)
print("data_new:\n", data_final.toarray())
print("特征名字：\n", transfer.get_feature_names_out())

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache


Loading model cost 0.435 seconds.
Prefix dict has been built successfully.


data_new:
 [[0 1 0 0 0 2 0 0 0 0 0 1 0 1 0 0 0 0 1 0 2 0 1 0 2 1 0 0 0 1 1 0 0 1 0]
 [0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 0 1 3 0 0 0 1 0 0 0 0 2 0 0 0 0 0 1 0 1]
 [1 0 0 4 3 0 0 0 0 1 1 0 1 0 1 1 0 1 0 1 0 0 0 1 0 0 0 2 1 0 0 1 0 0 0]]
特征名字：
 ['不会' '不要' '之前' '了解' '事物' '今天' '光是在' '几百万年' '发出' '取决于' '只用' '后天' '含义'
 '大部分' '如何' '如果' '宇宙' '我们' '放弃' '方式' '明天' '星系' '晚上' '某样' '残酷' '每个' '看到'
 '真正' '秘密' '绝对' '美好' '联系' '过去' '还是' '这样']


#### 1.2.2 TfidfVectorizer: 
- tf: term frequency,词频=某个词在该文本中出现的次数/该文本中所有词的总数
- idf: inverse document frequency,逆向文档频率=log10(总文件数目/包含该词语的文件数)
- tf*idf: 希望词在一个类别文章中出现的频率很高，在其他类别的文章中那个出现的频率很低,以便于得到更具有代表性的关键词

In [8]:
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer

In [9]:
data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
        "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
        "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]

# 1、分词
data_new = []
for i in range(len(data)):
    data_new.append(' '.join(list(jieba.cut(data[i]))))

transfer = TfidfVectorizer(stop_words=["一种", "所以"])

# 2、调用fit_transform
data_final = transfer.fit_transform(data_new)
print("data_new:\n", data_final.toarray())
print("特征名字：\n", transfer.get_feature_names_out())

data_new:
 [[0.         0.21821789 0.         0.         0.         0.43643578
  0.         0.         0.         0.         0.         0.21821789
  0.         0.21821789 0.         0.         0.         0.
  0.21821789 0.         0.43643578 0.         0.21821789 0.
  0.43643578 0.21821789 0.         0.         0.         0.21821789
  0.21821789 0.         0.         0.21821789 0.        ]
 [0.         0.         0.2410822  0.         0.         0.
  0.2410822  0.2410822  0.2410822  0.         0.         0.
  0.         0.         0.         0.         0.2410822  0.55004769
  0.         0.         0.         0.2410822  0.         0.
  0.         0.         0.48216441 0.         0.         0.
  0.         0.         0.2410822  0.         0.2410822 ]
 [0.15895379 0.         0.         0.63581516 0.47686137 0.
  0.         0.         0.         0.15895379 0.15895379 0.
  0.15895379 0.         0.15895379 0.15895379 0.         0.12088845
  0.         0.15895379 0.         0.         0.     