### 定义：使用特定的技巧和知识处理数据，使数据在算法上发挥更好的作用
    工具：sklearn
    特征抽取/提取：
    将任意数据类型（文本或图片）转化为可用于机器学习的数字特征
    字典特征提取
    文本特征提取
    图片特征提取
    
    使用sklearn中的方法可以作到特征提取 sklearn.feature_extraction
    字典特征提取：
    sklearn.feature_extraction.DictVectorizer

In [1]:
# 导入特征提取的方法
from sklearn.feature_extraction import DictVectorizer

In [36]:
# 构建字典类型的数据
data = [
    {'city': '北京', 'temperature': 100, 'salary': 6000},
    {'city': '上海', 'temperature': 80, 'salary': 5000},
    {'city': '深证', 'temperature': 64, 'salary': 8000},
    {'city': '杭州', 'temperature': 40, 'salary': 7000},
    {'city': '北京', 'temperature': 10, 'salary': 4000},
    
    ]

In [37]:
# 实例化转换器类，转化器中有参数sparse 默认为True
transfer = DictVectorizer()  # sparse=False
# 调用转换器中的方法：fit_transform() 返回一个sparse矩阵(稀疏矩阵，使用数组坐标表示特征值类型)
new_data = transfer.fit_transform(data)
print(new_data)

# 查看特征名
transfer.get_feature_names()

# 使用 toarray 将数据转化为二维数组
new_data.toarray()

# 稀疏数组结果如下，
# 括号中数字 表示其在二维数组中的位置， 后面那个数据为特征值

  (0, 1)	1.0
  (0, 4)	6000.0
  (0, 5)	100.0
  (1, 0)	1.0
  (1, 4)	5000.0
  (1, 5)	80.0
  (2, 3)	1.0
  (2, 4)	8000.0
  (2, 5)	64.0
  (3, 2)	1.0
  (3, 4)	7000.0
  (3, 5)	40.0
  (4, 1)	1.0
  (4, 4)	4000.0
  (4, 5)	10.0


array([[0.0e+00, 1.0e+00, 0.0e+00, 0.0e+00, 6.0e+03, 1.0e+02],
       [1.0e+00, 0.0e+00, 0.0e+00, 0.0e+00, 5.0e+03, 8.0e+01],
       [0.0e+00, 0.0e+00, 0.0e+00, 1.0e+00, 8.0e+03, 6.4e+01],
       [0.0e+00, 0.0e+00, 1.0e+00, 0.0e+00, 7.0e+03, 4.0e+01],
       [0.0e+00, 1.0e+00, 0.0e+00, 0.0e+00, 4.0e+03, 1.0e+01]])

### 
sparse = Ture时的结果展示，以数组的坐标表示特征的类型，
    (0, 1)	1.0
    (0, 4)	100.0
    (1, 0)	1.0
    (1, 4)	80.0
    (2, 3)	1.0
    (2, 4)	64.0
    (3, 2)	1.0
    (3, 4)	40.0

sparse = False时的结果展示，
     [[  0.   1.   0.   0. 100.]
     [  1.   0.   0.   0.  80.]
     [  0.   0.   0.   1.  64.]
     [  0.   0.   1.   0.  40.]]

### 文本类数据特征提取
    使用单词作为特征
    方法1：
    CountVectorizer()
    实例化转化器对象 --> 调用fit_transform()方法 同字典数据的特征提取
    
    使用stop_words可以不统计其中部分词汇

In [20]:
from sklearn.feature_extraction.text import CountVectorizer

In [32]:
data2 = ['I do not like work good work', 'i want python python', 'life is so tired python']
stop_words = ['is', 'so','do']
transfer = CountVectorizer(stop_words=stop_words)
new_data2 = transfer.fit_transform(data2)

print(new_data2)
print(transfer.get_feature_names())
print(new_data2.toarray())

# 结果如下，括号中前一个数字表示数据集中的索引位置，后一个表示 特征词在特征名列表中的索引， 
# 单独列出来的数字表示 在文本中出现的词数

  (0, 0)	1
  (0, 7)	2
  (0, 2)	1
  (0, 3)	1
  (1, 4)	2
  (1, 6)	1
  (2, 5)	1
  (2, 1)	1
  (2, 4)	1
['good', 'life', 'like', 'not', 'python', 'tired', 'want', 'work']
[[1 0 1 1 0 0 0 2]
 [0 0 0 0 2 0 1 0]
 [0 1 0 0 1 1 0 0]]


###  对于中文文本特征提取，可以使用分词库将中文文本进行分词，然后进行特征提取

In [39]:
# 中文分词库  jieba  jieba.cut()

### 关键词提取 TF-IDF文本特征提取
    使用：TfidfVectorirzer()
    思想：如果某个词语或短语在一篇文章中出现的频次很高，但是在其他文章中出现的次数很少，这样的词语适合用来进行分类
    作用：衡量一个词在某篇文章中的重要程度
    计算：tf * idf
        tf:词频 某个单词在谋篇文章中出现的频率 如 一篇文章中有100个词语，某个单词出现了10次，则tf = 0.1
        idf:逆向文档词频，使用文件总数除以包含该词汇的文件数目，再将得到的商取以10为底的对数得到
            如：有1000篇文章，某个词汇在10篇文章中出现过，则 1000/10 =100  idf = log10 100 = 2
            

In [1]:
# 案例三
data3 = [
    '你我虽方外之人，这皮囊却还在欲界，暂处尘世，不得不防人口舌', 
    '年光似鸟翩翩过，世事如棋局局新。就算你再完美，再努力，也不可能每一次都赢，赢得了一盘，赢得了一天吗？赢得了一天，赢得了一世吗？这世上就没有常胜的将军，凡事尽力就好，不能对结果过于执着。',
    '真理不辩不明，没有输赢，佛法在心中，不在言辞之间',
    '追求爱情的勇气，守护爱情的决心，维持爱情的智慧',
    '恋爱是用来欣赏对方的优点，婚姻是用来忍受对方的缺点。'
    ]

In [2]:
import jieba

In [18]:
new_data3 = []
for da in data3:
    new_data3.append(' '.join(list(jieba.cut(da))))
    
print(new_data3)
stop_words = ['你', '我', '这', '在']

['你 我 虽 方外之人 ， 这 皮囊 却 还 在 欲界 ， 暂处 尘世 ， 不得不 防 人 口舌', '年光 似鸟 翩翩 过 ， 世事 如 棋局 局新 。 就算 你 再 完美 ， 再 努力 ， 也 不 可能 每 一次 都 赢 ， 赢得 了 一盘 ， 赢得 了 一天 吗 ？ 赢得 了 一天 ， 赢得 了 一世 吗 ？ 这 世上 就 没有 常胜 的 将军 ， 凡事 尽力 就 好 ， 不能 对 结果 过于 执着 。', '真理 不辩 不明 ， 没有 输赢 ， 佛法 在 心中 ， 不 在 言辞 之间', '追求 爱情 的 勇气 ， 守护 爱情 的 决心 ， 维持 爱情 的 智慧', '恋爱 是 用来 欣赏 对方 的 优点 ， 婚姻 是 用来 忍受 对方 的 缺点 。']


In [15]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [29]:
transform = TfidfVectorizer(stop_words=stop_words)
tt = transform.fit_transform(new_data3)
# print(tt.toarray())

print(transform.get_feature_names())
print(tt)

['一世', '一天', '一次', '一盘', '不得不', '不明', '不能', '不辩', '世上', '世事', '之间', '优点', '似鸟', '佛法', '决心', '凡事', '努力', '勇气', '口舌', '可能', '婚姻', '守护', '完美', '对方', '将军', '尘世', '就算', '尽力', '局新', '常胜', '年光', '心中', '忍受', '恋爱', '执着', '方外之人', '智慧', '暂处', '棋局', '欣赏', '欲界', '没有', '爱情', '用来', '皮囊', '真理', '结果', '维持', '缺点', '翩翩', '言辞', '赢得', '输赢', '过于', '追求']
  (0, 35)	0.3779644730092272
  (0, 44)	0.3779644730092272
  (0, 40)	0.3779644730092272
  (0, 37)	0.3779644730092272
  (0, 25)	0.3779644730092272
  (0, 4)	0.3779644730092272
  (0, 18)	0.3779644730092272
  (1, 30)	0.15312137424538233
  (1, 12)	0.15312137424538233
  (1, 49)	0.15312137424538233
  (1, 9)	0.15312137424538233
  (1, 38)	0.15312137424538233
  (1, 28)	0.15312137424538233
  (1, 26)	0.15312137424538233
  (1, 22)	0.15312137424538233
  (1, 16)	0.15312137424538233
  (1, 19)	0.15312137424538233
  (1, 2)	0.15312137424538233
  (1, 51)	0.6124854969815293
  (1, 3)	0.15312137424538233
  (1, 1)	0.30624274849076466
  (1, 0)	0.15312137424538233
  (1, 8)	0.153121374