# 特征提取的意义?
- 就是为了让计算器更好的取理解特征值

In [2]:
# 字典提取的API
from sklearn.feature_extraction import DictVectorizer

In [3]:
data = [{'city': '北京','temperature':100},
        {'city': '上海','temperature':60},
        {'city': '深圳','temperature':30}]

In [4]:
# 1.实例一个转换器
transfer = DictVectorizer()

# 2.调用fit_transform
data1 = transfer.fit_transform(data)


In [6]:
print(data1)

  (0, 1)	1.0
  (0, 3)	100.0
  (1, 0)	1.0
  (1, 3)	60.0
  (2, 2)	1.0
  (2, 3)	30.0


In [10]:
# 打印特征值的名称
transfer.get_feature_names()

['city=上海', 'city=北京', 'city=深圳', 'temperature']

In [13]:
# 1.实例一个转换器
# sparse=False 会把数据变成one-hot编码
transfer2 = DictVectorizer(sparse=False)

# 2.调用fit_transform
data2 = transfer2.fit_transform(data)


In [14]:
print(data2)

[[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]]


In [15]:
transfer.get_feature_names()

['city=上海', 'city=北京', 'city=深圳', 'temperature']

In [17]:
# 上海, 北京, 深圳, temperature
# 0     1    0     100
# 1     0    0     60 
# 0     0    1     30

# (0, 1)	1.0
# (0, 3)	100.0
# (1, 0)	1.0
# (1, 3)	60.0
# (2, 2)	1.0
# (2, 3)	30.0

# 文本特征提取

In [18]:
# api
from sklearn.feature_extraction.text import CountVectorizer

In [19]:
txt_data = ["life is short,i like like python", "life is too long,i dislike python"]

In [20]:
# 实例转换器
transfer3 = CountVectorizer()
# 调用fit_transform
data3 = transfer3.fit_transform(txt_data)

In [21]:
data3.toarray()

array([[0, 1, 1, 2, 0, 1, 1, 0],
       [1, 1, 1, 0, 1, 1, 0, 1]], dtype=int64)

In [22]:
transfer3.get_feature_names()

['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']

# 上面的是英文, 我们如果使用中文勒?

In [26]:
txt_data4 = ["人生苦短，我喜欢Python", "生活太长久，我不喜欢Python"]

In [31]:
# 实例转换器
transfer4 = CountVectorizer()
# 调用fit_transform
data4 = transfer4.fit_transform(txt_data4)

In [32]:
data4.toarray()

array([[1, 0, 1, 0],
       [0, 1, 0, 1]], dtype=int64)

In [33]:
transfer4.get_feature_names()

['人生苦短', '我不喜欢python', '我喜欢python', '生活太长久']

In [36]:
# 发现都是用逗号进行分割的, 这不是我想要的  我要的是单个词,单个字的哪种
# 解决方法:使用jieba分词

In [37]:
import jieba

def cut_word(data_list):
    text = " ".join(list(jieba.cut(data_list)))
    return text

In [41]:
ss = '我爱北京天安门'
" ".join(list(jieba.cut(ss)))

'我 爱 北京 天安门'

In [42]:
data_list = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
            "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]

In [43]:
txt_list = list()

for i in data_list:
    ret = cut_word(i)
    txt_list.append(ret)

In [44]:
txt_list

['一种 还是 一种 今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。',
 '我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去 。',
 '如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。']

In [45]:
transfer5 = CountVectorizer()

data5 = transfer5.fit_transform(txt_list)

In [47]:
data5.toarray()

array([[2, 0, 1, 0, 0, 0, 2, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0,
        2, 0, 1, 0, 2, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0],
       [0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 3, 0, 0, 0,
        0, 1, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 1, 0, 1],
       [1, 1, 0, 0, 4, 3, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1,
        0, 0, 0, 1, 0, 0, 0, 2, 1, 0, 0, 1, 0, 0, 0]], dtype=int64)

In [48]:
transfer5.get_feature_names()

['一种',
 '不会',
 '不要',
 '之前',
 '了解',
 '事物',
 '今天',
 '光是在',
 '几百万年',
 '发出',
 '取决于',
 '只用',
 '后天',
 '含义',
 '大部分',
 '如何',
 '如果',
 '宇宙',
 '我们',
 '所以',
 '放弃',
 '方式',
 '明天',
 '星系',
 '晚上',
 '某样',
 '残酷',
 '每个',
 '看到',
 '真正',
 '秘密',
 '绝对',
 '美好',
 '联系',
 '过去',
 '还是',
 '这样']

In [54]:
list(jieba.cut("生活太长久，我不喜欢Python"))

['生活', '太长久', '，', '我', '不', '喜欢', 'Python']

In [55]:
# 但如果一个词在多篇文章中出现的次数 上面的方法就不行了

# Tf-idf文本特征提取
- TF-IDF作用：用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

## 公式
- 词频（term frequency，tf）指的是某一个给定的词语在该文件中出现的频率
- 逆向文档频率（inverse document frequency，idf）是一个词语普遍重要性的度量。某一特定词语的idf，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到
- 注：假如一篇文件的总词语数是100个，而词语"非常"出现了5次，那么"非常"一词在该文件中的词频就是5/100=0.05。而计算文件频率（IDF）的方法是以文件集的文件总数，除以出现"非常"一词的文件数。所以，如果"非常"一词在1,0000份文件出现过，而文件总数是10,000,000份的话，其逆向文件频率就是lg（10,000,000 / 1,0000）=3。最后"非常"对于这篇文档的tf-idf的分数为0.05 * 3=0.15

In [58]:
# api
from sklearn.feature_extraction.text import TfidfVectorizer

In [60]:
transfer6 = TfidfVectorizer()

data6 = transfer6.fit_transform(txt_list)

In [62]:
data6.toarray()

array([[0.30847454, 0.        , 0.20280347, 0.        , 0.        ,
        0.        , 0.40560694, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.20280347, 0.        , 0.20280347,
        0.        , 0.        , 0.        , 0.        , 0.20280347,
        0.20280347, 0.        , 0.40560694, 0.        , 0.20280347,
        0.        , 0.40560694, 0.20280347, 0.        , 0.        ,
        0.        , 0.20280347, 0.20280347, 0.        , 0.        ,
        0.20280347, 0.        ],
       [0.        , 0.        , 0.        , 0.2410822 , 0.        ,
        0.        , 0.        , 0.2410822 , 0.2410822 , 0.2410822 ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.2410822 , 0.55004769, 0.        ,
        0.        , 0.        , 0.        , 0.2410822 , 0.        ,
        0.        , 0.        , 0.        , 0.48216441, 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.2410822 ,
        0.     

In [63]:
transfer6.get_feature_names()

['一种',
 '不会',
 '不要',
 '之前',
 '了解',
 '事物',
 '今天',
 '光是在',
 '几百万年',
 '发出',
 '取决于',
 '只用',
 '后天',
 '含义',
 '大部分',
 '如何',
 '如果',
 '宇宙',
 '我们',
 '所以',
 '放弃',
 '方式',
 '明天',
 '星系',
 '晚上',
 '某样',
 '残酷',
 '每个',
 '看到',
 '真正',
 '秘密',
 '绝对',
 '美好',
 '联系',
 '过去',
 '还是',
 '这样']

In [64]:
# Tf-idf的重要性
# 分类机器学习算法进行文章分类前期数据处理方式