In [2]:
# 导入工具包
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer

# 字典特征提取

In [33]:
data = [{'city': '北京','temperature':100},
{'city': '上海','temperature':60},
{'city': '深圳','temperature':30}]

In [34]:
# 字典特征提取
# 1.实例化转换器
# transfer = DictVectorizer(sparse=False)
transfer = DictVectorizer(sparse=True)

In [35]:
# 2.转换数据  对离散的特征自动进行one_hot编码
res = transfer.fit_transform(data)

In [39]:
res.toarray()

array([[  0.,   1.,   0., 100.],
       [  1.,   0.,   0.,  60.],
       [  0.,   0.,   1.,  30.]])

In [40]:
# 获取每个特征的名字
transfer.get_feature_names()

['city=上海', 'city=北京', 'city=深圳', 'temperature']

In [46]:
# 字典特征提取
# 1.实例化转换器
transfer = DictVectorizer(sparse=False)
# transfer = DictVectorizer(sparse=True)

In [47]:
# 2.转换数据  对离散的特征自动进行one_hot编码
res = transfer.fit_transform(data)

In [48]:
res

array([[  0.,   1.,   0., 100.],
       [  1.,   0.,   0.,  60.],
       [  0.,   0.,   1.,  30.]])

In [49]:
# 获取每个特征的名字
transfer.get_feature_names()

['city=上海', 'city=北京', 'city=深圳', 'temperature']

# 文本特征提取

In [21]:
# 定义分词函数
def cut_words(s):
    return ' '.join(list(jieba.cut(s)))

## 统计词语出现次数

In [22]:
data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。Python",
            "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
            "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]

In [23]:
# 文本特征提取
# 1.实例化转换器
transfer = CountVectorizer()

In [24]:
# 2.对中文文本进行分词
temp = []
for s in data:
    temp.append(cut_words(s))

Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.631 seconds.
Prefix dict has been built succesfully.


In [25]:
temp

['一种 还是 一种 今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。 Python',
 '我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去 。',
 '如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。']

In [26]:
# 3.转换数据  统计文章里每个词语出现的次数
res_spase = transfer.fit_transform(temp)  # 返回值是sparse稀疏矩阵

In [27]:
res_spase

<3x38 sparse matrix of type '<class 'numpy.int64'>'
	with 40 stored elements in Compressed Sparse Row format>

In [28]:
# 转换成ndarray
res_spase.toarray()

array([[1, 2, 0, 1, 0, 0, 0, 2, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1,
        0, 2, 0, 1, 0, 2, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0],
       [0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 3, 0, 0,
        0, 0, 1, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 1, 0, 1],
       [0, 1, 1, 0, 0, 4, 3, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0,
        1, 0, 0, 0, 1, 0, 0, 0, 2, 1, 0, 0, 1, 0, 0, 0]])

In [29]:
# 获取每一列对应名字（词语）
transfer.get_feature_names()

['python',
 '一种',
 '不会',
 '不要',
 '之前',
 '了解',
 '事物',
 '今天',
 '光是在',
 '几百万年',
 '发出',
 '取决于',
 '只用',
 '后天',
 '含义',
 '大部分',
 '如何',
 '如果',
 '宇宙',
 '我们',
 '所以',
 '放弃',
 '方式',
 '明天',
 '星系',
 '晚上',
 '某样',
 '残酷',
 '每个',
 '看到',
 '真正',
 '秘密',
 '绝对',
 '美好',
 '联系',
 '过去',
 '还是',
 '这样']

## TF_IDF的计算

In [50]:
data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。Python",
            "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
            "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]

In [51]:
# 文本特征提取
# 1.实例化转换器
transfer = TfidfVectorizer(stop_words=['明天', '一种']) 

In [52]:
# 2.对中文文本进行分词
temp = []
for s in data:
    temp.append(cut_words(s))

In [53]:
# 3.转换数据  统计文章里每个词语出现的次数
res_spase = transfer.fit_transform(temp)  # 返回值是sparse稀疏矩阵

In [54]:
res_spase

<3x36 sparse matrix of type '<class 'numpy.float64'>'
	with 37 stored elements in Compressed Sparse Row format>

In [55]:
# 转换成ndarray
res_spase.toarray()

array([[0.22941573, 0.        , 0.22941573, 0.        , 0.        ,
        0.        , 0.45883147, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.22941573, 0.        , 0.22941573,
        0.        , 0.        , 0.        , 0.        , 0.22941573,
        0.22941573, 0.        , 0.        , 0.22941573, 0.        ,
        0.45883147, 0.22941573, 0.        , 0.        , 0.        ,
        0.22941573, 0.22941573, 0.        , 0.        , 0.22941573,
        0.        ],
       [0.        , 0.        , 0.        , 0.2410822 , 0.        ,
        0.        , 0.        , 0.2410822 , 0.2410822 , 0.2410822 ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.2410822 , 0.55004769, 0.        ,
        0.        , 0.        , 0.2410822 , 0.        , 0.        ,
        0.        , 0.        , 0.48216441, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.2410822 , 0.        ,
        0.2410822 ],
      

In [56]:
# 获取每一列对应名字（词语）
transfer.get_feature_names()

['python',
 '不会',
 '不要',
 '之前',
 '了解',
 '事物',
 '今天',
 '光是在',
 '几百万年',
 '发出',
 '取决于',
 '只用',
 '后天',
 '含义',
 '大部分',
 '如何',
 '如果',
 '宇宙',
 '我们',
 '所以',
 '放弃',
 '方式',
 '星系',
 '晚上',
 '某样',
 '残酷',
 '每个',
 '看到',
 '真正',
 '秘密',
 '绝对',
 '美好',
 '联系',
 '过去',
 '还是',
 '这样']