In [41]:
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer
import jieba

In [2]:
# 构造数据
data = [{'city': '北京','temperature':100},
{'city': '上海','temperature':60},
{'city': '深圳','temperature':30}]

In [3]:
data

[{'city': '北京', 'temperature': 100},
 {'city': '上海', 'temperature': 60},
 {'city': '深圳', 'temperature': 30}]

In [8]:
# 实例化api
transfer = DictVectorizer(sparse=False)

In [9]:
mydata = transfer.fit_transform(data)

In [11]:
print('转化后\n',mydata)
print("特征名\n",transfer.get_feature_names())

转化后
 [[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]]
特征名
 ['city=上海', 'city=北京', 'city=深圳', 'temperature']


# 英文文本统计

In [32]:
data = ["life life is short,i like python",
"life is too long,i dislike python"]

In [33]:
data

['life life is short,i like python', 'life is too long,i dislike python']

In [34]:
transfer = CountVectorizer(stop_words=['is'])

In [35]:
mydata = transfer.fit_transform(data)

In [36]:
print(mydata.toarray())# sparse 矩阵
print(transfer.get_feature_names())

[[0 2 1 0 1 1 0]
 [1 1 0 1 1 0 1]]
['dislike', 'life', 'like', 'long', 'python', 'short', 'too']


# 中文文本提取

In [39]:
data = ["人生 苦短，我 喜欢 Python","生活 太长久，我 不喜欢 Python"]
transfer = CountVectorizer(stop_words=['is'])
mydata = transfer.fit_transform(data)
print(mydata.toarray())# sparse 矩阵
print(transfer.get_feature_names())

[[1 0 1 1 0 0 1]
 [1 1 0 0 1 1 0]]
['python', '不喜欢', '人生', '喜欢', '太长久', '生活', '苦短']


In [45]:
def wordcut(text):
    return " ".join(list(jieba.cut(text)))

In [46]:
wordcut("我爱中国")

'我 爱 中国'

In [47]:
data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
            "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]


In [48]:
data

['一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。',
 '我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。',
 '如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。']

In [51]:
test_list = []

In [52]:
for i in data:
    test_list.append(wordcut(i))
        

In [53]:
test_list

['一种 还是 一种 今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。',
 '我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去 。',
 '如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。']

In [56]:
transfer = CountVectorizer(stop_words=["一种"])
mydata = transfer.fit_transform(test_list)
print(mydata.toarray())# sparse 矩阵
print(transfer.get_feature_names())

[[0 1 0 0 0 2 0 0 0 0 0 1 0 1 0 0 0 0 1 1 0 2 0 1 0 2 1 0 0 0 1 1 0 0 1 0]
 [0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 0 1 3 0 0 0 0 1 0 0 0 0 2 0 0 0 0 0 1 0 1]
 [1 0 0 4 3 0 0 0 0 1 1 0 1 0 1 1 0 1 0 0 1 0 0 0 1 0 0 0 2 1 0 0 1 0 0 0]]
['不会', '不要', '之前', '了解', '事物', '今天', '光是在', '几百万年', '发出', '取决于', '只用', '后天', '含义', '大部分', '如何', '如果', '宇宙', '我们', '所以', '放弃', '方式', '明天', '星系', '晚上', '某样', '残酷', '每个', '看到', '真正', '秘密', '绝对', '美好', '联系', '过去', '还是', '这样']
