# 中文文本分词和特征提取

在对文本做数据分析时，一大半的时间都会花在文本预处理上，而中文和英文的预处理流程稍有不同。

中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点：
- 中文文本没有像英文那样使用空格隔开的，因此不能直接像英文那样可以直接用最简单的空格和标点符号来完成分词。中文文本一般需要使用分词算法来完成分词。常用的中文分词软件有很多，推荐结巴分词。
- 中文的编码不是utf8，而是unicode。
   
这里选择《人民的名义》的小说原文作为语料

## 分词

In [16]:
import jieba

# 加入一些人名和地名
jieba.suggest_freq('沙瑞金', True)
jieba.suggest_freq('易学习', True)
jieba.suggest_freq('王大路', True)
jieba.suggest_freq('京州', True)

result = None
with open('nlp_test_text_ch0.txt', 'rb') as f:
    document = f.read()
    document_decode = document.decode('gb2312')
    document_cut = jieba.cut(document_decode)
    result = ' '.join(document_cut)
    print(result)

沙瑞金 赞叹 易学习 的 胸怀 ， 是 金山 的 百姓 有福 ， 可是 这件 事对 李达康 的 触动 很大 。 易学习 又 回忆起 他们 三人 分开 的 前一晚 ， 大家 一起 喝酒 话别 ， 易学习 被 降职 到 道口 县当 县长 ， 王大路 下海经商 ， 李达康 连连 赔礼道歉 ， 觉得 对不起 大家 ， 他 最 对不起 的 是 王大路 ， 就 和 易学习 一起 给 王大路 凑 了 5 万块 钱 ， 王大路 自己 东挪西撮 了 5 万块 ， 开始 下海经商 。 没想到 后来 王大路 竟然 做 得 风生水 起 。 沙瑞金 觉得 他们 三人 ， 在 困难 时期 还 能 以沫 相助 ， 很 不 容易 。


## 特征提取
中文文本中有很多无效的词，比如“着”，“和”，还有一些标点符号等。我们需要去掉这些停用词。常用的中文停用词表是1208个，文件名stop_words.txt。
然后我们就可以用scikit-learn来对文本进行特征提取了。

In [20]:
#从文件导入停用词表
stopwords = []
with open("stop_words.txt", 'rb') as f:
    stopwords = f.read().decode('gbk').splitlines()

In [23]:
from sklearn.feature_extraction.text import TfidfVectorizer

vector = TfidfVectorizer(stop_words=stopwords)
tfidf = vector.fit_transform([result])

print( tfidf)

  (0, 21)	0.2
  (0, 31)	0.1
  (0, 18)	0.4
  (0, 26)	0.1
  (0, 34)	0.1
  (0, 24)	0.1
  (0, 19)	0.1
  (0, 32)	0.1
  (0, 5)	0.1
  (0, 20)	0.2
  (0, 28)	0.1
  (0, 16)	0.1
  (0, 12)	0.1
  (0, 2)	0.2
  (0, 7)	0.1
  (0, 8)	0.1
  (0, 0)	0.2
  (0, 11)	0.1
  (0, 29)	0.1
  (0, 35)	0.1
  (0, 33)	0.1
  (0, 9)	0.1
  (0, 10)	0.1
  (0, 23)	0.5
  (0, 3)	0.2
  (0, 30)	0.1
  (0, 27)	0.2
  (0, 15)	0.2
  (0, 1)	0.2
  (0, 4)	0.1
  (0, 22)	0.1
  (0, 36)	0.1
  (0, 13)	0.1
  (0, 17)	0.1
  (0, 6)	0.1
  (0, 25)	0.1
  (0, 14)	0.1


In [24]:
#获取词袋模型中的所有词
words = vector.get_feature_names()  
# tf-idf矩阵 元素a[i][j]表示j词在i类文本中的tf-idf权重
weights = tfidf.toarray()  
#打印每类文本的tf-idf词语权重，第一个for遍历所有文本，第二个for便利某一类文本下的词语权重
for i in range(len(weights)):
    print("第",i,"段文本的词语tf-idf权重:")
    for j in range(len(words)):  
        print(words[j],weights[i][j])

第 0 段文本的词语tf-idf权重:
一起 0.2
万块 0.2
三人 0.2
下海经商 0.2
东挪西撮 0.1
事对 0.1
以沫 0.1
分开 0.1
前一晚 0.1
县当 0.1
县长 0.1
喝酒 0.1
回忆起 0.1
困难 0.1
容易 0.1
对不起 0.2
很大 0.1
时期 0.1
易学习 0.4
有福 0.1
李达康 0.2
沙瑞金 0.2
没想到 0.1
王大路 0.5
百姓 0.1
相助 0.1
胸怀 0.1
觉得 0.2
触动 0.1
话别 0.1
赔礼道歉 0.1
赞叹 0.1
这件 0.1
道口 0.1
金山 0.1
降职 0.1
风生水 0.1
