# 中文分词

In [15]:
import jieba

jieba.enable_paddle()  # 启动paddle模式。 0.40版之后开始支持，早期版本不支持
strs = ["我来到北京清华大学", "乒乓球拍卖完了", "中国科学技术大学"]
for str in strs:
    seg_list = jieba.cut(str, use_paddle=True)  # 使用paddle模式
    print("Paddle Mode: " + '/'.join(list(seg_list)))

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

Installing paddle-tiny, please wait a minute......
Paddle enabled successfully......


Paddle Mode: 我/来到/北京清华大学
Paddle Mode: 乒乓球/拍卖/完/了
Paddle Mode: 中国科学技术大学
Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
Default Mode: 我/ 来到/ 北京/ 清华大学
他, 来到, 了, 网易, 杭研, 大厦
小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造


In [18]:
import pkuseg

seg = pkuseg.pkuseg()           # 以默认配置加载模型
text = seg.cut('我爱北京天安门')  # 进行分词
print(text)

seg = pkuseg.pkuseg(model_name='medicine')  # 程序会自动下载所对应的细领域模型
text = seg.cut('我爱北京天安门')              # 进行分词
print(text)

seg = pkuseg.pkuseg(postag=True)  # 开启词性标注功能
text = seg.cut('我爱北京天安门')    # 进行分词和词性标注
print(text)

['我', '爱', '北京', '天安门']
['我', '爱', '北京', '天安门']


Downloading: "https://github.com/lancopku/pkuseg-python/releases/download/v0.0.16/postag.zip" to C:\Users\mudaozi/.pkuseg\postag.zip
  0%|                                                                     | 65536/41424981 [00:38<6:49:07, 1684.88it/s]


ReadTimeoutError: HTTPSConnectionPool(host='github-production-release-asset-2e65be.s3.amazonaws.com', port=443): Read timed out.

# 独热表示法

In [141]:
import jieba
from sklearn.preprocessing import LabelBinarizer

# 分词
text = "明天涨停，后天涨停没戏。"
text = jieba.cut(text)
stopwords = ['，', '。']      # 停用词
text_ls = [x for x in text
           if len(x) > 1
           and x not in stopwords]
print(text_ls)

用 LabelBinarizer() 进行二值化
LabelBinarizer().fit_transform(['明天', '涨停', '后天', '没戏'])

['明天', '涨停', '后天', '涨停', '没戏']


In [100]:
# 分词
text_2 = jieba.cut("玛丽有个小绵羊。")
text_ls = [' '.join(text_2)]

# 提取特征
vectorizer = CountVectorizer()  
print(vectorizer.fit_transform(text_ls).todense())  
print(vectorizer.vocabulary_)

[[1 1 1]]
{'玛丽': 2, '有个': 1, '小绵羊': 0}


In [153]:
import jieba
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelBinarizer

# 分词
text = "玛丽有一个小绵羊。"
text_str = jieba.cut(text)
stopwords = ['，', '。']          # 停用词
text_ls = [x for x in text_str
           if len(x) > 1
           and x not in stopwords]
print(text_ls)


# 方法一：先转为数值型变量，再进行二值化
# 转为数值型编码
label_encoder = LabelEncoder()
integer_encoded = label_encoder.fit_transform(text_ls)
print(integer_encoded)
# 二值编码
onehot_encoder = OneHotEncoder(sparse=False)
integer_encoded = integer_encoded.reshape(len(integer_encoded), 1)
onehot_encoded = onehot_encoder.fit_transform(integer_encoded)
print(onehot_encoded)

# 方法二：直接二值化
LabelBinarizer().fit_transform(text_ls)

['玛丽', '一个', '小绵羊']
[2 0 1]
[[0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]]


array([[0, 0, 1],
       [1, 0, 0],
       [0, 1, 0]])

# 特征提取与词袋模型转为数组

In [98]:
import jieba
from sklearn.feature_extraction.text import CountVectorizer

# 分词
text_1 = jieba.cut("明天涨停，后天涨停没戏。")
text_ls = [' '.join(text_1)]
print("分词结果为：{}".format(text_ls))

# 特征提取
vect = CountVectorizer()
vect.fit(text_ls)
print("单词数：{}".format(len(vect.vocabulary_)))
print("分词：{}".format(vect.vocabulary_))

# 词袋模型转为数组
bag_of_words = vect.transform(text_ls)
print("转换为词袋的特征：\n{}".format(repr(bag_of_words)))
print("词袋的密度表达：\n{}".format(bag_of_words.toarray()))

分词结果为：['明天 涨停 ， 后天 涨停 没戏 。']
单词数：4
分词：{'明天': 1, '涨停': 3, '后天': 0, '没戏': 2}
转换为词袋的特征：
<1x4 sparse matrix of type '<class 'numpy.int64'>'
	with 4 stored elements in Compressed Sparse Row format>
词袋的密度表达：
[[1 1 1 2]]


In [37]:
text_2 = jieba.cut("玛丽有个小绵羊。")
text_2 = [' '.join(text_2)]
print("分词结果为：{}".format(text_2))

# 特征提取
vect.fit(text_2)
print("单词数：{}".format(len(vect.vocabulary_)))
print("分词：{}".format(vect.vocabulary_))

# 词袋模型转为数组
bag_of_words = vect.transform(text_2)
print("转换为词袋的特征：\n{}".format(repr(bag_of_words)))
print("词袋的密度表达：\n{}".format(bag_of_words.toarray()))

分词结果为：['玛丽 有个 小绵羊 。']
单词数：3
分词：{'玛丽': 2, '有个': 1, '小绵羊': 0}
转换为词袋的特征：
<1x3 sparse matrix of type '<class 'numpy.int64'>'
	with 3 stored elements in Compressed Sparse Row format>
词袋的密度表达：
[[1 1 1]]


In [117]:
import jieba.analyse as analyse

f = open('../data/2020年中央一号文件.txt', "r", encoding="utf-8")
t = f.read()
f.close()

print(" ".join(analyse.extract_tags(t,topK=20,withWeight=False,allowPOS=())))

农村 脱贫 乡村 建设 农业 加强 推进 扶贫 三农 工作 用地 全面 服务 治理 支持 攻坚 落实 开展 农产品 强化


基于 TF-IDF 算法的关键词抽取
`import jieba.analyse`

- `jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())`
 - `sentence` 为待提取的文本
 - `topK` 为返回几个 TF/IDF 权重最大的关键词，默认值为 20
 - `withWeight` 为是否一并返回关键词权重值，默认值为 False
 - `allowPOS` 仅包括指定词性的词，默认值为空，即不筛选