In [2]:
# 安装
!pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting jieba
  Using cached jieba-0.42.1-py3-none-any.whl
Installing collected packages: jieba
Successfully installed jieba-0.42.1



[notice] A new release of pip available: 22.2.1 -> 22.2.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
import jieba

In [4]:
jieba.__path__

['D:\\.venv\\lib\\site-packages\\jieba']

### jieba分词模式
- 精确模式: 把句子最精确的切分开, 比较适合文本分析. 默认精确模式. 
- 全模式: 把句子中所有可能成词的词都扫描出来, cut_all = True, 缺点: 速度快, 不能解决歧义
- paddle: 利用百度的paddlepaddle深度学习框架. 简单来说就是使用百度提供的分词模型. use_paddle=True.
- 搜索引擎模式: 在精确模式的基础上, 对长词再进行切分, 提高召回率, jieba.cut_for_search

In [10]:
text = '我爱中华人民共和国'

In [19]:
# 精确模式
# 注意精确模式返回的是生成器
gen = jieba.cut(text)

In [15]:
next(gen)

StopIteration: 

In [17]:
for word in gen:
    print(word)

我
爱
中华人民共和国


In [20]:
# 转化为列表
list(gen)

['我', '爱', '中华人民共和国']

In [21]:
# 或者使用lcut l=list 返回的就是列表了
words = jieba.lcut(text)
words

['我', '爱', '中华人民共和国']

In [23]:
# 全模式
jieba.lcut(text, cut_all=True)

['我', '爱', '中华', '中华人民', '中华人民共和国', '华人', '人民', '人民共和国', '共和', '共和国']

In [24]:
# 搜索引擎模式
jieba.lcut_for_search(text)

['我', '爱', '中华', '华人', '人民', '共和', '共和国', '中华人民共和国']

In [26]:
# 词性标注
from jieba import posseg

In [27]:
posseg.lcut(text)

[pair('我', 'r'), pair('爱', 'v'), pair('中华人民共和国', 'ns')]

In [28]:
text = '马士兵教育是一个线上培训机构'
jieba.lcut(text)

['马', '士兵', '教育', '是', '一个', '线上', '培训', '机构']

In [40]:
# 加载自己的分词文件
jieba.load_userdict('D:\.venv\Lib\site-packages\jieba\dict2.txt')

In [41]:
text = '马士兵教育是一个安全管理机构'
jieba.lcut(text)

['马士兵教育', '是', '一个', '安全管理', '机构']

In [42]:
text = '云计算'
jieba.lcut(text)

['云', '计算']

In [43]:
# 临时加一个词
jieba.add_word('云计算')

In [44]:
text = '云计算'
jieba.lcut(text)

['云计算']

In [45]:
jieba.suggest_freq('云计算')

2

In [47]:
jieba.lcut(text, cut_all=True)

['云计算', '计算']

### 关键词提取

In [48]:
from jieba import analyse

In [55]:
text = '8月5日，中国人民解放军东部战区海军继续在台岛周边海域展开实战化训练。央视新闻发布从我舰拍摄的台舰近景，并配了一段唢呐，蔡英文听懂了吗？'

In [58]:
# 提取关键词, 其实就是根据tfidf算出来的值
analyse.extract_tags(text, topK=10, withWeight=True)

[('台舰', 0.5433985228590908),
 ('并配', 0.5433985228590908),
 ('台岛', 0.5319751397545455),
 ('近景', 0.5087557932227272),
 ('唢呐', 0.42631313976954543),
 ('听懂', 0.40289659316181814),
 ('实战', 0.37654120701409094),
 ('战区', 0.37588481227954545),
 ('央视', 0.3710956979318182),
 ('中国人民解放军', 0.35365364695545454)]

In [60]:
analyse.tfidf(text, topK=10, withWeight=True)

[('台舰', 0.5433985228590908),
 ('并配', 0.5433985228590908),
 ('台岛', 0.5319751397545455),
 ('近景', 0.5087557932227272),
 ('唢呐', 0.42631313976954543),
 ('听懂', 0.40289659316181814),
 ('实战', 0.37654120701409094),
 ('战区', 0.37588481227954545),
 ('央视', 0.3710956979318182),
 ('中国人民解放军', 0.35365364695545454)]

In [62]:
gen = jieba.tokenize(text)

In [64]:
for g in gen:
    print(g)
    

('月', 1, 2)
('5', 2, 3)
('日', 3, 4)
('，', 4, 5)
('中国人民解放军', 5, 12)
('东部', 12, 14)
('战区', 14, 16)
('海军', 16, 18)
('继续', 18, 20)
('在', 20, 21)
('台岛', 21, 23)
('周边', 23, 25)
('海域', 25, 27)
('展开', 27, 29)
('实战', 29, 31)
('化', 31, 32)
('训练', 32, 34)
('。', 34, 35)
('央视', 35, 37)
('新闻', 37, 39)
('发布', 39, 41)
('从', 41, 42)
('我', 42, 43)
('舰', 43, 44)
('拍摄', 44, 46)
('的', 46, 47)
('台舰', 47, 49)
('近景', 49, 51)
('，', 51, 52)
('并配', 52, 54)
('了', 54, 55)
('一段', 55, 57)
('唢呐', 57, 59)
('，', 59, 60)
('蔡', 60, 61)
('英文', 61, 63)
('听懂', 63, 65)
('了', 65, 66)
('吗', 66, 67)
('？', 67, 68)
