# Jieba
### https://github.com/fxsjy/jieba

In [1]:
# 原始模式
import jieba
seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print("/ ".join(seg_list))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\OPHIUC~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.571 seconds.
Prefix dict has been built successfully.


他/ 来到/ 了/ 网易/ 杭研/ 大厦


In [2]:
# paddle模式
import jieba
jieba.enable_paddle()# 启动paddle模式。 0.40版之后开始支持，早期版本不支持
seg_list = jieba.cut("他来到了网易杭研大厦",use_paddle=True)  # 默认是精确模式
print("/ ".join(seg_list))

Paddle enabled successfully......


他/ 来到/ 了/ 网易/ 杭研大厦


In [3]:
import jieba
import jieba.posseg as pseg
words = pseg.cut("我爱北京天安门") #jieba默认模式
result = ''
for word, flag in words:
    result += word + '(' + flag + ')' + '/ '
result

'我(r)/ 爱(v)/ 北京(ns)/ 天安门(ns)/ '

In [4]:
jieba.enable_paddle() #启动paddle模式。 0.40版之后开始支持，早期版本不支持
words = pseg.cut("我 爱 北京 天安门",use_paddle=True) #paddle模式
result = ''
for word, flag in words:
    result += word + '(' + flag + ')' + '/ '
result

Paddle enabled successfully......


'我(r)/  爱 (nr)/ 北京(LOC)/  天安门(v)/ '

# 百度LAC
### https://github.com/baidu/lac

In [5]:
from LAC import LAC
# 装载分词模型
lac = LAC(mode='seg')
text = u"沈科发〔2019〕31号经国家科技部批准，你单位申报的2019年出国（境）培训项目计划经初审拟批准立项共执行中央有关因公出"
seg_result = lac.run(text)
'/ '.join(seg_result)

'沈科发/ 〔/ 2019/ 〕/ 31号/ 经/ 国家/ 科技部/ 批准/ ，/ 你/ 单位/ 申报/ 的/ 2019年/ 出国/ （/ 境/ ）/ 培训/ 项目/ 计划/ 经/ 初审/ 拟/ 批准/ 立项/ 共/ 执行/ 中央/ 有关/ 因公/ 出'

In [6]:
from LAC import LAC
# 装载LAC模型
lac = LAC(mode='lac')
text = u"沈科发〔2019〕31号经国家科技部批准，你单位申报的2019年出国（境）培训项目计划经初审拟批准立项共执行中央有关因公出"
lac_result = lac.run(text)
lac_result = [x + '(' + y + ')' for x, y in zip(lac_result[0],lac_result[1])]
'/ '.join(lac_result)

'沈科发(PER)/ 〔(w)/ 2019(m)/ 〕(w)/ 31号(m)/ 经(p)/ 国家科技部(ORG)/ 批准(v)/ ，(w)/ 你(r)/ 单位(n)/ 申报(v)/ 的(u)/ 2019年(TIME)/ 出国(v)/ （(w)/ 境(n)/ ）(w)/ 培训(vn)/ 项目(n)/ 计划(n)/ 经(p)/ 初审(vn)/ 拟(v)/ 批准(v)/ 立项(v)/ 共(d)/ 执行(v)/ 中央(n)/ 有关因公出(vn)'

# 斯坦福stanza
### https://www.52nlp.cn/%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6nlp%E7%BB%84python%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E5%B7%A5%E5%85%B7stanza%E8%AF%95%E7%94%A8
### https://stanfordnlp.github.io/stanza/installation_usage.html

In [7]:
import stanza
# stanza.download('zh')

In [8]:
zh_nlp = stanza.Pipeline('zh')

2020-09-09 15:16:47 INFO: "zh" is an alias for "zh-hans"
2020-09-09 15:16:47 INFO: Loading these models for language: zh-hans (Simplified_Chinese):
| Processor | Package   |
-------------------------
| tokenize  | gsdsimp   |
| pos       | gsdsimp   |
| lemma     | gsdsimp   |
| depparse  | gsdsimp   |
| sentiment | ren       |
| ner       | ontonotes |

2020-09-09 15:16:47 INFO: Use device: cpu
2020-09-09 15:16:47 INFO: Loading: tokenize
2020-09-09 15:16:47 INFO: Loading: pos
2020-09-09 15:16:49 INFO: Loading: lemma
2020-09-09 15:16:49 INFO: Loading: depparse
2020-09-09 15:16:51 INFO: Loading: sentiment
2020-09-09 15:16:53 INFO: Loading: ner
2020-09-09 15:16:54 INFO: Done loading processors!


In [9]:
text = """英国首相约翰逊6日晚因病情恶化，被转入重症监护室治疗。英国首相府发言人说，目前约
    翰逊意识清晰，将他转移到重症监护室只是预防性措施。发言人说，约翰逊被转移到重症监护室前已
    安排英国外交大臣拉布代表他处理有关事务。"""

In [10]:
doc = zh_nlp(text)

In [11]:
for sent in doc.sentences:
    print("Sentence：" + sent.text) # 断句
    print("Tokenize：" + ' '.join(token.text for token in sent.tokens)) # 中文分词
    print("UPOS: " + ' '.join(f'{word.text}/{word.upos}' for word in sent.words)) # 词性标注（UPOS）
    print("XPOS: " + ' '.join(f'{word.text}/{word.xpos}' for word in sent.words)) # 词性标注（XPOS）
    print("NER: " + ' '.join(f'{ent.text}/{ent.type}' for ent in sent.ents)) # 命名实体识别

Sentence：英国首相约翰逊6日晚因病情恶化，被转入重症监护室治疗。
Tokenize：英国 首相 约翰逊 6 日 晚因 病情 恶化 ， 被 转入 重症 监护 室 治疗 。
UPOS: 英国/PROPN 首相/NOUN 约翰逊/PROPN 6/NUM 日/NOUN 晚因/NOUN 病情/NOUN 恶化/VERB ，/PUNCT 被/VERB 转入/VERB 重症/NOUN 监护/VERB 室/PART 治疗/NOUN 。/PUNCT
XPOS: 英国/NNP 首相/NN 约翰逊/NNP 6/CD 日/NNB 晚因/NN 病情/NN 恶化/VV ，/, 被/BB 转入/VV 重症/NN 监护/VV 室/SFN 治疗/NN 。/.
NER: 英国/GPE 约翰逊/PERSON 6日/DATE
Sentence：英国首相府发言人说，目前约
    翰逊意识清晰，将他转移到重症监护室只是预防性措施。
Tokenize：英国 首相 府 发言 人 说 ， 目前 约 翰逊 意识 清晰 ， 将 他 转移 到 重症 监护 室 只 是 预防 性 措施 。
UPOS: 英国/PROPN 首相/NOUN 府/PART 发言/VERB 人/PART 说/VERB ，/PUNCT 目前/NOUN 约 翰逊/PROPN 意识/NOUN 清晰/ADJ ，/PUNCT 将/ADP 他/PRON 转移/VERB 到/VERB 重症/NOUN 监护/VERB 室/PART 只/ADV 是/AUX 预防/VERB 性/PART 措施/NOUN 。/PUNCT
XPOS: 英国/NNP 首相/NN 府/SFN 发言/VV 人/SFN 说/VV ，/, 目前/NN 约 翰逊/NNP 意识/NN 清晰/JJ ，/, 将/BB 他/PRP 转移/VV 到/VV 重症/NN 监护/VV 室/SFN 只/RB 是/VC 预防/VV 性/SFN 措施/NN 。/.
NER: 英国/GPE 约
    翰逊/PERSON
Sentence：发言人说，约翰逊被转移到重症监护室前已
    安排英国外交大臣拉布代表他处理有关事务。
Tokenize：发言 人 说 ， 约翰逊 被 转移 到 重症 监护 室 前 已 安排 英国 外交 大臣 拉布 代表 他 处理 有关 事务 。
UPOS: 发言/VERB 人/PART 说/V

In [12]:
text = '''沈科发〔2019〕31号经国家科技部批准，你单位申报的2019年出国（境）培训项目计划经初审拟批准立项共项人（详见附件）。现将有关事项通知如下：
一、请按照批准的2019年项目计划，严格执行中央有关因公出国和出国（境）培训管理规定，认真组织实施出国（境）培训项目。
'''
zh_nlp = stanza.Pipeline('zh',processors='tokenize,ner')
doc = zh_nlp(text)

2020-09-09 15:16:57 INFO: "zh" is an alias for "zh-hans"
2020-09-09 15:16:57 INFO: Loading these models for language: zh-hans (Simplified_Chinese):
| Processor | Package   |
-------------------------
| tokenize  | gsdsimp   |
| ner       | ontonotes |

2020-09-09 15:16:57 INFO: Use device: cpu
2020-09-09 15:16:57 INFO: Loading: tokenize
2020-09-09 15:16:57 INFO: Loading: ner
2020-09-09 15:16:58 INFO: Done loading processors!


In [13]:
print("NER: " + ' '.join(f'{ent.text}/{ent.type}' for ent in doc.ents))

NER: 沈/PERSON 科发/PERSON 2019/DATE 31/CARDINAL 2019年/DATE 2019年/DATE 中央/ORG


In [14]:
doc

[
  [
    {
      "id": 1,
      "text": "沈",
      "misc": "start_char=0|end_char=1",
      "ner": "S-PERSON"
    },
    {
      "id": 2,
      "text": "科发",
      "misc": "start_char=1|end_char=3",
      "ner": "S-PERSON"
    },
    {
      "id": 3,
      "text": "〔",
      "misc": "start_char=3|end_char=4",
      "ner": "O"
    },
    {
      "id": 4,
      "text": "2019",
      "misc": "start_char=4|end_char=8",
      "ner": "S-DATE"
    },
    {
      "id": 5,
      "text": "〕",
      "misc": "start_char=8|end_char=9",
      "ner": "O"
    },
    {
      "id": 6,
      "text": "31",
      "misc": "start_char=9|end_char=11",
      "ner": "S-CARDINAL"
    },
    {
      "id": 7,
      "text": "号",
      "misc": "start_char=11|end_char=12",
      "ner": "O"
    },
    {
      "id": 8,
      "text": "经国",
      "misc": "start_char=12|end_char=14",
      "ner": "O"
    },
    {
      "id": 9,
      "text": "家",
      "misc": "start_char=14|end_char=15",
      "ner": "O"
    },
    {
  