# 使用jieba分词

In [1]:
import jieba

In [2]:
content = '工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作'

In [3]:
#返回一个生成器对象
jieba.cut(content,cut_all=False)

<generator object Tokenizer.cut at 0x0000026D27A4D2E0>

In [4]:
#精准模式生词  试图将句子最精确地切开，适合文本分析.
jieba.lcut(content, cut_all=False)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\HP\AppData\Local\Temp\jieba.cache
Loading model cost 0.323 seconds.
Prefix dict has been built successfully.


['工信处',
 '女干事',
 '每月',
 '经过',
 '下属',
 '科室',
 '都',
 '要',
 '亲口',
 '交代',
 '24',
 '口',
 '交换机',
 '等',
 '技术性',
 '器件',
 '的',
 '安装',
 '工作']

In [5]:
#全模式生词 把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能消除 歧义
jieba.cut(content,cut_all=True)

<generator object Tokenizer.cut at 0x0000026D2BD5F2E0>

In [6]:
jieba.lcut(content, cut_all=True)

['工信处',
 '处女',
 '女干事',
 '干事',
 '每月',
 '月经',
 '经过',
 '下属',
 '科室',
 '都',
 '要',
 '亲口',
 '口交',
 '交代',
 '24',
 '口交',
 '交换',
 '交换机',
 '换机',
 '等',
 '技术',
 '技术性',
 '性器',
 '器件',
 '的',
 '安装',
 '安装工',
 '装工',
 '工作']

In [7]:
#搜索引擎模式分词 在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词.
jieba.cut_for_search(content)

<generator object Tokenizer.cut_for_search at 0x0000026D2BD5F890>

In [8]:
jieba.lcut_for_search(content)

['工信处',
 '干事',
 '女干事',
 '每月',
 '经过',
 '下属',
 '科室',
 '都',
 '要',
 '亲口',
 '交代',
 '24',
 '口',
 '交换',
 '换机',
 '交换机',
 '等',
 '技术',
 '技术性',
 '器件',
 '的',
 '安装',
 '工作']

In [9]:
#中文繁体分词
content1 = '煩惱即是菩提，我暫且不提'
jieba.lcut(content1)

['煩惱', '即', '是', '菩提', '，', '我', '暫且', '不', '提']

In [10]:
# 使用用户自定义词典:
# 添加自定义词典后, jieba能够准确识别词典中出现的词汇，提升整体的识别准确率.
# 词典格式: 每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒.
# 词典样式如下, 具体词性含义请参照附录: jieba词性对照表, 将该词典存为userdict.txt, 方便之后加载使用.

In [11]:
jieba.lcut('八一双鹿更名为八一南昌篮球队')

['八', '一双', '鹿', '更名', '为', '八一', '南昌', '篮球队']

In [12]:
jieba.load_userdict('./userdict.txt')

In [13]:
jieba.lcut('八一双鹿更名为八一南昌篮球队')

['八一双鹿', '更名', '为', '八一', '南昌', '篮球队']

# 使用hanlp分词

In [14]:
import hanlp

In [24]:
tokensizer = hanlp.load('CTB6_CONVSEG')

                                                

In [16]:
tokensizer('工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作')

['工信处',
 '女',
 '干事',
 '每',
 '月',
 '经过',
 '下属',
 '科室',
 '都',
 '要',
 '亲口',
 '交代',
 '24',
 '口',
 '交换机',
 '等',
 '技术性',
 '器件',
 '的',
 '安装',
 '工作']

In [18]:
tokensizer = hanlp.utils.rules.tokensize_english

AttributeError: module 'hanlp.utils.rules' has no attribute 'tokensize_english'

In [20]:
#使用hanlp进行中文命名实体识别:
recognizer = hanlp.load(hanlp.pretrained.ner.MSRA_NER_BERT_BASE_ZH)

In [21]:
recognizer(list('上海华安工业（集团）公司董事长谭旭光和秘书张晚霞来到美国纽约现代艺术博物馆参观。'))

[('上海华安工业（集团）公司', 'NT', 0, 12),
 ('谭旭光', 'NR', 15, 18),
 ('张晚霞', 'NR', 21, 24),
 ('美国', 'NS', 26, 28),
 ('纽约现代艺术博物馆', 'NS', 28, 37)]

In [23]:
#使用hanlp进行英文命名实体识别:
recognizer = hanlp.load(hanlp.pretrained.ner.CONLL03_NER_BERT_BASE_CASED_EN)

Downloading https://file.hankcs.com/hanlp/ner/ner_conll03_bert_base_cased_en_20211227_121443.zip to C:\Users\HP\AppData\Roaming\hanlp\ner/ner_conll03_bert_base_cased_en_20211227_121443.zip
Decompressing C:\Users\HP\AppData\Roaming\hanlp\ner/ner_conll03_bert_base_cased_en_20211227_121443.zip to C:\Users\HP\AppData\Roaming\hanlp\ner


Downloading:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/570 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/208k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/426k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/502M [00:00<?, ?B/s]

In [25]:
recognizer(["President", "Obama", "is", "speaking", "at", "the", "White", "House"])

[('Obama', 'PER', 1, 2), ('White House', 'LOC', 6, 8)]

# 词性标注

In [26]:
import jieba.posseg as pseg

In [27]:
pseg.lcut('我爱北京天安门')

[pair('我', 'r'), pair('爱', 'v'), pair('北京', 'ns'), pair('天安门', 'ns')]