## 全模式

In [2]:
import jieba
# 全模式分词
seg_list = jieba.cut('好好学习，天天向上，少打游戏，多看点书', cut_all=True)
print(list(seg_list))

['好好', '好好学', '好好学习', '好学', '学习', '', '', '天天', '天天向上', '向上', '', '', '少', '打游戏', '游戏', '', '', '多', '看点', '书']


## 精准模式(默认)

In [3]:
seg_list = jieba.cut('好好学习，天天向上，少打游戏，多看点书', cut_all=False)
print(list(seg_list))

['好好学习', '，', '天天向上', '，', '少', '打游戏', '，', '多', '看点', '书']


### 搜索引擎模式

In [5]:
seg_list = jieba.cut_for_search('好好学习，天天向上，少打游戏，多看点书')
print(list(seg_list))

['好好', '好学', '学习', '好好学', '好好学习', '，', '天天', '向上', '天天向上', '，', '少', '游戏', '打游戏', '，', '多', '看点', '书']


### 返回list 的分词结果

In [7]:
result_lcut = jieba.lcut('干森么了，你很奇怪耶，整天就知道吃, 吃饱了就睡觉')
print(' '.join(result_lcut))
print(' '.join(jieba.lcut_for_search('干森么了，你很奇怪耶，整天就知道吃，吃饱了就睡觉')))

干森 么 了 ， 你 很 奇怪 耶 ， 整天 就 知道 吃 ,   吃饱 了 就 睡觉
干森 么 了 ， 你 很 奇怪 耶 ， 整天 就 知道 吃 ， 吃饱 了 就 睡觉


### 加载自定义词典

In [8]:
jieba.load_userdict('./self.txt')
print(' '.join(jieba.lcut('干森么了，你很奇怪耶，整天就知道吃, 吃饱了就睡觉')))

干森 么 了 ， 你 很 奇怪 耶 ， 整天 就 知道 吃 ,   吃饱了 就 睡觉


### 自定义调节单个词语的词频，使其不能或者能被分出来

In [10]:
jieba.suggest_freq(('干', '森'), True)
print(' '.join(jieba.lcut('干森么了，你很奇怪耶，整天就知道吃, 吃饱了就睡觉')))

干 森 么 了 ， 你 很 奇 怪 耶 ， 整天 就 知道 吃 ,   吃饱了 就 睡觉


### 词性标注

import jieba.posseg as pseg
words = pseg.cut('你知不知道你很奇怪耶')
print(dict(words))

### 并行分词(参考的demo，未验证)

> 原理：将目标文本按行分隔后，把各行文本分配到多个 Python 进程并行分词，然后归并结果，从而获得分词速度的可观提升 基于 python 自带的 multiprocessing 模块，目前暂不支持 Windows

> 用法：

>jieba.enable_parallel(4) # 开启并行分词模式，参数为并行进程数
>jieba.disable_parallel() # 关闭并行分词模式
>实验结果：在 4 核 3.4GHz Linux 机器上，对金庸全集进行精确分词，获得了 1MB/s 的速度，是单进程版的 3.3 倍。

> 注意：并行分词仅支持默认分词器 jieba.dt 和 jieba.posseg.dt。

In [None]:
import sys
import time
import jieba

jieba.enable_parallel()
content = open(u'西游记.txt',"r").read()
t1 = time.time()
words = "/ ".join(jieba.cut(content))
t2 = time.time()
tm_cost = t2-t1
print('并行分词速度为 %s bytes/second' % (len(content)/tm_cost))

jieba.disable_parallel()
content = open(u'西游记.txt',"r").read()
t1 = time.time()
words = "/ ".join(jieba.cut(content))
t2 = time.time()
tm_cost = t2-t1
print('非并行分词速度为 %s bytes/second' % (len(content)/tm_cost))

> 并行分词速度为 830619.50933 bytes/second

> 非并行分词速度为 259941.448353 bytes/second

### Tokenize -> 返回词语在原文的起止位置

In [None]:
> 输入参数只接受 unicode （python3 所有的字符串都被视为Unicode，写u'xx'和'xx'）