## Jieba Chinese Segmentation
"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.  
https://github.com/fxsjy/jieba  

This notebook is based on the demo script provided by **Jieba**.

In [1]:
#encoding=utf-8
from __future__ import unicode_literals
import sys
sys.path.append("../")

import jieba
import jieba.posseg
import jieba.analyse

### 1. 分词

In [3]:
# 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  

Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 1.006 seconds.
Prefix dict has been built succesfully.


Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学


In [4]:
# 默认模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  

Default Mode: 我/ 来到/ 北京/ 清华大学


In [5]:
seg_list = jieba.cut("他来到了网易杭研大厦")
print(", ".join(seg_list))

他, 来到, 了, 网易, 杭研, 大厦


In [7]:
# 搜索引擎模式
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  
print(", ".join(seg_list))

seg_list = jieba.cut("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  
print(", ".join(seg_list))

小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造
小明, 硕士, 毕业, 于, 中国科学院, 计算所, ，, 后, 在, 日本京都大学, 深造


### 2. 添加自定义词典/调整词典

In [8]:
print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))

如果/放到/post/中将/出错/。


In [9]:
print(jieba.suggest_freq(('中', '将'), True))

494


In [10]:
print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))

如果/放到/post/中/将/出错/。


In [11]:
print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))

「/台/中/」/正确/应该/不会/被/切开


In [12]:
print(jieba.suggest_freq('台中', True))

69


In [13]:
print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))

「/台中/」/正确/应该/不会/被/切开


In [14]:
s = "此外，公司拟对全资子公司吉林欧亚置业有限公司增资4.3亿元，增资后，吉林欧亚置业注册资本由7000万元增加到5亿元。吉林欧亚置业主要经营范围为房地产开发及百货零售等业务。目前在建吉林欧亚城市商业综合体项目。2013年，实现营业收入0万元，实现净利润-139.13万元。"
print('/'.join(jieba.cut(s, HMM=False)))

此外/，/公司/拟/对/全资/子公司/吉林/欧亚/置业/有限公司/增资/4/./3/亿元/，/增资/后/，/吉林/欧亚/置业/注册资本/由/7000/万元/增加/到/5/亿元/。/吉林/欧亚/置业/主要/经营范围/为/房地产/开发/及/百货/零售/等/业务/。/目前/在建/吉林/欧亚/城市/商业/综合体/项目/。/2013/年/，/实现/营业/收入/0/万元/，/实现/净利润/-/139/./13/万元/。


### 3. 关键词提取

#### TF-IDF

In [15]:
s = "此外，公司拟对全资子公司吉林欧亚置业有限公司增资4.3亿元，增资后，吉林欧亚置业注册资本由7000万元增加到5亿元。吉林欧亚置业主要经营范围为房地产开发及百货零售等业务。目前在建吉林欧亚城市商业综合体项目。2013年，实现营业收入0万元，实现净利润-139.13万元。"
for x, w in jieba.analyse.extract_tags(s, withWeight=True):
    print('%s %s' % (x, w))

欧亚 0.730014270029
吉林 0.659038184374
置业 0.488713452211
万元 0.339272248186
增资 0.335824019852
4.3 0.254356755381
7000 0.254356755381
139.13 0.254356755381
2013 0.254356755381
实现 0.199009799004
综合体 0.194803096247
经营范围 0.193897572536
亿元 0.191442162359
在建 0.175418847684
全资 0.171801649885
注册资本 0.1712441526
百货 0.167344600414
零售 0.147505711706
子公司 0.145960452378
营业 0.13920178509


In [18]:
for x in jieba.analyse.extract_tags(s, withWeight=False):
    print('%s' % (x))

欧亚
吉林
置业
万元
增资
4.3
7000
139.13
2013
实现
综合体
经营范围
亿元
在建
全资
注册资本
百货
零售
子公司
营业


#### TextRank

In [19]:
for x, w in jieba.analyse.textrank(s, withWeight=True):
    print('%s %s' % (x, w))

吉林 1.0
欧亚 0.996689335418
置业 0.643436031309
实现 0.589860669286
收入 0.43677859948
增资 0.409990053128
子公司 0.356782959477
城市 0.349713836674
商业 0.34817220716
业务 0.309223099262
在建 0.307792916403
营业 0.303577704932
全资 0.303540981053
综合体 0.295808691724
注册资本 0.290005194641
有限公司 0.280783079858
零售 0.278836208612
百货 0.278165762845
开发 0.26934887793
经营范围 0.264276217356


### 4. 词性标注

In [20]:
words = jieba.posseg.cut("我爱北京天安门")
for word, flag in words:
    print('%s %s' % (word, flag))

我 r
爱 v
北京 ns
天安门 ns


### 5. Tokenize: 返回词语在原文的起止位置

In [21]:
result = jieba.tokenize('永和服装饰品有限公司')
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))

word 永和		 start: 0 		 end:2
word 服装		 start: 2 		 end:4
word 饰品		 start: 4 		 end:6
word 有限公司		 start: 6 		 end:10


In [22]:
result = jieba.tokenize('永和服装饰品有限公司', mode='search')
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))

word 永和		 start: 0 		 end:2
word 服装		 start: 2 		 end:4
word 饰品		 start: 4 		 end:6
word 有限		 start: 6 		 end:8
word 公司		 start: 8 		 end:10
word 有限公司		 start: 6 		 end:10


### 6. 中文分句

In [28]:
import re

sentences = re.sub('([！？。])', r'\n', s).split('\n')

In [29]:
for sentence in sentences:
    print sentence

此外，公司拟对全资子公司吉林欧亚置业有限公司增资4.3亿元，增资后，吉林欧亚置业注册资本由7000万元增加到5亿元
吉林欧亚置业主要经营范围为房地产开发及百货零售等业务
目前在建吉林欧亚城市商业综合体项目
2013年，实现营业收入0万元，实现净利润-139.13万元



In [37]:
words = []
for sentence in sentences:
    s_words = list(jieba.cut(sentence))
    words.append(s_words)
    print ' / '.join(s_words)

此外 / ， / 公司 / 拟 / 对 / 全资 / 子公司 / 吉林 / 欧亚 / 置业 / 有限公司 / 增资 / 4.3 / 亿元 / ， / 增资 / 后 / ， / 吉林 / 欧亚 / 置业 / 注册资本 / 由 / 7000 / 万元 / 增加 / 到 / 5 / 亿元
吉林 / 欧亚 / 置业 / 主要 / 经营范围 / 为 / 房地产 / 开发 / 及 / 百货 / 零售 / 等 / 业务
目前 / 在建 / 吉林 / 欧亚 / 城市 / 商业 / 综合体 / 项目
2013 / 年 / ， / 实现 / 营业 / 收入 / 0 / 万元 / ， / 实现 / 净利润 / - / 139.13 / 万元

