# 分词

- 中文分词，是一个很有趣的话题，也是机器学习中关于语言处理的最基本的概念。今天我们看看 Python 怎么处理中文分词;
- 需要先安装 jieba 这个 Python 的库，使用 `pip install jieba`;
- 在 notebook 中执行命令可以在命令前面价格 ！来进行;
- 导入 jieba 之后，第一次运行会有一个初始化过程，稍稍产生一些影响。


In [None]:
!pip install jieba

In [None]:
import jieba

# 全模式
# 把句子中所有的可以称此的词语都扫描出来，速度非常快，但是不能解决歧义

seg_list = jieba.cut("今天上海的天气怎么样", cut_all = True)
print("Full Mode: " + "/ ".join(seg_list))  


Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\yijun\AppData\Local\Temp\jieba.cache
Loading model cost 0.555 seconds.
Prefix dict has been built successfully.


Full Mode: 今天/ 天上/ 上海/ 的/ 天气/ 怎么/ 怎么样


In [None]:
# 精确模式
# 试图将句子最精确的切开，适合文本分析

seg_list = jieba.cut("明天纽约下雨么", cut_all = False)
print("Default Mode: " + "/ ".join(seg_list))  


Default Mode: 明天/ 纽约/ 下雨/ 么


In [None]:
# 默认是精确模式

seg_list = jieba.cut("现在天气怎么样")  
print(", ".join(seg_list))


现在, 天气, 怎么样


In [None]:
# 默认是精确模式

seg_list = jieba.cut("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  
print(", ".join(seg_list))


小明, 硕士, 毕业, 于, 中国科学院, 计算所, ，, 后, 在, 日本京都大学, 深造


In [None]:
# 搜索引擎模式
# 在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词    

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造") 
print(", ".join(seg_list))

小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造


In [None]:
# 看看网络上的段子，分词带来的烦恼

seg_list = jieba.cut_for_search("黑夜总会过去") 
print(", ".join(seg_list))
seg_list = jieba.cut("黑夜总会过去", cut_all = True)
print(", ".join(seg_list))

黑夜, 总会, 过去
黑夜, 夜总会, 总会, 过去


In [None]:
# 默认是精确模式
seg_list = jieba.cut("2016年第一季度支付事业部交易量报表")  
print(','.join(seg_list))

2016,年,第一季度,支付,事业部,交易量,报表


In [None]:
# 默认是精确模式
seg_list = jieba.cut("2016年第一季度支付事业部交易量报表")  
for i in seg_list:
    print(i)

2016
年
第一季度
支付
事业部
交易量
报表


In [None]:
import jieba.posseg as pseg
words = pseg.cut("我爱北京天安门")

for word, flag in words:
    print('%s %s' % (word, flag))

我 r
爱 v
北京 ns
天安门 ns


#### 词性

北大词性标注集

* Ag     形语素     形容词性语素。形容词代码为a，语素代码ｇ前面置以A。
* a       形容词      取英语形容词adjective的第1个字母。
* ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。
* an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。
* b       区别词      取汉字“别”的声母。
* c       连词        取英语连词conjunction的第1个字母。
* Dg     副语素     副词性语素。副词代码为d，语素代码ｇ前面置以D。
* d       副词     取adverb的第2个字母，因其第1个字母已用于形容词。
* e       叹词     取英语叹词exclamation的第1个字母。
* f        方位词      取汉字“方”的声母。
* g  语素    绝大多数语素都能作为合成词的“词根”，取汉字“根”的声母。
* h       前接成分   取英语head的第1个字母。
* i        成语        取英语成语idiom的第1个字母。
* j        简称略语  取汉字“简”的声母。
* k       后接成分
* l        习用语     习用语尚未成为成语，有点“临时性”，取“临”的声母。
* m       数词     取英语numeral的第3个字母，n，u已有他用。
* Ng     名语素     名词性语素。名词代码为n，语素代码ｇ前面置以N。
* n   名词        取英语名词noun的第1个字母。
* nr  人名        名词代码n和“人(ren)”的声母并在一起。
* ns      地名     名词代码n和处所词代码s并在一起。
* nt      机构团体    “团”的声母为t，名词代码n和t并在一起。
* nz     其他专名    “专”的声母的第1个字母为z，名词代码n和z并在一起。 
* o       拟声词     取英语拟声词onomatopoeia的第1个字母。
* p       介词     取英语介词prepositional的第1个字母。
* q       量词        取英语quantity的第1个字母。
* r       代词        取英语代词pronoun的第2个字母,因p已用于介词。
* s       处所词     取英语space的第1个字母。
* Tg     时语素      时间词性语素。时间词代码为t,在语素的代码g前面置以T。
* t     时间词      取英语time的第1个字母。
* u       助词        取英语助词auxiliary 的第2个字母,因a已用于形容词。
* Vg     动语素      动词性语素。动词代码为v。在语素的代码g前面置以V。
* v       动词        取英语动词verb的第一个字母。
* vd     副动词      直接作状语的动词。动词和副词的代码并在一起。
* vn     名动词      指具有名词功能的动词。动词和名词的代码并在一起。
* w      标点符号   
* x       非语素字    非语素字只是一个符号，字母x通常用于代表未知数、符号。
* y       语气词      取汉字“语”的声母。
* z      状态词      取汉字“状”的声母的前一个字母。


#### 延展思考：

* 能够根据分词和词性的情况，做一个简单的机器人聊天软件？

彩蛋：

In [None]:
print('\n'.join([''.join([('ILOVEYOU'[(x-y)%8]if((x*0.05)**2+(y*0.1)**2-1)**3-(x*0.05)**2*(y*0.1)**3<=0 else' ')for x in range(-30,30)])for y in range(15,-15,-1)]))

                                                            
                                                            
                                                            
                OUILOVEYO           OVEYOUILO               
            VEYOUILOVEYOUILOV   UILOVEYOUILOVEYOU           
          OVEYOUILOVEYOUILOVEYOUILOVEYOUILOVEYOUILO         
         OVEYOUILOVEYOUILOVEYOUILOVEYOUILOVEYOUILOVE        
        OVEYOUILOVEYOUILOVEYOUILOVEYOUILOVEYOUILOVEYO       
        VEYOUILOVEYOUILOVEYOUILOVEYOUILOVEYOUILOVEYOU       
        EYOUILOVEYOUILOVEYOUILOVEYOUILOVEYOUILOVEYOUI       
        YOUILOVEYOUILOVEYOUILOVEYOUILOVEYOUILOVEYOUIL       
        OUILOVEYOUILOVEYOUILOVEYOUILOVEYOUILOVEYOUILO       
        UILOVEYOUILOVEYOUILOVEYOUILOVEYOUILOVEYOUILOV       
         LOVEYOUILOVEYOUILOVEYOUILOVEYOUILOVEYOUILOV        
          VEYOUILOVEYOUILOVEYOUILOVEYOUILOVEYOUILOV         
          EYOUILOVEYOUILOVEYOUILOVEYOUILOVEYOUILOVE         
            UILOVEYOUILO