# jieba分词

- https://github.com/fxsjy/jieba


### 三种分词模式
- 精确模式：将句子最精确地切开，适用于文本分析
- 全模式：把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决起义问题
- 搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

In [2]:
# encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
Default Mode: 我/ 来到/ 北京/ 清华大学
他, 来到, 了, 网易, 杭研, 大厦
小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造


### 载入自定义词典

- 开发者可以载入自己自定义的词典，以便包含jieba词库里面没有的词语。（自行添加可以确保更高的正确率）
- 用法： jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径
- 词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。
- 词频省略时使用自动计算的能保证分出该词的词频。

- 可以调整自定义词典，从而动态修改词典。

In [3]:
print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))

如果/放到/post/中将/出错/。


In [4]:
jieba.suggest_freq(('中', '将'), True)

494

In [5]:
print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))

如果/放到/post/中/将/出错/。


In [6]:
print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))

「/台/中/」/正确/应该/不会/被/切开


In [10]:
jieba.suggest_freq('台中', True)

72

In [11]:
print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))

「/台中/」/正确/应该/不会/被/切开


### 关键词提取

- import jieba.analyse



### 中文分词+词性标注

In [15]:
seg_list = jieba.cut("我爱自然语言处理", cut_all=True)         
print("Full Mode: " + " ".join(seg_list)) # 全模式  

Full Mode: 我 爱 自然 自然语言 语言 处理


In [17]:
import jieba
import jieba.analyse
import jieba.posseg
 
def dosegment_all(sentence):
    '''
    带词性标注，对句子进行分词，不排除停词等
    :param sentence:输入字符
    :return:
    '''
    sentence_seged = jieba.posseg.cut(sentence.strip())
    outstr = ''
    for x in sentence_seged:
        outstr+="{}/{},".format(x.word,x.flag)
    #上面的for循环可以用python递推式构造生成器完成
    # outstr = ",".join([("%s/%s" %(x.word,x.flag)) for x in sentence_seged])
    return outstr

In [18]:
import jieba.posseg as pseg
words =pseg.cut("我爱北京天安门")
for w in words:
    print(w.word,w.flag)

我 r
爱 v
北京 ns
天安门 ns


# SnowNLP

### 中文分词+词性标注


In [16]:
from snownlp import SnowNLP
s = SnowNLP("杭州西湖风景很好，是旅游胜地！")
print(' '.join(s.words))   
s.pinyin

杭州 西湖 风景 很 好 ， 是 旅游 胜地 ！


['hang',
 'zhou',
 'xi',
 'hu',
 'feng',
 'jing',
 'hen',
 'hao',
 '，',
 'shi',
 'lv',
 'you',
 'sheng',
 'di',
 '！']

In [2]:
# 繁体转为简体
s = SnowNLP(u'「繁體字」「繁體中文」的叫法在臺灣亦很常見。')
s.han

'「繁体字」「繁体中文」的叫法在台湾亦很常见。'

In [4]:
# 自动摘要
text = u'''自然语言处理是计算机科学领域与人工智能领域中的
一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信
的各种理论和方法。自然语言处理是一门融语言学、计算机科学、
数学于一体的科学。因此，这一领域的研究将涉及自然语言，
即人们日常使用的语言，所以它与语言学的研究有着密切的联系，
但又有重要的区别。自然语言处理并不是一般地研究自然语言，
而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。
因而它是计算机科学的一部分。
'''
s = SnowNLP(text)
s.summary(5)

['因而它是计算机科学的一部分',
 '自然语言处理是计算机科学领域与人工智能领域中的一个重要方向',
 '自然语言处理是一门融语言学、计算机科学、数学于一体的科学',
 '所以它与语言学的研究有着密切的联系',
 '这一领域的研究将涉及自然语言']

In [5]:
# 计算BM2.5 相似性（计算相似性）
s = SnowNLP([[u'这篇', u'文章',u'非常好'],
             [u'那篇', u'文章',u'一般般'],
             [u'这个']])
#s.tf
s.idf
s.sim([u'这篇', u'文章',u'非常好'])# [0.3756070762985226, 0, 0]

[0.45263029953948547, -0.45263029953948547, 0]

### 文本相似度-bm25算法原理以及实现

- 搜索相关性评分
- 对Query进行语素解析，生成语素qi；然后，对于每个搜索结果D，计算每个语素qi与D的相关性得分，最后，将qi相对于D的相关性得分进行加权求和，从而得到Query与D的相关性得分。

In [20]:
#coding:UTF-8
import sys
from snownlp import SnowNLP

def read_and_analysis(input_file, output_file):
    f = open(input_file)
    fw = open(output_file, "w")
    while True:
        line = f.readline()
        if not line:
            break
        lines = line.strip().split("\t")
        if len(lines) < 2:
            continue

        s = SnowNLP(lines[1].decode('utf-8'))
        # s.words 查询分词结果
        seg_words = ""
        for x in s.words:
            seg_words += "_"
            seg_words += x
        # s.sentiments 查询最终的情感分析的得分
        fw.write(lines[0] + "\t" + lines[1] + "\t" + seg_words.encode('utf-8') + "\t" + str(s.sentiments) + "\n")
    fw.close()
    f.close()

if __name__ == "__main__":
    input_file = sys.argv[1]
    output_file = sys.argv[2]
    read_and_analysis(input_file, output_file)
    
# 上述代码会从文件中读取每一行的文本，并对其进行情感分析并输出最终的结果。

FileNotFoundError: [Errno 2] No such file or directory: '-f'

- 情感分析源码分析：https://blog.csdn.net/google19890102/article/details/80091502

### 句法分析

In [None]:
# 暂时没找到！！！

# NGram语言模型

In [10]:
from nltk.util import ngrams
a = "add domain with authentication for conference focus user".split(' ')
unigrams = ngrams(a,1)
for i in unigrams:
    print(i)
 
bigrams = ngrams(a,2)
for i in bigrams:
    print(i)

print('++++++++++++++')

trigrams = ngrams(a,3)
for i in trigrams:
    print(i)
    
print('++++++++++++++')

fourgrams = ngrams(a,4)
for i in fourgrams:
    print(i)

('add',)
('domain',)
('with',)
('authentication',)
('for',)
('conference',)
('focus',)
('user',)
('add', 'domain')
('domain', 'with')
('with', 'authentication')
('authentication', 'for')
('for', 'conference')
('conference', 'focus')
('focus', 'user')
++++++++++++++
('add', 'domain', 'with')
('domain', 'with', 'authentication')
('with', 'authentication', 'for')
('authentication', 'for', 'conference')
('for', 'conference', 'focus')
('conference', 'focus', 'user')
++++++++++++++
('add', 'domain', 'with', 'authentication')
('domain', 'with', 'authentication', 'for')
('with', 'authentication', 'for', 'conference')
('authentication', 'for', 'conference', 'focus')
('for', 'conference', 'focus', 'user')


# NLTK使用

- 分词
- 分句
- 词干提取

In [11]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize
import nltk
# NLTK 分词
word_tokenize("this's a test")
# NLTK 分句
text = "this's a sent tokenize test. this is sent two. is this sent three? sent 4 is cool! Now it's your turn."
sent_tokenize_list = sent_tokenize(text)
print(sent_tokenize_list)

text = nltk.word_tokenize("Dive into NLTK: Part-of-speech tagging and POS Tagger")
nltk.pos_tag(text)

# 词干提取
from nltk.stem.porter import PorterStemmer
from nltk.stem.lancaster import LancasterStemmer
from nltk.stem import WordNetLemmatizer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()
porter_stemmer.stem('maximum')
lancaster_stemmer.stem('maximum')


wordnet_lemmatizer = WordNetLemmatizer()
wordnet_lemmatizer.lemmatize('dogs')
wordnet_lemmatizer.lemmatize('aardwolves')

wordnet_lemmatizer.lemmatize('is', pos='v')
wordnet_lemmatizer.lemmatize('are', pos='v')

["this's a sent tokenize test.", 'this is sent two.', 'is this sent three?', 'sent 4 is cool!', "Now it's your turn."]


'be'

In [12]:
# NLTK 分词
word_tokenize("this's a test")

['this', "'s", 'a', 'test']

In [13]:
# NLTK 分句
text = "this's a sent tokenize test. this is sent two. is this sent three? sent 4 is cool! Now it's your turn."
sent_tokenize_list = sent_tokenize(text)
print(sent_tokenize_list)

["this's a sent tokenize test.", 'this is sent two.', 'is this sent three?', 'sent 4 is cool!', "Now it's your turn."]


In [14]:
text = nltk.word_tokenize("Dive into NLTK: Part-of-speech tagging and POS Tagger")
nltk.pos_tag(text)

[('Dive', 'NNP'),
 ('into', 'IN'),
 ('NLTK', 'NNP'),
 (':', ':'),
 ('Part-of-speech', 'JJ'),
 ('tagging', 'NN'),
 ('and', 'CC'),
 ('POS', 'NNP'),
 ('Tagger', 'NNP')]

In [15]:
porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()
porter_stemmer.stem('maximum')
lancaster_stemmer.stem('maximum')

'maxim'

In [17]:
wordnet_lemmatizer = WordNetLemmatizer()
wordnet_lemmatizer.lemmatize('dogs')
wordnet_lemmatizer.lemmatize('aardwolves')

'aardwolf'

In [18]:
wordnet_lemmatizer.lemmatize('is', pos='v')
wordnet_lemmatizer.lemmatize('are', pos='v')

'be'

In [19]:
wordnet_lemmatizer.lemmatize('dogs')

'dog'

In [20]:
wordnet_lemmatizer.lemmatize('is', pos='v')

'be'

# 词法分析

- 将句子转换成词序列并标记句子中的词的词性等
- 不同语言词法分析任务有所不同

### 英语

- 用空格隔开，不需要分词
- 用词的形态变化表示语法关系
- 英文词法分析（曲折变化） i. 词的识别、词形还原 ii. 未登录词处理 iii.词性标注

### 汉语

- 词与词紧密相边，没有明显分界标志
- 词形变化少，靠词序或虚词来表示语法关系
- 中文词法分析 i. 分词 ii.未登录词识别 iii.词性标注

In [19]:
# 使用snownlp进行词法分析
from snownlp import SnowNLP
text = "在尼比鲁星球探查期间，企业号舰长柯克为营救史波克采取了胆大妄为的举动，几乎危及全舰队员的生命，他也为此付出代价。"
s = SnowNLP(text)
print(s.words)
print([t for t in s.tags])

['在', '尼', '比鲁', '星球', '探查', '期间', '，', '企业', '号', '舰长', '柯克', '为', '营救', '史', '波克', '采取', '了', '胆大妄为', '的', '举动', '，', '几乎', '危及', '全', '舰队', '员', '的', '生命', '，', '他', '也', '为', '此', '付出', '代价', '。']
[('在', 'p'), ('尼', 'j'), ('比鲁', 'j'), ('星球', 'n'), ('探查', 'v'), ('期间', 'f'), ('，', 'w'), ('企业', 'n'), ('号', 'n'), ('舰长', 'n'), ('柯克', 'ad'), ('为', 'v'), ('营救', 'v'), ('史', 'Ng'), ('波克', 'o'), ('采取', 'v'), ('了', 'u'), ('胆大妄为', 'i'), ('的', 'u'), ('举动', 'n'), ('，', 'w'), ('几乎', 'd'), ('危及', 'v'), ('全', 'a'), ('舰队', 'n'), ('员', 'Ng'), ('的', 'u'), ('生命', 'n'), ('，', 'w'), ('他', 'r'), ('也', 'd'), ('为', 'p'), ('此', 'r'), ('付出', 'v'), ('代价', 'n'), ('。', 'w')]


In [None]:
from stanfordcorenlp import StanfordCoreNLP
from nltk.tree import ParentedTree as PT
from nltk.treeprettyprinter import TreePrettyPrinter

corenlp = StanfordCoreNLP('http://localhost',port=2002)
text="Once again, Coca-Cola, Nestlé, and PepsiCo are the world's worst plastic pollution contributors, according to a recent global audit."
tstr = corenlp.parse(text)
pt = PT.fromstring(tstr)
tstr_pretty = TreePrettyPrinter(pt).text()
print(tstr_pretty)