- [基本操作](#基本操作)
    - [1.清理与替换](#1.-清理与替换)
    - [2.截取](#2.-截取)
    - [3.连接与分割](#3.-连接与分割)
    - [4.比较与排序](#4.-比较与排序)
    - [5.查找与包含（内置）](#5.-查找与包含（内置）)
    - [6.大小写及其他变化](#6.-大小写与其他变化)
- [模式匹配与正则表达式](#模式匹配与正则表达式)
- [英文文本处理与NLTK](#英文文本处理与NLTK)
    - [1. 分词（Tokenizaiton）](#1.-分词（Tokenizaiton）)
    - [2. 词性标注](#2.-词性标注)
    - [3. 组块分析（chunking）](#3.-组块分析（chunking）)
    - [4. 命名实体识别](#4.-命名实体识别)
    - [5. Stemming和Lemmatizing](#5.-Stemming和Lemmatizing)
    - [6. WordNet 与词义解析](#6.-WordNet-与词义解析)
- [英文文本处理与spaCy](#英文文本处理与spaCy)
    - [1.Tokenizaiton](#1.Tokenization)
    - [2.词性标注](#2.词性标注)
    - [3.命名实体识别](#3.命名实体识别)
    - [4.chunking](#4.chunking)
    - [5.句法依存解析](#5.句法依存解析)
    - [6.词向量](#6.词向量)
    - [7.词汇与文本相似度](#7.词汇与文本相似度)
- [中文文本处理与jieba](#中文文本处理与jieba)
    - [1.分词](#1.分词)
    - [2.jieba词性标注](#2.jieba词性标注)
    - [3.关键词抽取](#3.关键词抽取)

# 基本操作

### 1. 清理与替换

In [1]:
en_str = ' hello world, hello, my name is Daniel Meng! '

- 去除空格与特殊符号

In [2]:
en_str.strip().lstrip().rstrip(',')

'hello world, hello, my name is Daniel Meng!'

- 字符串替换

In [4]:
en_str.replace('hello', 'hi')  # 非 in-place

' hi world, hi, my name is Daniel Meng! '

In [5]:
zh_str = ' 大家好， 我是一轩明月！ '

In [7]:
zh_str.strip().lstrip().rstrip(',')

'大家好， 我是一轩明月！'

- 删除

In [9]:
zh_str.strip().replace('一轩明月', '小骡汤米')

'大家好， 我是小骡汤米！'

In [10]:
zh_str.strip().replace('大家好', '')

'， 我是一轩明月！'

### 2. 截取

In [11]:
cut_out_str = '大家好，我是一轩明月，信息技术爱好者，认识一下？'

In [12]:
cut_out_str[0:3]

'大家好'

In [19]:
cut_out_str[4:10]

'我是一轩明月'

In [16]:
cut_out_str[-5:-1]

'认识一下'

In [17]:
cut_out_str[:-6]

'大家好，我是一轩明月，信息技术爱好者'

In [18]:
cut_out_str[::2]

'大好我一明，息术好，识下'

- 翻转字符串

In [20]:
cut_out_str[::-1]

'？下一识认，者好爱术技息信，月明轩一是我，好家大'

### 3. 连接与分割

In [22]:
connect_str1 = '大家好！'
connect_str2 = '我是一轩明月'

In [23]:
connect_str1 + connect_str2

'大家好！我是一轩明月'

In [24]:
connect_strs = ['赤','橙','黄','绿','青','蓝','紫']

In [25]:
';'.join(connect_strs)

'赤;橙;黄;绿;青;蓝;紫'

In [28]:
tmp_str = '|'.join(connect_strs)
print(tmp_str)
tmp_str = tmp_str.split('|')
print(tmp_str)

赤|橙|黄|绿|青|蓝|紫
['赤', '橙', '黄', '绿', '青', '蓝', '紫']


### 4. 比较与排序

In [31]:
cmp_strs = ['xYz','AAb','cCe','aBd']

In [32]:
sorted(cmp_strs)

['AAb', 'aBd', 'cCe', 'xYz']

In [37]:
sorted(cmp_strs, key=lambda x:x[2].lower())

['AAb', 'aBd', 'cCe', 'xYz']

### 5. 查找与包含（内置）

In [40]:
search_str = '举杯邀明月，对影成三人。月有阴晴圆缺，此事古难全。'

In [39]:
search_str.index('明月')

3

In [41]:
search_str.find('月')

4

In [42]:
#search_str.index('错误')

ValueError: substring not found

In [43]:
search_str.find('错误')

-1

### 6. 大小写与其他变化

In [44]:
en_str = 'hello, my name is Daniel Meng'

In [45]:
en_str.lower()

'hello, my name is daniel meng'

In [46]:
en_str.upper()

'HELLO, MY NAME IS DANIEL MENG'

In [47]:
en_str.capitalize()

'Hello, my name is daniel meng'

In [48]:
help(str)

Help on class str in module builtins:

class str(object)
 |  str(object='') -> str
 |  str(bytes_or_buffer[, encoding[, errors]]) -> str
 |  
 |  Create a new string object from the given object. If encoding or
 |  errors is specified, then the object must expose a data buffer
 |  that will be decoded using the given encoding and error handler.
 |  Otherwise, returns the result of object.__str__() (if defined)
 |  or repr(object).
 |  encoding defaults to sys.getdefaultencoding().
 |  errors defaults to 'strict'.
 |  
 |  Methods defined here:
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __contains__(self, key, /)
 |      Return key in self.
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __format__(self, format_spec, /)
 |      Return a formatted version of the string as described by format_spec.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  

# 模式匹配与正则表达式

正则表达式介绍见[笔记](https://libertydream.github.io/python_tutorial/7.regular_expression_and_JSON.html)，在线验证学习网站[regexr](https://regexr.com)，进阶练习[Regex Golf](https://alf.nu/RegexGolf)

In [49]:
import re

In [58]:
re_text = 'one1two2three3four4five5'

In [59]:
re.findall(r'(\d+)',re_text)

['1', '2', '3', '4', '5']

In [60]:
re.search(r'(\D+)',re_text).group()

'one'

In [61]:
re.split(r'\d',re_text)

['one', 'two', 'three', 'four', 'five', '']

In [64]:
re.sub(r'(\D+)(\d+)',r'\2\1', re_text)

'1one2two3three4four5five'

In [66]:
def sub_func(m):
    return m.group(2) + ' '+ m.group(1).title()+" "

re.sub(r'(\D+)(\d+)',sub_func, re_text)

'1 One 2 Two 3 Three 4 Four 5 Five '

# 英文文本处理与NLTK

[NLTK](https://www.nltk.org/)，全称Natural Language Toolkit，自然语言处理工具包，是NLP研究领域常用的一个Python库。

## 1. 分词（Tokenizaiton）

In [3]:
with open('./data/bible.txt','r') as f:
    texts = f.read()

type(texts)

str

In [1]:
import nltk
from nltk import word_tokenize, sent_tokenize

- 断句

In [4]:
sentences = sent_tokenize(texts)
sentences

['1:1 In the beginning God created the heaven and the earth.',
 '1:2 And the earth was without form, and void; and darkness was upon\nthe face of the deep.',
 'And the Spirit of God moved upon the face of the\nwaters.',
 '1:3 And God said, Let there be light: and there was light.',
 '1:4 And God saw the light, that it was good: and God divided the light\nfrom the darkness.',
 '1:5 And God called the light Day, and the darkness he called Night.',
 'And the evening and the morning were the first day.',
 '1:6 And God said, Let there be a firmament in the midst of the waters,\nand let it divide the waters from the waters.',
 '1:7 And God made the firmament, and divided the waters which were\nunder the firmament from the waters which were above the firmament:\nand it was so.',
 '1:8 And God called the firmament Heaven.',
 'And the evening and the\nmorning were the second day.',
 '1:9 And God said, Let the waters under the heaven be gathered together\nunto one place, and let the dry land app

- 分词

In [5]:
words = word_tokenize(texts)
words[:20]

['1:1',
 'In',
 'the',
 'beginning',
 'God',
 'created',
 'the',
 'heaven',
 'and',
 'the',
 'earth',
 '.',
 '1:2',
 'And',
 'the',
 'earth',
 'was',
 'without',
 'form',
 ',']

- 停用词

在自然语言处理的很多任务中，我们处理的主体“文本”中有一些功能词经常出现，然而对于最后的任务目标并没有帮助，甚至会对统计方法带来一些干扰，我们把这类词叫做**停用词**，通常我们会用一个停用词表把它们过滤出来。比如英语当中的定冠词/不定冠词（a，an，the等）。

In [6]:
from nltk.corpus import stopwords

In [7]:
stop_words = stopwords.words('english')
stop_words[:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [8]:
filtered_words = [w for w in words if not w in stop_words]
filtered_words[:20]

['1:1',
 'In',
 'beginning',
 'God',
 'created',
 'heaven',
 'earth',
 '.',
 '1:2',
 'And',
 'earth',
 'without',
 'form',
 ',',
 'void',
 ';',
 'darkness',
 'upon',
 'face',
 'deep']

In [9]:
len(words) - len(filtered_words)

985

## 2. 词性标注

词性（part-of-speech）是词汇基本的语法属性，通常也称为词性。

词性标注（part-of-speech tagging），又称为词类标注，确定每个词是名词、动词、形容词或者其他词性的过程。

词性标注是很多NLP任务的预处理步骤，如句法分析，经过词性标注后的文本会带来很大的便利性，但也不是不可或缺的步骤。词性标注的最简单做法是选取最高频词性，主流的做法可以分为基于规则和基于统计的方法，包括：

- 基于最大熵的词性标注
- 基于统计最大概率输出词性
- 基于HMM的词性标注

![](https://raw.githubusercontent.com/LibertyDream/diy_img_host/master/img/2019-12-25_part_of_speech_tagset.jpeg)

In [12]:
from nltk import pos_tag
tags = pos_tag(filtered_words)
tags[:20]

[('1:1', 'CD'),
 ('In', 'IN'),
 ('beginning', 'VBG'),
 ('God', 'NNP'),
 ('created', 'VBD'),
 ('heaven', 'RB'),
 ('earth', 'JJ'),
 ('.', '.'),
 ('1:2', 'CD'),
 ('And', 'CC'),
 ('earth', 'NN'),
 ('without', 'IN'),
 ('form', 'NN'),
 (',', ','),
 ('void', 'NN'),
 (';', ':'),
 ('darkness', 'CC'),
 ('upon', 'IN'),
 ('face', 'NN'),
 ('deep', 'NN')]

## 3. 组块分析（chunking）

分块是命名实体识别的基础，词性给出来的句子成分的属性，但有时候，更多的信息（比如句子句法结构）可以帮助我们对句子中的模式挖掘更充分。举个例子，”古天乐赞助了很多小学“中的头部古天乐是一个人名（命名实体）

组块分析是一个非常有用的从文本抽取信息的方法，提取组块需要用到正则表达式：

In [13]:
from nltk.chunk import RegexpParser

In [14]:
pattern = """
    NP:{<JJ>*<NN>+}
    {<JJ>*<NN><CC>*<NN>+}
    """

In [15]:
chunker = RegexpParser(pattern)

In [16]:
text='''
he National Wrestling Association was an early professional wrestling sanctioning body created in 1930 by 
the National Boxing Association (NBA)(now the World Boxing Association, WBA) as an attempt to create a governing 
body for professional wrestling in the United States. The group created a number of "world"level championships 
as an attempt to klear up the professional wrestling rankings which at the time saw a number of different championships 
promoted as the "true world championship". The National Wrestling Association's NWA World Heavyweight Championship was 
later considered part of the historical lineage of the National Wrestling Alliance's NWA World Heavyweight Championship 
when then National Wrestling Association champion Lou Thesz won the National Wrestling Alliance championship, folding 
the original championship into one title in 1949.
'''

In [17]:
tokenized_sent = sent_tokenize(text)

tokenized_words = [word_tokenize(sent) for sent in tokenized_sent]

tagged_words = [pos_tag(word) for word in tokenized_words]

word_tree = [chunker.parse(word) for word in tagged_words]

In [None]:
word_tree[0].draw() # 弹窗显示解析图

## 4. 命名实体识别

命名实体识别（Named Entity Recognition，简称NER），识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。通常包括两部分：1）实体边界识别；2）确定实体类别（人名、地名、机构名或其他）。

就 NER 而言，NLTK 不太好用，可以用斯坦福的[模块](https://stanfordnlp.github.io/CoreNLP)。更快，识别更好。

In [2]:
from nltk import ne_chunk, pos_tag, word_tokenize

In [7]:
sentence = 'Tom studies at Oxford University.'
print(ne_chunk(pos_tag(word_tokenize(sentence))))

(S
  (GPE Tom/NNP)
  studies/NNS
  at/IN
  (ORGANIZATION Oxford/NNP University/NNP)
  ./.)


## 5. Stemming和Lemmatizing

很多时候我们需要对英文当中的时态语态等做归一化，这个时候我们就需要stemming和lemmatizing这样的操作了。比如“running“是进行时，但是这个词表征的含义和“run“是一致的，我们在识别语义的时候，希望能消除这种差异化。

In [8]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
stemmer.stem('running')

'run'

In [9]:
stemmer.stem('makes')

'make'

In [10]:
stemmer.stem('swimming')

'swim'

In [12]:
from nltk.stem import SnowballStemmer
stemmer2 = SnowballStemmer('english')
stemmer2.stem('growing')

'grow'

In [15]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmatizer.lemmatize('makes')

'make'

## 6. WordNet 与词义解析

各种“2Vec”模型和 FastText 之前，有一种表示词的方法就是编字典，即规则式的解析词。

In [16]:
from nltk.corpus import wordnet as wn

wn.synsets('man')

[Synset('man.n.01'),
 Synset('serviceman.n.01'),
 Synset('man.n.03'),
 Synset('homo.n.02'),
 Synset('man.n.05'),
 Synset('man.n.06'),
 Synset('valet.n.01'),
 Synset('man.n.08'),
 Synset('man.n.09'),
 Synset('man.n.10'),
 Synset('world.n.08'),
 Synset('man.v.01'),
 Synset('man.v.02')]

In [17]:
wn.synsets('man')[1].definition()

'someone who serves in the armed forces; a member of a military force'

In [18]:
wn.synsets('dog')

[Synset('dog.n.01'),
 Synset('frump.n.01'),
 Synset('dog.n.03'),
 Synset('cad.n.01'),
 Synset('frank.n.02'),
 Synset('pawl.n.01'),
 Synset('andiron.n.01'),
 Synset('chase.v.01')]

In [19]:
wn.synsets('dog')[0].definition()

'a member of the genus Canis (probably descended from the common wolf) that has been domesticated by man since prehistoric times; occurs in many breeds'

In [23]:
dog = wn.synset('dog.n.01')
dog.examples()[0]

'the dog barked all night'

In [24]:
# 上位词。“狗”属于“犬类”
dog.hypernyms()

[Synset('canine.n.02'), Synset('domestic_animal.n.01')]

# 英文文本处理与spaCy

[spaCy](https://spacy.io/) 是 Python 和 Cython 中的高级自然语言处理库，它建立在最新的研究基础之上，从一开始就设计用于实际产品。spaCy带有预先训练的统计模型和单词向量，目前支持20多种语言的标记。它具有世界上速度最快的句法分析器，用于标签的卷积神经网络模型，解析和命名实体识别以及与深度学习整合。

## 1.Tokenization

文本是不能成段送入模型中进行分析的，我们通常会把文本切成有独立含义的字、词或者短语，这个过程叫做tokenization，这通常是大家解决自然语言处理问题的第一步。在spaCY中同样可以很方便地完成Tokenization。

In [1]:
import spacy
nlp =  spacy.load('en_core_web_sm')
doc = nlp('Hello everybody! My name is Daniel Meng')

for token in doc:
    print('"'+token.text+'"')

"Hello"
"everybody"
"!"
"My"
"name"
"is"
"Daniel"
"Meng"


In [2]:
doc = nlp("Next week I'll be in Shanghai.")
for token in doc: 
    print("{0}\t{1}\t{2}\t{3}\t{4}\t{5}\t{6}\t{7}".format(
        token.text, 
        token.idx, 
        token.lemma_, 
        token.is_punct, 
        token.is_space, 
        token.shape_, 
        token.pos_, 
        token.tag_
))

Next	0	next	False	False	Xxxx	ADJ	JJ
week	5	week	False	False	xxxx	NOUN	NN
I	10	-PRON-	False	False	X	PRON	PRP
'll	11	will	False	False	'xx	AUX	MD
be	15	be	False	False	xx	AUX	VB
in	18	in	False	False	xx	ADP	IN
Shanghai	21	Shanghai	False	False	Xxxxx	PROPN	NNP
.	29	.	True	False	.	PUNCT	.


In [3]:
type(doc)

spacy.tokens.doc.Doc

Doc 对象内部也包含了断句功能

In [4]:
doc = nlp('Hello everybody! My name is Daniel Meng')
for sent in doc.sents:
    print(sent)

Hello everybody!
My name is Daniel Meng


## 2.词性标注

In [5]:
doc = nlp('Hello everybody! My name is Daniel Meng')
print([(token.text, token.tag_) for token in doc])

[('Hello', 'UH'), ('everybody', 'NN'), ('!', '.'), ('My', 'PRP$'), ('name', 'NN'), ('is', 'VBZ'), ('Daniel', 'NNP'), ('Meng', 'NNP')]


## 3.命名实体识别

相较于 NLTK，spaCy 做 NER 简单且可标注类别更多

In [6]:
doc = nlp("Next week I'll be in Shanghai.")
for ent in doc.ents:
    print(ent.text, ent.label_)

Next week DATE
Shanghai GPE


In [7]:
doc = nlp("I just bought 2 shares at 9 a.m. because the stock went up 30% in just 2 days according to the WSJ")
for ent in doc.ents:
    print(ent.text, ent.label_)

2 CARDINAL
9 a.m. TIME
30% PERCENT
just 2 days DATE
WSJ ORG


spaCy 做可视化也不错

In [9]:
from spacy import displacy

doc = nlp("I just bought 2 shares at 9 a.m. because the stock went up 30% in just 2 days according to the WSJ")
displacy.render(doc, style='ent', jupyter=True)

## 4.chunking

spaCy 能自动检测名词短语，并输出词根

In [10]:
doc = nlp("Wall Street Journal just published an interesting piece on crypto currencies")
for chunk in doc.noun_chunks: 
    print(chunk.text, chunk.label_, chunk.root.text)

Wall Street Journal NP Journal
an interesting piece NP piece
crypto currencies NP currencies


## 5.句法依存解析

In [11]:
doc = nlp("Wall Street Journal just published an interesting piece on crypto currencies")

for token in doc:
    print('{0}/{1}<--{2}--{3}/{4}'.format(
        token.text, token.tag_, token.dep_, token.head.text, token.head.tag_))

Wall/NNP<--compound--Street/NNP
Street/NNP<--compound--Journal/NNP
Journal/NNP<--nsubj--published/VBD
just/RB<--advmod--published/VBD
published/VBD<--ROOT--published/VBD
an/DT<--det--piece/NN
interesting/JJ<--amod--piece/NN
piece/NN<--dobj--published/VBD
on/IN<--prep--piece/NN
crypto/NN<--compound--currencies/NNS
currencies/NNS<--pobj--on/IN


In [12]:
displacy.render(doc, style='dep', jupyter=True, options={'distance':90})

## 6.词向量

word2vec 是 NLP 中最常用的文本表示方法，将词用稠密低维向量表示，相似的词在向量空间中也离得比较近。具体可以看我[博客](https://libertydream.github.io/2019/11/09/%E5%9B%BE%E8%A7%A3-word2vec/)

In [2]:
import spacy
nlp = spacy.load('en_core_web_lg')
print(nlp.vocab['banana'].vector)

[ 2.0228e-01 -7.6618e-02  3.7032e-01  3.2845e-02 -4.1957e-01  7.2069e-02
 -3.7476e-01  5.7460e-02 -1.2401e-02  5.2949e-01 -5.2380e-01 -1.9771e-01
 -3.4147e-01  5.3317e-01 -2.5331e-02  1.7380e-01  1.6772e-01  8.3984e-01
  5.5107e-02  1.0547e-01  3.7872e-01  2.4275e-01  1.4745e-02  5.5951e-01
  1.2521e-01 -6.7596e-01  3.5842e-01 -4.0028e-02  9.5949e-02 -5.0690e-01
 -8.5318e-02  1.7980e-01  3.3867e-01  1.3230e-01  3.1021e-01  2.1878e-01
  1.6853e-01  1.9874e-01 -5.7385e-01 -1.0649e-01  2.6669e-01  1.2838e-01
 -1.2803e-01 -1.3284e-01  1.2657e-01  8.6723e-01  9.6721e-02  4.8306e-01
  2.1271e-01 -5.4990e-02 -8.2425e-02  2.2408e-01  2.3975e-01 -6.2260e-02
  6.2194e-01 -5.9900e-01  4.3201e-01  2.8143e-01  3.3842e-02 -4.8815e-01
 -2.1359e-01  2.7401e-01  2.4095e-01  4.5950e-01 -1.8605e-01 -1.0497e+00
 -9.7305e-02 -1.8908e-01 -7.0929e-01  4.0195e-01 -1.8768e-01  5.1687e-01
  1.2520e-01  8.4150e-01  1.2097e-01  8.8239e-02 -2.9196e-02  1.2151e-03
  5.6825e-02 -2.7421e-01  2.5564e-01  6.9793e-02 -2

In [9]:
from scipy import spatial

cosine_sim = lambda x, y: 1-spatial.distance.cosine(x,y)

man = nlp.vocab['man'].vector
woman = nlp.vocab['woman'].vector
queen = nlp.vocab['queen'].vector
king = nlp.vocab['king'].vector

# 向量加减运算
maybe_king = man - woman + queen
computed_sim = []

for word in nlp.vocab:
    if not word.has_vector:
        continue
    
    similarity = cosine_sim(maybe_king, word.vector)
    computed_sim.append((word, similarity))

In [10]:
# 排序显示最接近的词向量
computed_sim = sorted(computed_sim, key=lambda item: -item[1])
print([w[0].text for w in computed_sim[:10]])

['Queen', 'QUEEN', 'queen', 'King', 'KING', 'king', 'KIng', 'Kings', 'KINGS', 'kings']


## 7.词汇与文本相似度

在词向量的基础上，spaCy提供了从词到文档的相似度计算的方法

In [11]:
banana = nlp.vocab['banana']
dog = nlp.vocab['dog']
fruit = nlp.vocab['fruit']
animal = nlp.vocab['animal']

# 狗-动物 相似度，狗-水果 相似度
print(dog.similarity(animal), dog.similarity(fruit))

0.66185343 0.2355285


In [12]:
print(banana.similarity(fruit), banana.similarity(animal))

0.67148364 0.24272852


也可以粗略的看一下语义相似度，即文本间的关联程度

In [13]:
target = nlp('Cats are beautiful animals.')

cmp_dog = nlp('Dogs are awesome.')
cmp_str = nlp('Some gorgeous creatures are felines.')
cmp_dolphin = nlp('Dolphins are swimming animals.')

print(target.similarity(cmp_dog))
print(target.similarity(cmp_str))
print(target.similarity(cmp_dolphin))

0.8901765218466683
0.9115828449161616
0.8588322588373283


# 中文文本处理与jieba

## 1.分词

对于中文和日文这样的特殊亚洲语系文本而言，字和字之间是紧密相连的，单纯从文本形态上无法区分具备独立含义的词（拉丁语系纯天然由空格分隔不同的word），而不同的询以不同的方式排布，可以表达不同的内容和情感。

> Transformer 之后基本不做分词了，当做隐因子自动学习

目前主流的分词方法主要是**基于词典匹配的分词方法（正向最大匹配法、逆向最大匹配法和双向匹配分词法等）和基于统计的分词方法（HMM、CRF、和深度学习）**；主流的分词工具库包括中科院计算所NLPIR、哈工大LTP、清华大学THULAC、Hanlp分词器、Python jieba工具库等。

这里简单介绍 [jieba](https://github.com/fxsjy/jieba) 的使用

In [2]:
import jieba

seg_list = jieba.cut('我在网络平台上分享自然语言处理知识', cut_all=True)
print('全模式:  ' + '/ '.join(seg_list))

全模式:  我/ 在/ 网络/ 网络平台/ 平台/ 台上/ 分享/ 自然/ 自然语言/ 语言/ 处理/ 知识


In [2]:
seg_list = jieba.cut('我在网络平台上分享自然语言处理知识', cut_all=False)
print('精确模式（默认）:  ' + '/ '.join(seg_list))

精确模式（默认）:  我/ 在/ 网络平台/ 上/ 分享/ 自然语言/ 处理/ 知识


In [5]:
# 返回 list
jieba.lcut('我在网络平台上分享自然语言处理知识')

['我', '在', '网络平台', '上', '分享', '自然语言', '处理', '知识']

还有种适合建立倒排表的方法 `cut_for_search`

In [4]:
seg_list = jieba.cut_for_search('老王硕士毕业于清华大学，后前往斯坦福大学深造')
print(', '.join(seg_list))

老王, 硕士, 毕业, 于, 清华, 华大, 大学, 清华大学, ，, 后, 前往, 福大, 大学, 斯坦福, 斯坦福大学, 深造


In [6]:
jieba.lcut_for_search('老王硕士毕业于清华大学，后前往斯坦福大学深造')

['老王',
 '硕士',
 '毕业',
 '于',
 '清华',
 '华大',
 '大学',
 '清华大学',
 '，',
 '后',
 '前往',
 '福大',
 '大学',
 '斯坦福',
 '斯坦福大学',
 '深造']

**添加自定义字典**

很多时候我们需要针对自己的场景进行分词，会有一些领域内的专有词汇。

1. 可以用jieba.load_userdictfile_name）加载用户字典
2. 少量的词汇可以自己用下面方法手动添加：
    - 用add_word（word，freq=None，tag=None）和del_word（word）在程序中动态修改词典
    - 用suggest_freq（segment，tune=True）可调节单个词语的词频，使其能（或不能）被分出来。

In [3]:
'/'.join(jieba.cut('如果放到旧字典中将出错。', HMM=False))

'如果/放到/旧/字典/中将/出错/。'

In [5]:
jieba.suggest_freq(('中','将'),True)
'/'.join(jieba.cut('如果放到旧字典中将出错。', HMM=False))

'如果/放到/旧/字典/中/将/出错/。'

## 2.jieba词性标注

| tag  | 成分     | 描述                                                         |
| ---- | -------- | ------------------------------------------------------------ |
| ag   | 形语素   | 形容词性语素。形容词代码为 a，语素代码ｇ前面置以A。          |
| a    | 形容词   | 取英语形容词 adjective的第1个字母。                          |
| ad   | 副形词   | 直接作状语的形容词。形容词代码 a和副词代码d并在一起。        |
| an   | 名形词   | 具有名词功能的形容词。形容词代码 a和名词代码n并在一起。      |
| b    | 区别词   | 取汉字“别”的声母。                                           |
| c    | 连词     | 取英语连词 conjunction的第1个字母。                          |
| dg   | 副语素   | 副词性语素。副词代码为 d，语素代码ｇ前面置以D。              |
| d    | 副词     | 取 adverb的第2个字母，因其第1个字母已用于形容词。            |
| e    | 叹词     | 取英语叹词 exclamation的第1个字母。                          |
| f    | 方位词   | 取汉字“方”                                                   |
| g    | 语素     | 绝大多数语素都能作为合成词的“词根”，取汉字“根”的声母。       |
| h    | 前接成分 | 取英语 head的第1个字母。                                     |
| i    | 成语     | 取英语成语 idiom的第1个字母。                                |
| j    | 简称略语 | 取汉字“简”的声母。                                           |
| k    | 后接成分 |                                                              |
| l    | 习用语   | 习用语尚未成为成语，有点“临时性”，取“临”的声母。             |
| m    | 数词     | 取英语 numeral的第3个字母，n，u已有他用。                    |
| ng   | 名语素   | 名词性语素。名词代码为 n，语素代码ｇ前面置以N。              |
| n    | 名词     | 取英语名词 noun的第1个字母。                                 |
| nr   | 人名     | 名词代码 n和“人(ren)”的声母并在一起。                        |
| ns   | 地名     | 名词代码 n和处所词代码s并在一起。                            |
| nt   | 机构团体 | “团”的声母为 t，名词代码n和t并在一起。                       |
| nz   | 其他专名 | “专”的声母的第 1个字母为z，名词代码n和z并在一起。            |
| o    | 拟声词   | 取英语拟声词 onomatopoeia的第1个字母。                       |
| p    | 介词     | 取英语介词 prepositional的第1个字母。                        |
| q    | 量词     | 取英语 quantity的第1个字母。                                 |
| r    | 代词     | 取英语代词 pronoun的第2个字母,因p已用于介词。                |
| s    | 处所词   | 取英语 space的第1个字母。                                    |
| tg   | 时语素   | 时间词性语素。时间词代码为 t,在语素的代码g前面置以T。        |
| t    | 时间词   | 取英语 time的第1个字母。                                     |
| u    | 助词     | 取英语助词 auxiliary                                         |
| vg   | 动语素   | 动词性语素。动词代码为 v。在语素的代码g前面置以V。           |
| v    | 动词     | 取英语动词 verb的第一个字母。                                |
| vd   | 副动词   | 直接作状语的动词。动词和副词的代码并在一起。                 |
| vn   | 名动词   | 指具有名词功能的动词。动词和名词的代码并在一起。             |
| w    | 标点符号 |                                                              |
| x    | 非语素字 | 非语素字只是一个符号，字母 x通常用于代表未知数、符号。       |
| y    | 语气词   | 取汉字“语”的声母。                                           |
| z    | 状态词   | 取汉字“状”的声母的前一个字母。                               |
| un   | 未知词   | 不可识别词及用户自定义词组。取英文Unkonwn首两个字母。(非北大标准，CSW分词中定义) |

In [6]:
import jieba.posseg as pseg

words = pseg.cut('我在网络平台上分享自然语言处理知识')

for word, flag in words:
    print("%s %s" % (word, flag))

我 r
在 p
网络平台 n
上 f
分享 v
自然语言 l
处理 v
知识 v


## 3.关键词抽取

结构化内容这里仅举两个传统无监督方法，TF-IDF 与 textRank 作示例

**基于 TF-IDF 算法的关键词抽取**

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
   - sentence 为待提取的文本
   - topK 为返回几个TF-IDF权最大的关键词，默认值为20
   - withWeight 为是否一并返回关键词权重值，默认值为False
   - allowPOS 仅包括指定词性的词，默认值为空，即不筛选

In [8]:
import jieba.analyse as analyse

with open('./data/朝花夕拾.txt','r') as f:
    texts = f.read()

' '.join(analyse.extract_tags(texts, topK=20, withWeight=False))

'无常 一个 没有 然而 因为 时候 知道 先生 现在 我们 大概 记得 什么 那时 自然 虽然 起来 似乎 自己 还有'

`jieba.analyse.set_idf_path(file_path)` 可以自定义语料库
`jieba.analyse.set_stop_words(file_path)` 可以自定义停用词

**基于 TextRank 算法的关键词抽取**

- jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))直接使用，接口相同，注意默认过滤词性。
- jieba.analyse.TextRank0新建自定义TextRank实例

基本思想：

  - 将待抽取关键词的文本进行分词
  - 以固定窗口大小（默认为5，通过span属性调整），词之间的共现关系，构建图
  - 计算图中节点的PageRank，注意是无向带权图

In [11]:
print(' '.join(analyse.textrank(texts, topK=20, withWeight=False, allowPOS=('ns','n','vn','v'))))
print('-------------分割线-----------------')
print(' '.join(analyse.textrank(texts, topK=20, withWeight=False, allowPOS=('ns','n'))))

没有 时候 还有 中国 先生 起来 知道 大家 北京 日本 实在 人们 出来 看见 孩子 觉得 听到 不知 记得 不能
-------------分割线-----------------
中国 先生 时候 北京 日本 大家 人们 孩子 本子 父亲 南京 孝子 有点 古人 老鼠 母亲 婴儿 地方 地面 学者


-----------
**作者**：Daniel Meng

**博客**：[明月轩](https://libertydream.github.io/)

**GitHub**: [LibertyDream](https://github.com/LibertyDream)