## 10.4 自然语言处理

自然语言是指汉语、英语、法语等人们日常使用的语言，自然语言处理是指用计算机对自然语言的形、音、义等信息进行处理，即对字、词、句、篇章等进行输入、输出、识 别、分析、理解等一系列操作的过程。

根据研究对象的不同，自然语言处理可以分为词法分析、句法分析和语义分析等内容。

### 1. 词语切分(word tokenization)

即分词，是将句子切分成单词的过程。句子是单词的集合，对句子进行词语切分，本质上就是将一个句子分割成一个单词列表，该单词列表又可以重新还原为原句子。

- 采用jiaba模块进行中文分词

In [2]:
import jieba
seg_list = jieba.cut("我是一名大学生，我喜欢自然语言处理。") 
print("/".join(seg_list))

我/是/一名/大学生/，/我/喜欢/自然语言/处理/。


- 采用NLTK模块进行英文分词

In [11]:
from nltk.tokenize import word_tokenize
text = "I am a college student. I love natural language processing."
print(word_tokenize(text))

['I', 'am', 'a', 'college', 'student', '.', 'I', 'love', 'natural', 'language', 'processing', '.']


### 2. 词性标注（part-of-speech tagging）

词性（part of speech, POS）是基于语法语境和词语作用的具体词汇分类，是词语的基本语法属性；

词性标注，又称为词类标注或简称为标注，是指为分词结果中的每个单词标注一个正确的词性的过程，即确定每个词是名词、动词、形容词或者其他词性的过程。

In [6]:
import jieba.posseg as pseg
words = pseg.cut("我是一名大学生，我喜欢自然语言处理。") 
for word, flag in words:
    print(f'"{word}" 的词性为: {flag}')

"我" 的词性为: r
"是" 的词性为: v
"一名" 的词性为: m
"大学生" 的词性为: n
"，" 的词性为: x
"我" 的词性为: r
"喜欢" 的词性为: v
"自然语言" 的词性为: l
"处理" 的词性为: v
"。" 的词性为: x


### 3. 词义消歧

词义消歧指的是确定待分析词语在文本中的含义的过程。词义消歧在文本理解的任务中极为重要，是句子和篇章语义理解的基础。

- 以基于Lesk算法的词义消歧工具pywsd为例，展示词义消歧具体过程

In [13]:
from pywsd.lesk import simple_lesk
sent = 'I went to the bank to deposit my money.'
ambiguous = 'bank'
answer = simple_lesk(sent, ambiguous, pos='n')
print(answer)
print(answer.definition())

Synset('depository_financial_institution.n.01')
a financial institution that accepts deposits and channels the money into lending activities


## 10.5 自然语言处理常用工具

### 10.5.1 NLTK  <font color=Blue>(Self-learning)</font>

NLTK 大概是最知名的Python自然语言处理工具了，全称"Natural Language Toolkit", 诞生于宾夕法尼亚大学，以研究和教学为目的而生，因此也特别适合入门学习。NLTK虽然主要面向英文，但是它的很多NLP模型或者模块是语言无关的，因此如果某种语言有了初步的Tokenization或者分词，NLTK的很多工具包是可以复用的。

关于NLTK，网上已经有了很多介绍资料，当然首推的NLTK学习资料依然是官方出的在线书籍 [NLTK Book：Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit ](http://www.nltk.org/book/)，目前基于Python 3 和 NLTK 3 ，可以在线免费阅读和学习。

直接使用pip install nltk可能会出现nltk使用报错问题，部分nltk数据库无法使用，可通过手动下载nltk包的方式解决，具体内容可参考：https://blog.csdn.net/weixin_51327281/article/details/127700781 和 https://blog.csdn.net/m0_46388940/article/details/133818802。

请阅读本小节代码，**<font color=red>该部分代码不用运行！</font>**

In [None]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


In [None]:
from nltk.tokenize import sent_tokenize
text = "Hello Adam, how are you? I hope everything is going well. Today is a good day, see you dude."
print(sent_tokenize(text))

['Hello Adam, how are you?', 'I hope everything is going well.', 'Today is a good day, see you dude.']


In [3]:
from nltk.tokenize import word_tokenize
text = "Hello Adam, how are you? I hope everything is going well. Today is a good day, see you dude."
print(word_tokenize(text))

['Hello', 'Adam', ',', 'how', 'are', 'you', '?', 'I', 'hope', 'everything', 'is', 'going', 'well', '.', 'Today', 'is', 'a', 'good', 'day', ',', 'see', 'you', 'dude', '.']


In [4]:
from nltk.stem import PorterStemmer
porter_stemmer = PorterStemmer()
print(porter_stemmer.stem('working'))

work


In [5]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('works'))

work


In [6]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('playing',pos="v"))

play


In [7]:
import nltk
text=nltk.word_tokenize('what does the fox say')
print(text)
print(nltk.pos_tag(text))

['what', 'does', 'the', 'fox', 'say']
[('what', 'WDT'), ('does', 'VBZ'), ('the', 'DT'), ('fox', 'NNS'), ('say', 'VBP')]


### 10.5.2 jieba

jieba库是一款优秀的 Python 第三方中文分词库，支持三种分词模式：精确模式、全模式和搜索引擎模式，下面是三种模式的特点。

- 精确模式：试图将语句最精确的切分，不存在冗余数据，适合做文本分析

- 全模式：将语句中所有可能是词的词语都切分出来，速度很快，但是存在冗余数据

- 搜索引擎模式：在精确模式的基础上，对长词再次进行切分

**<font color=red>请阅读并运行本小节代码。</font>**

#### 1. jieba分词

In [8]:
import jieba
seg_list = jieba.cut("我是一名武汉大学的学生")  # 使用默认模式，默认是精确模式
print("默认模式: ","/".join(seg_list))

默认模式:  我/是/一名/武汉大学/的/学生


#### 2. 利用Jieba进行关键词提取

关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来，在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。

关键词提取算法一般分为有监督和无监督两类

有监督的关键词提取方法主要是通过分类的方式进行，通过构建一个较为丰富和完善的词表，然后判断每个文档与词表中每个词的匹配程度，以类似打标签的方式，达到关键词提取的效果。优点是精度较高，缺点是需要大批量的标注数据，人工成本过高，并且词表需要及时维护。

相比较而言，无监督的方法对数据的要求低，既不需要一张人工生成，维护的词表，也不需要人工标注语料辅助训练。目前比较常用的关键词提取算法都是基于无监督算法。如TF-IDF算法，TextRank算法和主题模型算法（包括LSA，LSI，LDA等）

- 基于 TF-IDF 算法的关键词提取

TF-IDF是一种数值统计方法，用于反映一个词对于预料中某篇文档的重要性，它的主要思想为：如果某个词在一篇文档中出现的频率高，即TF高；并且在其他文档中很少出现，即IDF高，则认为这个词具有很好的类别区分能力。

In [9]:
import jieba.analyse
sentence = '1993年，在广泛征求各方面意见的基础上，经校务委员会审议，武汉大学新校训定为：\
自强 弘毅 求是 拓新。“自强”语出《周易》“天行健、君子以自强不息”。意为自尊自重，不断自力图强，\
奋发向上。自强是中华民族的传统美德，成就事业当以此为训。我校最早前身为“自强学堂”，其名也取此意。\
“弘毅”出自《论语》“士不可以不弘毅，任重而道远”一语。意谓抱负远大，坚强刚毅。\
我校30年代校训“明诚弘毅”就含此一词。用“自强”、“弘毅”，既概括了上述含义，\
又体现了我校的历史纵深与校风延续。“求是”即为博学求知，努力探索规律，追求真理。\
语出《汉书》“修学好古，实事求是”。“拓新”，意为开拓、创新，不断进取。概言之，\
我校新校训的整体含义是： 继承和发扬中华民族自强不息的伟大精神，树立为国家的繁荣昌盛刻苦学习、\
积极奉献的伟大志向，以坚毅刚强的品格和科学严谨的治学态度，努力探求事物发展的客观规律，开创新局面，\
取得新成绩，办好社会主义的武汉大学，不断为国家作出新贡献。'

keywords=jieba.analyse.extract_tags(sentence,topK=20,withWeight=True,allowPOS=())
for item in keywords:
    print(item[0],item[1])

我校 0.3650310687908397
自强 0.36010570737862596
弘毅 0.3397889749526718
校训 0.2773034698328244
拓新 0.18251553439541984
语出 0.17087980841068703
求是 0.16727081943206107
自强不息 0.16308094392519082
武汉大学 0.14590644626137403
中华民族 0.12336785834534353
含义 0.11406043013648855
伟大 0.1062369610119084
不断进取 0.10082084329312978
明诚 0.09772568979618321
天行健 0.09552964344198472
奋发向上 0.09382625755343511
修学 0.09382625755343511
好古 0.09382625755343511
传统美德 0.0924344899442748
校风 0.0924344899442748


- 基于 TextRank 算法的关键词提取

此种算法的一个重要特点是可以脱离语料库的背景，仅对单篇文档进行分析就可以提取该文档的关键词。基本思想来源于Google的PageRank算法。这种算法是1997年，Google创始人拉里.佩奇和谢尔盖.布林在构建早期的搜索系统原型时提出的一种链接分析算法，基本思想有两条：

    - 1）链接数量。一个网页被越多的其他网页链接，说明这个网页越重要
    - 2）链接质量。一个网页被一个越高权值的网页链接，也能表明这个网页越重要

In [10]:
keywords = jieba.analyse.textrank(sentence, topK=20, withWeight=True, \
                                  allowPOS=('ns','n','vn','v'))
for item in keywords:
    print(item[0],item[1])

国家 1.0
含义 0.9514975766301668
校训 0.8831816220202372
创新 0.7692786654850344
客观规律 0.6586080643543306
探求 0.6580889640584097
历史 0.5969396515025892
自强 0.591162600642535
成绩 0.578783632054623
取得 0.5695284955354087
求知 0.5629593666958073
探索 0.5608546033210623
态度 0.5597483134160578
奉献 0.5595424204402842
局面 0.5572237414652758
事物 0.5203076902458431
校务 0.5201438592373493
方面 0.5199791277209296
审议 0.5190906744439646
意见 0.5181603419662032


### 10.5.3 pyLTP  <font color=Blue>(Self-learning)</font>

语言技术平台（Languange Technolog Platform, LTP）是由哈工大社会计算与信息检索中心研发的自然语言处理工具。提供了一系列中文自然语言处理工具，用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。从应用角度来看，LTP为用户提供了下列组件：

- 针对单一自然语言处理任务，生成统计机器学习模型的工具
- 针对单一自然语言处理任务，调用模型进行分析的编程接口
- 使用流水线方式将各个分析工具结合起来，形成一套统一的中文自然语言处理系统
- 系统可调用的，用于中文语言处理的模型文件
- 针对单一自然语言处理任务，基于云端的编程接口

pyltp 是 LTP 的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色标注的功能。

请阅读本小节代码，**<font color=red>该部分代码不用运行！</font>**

#### 1. 利用PYLTP进行分句

In [11]:
from pyltp import SentenceSplitter
sents = SentenceSplitter.split('我喜欢自然语言处理。我也是！')
print ('\n'.join(sents))

ModuleNotFoundError: No module named 'pyltp'

#### 2. 利用PYLTP进行分词

In [18]:
# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = 'D:\LTP\ltp_data'  # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  #分词模型路径，模型名称为`cws.model`
from pyltp import Segmentor
segmentor = Segmentor()  # 初始化实例
segmentor.load(cws_model_path)  # 加载模型
words = segmentor.segment('我喜欢自然语言处理')  # 分词
print ('\t'.join(words))
segmentor.release()  # 释放模型

  LTP_DATA_DIR = 'D:\LTP\ltp_data'  # ltp模型目录的路径
  LTP_DATA_DIR = 'D:\LTP\ltp_data'  # ltp模型目录的路径


ModuleNotFoundError: No module named 'pyltp'

#### 3. 利用PYLTP进行词性标注

In [19]:
# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = 'D:\LTP\ltp_data'      # ltp模型目录的路径
pos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model')  
# 词性标注模型路径，模型名称为`pos.model`
from pyltp import Postagger
postagger = Postagger() # 初始化实例
postagger.load(pos_model_path)  # 加载模型
words = ['我', '喜欢', '自然', '语言','处理']  # 分词结果
postags = postagger.postag(words)  # 词性标注
print ('\t'.join(postags))
postagger.release()  # 释放模型

  LTP_DATA_DIR = 'D:\LTP\ltp_data'      # ltp模型目录的路径
  LTP_DATA_DIR = 'D:\LTP\ltp_data'      # ltp模型目录的路径


ModuleNotFoundError: No module named 'pyltp'

#### 4. 利用PYLTP进行命名实体识别

In [1]:
# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = 'D:\LTP\ltp_data'  # ltp模型目录的路径
ner_model_path = os.path.join(LTP_DATA_DIR, 'ner.model')  # 命名实体识别模型路径，模型名称为`pos.model`
from pyltp import NamedEntityRecognizer
recognizer = NamedEntityRecognizer() # 初始化实例
recognizer.load(ner_model_path)  # 加载模型
words = ['我', '喜欢', '自然', '语言','处理']
postags = ['r', 'v','n','n', 'v']
netags = recognizer.recognize(words, postags)  # 命名实体识别
print ('\t'.join(netags))
recognizer.release()  # 释放模型

  LTP_DATA_DIR = 'D:\LTP\ltp_data'  # ltp模型目录的路径
  LTP_DATA_DIR = 'D:\LTP\ltp_data'  # ltp模型目录的路径


ModuleNotFoundError: No module named 'pyltp'

#### 5. 利用PYLTP进行依存句法分析

In [None]:
# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = 'D:\LTP\ltp_data'  # ltp模型目录的路径
par_model_path = os.path.join(LTP_DATA_DIR, 'parser.model')  # 依存句法分析模型路径，模型名称为`parser.model`
from pyltp import Parser
parser = Parser() # 初始化实例
parser.load(par_model_path)  # 加载模型
words = ['我', '喜欢', '自然', '语言','处理']
postags = ['r', 'v','n','n', 'v']
arcs = parser.parse(words, postags)  # 句法分析
print ("\t".join("%d:%s" % (arc.head, arc.relation) for arc in arcs))
parser.release()  # 释放模型

#### 6. 利用PYLTP进行语义角色标注

In [None]:
# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = 'D:\LTP\ltp_data'  # ltp模型目录的路径
srl_model_path = os.path.join(LTP_DATA_DIR, 'pisrl_win.model')  # 语义角色标注模型目录路径，模型目录为`srl`。
from pyltp import SementicRoleLabeller
labeller = SementicRoleLabeller() # 初始化实例
labeller.load(srl_model_path)  # 加载模型
words = ['我', '喜欢', '自然', '语言','处理']
postags = ['r', 'v','n','n', 'v']
# arcs 使用依存句法分析的结果
roles = labeller.label(words, postags, arcs)  # 语义角色标注
# 打印结果
for role in roles:
    print (role.index, "".join(
        ["%s:(%d,%d)" % (arg.name, arg.range.start, arg.range.end) for arg in role.arguments]))
labeller.release()  # 释放模型


## 10.6 上机实践

1. 利用正则表达式，将“i am a college student, I am not a businessman.”中拼写错误的“i” 替换为“I”。

In [1]:
text= " i am a college student, i love whu. "
import re
pattern = re.compile(r'(?:[^\w]|\b)i(?:[^\w])')
while True:
    result = pattern.search(text)
    if result:
        if result.start(0) != 0:
            text= text[:result.start(0)+1]+'I'+ text[result.end(0)-1:]
        else:
            text= text [:result.start(0)]+'I'+ text[result.end(0)-1:]
    else:
        break
print(text)

I am a college student, I love whu. 


2. 句子“I love love wuhan university”中有单词重复的错误，利用正则表达式检查重复的单词并只保留一个。

In [2]:
import re
text = ' I love love wuhan university.'
pattern = re.compile(r'\b(\w+)(\s+\1){1,}\b')
matchResult = pattern.search(text)
text = pattern.sub(matchResult.group(1), text)
print(text)

 I love wuhan university.


3. 利用 Jieba 分词对此句子进行分词和词性标注:“我是一名大学生，我来自武汉大学”。 学生可执行设计需要进行实验的文本。

In [3]:
import jieba
import jieba.posseg as pseg
words = pseg.cut("我是一名大学生，我来自武汉大学") 
for word, flag in words:
    print('%s %s' % (word, flag))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\车乾\AppData\Local\Temp\jieba.cache
Loading model cost 0.441 seconds.
Prefix dict has been built successfully.


我 r
是 v
一名 m
大学生 n
， x
我 r
来自 v
武汉大学 nt
