# 自然语言处理

## 自然语言与编程语言

1.自然语言是人类基于自然使用和交流而发展演化而来的语言， 不是像计算机编程语言那样由人工构造和创建的语言。<br>
2.和计算机编程语言不同，自然语言并不会被翻译成一组有限的数学运算集合。自然语言并没有所谓的编译器或解释器将它们翻译成机器指令。

## 形式语言的数学解释： 

编程语言：<br>
1.大多数编程语言属于上下文无关语言。<br>
2.上下文无关语言能够使用上下文无关语法进行高效的解析。<br>
3.正则语言可以有效解析，并广泛用于字符串匹配的计算中。<br>


自然语言：<br>
1.不是正则的。<br>
2.不是上下文无关的。<br>
3.用任何形式语法都无法定义。

## 自然语言处理

自然语言处理是计算机科学和人工智能（artificial intelligence，AI）的一个研究领域，它关注自然语言（如英语或汉语普通话）的处理。这种处理通常包括将自然语言转换成计算机能够用于理解这个世界的数据（数字）。同时，这种对世界的理解有时被用于生成能够体现这种理解的自然语言文本（即自然语言生成）。

机器对自然语言进行处理的过程：自然语言处理系统。常常被称为“流水线”（pipeline），这是因为该系统往往包括多个处理环节，其中自然语言从“流水线”的一端输入，处理后的结果从另一端输出。

# 自然语言中有用信息的提取和NLP的应用

## 语言的数学化

1.自然语言不能直接被翻译成一组精确的数学运算集合，但是它们确实包含可供提取的信息和指令。这些信息和指令可以被存储、索引、搜索或立即使用。

2.我们可以利用计算机进行大量重复性的统计记录，从自然语言中提取有用的信息。为了实现数值格式的特征输入，我们需要清洗、规范化和预处理初始文本数据，通常，文本语料库始文本的数据格式既非准确的，也非规范的。用各种技术将始文本转换成定义良好的语言成分序列，这些序列具有标准的结构和标记:

(1)切分 (tokenization) <br>
(2)标注 (tagging) <br>
(3)分块 (chunking) <br>
(4)词干提取 (stemming) <br>
(5)词形还原 (lemmatization)

3.从自然语言中提取出结构化的数值型数据——向量之后，就可以利用各种数学工具和机器学习工具。让计算机能够解释和存储语句的“含义”，而不仅仅是对其中的词或字符计数。语义分析和统计学一起可以有助于解决自然语言的歧义性，这里的歧义性是指词或短语通常具有多重含义或者解释。

## 实际应用

|搜索|Web|文档|自动补全|
|-|-|-|-|
|编辑|拼写|语法|风格|
|对话|聊天机器人|助手|行程安排|
|写作|索引|用语索引|目录|
|电子邮件|垃圾邮件过滤|分类|优先级排序|
|文本挖掘|摘要|知识提取|医学诊断|
|法律|法律断案|先例搜索|传票分类|
|新闻|事件检测|真相核查|标题排字|
|归属|剽窃检测|文学取证|风格指导|
|情感分析|团队士气监控|产品评论分类|客户关怀|
|行为预测|金融|选举预测|营销|
|创作|电影脚本|诗歌|歌词|



# 让计算机理解自然语言的两种方法

## 正则表达式

字符串形成处理文本的基础，正则表达式允许你创建字符串模式，并使用它们来搜索和替换文本数据中的特定匹配模式。Python 提供了一个名为re的模块，用于创建和使用正则表达式。

### 正则表达式的重要标识参数

元字符，指的是那些不仅仅可以表示字符本身含义、并且还可以表示其他特殊含义的字符。常用的元字符有. [ ] () ^ $ | \ ? * + { }共11种，详细说明见下表：

|元字符|含义|
|-|-|
|"."|可以匹配(除了换行符以外的)任意单个字符|
|[]|方括号，可以匹配括号内的任意字符，括号中的每个字符是or的含义|
|()|组，可以匹配括号内的表达式，括号中的每个字符是and的含义。|
|^|乘方符号，表示以…开头|
|\$|美元符号，表示以…结尾|
|\||或运算符，用于匹配符号前或符号后的字符|
|\\|转义字符，可以让某些字母表示特殊含义|

量化符，指的就是将紧挨着量化符前面的那个字符，匹配0次、1次或者多次，详细说明见下表：

|符号|含义|数学表达式|
|-|-|-|
|？|前面紧挨的元素，最多匹配一次|0<=x<=1|
|\*|前面紧挨的元素，匹配0次或多次|X>=0|
|+|前面紧挨的元素，匹配1次或者多次|X>=1|
|{n}|前面紧挨的元素，正好匹配n次|X=n|
|{n，}|前面紧挨的元素，至少匹配n次|X>=n|
|{n,m}|前面紧挨的元素，至少匹配n次，至多匹配m次|N<=x<=m|

特殊符，指的就是由转义字符加某些字母组合而成的具有特殊意义的特殊字符，详细说明见下表：

|特殊符|含义|
|-|-|
|\d|匹配一个数字字符。等价于[0-9]|
|\D|匹配一个非数字字符。等价于[^0-9]|
|\s|匹配任何空白字符，包括空格、制表符、换页符等等。等价于[\f\n\r\t\v]|
|\S|匹配任何非空白字符。等价于[^\f\n\r\t\v]|
|\w|匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9]|
|\W|匹配任何非单词字符。等价于'[^A-Za-z0-9 ]'|

### 正则表达式常用方法介绍

正则表达式可以编译为模式对象，然后使用各种方法对字符串进行模式搜索和替换。
re 模块提供执行这些操作的主要方法，如下所示：

|函数|含义|
|-|-|
|re.match()|匹配字符串的开头，如果开头匹配不上，则返回None]|
|re.seach()|扫描整个字符串，匹配后立即返回，不在往后面匹配]|
|re.findall()|扫描整个字符串，以列表形式返回所有的匹配值|
|re.compile()|将指定的正则表达式模式编译为可以用于匹配和搜索的正则表达式对象|
|re.split()|利用该函数对字符串进行切分，并以列表返回。|


In [25]:
import re
s = "黄同学喜欢唱歌，黄同学喜欢写作，黄同学喜欢吃火锅！"
s1 = "赵1钱2孙4李8周16吴32郑64王128黄"

display(re.match("喜欢",s)) #由于match()只匹配开头，如果开头不是“喜欢”二字，那么就返回None。
display(re.search("喜欢",s)) #在索引为3到5的位置找到第一个“喜欢”，输出
display(re.findall("喜欢",s)) #将句子里面所有的“喜欢”以列表形式输出

display(re.split("\d+",s1))#\d是匹配某一个数字,\d+表示匹配>=1个数字

None

<re.Match object; span=(3, 5), match='喜欢'>

['喜欢', '喜欢', '喜欢']

['赵', '钱', '孙', '李', '周', '吴', '郑', '王', '黄']

用正则表达式匹配问候语：

In [26]:
r = r"[^a-z]*([y]o|[h']?ello|ok|hey|(good[ ])?(morn[gin']{0,3}|afternoon|even[gin']{0,3}))[\s,;:]{1,3}([a-z]{1,20})"
#引号前的“r”指定的是一个原始字符串，而不是正则表达式。
re_greeting = re.compile(r, flags=re.IGNORECASE)

In [27]:
re_greeting.match('Hello Rosa').groups()

('Hello', None, None, 'Rosa')

In [28]:
re_greeting.match('Good evening Rosa Parks').groups()

('Good evening', 'Good ', 'evening', 'Rosa')

### 正则表达式的不足

1.难以捕捉到人们使用的所有俚语和可能的拼写错误<br>
2.使用人类大脑的计算能力来设计和手动调整复杂的逻辑规则来从自然语言字符串中提取信息方式。<br>
3.不具备容错性，要么是匹配的，要么是不匹配的。<br>
4.难以度量字符序列之间的意义差异。（具有相似含义的短语，如 good 和 okay，通常会有不同的字符序列，当我们通过清点逐个字符的匹配总数来计算距离时，它们会得到较大的距离）<br>

## 基于统计或深度学习的方法

### 词袋向量——语言的第一个向量空间模型

__词袋__（Bag-of-words）：是描述文档中单词出现的文本的一种表示形式。它涉及两件方面：<br>
1.已知词汇的集合。<br>
2.测试已知单词的存在。<br>
因为文档中单词是以没有逻辑的顺序的放置，所以称为单词的“袋子”。

__词袋向量序列__：将词装箱并将它们存储为位向量，把语言中每个词的计数值呈现出来，而不把它们按照任何序列或顺序排列，该向量大部分元素为0。

__基本思想__：是假定对于一个文本，忽略其词序和语法、句法，仅仅将其看做是一些词汇的集合，而文本中的每个词汇都是独立的。

![image-2.png](attachment:image-2.png)

我们把能找到的所有文档、语句、句子甚至单个词，一个一个地输到这台机器。我们会在每个语句处理完之后，对底部每个槽中的词条计数，我们称之为该语句的向量表示。机器以这种方式产生的所有可能的向量称为向量空间。这种表示文档、语句和词的模型称为向量空间模型。它允许我们使用线性代数来对这些向量进行运算，计算距离和自然语言语句的统计信息，这些信息有助于我们用更少的人工编码来解决更广泛的问题，同时也使得 NLP 流水线更加强大。

### 词袋（Bag-of-Words）模型的例子

1.小孩喜欢吃零食。<br>
2.小孩喜欢玩游戏，不喜欢运动。<br>
3.大人不喜欢吃零食，喜欢运动。<br>

__收集数据__：对于这个小示例，我们将每一行视为一个单独的“文档”，将3行视为整个文档。

__设计词汇__：
列出我们的模型词汇表中的所有单词：
“小孩”
“喜欢”
“吃”
“零食”
“玩”
“游戏”
“大人”
“不”
“运动”
“foolishness”
那么每个“文档”我们就可以使用一个9维的向量来表示。


__文本向量化__<br>
"小孩喜欢吃零食"= [1,1,1,1,0,0,0,0,0]<br>
"小孩喜欢玩游戏，不喜欢运动"= [1,2,0,0,1,1,0,1,1]<br>
"大人不喜欢吃零食，喜欢运动" = [0,2,1,1,0,0,1,1,1]<br>

# 降维的方法

1.类似词袋向量的一些结构化文本表达存在维数灾难的问题,我们需要为消息__创建一些降维的向量空间模型__。(从一个大型语料库中得到的 3-gram 词汇表可能有数百万个维度)

__2.根据主题和情感等特点对消息和文字进行评级，从而为每条语句生成一个向量__
<br>

根据我们能赋予语句的所有评级，将这些主题和情感等特点量尺化，然后为每条语句计算得分，从而为每条语句生成一个向量。在计算机层面上，可以具体简化为简化成“它包含 good 这个词吗?”“它包含 morning 这个词吗?”等问题。这些评级向量变成了机器可以编程进行回复的对象。我们可以通过对语句聚类（聚集）进一步简化和泛化向量，使它们在某些维度上接近，而在其他维度上不接近。



对于保留了字符序列信息的向量（保留了词的顺序），如果聚类效果差，可以用弗拉基米尔·莱文斯坦提出的方法度量空间下序列（字符串）之间的相似性。<br>
莱文斯坦距离——指两个字串之间，由一个转成另一个所需的最少编辑操作次数。

__3.潜在语义索引和潜在狄利克雷分配，这两种技术可以创建更密集、更有意义的语句和文档的向量表示，将这些高维空间压缩/嵌入到具有模糊含义的较低维空间得到主题向量__

下面我们先尝试一下把数据集 9232 维的 TF-IDF 向量转换为 16 维主题向量：

In [39]:
import pandas as pd
from nlpia.data.loaders import get_data
pd.options.display.width = 120#这有助于宽 Pandas DataFrame数据输出得更漂亮一些

从nlpia包中导入5000 条标记为垃圾短消息（或非垃圾短消息）的短消息语料。

In [38]:
sms = get_data('sms-spam')
index = ['sms{}{}'.format(i, '!'*j) for (i,j) in zip(range(len(sms)), sms.spam)]
sms.index = index
sms.head(6)

INFO:nlpia.futil:Reading CSV with `read_csv(*('C:\\Users\\ASUS\\AppData\\Roaming\\Python\\Python37\\site-packages\\nlpia\\data\\sms-spam.csv',), **{'nrows': None, 'low_memory': False})`...


Unnamed: 0,spam,text
sms0,0,"Go until jurong point, crazy.. Available only ..."
sms1,0,Ok lar... Joking wif u oni...
sms2!,1,Free entry in 2 a wkly comp to win FA Cup fina...
sms3,0,U dun say so early hor... U c already then say...
sms4,0,"Nah I don't think he goes to usf, he lives aro..."
sms5!,1,FreeMsg Hey there darling it's been 3 week's n...


将文本信息转换为结构化向量

In [42]:
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.tokenize.casual import casual_tokenize

tfidf = TfidfVectorizer(tokenizer=casual_tokenize)# #构建一个计算TF-IDF的对象
tfidf_docs = tfidf.fit_transform(raw_documents=sms.text).toarray()

In [41]:
tfidf_docs = pd.DataFrame(tfidf_docs)
tfidf_docs = tfidf_docs - tfidf_docs.mean()#词袋向量的中心化处理
tfidf_docs.shape

(4837, 9232)

把数据集 9232 维的 TF-IDF 向量转换为 16 维主题向量：

In [43]:
from sklearn.decomposition import PCA
pca = PCA(n_components=16)
pca = pca.fit(tfidf_docs)
pca_topic_vectors = pca.transform(tfidf_docs)
columns = ['topic{}'.format(i) for i in range(pca.n_components)]
pca_topic_vectors = pd.DataFrame(pca_topic_vectors, columns=columns, index=index)
pca_topic_vectors.round(3).head(6)

Unnamed: 0,topic0,topic1,topic2,topic3,topic4,topic5,topic6,topic7,topic8,topic9,topic10,topic11,topic12,topic13,topic14,topic15
sms0,0.201,0.003,0.037,0.011,-0.019,-0.053,0.039,-0.064,0.011,-0.083,0.009,-0.007,-0.002,-0.034,-0.006,0.036
sms1,0.404,-0.094,-0.078,0.051,0.1,0.047,0.023,0.065,0.023,-0.024,-0.005,0.036,0.036,-0.019,0.052,-0.042
sms2!,-0.03,-0.048,0.09,-0.067,0.091,-0.043,-0.0,-0.001,-0.057,0.052,0.127,0.025,0.019,-0.019,-0.044,0.055
sms3,0.329,-0.033,-0.035,-0.016,0.052,0.056,-0.166,-0.074,0.064,-0.108,0.022,0.026,0.063,-0.045,0.034,-0.069
sms4,0.002,0.031,0.038,0.034,-0.075,-0.092,-0.044,0.062,-0.044,0.029,0.028,-0.009,0.024,0.028,-0.086,-0.024
sms5!,-0.016,0.059,0.014,-0.006,0.122,-0.04,0.005,0.168,-0.024,0.063,0.041,0.057,-0.042,0.073,0.002,0.017


# 词序和语法

1.无论语句是用形式化的编程语言（如 SQL）编写的，还是用非形式化的自然语言（如汉语）
编写的，当语句要表达事物之间的逻辑关系时，词序和语法都非常重要。这就是计算机语言依赖
严格的语法和句法规则分析器的原因。

2.词的顺序很重要，即语法是之前的词袋或词向量例子中所丢弃的信息。即使一条语句的逻辑解释并不依赖词序，有时关注词序也可以得到一些十分微妙的相关意义的暗示，这些意义可以辅助更深层次的回复。

In [44]:
s = "Find textbooks with titles containing 'NLP',or 'natural' and 'language', or 'computational' and 'linguistics'."
len(set(s.split()))

12

In [45]:
import numpy as np
np.arange(1, 12 + 1).prod()

479001600

12个词汇一共有479001600种排列方式。很明显，词序所包含的逻辑对任何希望正确回复的机器而言都很重要。

3.词袋并不是处理数据库查询的最佳方式。自然语言句法树分析器已经能够从自然语言中提取出语法和逻辑关系，并且可以达到显著的精确率（超过 90%）。具体可以使用 SyntaxNet（Parsey McParseface）和 SpaCy 这样的包来识别这些关系。

# 聊天机器人的自然语言流水线

聊天机器人需要 4 个处理阶段和一个数据库来维护过去语句和回复的记录。这 4 个处理阶段
中的每个阶段都可以包含一个或多个并行或串行工作的处理算法。 
* （1）解析：从自然语言文本中提取特征、结构化数值数据。
* （2）分析：通过对文本的情感、语法合法度及语义打分，生成和组合特征。
* （3）生成：使用模板、搜索或语言模型生成可能的回复。
* （4）执行：根据对话历史和目标，规划相应语句，并选择下一条回复。

![image-3.png](attachment:image-3.png)

# 深度处理

![image.png](attachment:image.png)

1.自然语言处理流水线的各个阶段可以看作是层，就像前馈神经网络中的层一样。深度学习就是通过在传统的两层机器学习模型架构（特征提取+建模）中添加额外的处理层来创建更复杂的模型和行为。

2.图 1-4 中的前3层是进行有意义的情感分析和语义搜索，前四层对应于特征提取和特征分析两个阶段。底部的两层（实体关系和知识库）用于构成包含特定领域信息（知识）的数据库。使用所有
这 6 层从特定语句或文档中提取的信息可以与该数据库结合使用进行推理。这里的推理结果是从
环境中检测到的一组条件中进行的逻辑推理，就像聊天机器人语句中包含的逻辑一样。

3.浅层 NLP 能够完成许多强大的任务，而且，几乎不需要（有的话也会极少）人工监督（对文本进行标注或整理）。

## 利用朴素贝叶斯进行情感分析

NLP 流水线能够输出文本的正向性或者负向性以及任何其他的情感质量的数值等级。接下来我们将通过训练一个基于词条的朴素贝叶斯机器学习算法，来度量评论的正向情感倾向程度。

从 nlpia 包中加载数据集，

In [113]:
from nlpia.data.loaders import get_data
movies = get_data('hutto_movies') 
movies.head().round(2)

INFO:nlpia.futil:Reading CSV with `read_csv(*('C:\\Users\\ASUS\\AppData\\Roaming\\Python\\Python37\\site-packages\\nlpia\\data\\hutto_ICWSM_2014/movieReviewSnippets_GroundTruth.csv.gz',), **{'nrows': None, 'low_memory': False})`...


Unnamed: 0_level_0,sentiment,text
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2.27,The Rock is destined to be the 21st Century's ...
2,3.53,The gorgeously elaborate continuation of ''The...
3,-0.6,Effective but too tepid biopic
4,1.47,If you sometimes like to go to the movies to h...
5,1.73,"Emerges as something rare, an issue movie that..."


In [51]:
 movies.describe().round(2)#电影的评分区间在−4 到+4 之间

Unnamed: 0,sentiment
count,10605.0
mean,0.0
std,1.92
min,-3.88
25%,-1.77
50%,-0.08
75%,1.83
max,3.94


下面使用分词器对所有电影评论文本进行切分，从而得到每篇评论文本的词袋向量，然后放入dataframe中去。

In [57]:
import pandas as pd
pd.set_option('display.width', 75)#用于帮助在控制台更美观地显示较宽的 DataFrame
from nltk.tokenize import casual_tokenize#一个分词器，用于处理来自社交网络的非规范的包含表情符号的短文本。
bags_of_words = []
from collections import Counter
for text in movies.text:
    bags_of_words.append(Counter(casual_tokenize(text)))
df_bows = pd.DataFrame.from_records(bags_of_words)
#DataFrame构造器from_records()的输入是一个字典的序列，它为所有键构建列，值被加入合适的列对应的表格中，而缺失值用 NaN 进行填充
df_bows = df_bows.fillna(0).astype(int)#将所有 NaN 填充为 0
df_bows.shape

(10605, 20756)

In [58]:
df_bows.head()

Unnamed: 0,The,Rock,is,destined,to,be,the,21st,Century's,new,...,Ill,slummer,Rashomon,dipsticks,Bearable,Staggeringly,’,ve,muttering,dissing
0,1,1,1,1,2,1,1,1,1,1,...,0,0,0,0,0,0,0,0,0,0
1,2,0,1,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,1,0,4,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [101]:
from sklearn.naive_bayes import MultinomialNB#多项式朴素贝叶斯
nb = MultinomialNB()
nb = nb.fit(df_bows, movies.sentiment > 0)
#将二值的分类结果变量（0 或 1）转换到−4 到+4 之间，从而能够和标准情感得分进行比较。利用 nb.predict_proba.max可以得到一个连续值

movies['predicted_sentiment'] = nb.predict(df_bows) * 8 - 4
movies['error'] = (movies.predicted_sentiment - movies.sentiment).abs()
movies.error.mean().round(1)#平均预测错误绝对值（也称为 MAE）是 3.5


2.4

In [106]:
movies['sentiment_ispositive'] = (movies.sentiment > 0).astype(int)
movies['predicted_ispositive'] = (movies.predicted_sentiment > 0).astype(int)
#movies["sentiment predicted_sentiment sentiment_ispositive predicted_ispositive".split()].head(8)
#movies['''sentiment predicted_sentiment sentiment_ispositive predicted_ispositive'''.split()].head(8)

In [107]:
movies

Unnamed: 0_level_0,sentiment,text,predicted_sentiment,error,sentiment_ispositive,predicted_ispositiv,predicted_ispositive
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,2.266667,The Rock is destined to be the 21st Century's ...,4,1.733333,1,1,1
2,3.533333,The gorgeously elaborate continuation of ''The...,4,0.466667,1,1,1
3,-0.600000,Effective but too tepid biopic,-4,3.400000,0,0,0
4,1.466667,If you sometimes like to go to the movies to h...,4,2.533333,1,1,1
5,1.733333,"Emerges as something rare, an issue movie that...",4,2.266667,1,1,1
...,...,...,...,...,...,...,...
10601,-0.062500,Well made but mush hearted.,-4,3.937500,0,0,0
10602,-1.500000,A real snooze.,-4,2.500000,0,0,0
10603,-0.625000,No surprises.,-4,3.375000,0,0,0
10604,1.437500,We’ve seen the hippie turned yuppie plot befor...,4,2.562500,1,1,1


In [108]:
 (movies.predicted_ispositive == movies.sentiment_ispositive).sum() / len(movies)#这里点赞评级的正确率是 93%

0.9344648750589345