# NLP应用
自然语言处理（Nature Language Process，NLP）是**计算机科学，人工智能和语言学**的交叉领域，目标是让计算机能够处理，理解以及运用人类语言，来执行语言翻译，问题回答等任务。  
自然语言体现了人工智能的最高任务与境界，只有当计算机具备了处理自然语言的能力时，机器才算实现了真正的智能。

[Ref:走进NLP的世界—NLP综述](https://zhuanlan.zhihu.com/p/72507766)

### 1. NLP常用技术
![nlp-1](../img_nlp/nlp-1.png)

### 分词
词是承载语义的最基本单位，英文单词之间是以空格作为自然分界符的，而汉语是以字为基本的书写单位，词语之间没有明显的区分标记。因此，中文词语分析是中文信息处理的基础与关键。    

分词算法可分为三大类：**基于字典、词库匹配的分词方法；基于词频度统计的分词方法和基于知识理解的分词方法**。

(1) **基于字典、词库匹配的分词方法**   
按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。  
策略:
+ 根据扫描方向的不同分为**正向匹配和逆向匹配**。
+ 根据不同长度优先匹配的情况，分为**最大（最长）匹配和最小（最短）匹配**。
+ 根据与词性标注过程是否相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

**最大正向匹配**：其基本思想为i，假定分词词典中最长词有i个汉字字符，则用待分词文本中的前i个词作为匹配字段，查找字典。若字典中存在这样的词，则匹配成功，切出改词。若词典中无该词，则去掉匹配字段的最后一个字，继续匹配字典，如此循环直至待匹配字段长度为零，完成一轮匹配。然后取下一个i字字串进行匹配，直至文本被扫描完成。

**最大逆向匹配**：从被处理文档的末端开始匹配扫描，每次取最末端的2i个字符（i字字串）作为匹配字段，若匹配失败，则去掉匹配字段最前面的一个字，继续匹配。相应地，它使用的分词词典是逆序词典，其中的每个词条都将按逆序方式存放。在实际处理时，先将文档进行倒排处理，生成逆序文档。然后，根据逆序词典，对逆序文档用正向最大匹配法处理即可。

**由于汉语中偏正结构较多，若从后向前匹配，可以适当提高精确度**。如‘硕士研究生产’。通常会选择双向匹配法。

分词作为信息检索，情感分析，文本分类等自然语言处理任务的重要基础，具有重要意义。 

(2) **基于词频度统计的分词方法**   
它不依靠词典,而是将文章中**任意两个字同时出现的频率进行统计**,次数越高的就可能是一个词。它首先切分出与词表匹配的所有可能的词,运用统计语言模型和决策算法决定最优的切分结果。  
它的优点在于可以发现所有的切分歧义并且容易将新词提取出来。  

(3) **基于知识理解的分词方法**   
该方法主要基于句法、语法分析，并结合语义分析，通过对上下文内容所提供信息的分析对词进行定界。  

中文分词的这个应用，有多种处理方法，包括基于词典的方法、隐马尔可夫模型（HMM）、最大熵模型、条件随机场（CRF）、深度学习模型（双向 LSTM 等）和一些无监督学习的方法（基于凝聚度与自由度）。

### 词性标注
词性标注（Part-of-Speech tagging/POS tagging)，是给句子中每个词赋予一个词性类别的过程，这里的词性类别可以是名词、动词、形容词等。

词性作为对词的一种泛化，在语言识别、句法分析、信息抽取等任务中有重要作用。

### 命名实体识别 
命名实体识别（Named Entity Recognition，NER），是指在句子的词序列中识别并定位文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。  -*-*--
它主要包含两部分：
+ 实体边界识别
+ 确定实体类别（人名、地名、机构名或其他）

命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向SemanticWeb的元数据标注等应用领域的重要基础工具。

### 词义销歧
很多单词具有多个词义，需要选择使句意最通顺的语义。

### 词嵌入
在处理文本过程中，我们需要**将文本转化成数字可表示的方式**。词嵌入要做的事就是将语言数学化表示。   
词向量有两种实现方式：
+ One-hot 表示，即通过向量中的一维 0/1 值来表示某个词；
+ 词嵌入，将词转变为固定维数的向量。如word2vec，通过浅层神经网络生成词向量。

### 依存句法分析
依存语法（Dependency Parsing, DP）通过分析语言单位内成分之间的依存关系揭示其句法结构。 直观来讲，依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分，并分析各成分之间的关系。  

例如,句子
国务院总理李克强调研上海外高桥时提出，支持上海积极探索新机制。
![8.1](../img_nlp/8.1.png)
依存句法分析标注关系 (共14种) 及含义如下：  
![8.2](../img_nlp/8.2.png)


### 语义角色标注
语义角色标注 （Semantic Role Labeling, SRL）是一种浅层的语义分析技术，标注句子中某些短语为给定谓词的论元（语义角色），如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。

### 指代消解
指代是一种常见的语言现象，分为2种：回指和共指。
+ **回指**是指当前的照应语与上文出现的词、短语或句子（句群）存在密切的语义关联性，指代依存于上下文语义中，在不同的语言环境中可能指代不同的实体，具有非对称性和非传递性；（如：西红柿不仅可以补充维生素，它还可以美白）
+ **共指**主要是指2个名词(包括代名词、名词短语)指向真实世界中的同一参照体，这种指代脱离上下文仍然成立。（如：西红柿和番茄 通常情况下共指一物）。

中文的指代主要有3种典型的形式：
+ **人称代词(pronoun)**，例如：李明怕高妈妈一人呆在家里寂寞，他便将家里的电视搬了过来。
+ **指示代词(demonstrative)**，例如：很多人都想留下什么给孩子，这可以理解，但不完全正确。
+ **有定描述(definitedescription)**，例如：贸易制裁已经成为了美国政府对华的惯用大棒，这根大棒真如美国政府所希望的那样灵验吗?

[Ref:依存句法分析与语义依存分析的区别](https://www.cnblogs.com/CheeseZH/p/5768389.html)

### 2.NLP有哪些应用
+ 从研究内容：语法分析，语义分析，篇章理解等
+ 从应用角度：机器翻译，语音识别，信息检索，信息抽取与过滤，文本分类与聚类，舆情分析，观点挖掘等
![nlp-app](../img_nlp/NLP_appli.png)

### 3.应用-问答系统
问答系统是信息检索系统的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题。
核心思想在于收集现有的所有问答集，根据用户的提问：
+ 问题分析：计算机负责解析问题的语义
+ 信息检索：根据问题分析结果，从问答集中缩小答案可能存在的范围
+ 答案抽取：从可能存在的答案块中抽取出最相关的答案返回给用户  

一般会抽取最相关的N个问答组成候选集，根据用户反馈提供其他候选答案。
根据知识来源的不同，可分为三种任务：
+ 基于知识库的问答KB-QA
+ 基于文档的问答DB-QA
+ 基于问题答案对
`

#### 3.1 基于知识库的问答系统KB-QA
一般适用于**限定领域**,数据类型是结构型。  
给定问题，通过对问题进行语义理解和解析，利用已知的知识库进行查询，推理得出答案。特点是，回答的答案是知识库中的**实体**，KBQA 适合回答 what，when 等事实性问题；  
问题==》[语法，语义分析]==数据查询语句==》[数据库]==》答案

#### 3.2 基于文档的问答系统DB-QA
属于**开放领域**问答系统。也被称为阅读理解问答任务。   
对于每个问题，会给定几段文本作为参考，也可能只与问题描述相关，而不含答案。我们需要**从文本中抽取一个词或几个词作为答案**。DBQA 适合回答 why，how 等解释性、 描述性问题。  
+ 问题分析：主要是用于分析和理解问题, 从而协助后续的检索和答案提取, 一般具有问句分类、问句主题提取两个主要研究内容
+ 信息检索：主要目的是缩小答案的范围, 提高下一步答案抽取的效率和精度。信息检索一般分为两个步骤：文档检索和段落检索
+ 答案抽取：主要目的是得到用户想要的答案,满足用户需求.为了提取答案, 一般有两个步骤：生成候选答案集合和提取答案
![3.2](../img_nlp/3.2.jpg)

#### 3.3 基于问题答案对的问答系统
基于问题答案对的问答系统研究主要有两个发展阶段：  
1) 基于常问问题(FAQ)列表的问答系统 研究阶段;   
2) 基于社区问答(CQA)的问答系统研究阶段。

+ 问题分析：问题主客观的判断，问题的紧急性
+ 信息检索：研究问题答案对的检索模型，研究问题答案对的相似性
+ 答案抽取：由于问题答案对已经有了答案, 答案抽取最重要的工作就是判断答案的质量，研究怎么从问题的众多答案中选择一个最好的答案
![3.3](../img_nlp/3.3.jpg)

### 3.4. 应用-对话体统
对话系统 ：**多轮次对话的问答系统**。   
与问答系统的区别是，对话系统没有必要在一轮的交互中就给出答案，可以有反问机制，从而引导用户按照系统更能接受的方式重新提出需求。

标准的对话系统（传统的流水线式对话系统）一般由四部分构成，分别是自然语言理解、对话管理、知识库管理、答案生成。
![4.1](../img_nlp/4.1.jpg)
+ 自然语言理解(NLU)：首先进行**名词实体识别（关键信息抽取）**，将原句中所有命中的名词实体提取出并替换成相应类别的标识字符串，之后将规范化后生成的句子进行**用户意图分析**，之后输入到对话管理。   
3种方法：基于规则的正则模板匹配，基于生成模板的模糊匹配和基于深度学习的方法（解决歧义问题）
![4.2](../img_nlp/4.2.jpg)
+ 对话管理(DialogueManagement)：分为状态管理和策略管理这两个子模块，自然语言理解的计算结果输出到状态管理中，后者依据当前状态以及当前语句的意图类型，对某些有歧义的句子进行**消歧处理**，最后将当前状态告知策略管理，**计算出回答的逻辑形式**，输出到答案生成（AG）模块。
+ 答案生成模块：设置的目的是让系统能够输出自然语言，使得用户反过来也能理解系统，反馈给用户是否能满足用户的需求甚至是否理解正确用户的输入。


### 4. 应用-情感分析系统
文本情感分析(Sentiment Analysis)是指利用自然语言处理和文本挖掘技术，**对带有情感色彩的主观性文本进行分析、处理和抽取的过程**，从而发现潜在的问题用于预测或改进。
+ 分析粒度：篇章，句子，词或者短语级。
+ 文本类别：产品评论，新闻评论等。
+ 任务类型：情感分类，情感检索，情感抽取。

#### 4.1 情感分类
即情感倾向分析。对给定的文本，识别其中主观性文本的倾向是肯定还是否定的，或者说是正面还是负面的。  
主要研究思路分为**基于语义的情感词典方法和基于机器学习的方法**。  

(1) **基于语义的情感词典方法**  
+ 构建词典：分4类，通用情感词，程度副词，否定词，领域词
+ 构建情感倾向性计算算法：给每个情感词强度附上权重值，然后加权求和：
$$\hat{E} =\frac{ \sum^{N_p}_{i=1}w_{p_i}+\sum^{N_n}_{j=1}w_{n_j}}{N_p+N_n}$$  
其中,$N_p,N_n$分别代表表达正面情感和负面情感的词汇数目；$w_{p_i},w_{n_j}$分别代表正面情感词汇和负面情感词汇的权值。
+ 确定阈值来判断文本倾向性：一般情况下，加权计算结果为正是正面倾向，结果为负是负面倾向 ,得分为零无倾向。

所得结果评价常使用的正确率、召回率和 F 值来评判算法效果。

(2) **基于机器学习的情感分类方法**  
基于机器学习的情感分类，其大致流程如下:

+ 人工标注文本倾向性作为训练集
+ 提取文本情感特征：方法有信息增益，CHI 统计量和文档频率等
+ 通过机器学习的方法构造情感分类器：K近邻，贝叶斯分类器，支持向量机，条件随机场，最大熵分类器；lightGBM，NN等
+ 待分类的文本通过分类器进行倾向性分类

#### 4.2 情感检索
情感检索是从海量文本中查询到观点信息，根据主题相关度和观点倾向性对结果排序。 如淘宝评论情感抽取。
情感检索返回的结果要同时满足主题相关和带有情感倾向或指定的情感倾向，是比情感分类更为复杂的任务。

情感检索有两个主要任务：

+ 检索和查询相关的文档或句子
+ 对检索的相关文档或句子进行排序

#### 4.3 情感抽取
情感抽取是指抽取情感文本中有价值的情感信息，其要判断一个单词或词组在情感表达中扮演的角色，包括情感表达者识别，评价对象识别，情感观点词识别等任务。

+ 情感表达者识别：又称观点持有者抽取，其是观点、评论的隶属者。可采用命名实体识别方法进行抽取。
+ 评价对象识别：评价对象是指某段评论中的主题，是评论文本中评价词语修饰的对象，现有的研究大多将评价对象限定在名词或名词短语的范畴内，一般使用基于模板和规则的方法抽取评价对象。
+ 情感观点词识别：情感词的抽取，可以构建领域相关的主题词表和情感词表，情感词表的构建在情感分类部分已做阐述。
![4.3](../img_nlp/4.3.jpg)

### 5. 应用-知识图谱系统
知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。   
知识图谱是关系的最有效的表示方式，他提供了从“关系”的角度去分析问题的能力。

#### 5.1 知识图谱的通用表示方法
三元组是知识图谱的一种通用表示方式，基本形式主要包括实体、关系、概念、属性、属性值等。  
**实体**：知识图谱中的最基本元素，不同的实体间存在不同的关系。  
**概念**：主要指集合、类别、对象类型、事物的种类，例如人物、地理等；   
**属性**：主要指实体对象可能具有的属性、特征、特性、特点以及参数，例如国籍、生日等；   
**属性值**：主要指对象指定属性的值，例如中国、1988-09-08等。   
每个实体（概念的外延）可用一个全局唯一确定的 ID 来标识，每个属性—属性值对可用来刻画实体的内在特性，而关系可用来连接两个实体，刻画它们之间的关联。   
如下图是实体 A 与实体 B 组成的一个简单三元组形式：
![5.1](../img_nlp/5.1.jpg)

#### 5.2 知识图谱的关键技术
+ 知识抽取：主要包含实体抽取、关系抽取、属性抽取等，涉及到的 NLP 技术有命名实体识别、句法依存、实体关系识别等。
+ 知识表示：主要包含的 NLP 技术有语义相似度计算、复杂关系模型，知识代表模型如距离模型、双线性模型、神经张量模型、矩阵分解模型、翻译模型等。
+ 知识融合：在知识融合过程中，实体对齐、知识加工是两个重要的过程。
+ 知识推理：主要可分为基于逻辑的推理与基于图的推理两种类别。  

知识图谱体系架构：
![5.2](../img_nlp/5.2.jpg)

### 6. 应用-机器翻译系统
机器翻译（machine translation, MT）是用计算机来实现不同语言之间翻译的技术。   
**神经网络机器翻译(Neural Machine Translation, NMT)**是最近几年提出来的一种机器翻译方法。   
相比传统的统计机器翻译(SMT)，NMT能够训练一张能够从一个序列映射到另一个序列的神经网络，输出的可以是一个变长的序列。   
**NMT其实是一种encoder-decoder系统，encoder把源语言序列进行编码，并提取源语言中信息，通过decoder再把这种信息转换成另一种语言即目标语言，从而完成对语言的翻译**。

#### 6.1 神经网络的seq2seq学习
序列对序列学习，简单来说是**给定一个输入序列，对其进行训练，经过迭代生成输出序列**。
深度学习的输入输出维度是固定的，但有了RNN结构，即可解决这个问题。  
一般在应用的时候encoder和decoder使用的是**LSTM**或**GRU**结构。

#### 6.2 带注意力机制的seq2seq学习
注意力机制的主要作用就是在预测一个目标词汇的时候，会自动查找源语言序列中的哪一部分与他对应，并且在后续查找生词中可以直接复制对应的源语言词。  
注意力机制分为全局注意力机制(globale attention)和局部注意力机制(local attention)。简单的来说，是使用全部的encoder的隐藏层还是部分。


### 7. 应用-聊天机器人
聊天机器人又称为，语音助手，聊天助手等。是目前非常热的人工智能研发与产品方向。   
常见的几种主流技术包括：基于人工模板的聊天机器人、基于检索的聊天机器人、基于机器翻译技术的聊天机器人、基于深度学习的聊天机器人。  

####  基于人工模板的聊天机器人
通过人工设定对话场景，并对每个场景写一些针对性的对话模板，模板描述了用户可能的问题以及对应的答案模板。优点是精准，缺点是需要大量的人工工作，扩展性差。

#### 基于检索技术的聊天机器人
类似搜索引擎的路线，事先存储好对话库并建立索引，根据用户问句，在对话库中进行模糊匹配找到最合适的应答内容。

#### 基于机器翻译技术的聊天机器人
把聊天过程比拟成机器翻译过程，就是说将用户输入聊天信息Message，然后聊天机器人应答Response的过程看做是把Message翻译成Response的过程，类似于把英语翻译成汉语。基于这种假设，就完全可以将统计机器翻译领域里相对成熟的技术直接应用到聊天机器人开发领域来。

#### 基于深度学习的聊天机器人
总体而言，绝大多数技术都是在Encoder-Decoder（或者称作是Sequence to Sequence）深度学习技术框架下进行改进的。使用深度学习技术来开发聊天机器人相对传统方法来说整体思路是非常简单可扩展的。