# 绪论

本内容来自车万翔所著《自然语言处理：基于预训练模型的方法》。

## 自然语言处理的概念

自然语言通常指的是人类语言（本书特指文本符号，而非语音信号），是人类思维的载体和交流的基本工具，也是人类区别于动物的根本标志，更是人类智能发展的外在体现形式之一。自然语言处理（Natural Language Processing，NLP）主要研究用计算机理解和生成自然语言的各种理论和方法，属于人工智能领域的一个重要甚至核心分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学（Computational Linguistics，CL）。随着互联网的快速发展，网络文本呈爆炸性增长，为自然语言处理提出了巨大的应用需求。同时，自然语言处理研究也为人们更深刻地理解语言的机理和社会的机制提供了一条重要的途径，因此具有重要的科学意义。

## 自然语言处理任务体系

### 任务层级

自然语言处理的一大特点是涉及的任务众多。按照从低层到高层的方式，可以划分为资源建设、基础任务、应用任务和应用系统四大类（见图1-1）。其中，资源建设主要包括两大类任务，即语言学知识库建设和语料库资源建设。所谓语言学知识库，一般包括词典、规则库等。词典（Dictionary）也称辞典（Thesaurus），除了可以为词语提供音韵、句法或者语义解释以及示例等信息，还可以提供词语之间的关系信息，如上下位、同义反义关系等。语料库资源指的是面向某一自然语言处理任务所标注的数据。无论是语言学资源，还是语料库资源的建设，都是上层各种自然语言处理技术的基础，需要花费大量的人力和物力构建。

基础任务包括分词、词性标注、句法分析和语义分析等，这些任务往往不直接面向终端用户，除了语言学上的研究价值，它们主要为上层应用任务提供所需的特征。

应用任务包括信息抽取、情感分析、问答系统、机器翻译和对话系统等，它们往往可以作为产品直接被终端用户使用。

应用系统特指自然语言处理技术在某一领域的综合应用，又被称为NLP+，即自然语言处理技术加上特定的应用领域。如在智能教育领域，可以使用文本分类、回归等技术，实现主观试题的智能评阅，帮助教师减轻工作量，提高工作效率；在智慧医疗领域，自然语言处理技术可以帮助医生跟踪最新的医疗文献，帮助患者进行简单的自我诊断等；在智能司法领域，可以使用阅读理解、文本匹配等技术，实现自动量刑、类案检索和法条推荐等。总之，凡是涉及文本理解和生成的领域，自然语言处理技术都可以发挥巨大的作用。

![image.png](attachment:aa2c14f3-cbdf-4035-a979-ee6eb2bc28a8.png)

### 任务类别

虽然自然语言处理任务多种多样，刚涉足该领域的人可能会觉得眼花缭乱、无从下手，但是这些复杂的任务基本上都可以归纳为回归、分类、匹配、解析或生成五类问题中的一种。下面分别加以介绍：  
1.回归问题  
即将输入文本映射为一个连续的数值，如对作文的打分，对案件刑期或罚款金额的预测等。

2.分类问题  
又称为文本分类，即判断一个输入的文本所属的类别，如：在垃圾邮件识别任务中，可以将一封邮件分为正常和垃圾两类；在情感分析中，可以将用户的情感分为褒义、贬义或中性三类。

3.匹配问题  
判断两个输入文本之间的关系，如：它们之间是复述或非复述两类关系；或者蕴含、矛盾和无关三类关系。另外，识别两个输入文本之间的相似性（0到1的数值）也属于匹配问题。

4.解析问题  
特指对文本中的词语进行标注或识别词语之间的关系，典型的解析问题包括词性标注、句法分析等，另外还有很多问题，如分词、命名实体识别等也可以转化为解析问题。

5.生成问题  
特指根据输入（可以是文本，也可以是图片、表格等其他类型数据）生成一段自然语言，如机器翻译、文本摘要、图像描述生成等都是典型的文本生成类任务。

## 自然语言处理技术发展历史

自然语言处理自诞生之日起经历了两大研究范式的转换，即理性主义和经验主义，如图1-3所示。受到语料规模以及计算能力的限制，早期的自然语言处理主要采用基于理性主义的规则方法，通过专家总结的符号逻辑知识处理通用的自然语言现象。然而，由于自然语言的复杂性，基于理性主义的规则方法在面对实际应用场景中的问题时显得力不从心。

从20世纪90年代开始，随着计算机运算速度和存储容量的快速增加，以及统计学习方法的愈发成熟，使得以语料库为核心的统计学习方法在自然语言处理领域得以大规模应用。由于大规模的语料库中包含了大量关于语言的知识，使得基于语料库的统计自然语言处理方法能够更加客观、准确和细致地捕获语言规律。在这一时期，词法分析、句法分析、信息抽取、机器翻译和自动问答等领域的研究均取得了一定程度的成功。尽管基于统计学习的自然语言处理取得了一定程度的成功，但它也有明显的局限性，也就是需要事先利用经验性规则将原始的自然语言输入转化为机器能够处理的向量形式。这一转化过程（也称为特征提取）需要细致的人工操作和一定的专业知识，因此也被称为特征工程。

2010年之后，随着基于深度神经网络的表示学习方法（也称深度学习）的兴起，该方法直接端到端地学习各种自然语言处理任务，不再依赖人工设计的特征。所谓表示学习，是指机器能根据输入自动地发现可以用于识别或分类等任务的表示。具体地，深度学习模型在结构上通常包含多层的处理层。底层的处理层接收原始输入，然后对其进行抽象处理，其后的每一层都在前一层的结果上进行更深层次的抽象，最后一层的抽象结果即为输入的一个表示，用于最终的目标任务。其中的抽象处理，是由模型内部的参数进行控制的，而参数的更新值则是根据训练数据上模型的表现，使用反向传播算法学习得到的。由此可以看出，深度学习可以有效地避免统计学习方法中的人工特征提取操作，自动地发现对于目标任务有效的表示。在语音识别、计算机视觉等领域，深度学习已经取得了目前最好的效果，在自然语言处理领域，深度学习同样引发了一系列的变革。

除了可以自动地发现有效特征，表示学习方法的另一个好处是打通了不同任务之间的壁垒。传统统计学习方法需要针对不同的任务设计不同的特征，这些特征往往是无法通用的。而表示学习能够将不同任务在相同的向量空间内进行表示，从而具备跨任务迁移的能力。除了可以跨任务，还可以实现跨语言甚至跨模态的迁移。综合利用多项任务、多种语言和多个模态的数据，使得人工智能向更通用的方向迈进了一步。同样，得益于深度学习技术的快速发展，自然语言处理的另一个主要研究方向——自然语言生成也取得了长足进步。长期以来，自然语言生成的研究几乎处于停滞状态，除了使用模板生成一些简单的语句，并没有什么太有效的解决办法。随着基于深度学习的序列到序列生成框架的提出，这种逐词的文本生成方法全面提升了生成技术的灵活性和实用性，完全革新了机器翻译、文本摘要和人机对话等任务的技术范式。

虽然深度学习技术大幅提高了自然语言处理系统的准确率，但是基于深度学习的算法有一个致命的缺点，就是过度依赖于大规模有标注数据。对于语音识别、图像处理等感知类任务，标注数据相对容易获得，如：在图像处理领域，人们已经为上百万幅的图像标注了相应的类别（如ImageNet数据集）；用于语音识别的“语音--文本”平行语料库也有几十万小时。然而，由于自然语言处理这一认知类任务所具有的“主观性”特点，以及其所面对的任务和领域众多，使得标注大规模语料库的时间过长，人力成本于高昂，因此自然语言处理的标注数据往往不够充足，很难满足深度学习模型训练的需要。

早期的静态词向量预训练模型，以及后来的动态词向量预训练模型，特别是2018年以来，以BERT、GPT为代表的超大规模预训练语言模型恰好弥补了自然语言处理标注数据不足的缺点，帮助自然语言处理取得了一系列的突破，使得包括阅读理解在内的所有自然语言处理任务的性能都得到了大幅提高，在有些数据集上达到或甚至超过了人类水平。

所谓模型预训练（Pre-train），即首先在一个原任务上预先训练一个初始模型，然后在下游任务（也称目标任务）上继续对该模型进行精调（Fine-tune），从而达到提高下游任务准确率的目的。在本质上，这也是迁移学习（Transfer Learning）思想的一种应用。然而，由于同样需要人工标注，导致原任务标注数据的规模往往也非常有限。那么，如何获得更大规模的标注数据呢？

其实，文本自身的顺序性就是一种天然的标注数据，通过若干连续出现的词语预测下一个词语（又称语言模型）就可以构成一项原任务。由于图书、网页等文本数据规模近乎无限，所以，可以非常容易地获得超大规模的预训练数据。有人将这种不需要人工标注数据的预训练学习方法称为无监督学习（Unsupervised Learning），其实这并不准确，因为学习的过程仍然是有监督的（Supervised），更准确的叫法应该是自监督学习（Selfsupervised Learning）。

为了能够刻画大规模数据中复杂的语言现象，还要求所使用的深度学习模型容量足够大。基于自注意力的Transformer模型显著地提升了对于自然语言的建模能力，是近年来具有里程碑意义的进展之一。要想在可容忍的时间内，在如此大规模的数据上训练一个超大规模的Transformer模型，也离不开以GPU、TPU为代表的现代并行计算硬件。可以说，超大规模预训练语言模型完全依赖“蛮力”，在大数据、大模型和大算力的加持下，使自然语言处理取得了长足的进步。如OpenAI推出的GPT-3，是一个具有1，750亿个参数的巨大规模，无须接受任何特定任务的训练，便可以通过小样本学习完成十余种文本生成任务，如问答、风格迁移、网页生成和自动编曲等。目前，预训练模型已经成为自然语言处理的新范式。

![image.png](attachment:f2d294db-58ee-465c-a9ab-cc725f0be3a3.png)

# 自然语言处理基础

词的表示大体经过了早期的独热（One-hot）表示，到后来的分布式表示，再到最近的词向量三个阶段。

## 文本的表示

基于机器学习的自然语言处理技术应运而生，其最本质的思想是将文本表示为向量，其中的每一维代表一个特征。在进行决策的时候，只要对这些特征的相应值进行加权求和，就可以得到一个分数用于最终的判断。仍然以情感极性识别为例，一种非常简单的将原始文本表示为向量的方法为：令向量x的每一维表示某个词在该文本中出现的次数，如x1表示“我”出现的次数，x2表示“喜欢”出现的次数，x3表示“电影”出现的次数，x4表示“讨厌”出现的次数等，如果某个词在该句中没有出现，则相应的维数被设置为0。可见，输入向量x的大小恰好为整个词表（所有不相同的词）的大小。然后就可以根据每个词对判断情感极性的重要性进行加权，如“喜欢”（x2）对应的权重ω2可能比较大，而“讨厌”（x4）对应的权重ω4可能比较小（可以为负数），对于情感极性影响比较小的词，如“我”“电影”等，对应的权重可能会趋近于0。这种文本表示的方法是两种技术的组合，即词的独热表示和文本的词袋表示。

### 词的独热表示

独热表示的一个主要问题就是不同词使用完全不同的向量进行表示，这会导致即使两个词在语义上很相似，但是通过余弦函数来度量它们之间的相似度时值却为0。另外，当应用于基于机器学习的方法时，独热模型会导致数据稀疏（Data Sparsity）问题。例如，假设在训练数据中只见过“漂亮”，在测试数据中出现了“美丽”，虽然它们之间很相似，但是系统仍然无法恰当地对“美丽”进行加权。由于数据稀疏问题，导致当训练数据规模有限时，很多语言现象没有被充分地学习到。

### 词的分布式表示

人们在阅读过程中遇到从未见过的词时，通常会根据上下文来推断其含义以及相关属性。基于这种思想，John Rupert Firth于1957年提出了分布式语义假设：词的含义可由其上下文的分布进行表示。基于该思想，可以利用大规模的未标注文本数据，根据每个词的上下文分布对词进行表示。当然，分布式语义假设仅仅提供了一种语义建模的思想。具体到表示形式和上下文的选择，以及如何利用上下文的分布特征，都是需要解决的问题。

![image.png](attachment:3e57e651-5a12-4e9d-ab47-9d872dd734c1.png)

虽然在基于传统机器学习的方法中，词的分布式表示取得了不错的效果，但是其仍然存在一些问题。首先，当共现矩阵规模较大时，奇异值分解的运行速度非常慢；其次，如果想在原来语料库的基础上增加更多的数据，则需要重新运行奇异值分解算法，代价非常高；另外，分布式表示只能用于表示比较短的单元，如词或短语等，如果待表示的单元比较长，如段落、句子等，由于与其共现的上下文会非常少，则无法获得有效的分布式表示；最后，分布式表示一旦训练完成，则无法修改，也就是说，无法根据具体的任务调整其表示方式。为了解决这些问题，可引入一种新的词表示方式——词嵌入表示。

### 词嵌入表示

与词的分布式表示类似，词嵌入表示（Word Embedding）也使用一个连续、低维、稠密的向量来表示词，经常直接简称为词向量，但与分布式表示不同之处在于其赋值方式。在词的分布式表示中，向量值是通过对语料库进行统计得到的，然后再经过点互信息、奇异值分解等变换，一旦确定则无法修改。而词向量中的向量值，是随着目标任务的优化过程自动调整的，也就是说，可以将词向量中的向量值看作模型的参数。

### 文本的词袋表示

上面介绍了几种常见的词表示方法，那么如何通过词的表示构成更长文本的表示呢？在此介绍一种最简单的文本表示方法——词袋（Bag-Of-Words，BOW）表示。所谓词袋表示，就是假设文本中的词语是没有顺序的集合，将文本中的全部词所对应的向量表示（既可以是独热表示，也可以是分布式表示或词向量）相加，即构成了文本的向量表示。如在使用独热表示时，文本向量表示的每一维恰好是相应的词在文本中出现的次数。

虽然这种文本表示的方法非常简单、直观，但是其缺点也非常明显：首先是没有考虑词的顺序信息，导致“张三打李四”和“李四打张三”，虽然含义不同，但是由于它们包含的词相同，即使词序不同，词袋表示的结果也是一样的；其次是无法融入上下文信息。比如要表示“不喜欢”，只能将两个词的向量相加，无法进行更细致的语义操作。当然，可以通过增加词表的方法加以解决，比如引入二元词（Bigram）词表，将“不+喜欢”等作为“词”，然后同时学习二元词的词向量表示。这种方法既能部分解决否定词的问题，也能部分解决局部词序的问题，但是随着词表的增大，会引入更严重的数据稀疏问题。

## 自然语言处理任务

三大类常见的自然语言处理任务，即：语言模型、基础任务以及应用任务。

### 语言模型

语言模型（Language Model，LM）（也称统计语言模型）是描述自然语言概率分布的模型，是一个非常基础和重要的自然语言处理任务。利用语言模型，可以计算一个词序列或一句话的概率，也可以在给定上文的条件下对接下来可能出现的词进行概率分布的估计。同时，语言模型是一项天然的预训练任务，在基于预训练模型的自然语言处理方法中起到非常重要的作用，因此这种预训练模型有时也被称为预训练语言模型。

### 自然语言处理基础任务

#### 中文分词

词（Word）是最小的能独立使用的音义结合体，是能够独立运用并能够表达语义或语用内容的最基本单元。在以英语为代表的印欧语系（Indo-European lan-guages）中，词之间通常用分隔符（空格等）区分。但是在以汉语为代表的汉藏语系（Sino-Tibetan languages），以及以阿拉伯语为代表的闪-含语系（Semito-Hamitic languages）中，却不包含明显的词之间的分隔符。因此，为了进行后续的自然语言处理，通常需要首先对不含分隔符的语言进行分词（Word Segmentation）操作。本节以中文分词为例，介绍词的切分问题和最简单的分词算法。

中文分词就是将一串连续的字符构成的句子分割成词语序列，如“我喜欢读书”，分词后的结果为“我 喜欢 读书”。最简单的分词算法叫作正向最大匹配（Forward Maximum Matching，FMM）分词算法，即从前向后扫描句子中的字符串，尽量找到词典中较长的单词作为分词的结果。

#### 子词切分

一般认为，以英语为代表的印欧语系的语言，词语之间通常已有分隔符（空格等）进行切分，无须再进行额外的分词处理。然而，由于这些语言往往具有复杂的词形变化，如果仅以天然的分隔符进行切分，不但会造成一定的数据稀疏问题，还会导致由于词表过大而降低处理速度。如“computer”“computers”“computing”等，虽然它们语义相近，但是被认为是截然不同的单词。传统的处理方法是根据语言学规则，引入词形还原（Lemmatization）或者词干提取（Stemming）等任务，提取出单词的词根，从而在一定程度上克服数据稀疏问题。其中，词形还原指的是将变形的词语转换为原形，如将“computing”还原为“compute”；而词干提取则是将前缀、后缀等去掉，保留词干（Stem），如“computing”的词干为“comput”，可见，词干提取的结果可能不是一个完整的单词。

词形还原或词干提取虽然在一定程度上解决了数据稀疏问题，但是需要人工撰写大量的规则，这种基于规则的方法既不容易扩展到新的领域，也不容易扩展到新的语言上。因此，基于统计的无监督子词（Subword）切分任务应运而生，并在现代的预训练模型中使用。

所谓子词切分，就是将一个单词切分为若干连续的片段。目前有多种常用的子词切分算法，它们的方法大同小异，基本的原理都是使用尽量长且频次高的子词对单词进行切分。此处重点介绍常用的字节对编码（Byte Pair Encoding，BPE）算法

#### 词性标注

词性是词语在句子中扮演的语法角色，也被称为词类（Part-Of-Speech，POS）。例如，表示抽象或具体事物名字（如“计算机”）的词被归为名词，而表示动作（如“打”）、状态（如“存在”）的词被归为动词。词性可为句法分析、语义理解等提供帮助。

词性标注（POS Tagging）任务是指给定一个句子，输出句子中每个词相应的词性。

#### 句法分析

句法分析（Syntactic Parsing）的主要目标是给定一个句子，分析句子的句法成分信息，例如主谓宾定状补等成分。最终的目标是将词序列表示的句子转换成树状结构，从而有助于更准确地理解句子的含义，并辅助下游自然语言处理任务。

典型的句法结构表示方法包含两种——短语结构句法表示和依存结构句法表示。它们的不同点在于依托的文法规则不一样。其中，短语结构句法表示依托上下文无关文法，属于一种层次性的表示方法。而依存结构句法表示依托依存文法。

#### 语义分析

自然语言处理的核心任务即是让计算机“理解”自然语言所蕴含的意义，即语义（Semantic）。本章前面介绍的文本向量表示，可以被认为隐性地蕴含了很多语义信息。而一般意义上的语义分析指的是通过离散的符号及结构显性地表示语义。根据待表示语言单元粒度以及语义表示方法的不同，语义分析又可以被分为多种形式。

从词语的粒度考虑，一个词语可能具有多种语义（词义），例如“打”，含义即可能是“攻击”（如“打人”），还可能是“玩”（如“打篮球”），甚至“编织”（如“打毛衣”）等。根据词语出现的不同上下文，确定其具体含义的自然语言处理任务被称为词义消歧（Word Sense Disambiguation，WSD）。对于每个词可能具有的词义，往往是通过语义词典确定的，如WordNet等。除了以上一词多义情况，还有多词一义的情况，如“马铃薯”和“土豆”具有相同的词义。

由于语言的语义组合性和进化性，无法像词语一样使用词典定义句子、段落或篇章的语义，因此很难用统一的形式对句子等语言单元的语义进行表示。众多的语言学流派提出了各自不同的语义表示形式，如语义角色标注（Semantic Role Labeling，SRL）、语义依存分析（Semantic Dependency Parsing，SDP）等。

### 自然语言处理应用任务

#### 信息抽取

信息抽取（Information Extraction，IE）是从非结构化的文本中自动提取结构化信息的过程，这种结构化的信息方便计算机进行后续的处理。另外，抽取的结果还可以作为新的知识加入知识库中。信息抽取一般包含以下几个子任务。

命名实体识别（Named Entity Recognition，NER）是在文本中抽取每个提及的命名实体并标注其类型，一般包括人名、地名和机构名等，也包括专有名称等，如书名、电影名和药物名等。在文本中找到提及的命名实体后，往往还需要将这些命名实体链接到知识库或知识图谱中的具体实体，这一过程被称作实体链接（Entity Linking）。如“华盛顿”既可以指美国首任总统，也可以指美国首都，需要根据上下文进行判断，这一过程类似于词义消歧任务。

关系抽取（Relation Extraction）用于识别和分类文本中提及的实体之间的语义关系，如夫妻、子女、工作单位和地理空间上的位置关系等二元关系。

事件抽取（Event Extraction）的任务是从文本中识别人们感兴趣的事件以及事件所涉及的时间、地点和人物等关键元素。其中，事件往往使用文本中提及的具体触发词（Trigger）定义。可见，事件抽取与语义角色标注任务较为类似，其中触发词对应语义角色标注中的谓词，而事件元素则可认为是语义角色标注中的论元。

![image.png](attachment:a2fd5efd-01cd-4321-8bdf-196b4bf065d4.png)

#### 情感分析

情感（Sentiment）是人类重要的心理认知能力，使用计算机自动感知和处理人类情感已经成为人工智能领域重要的研究内容之一。自然语言处理中的情感分析主要研究人类通过文字表达的情感，因此也称为文本情感分析。但是，情感又是一个相对比较笼统的概念，既包括个体对外界事物的态度、观点或倾向性，如正面、负面等；又可以指人自身的情绪（Emotion），如喜、怒、哀和惧等。随着互联网的迅速发展，产生了各种各样的用户生成内容（User Generated Content，UGC），其中很多内容包含着人们的喜怒哀惧等情感，对这些情感的准确分析有助于了解人们对某款产品的喜好，随时掌握舆情的发展。因此，情感分析成为目前自然语言处理技术的主要应用之一。

情感分析可以从任务角度分为两个主要的子任务，即情感分类（识别文本中蕴含的情感类型或者情感强度，其中，文本既可以是句子，也可以是篇章）和情感信息抽取（抽取文本中的情感元素，如评价词语、评价对象和评价搭配等）。

![image.png](attachment:8c1192f4-34ed-40e1-81f2-3c512a4383a4.png)

#### 问答系统

问答系统（Question Answering，QA）是指系统接受用户以自然语言形式描述的问题，并从异构数据中通过检索、匹配和推理等技术获得答案的自然语言处理系统。根据数据来源的不同，问答系统可以分为4种主要的类型：1）检索式问答系统，答案来源于固定的文本语料库或互联网，系统通过查找相关文档并抽取答案完成问答；2）知识库问答系统，回答问题所需的知识以数据库等结构化形式存储，问答系统首先将问题解析为结构化的查询语句，通过查询相关知识点，并结合知识推理获取答案；3）常问问题集问答系统，通过对历史积累的常问问题集进行检索，回答用户提出的类似问题；4）阅读理解式问答系统，通过抽取给定文档中的文本片段或生成一段答案来回答用户提出的问题。在实际应用中，可以综合利用以上多种类型的问答系统来更好地回答用户提出的问题。

#### 机器翻译

机器翻译（Machine Translation，MT）是指利用计算机实现从一种自然语言（源语言）到另外一种自然语言（目标语言）的自动翻译。据统计，目前世界上存在约7，000种语言，其中，超过300种语言拥有100万个以上的使用者。而随着全球化趋势的发展和互联网的广泛普及，不同语言使用者之间的信息交流变得越来越重要。如何突破不同国家和不同民族之间的语言障碍，已成为全人类面临的共同难题。机器翻译为克服这一难题提供了有效的技术手段，其目标是建立自动翻译方法、模型和系统，打破语言壁垒，最终实现任意时间、任意地点和任意语言之间的自动翻译，完成人们无障碍自由交流的梦想。自从自然语言处理领域诞生以来，机器翻译一直是其主要的研究任务和应用场景。近年来，谷歌、百度等公司纷纷推出在线的机器翻译服务，科大讯飞等公司也推出了翻译机产品，能够直接将一种语言的语音翻译为另一种语言的语音，为具有不同语言的人们之间的互相交流提供了便利。

机器翻译方法一般以句子为基本输入单位，研究从源语言句子到目标语言句子的映射函数。机器翻译自诞生以来，主要围绕理性主义和经验主义两种方法进行研究。所谓“理性主义”，是指基于规则的方法；而“经验主义”是指数据驱动的统计方法，在机器翻译领域表现为基于语料库（翻译实例库）的研究方法。近年来兴起的基于深度学习的机器翻译方法利用深度神经网络学习源语言句子到目标语言句子的隐式翻译规则，即所有的翻译规则都被编码在神经网络的模型参数中。该方法又被称为神经机器翻译（Neural Machine Translation，NMT）。

#### 对话系统

对话系统（Dialogue System）是指以自然语言为载体，用户与计算机通过多轮交互的方式实现特定目标的智能系统。其中，特定目标包括：完成特定任务、获取信息或推荐、获得情感抚慰和社交陪伴等。20世纪50年代，图灵提出用于评测计算机系统智能化水平的“图灵测试”，就是以自然语言对话的形式进行的。对话系统可以直接应用于语音助手、智能音箱和车载语音系统等众多场景。

对话系统主要分为任务型对话系统（Task-Oriented Dialogue）和开放域对话系统（Open-Domain Dialogue）。前者是任务导向型的对话系统，主要用于垂直领域的自动业务助理等，具有明确的任务目标，如完成机票预订、天气查询等特定的任务。后者是以社交为目标的对话系统，通常以闲聊、情感陪护等为目标，因此也被称为聊天系统或聊天机器人（Chatbot），在领域和话题上具有很强的开放性。

任务型对话系统一般由顺序执行的三个模块构成，即自然语言理解、对话管理和自然语言生成。其中，自然语言理解（Natural Language Understanding，NLU）模块的主要功能是分析用户话语的语义，通常的表示形式为该话语的领域、意图以及相应的槽值等。

对话管理（Dialogue Management，DM）模块包括对话状态跟踪（Dialogue State Tracking，DST）和对话策略优化（Dialogue Policy Optimization，DPO）两个子模块。对话状态一般表示为语义槽和值的列表。例如，通过对以上用户话语自然语言理解的结果进行对话状态跟踪，得到当前的对话状态（通常为语义槽及其对应的值构成的列表）：[到达地=北京；出发时间=明天；出发地=NULL；数量=1]。获得当前对话状态后，进行策略优化，即选择下一步采用什么样的策略，也叫作动作。动作有很多种，如此时可以询问出发地，也可以询问舱位类型等。

自然语言生成（Natural Language Generation，NLG）模块工作相对比较简单，通常通过写模板即可实现。比如要询问出发地，就直接问“请问您从哪里出发？”，然后经过语音合成（Text-to-Speech，TTS）反馈给用户。以上三个模块可以一直循环执行下去，随着每次用户的话语不同，对话状态也随之变化。然后，采用不同的回复策略，直到满足用户的订票需求为止。

##  自然语言处理基本问题

上面介绍了两大类常见的自然语言处理任务，虽然这些任务从表面上看各不相同，但是都可以归为文本分类问题、结构预测问题或序列到序列问题，下面就这三个基本问题分别加以介绍。

### 文本分类问题

文本分类（Text Classification或Text Categorization）是最简单也是最基础的自
然语言处理问题。即针对一段文本输入，输出该文本所属的类别，其中，类别是事先定义
好的一个封闭的集合。文本分类具有众多的应用场景，如垃圾邮件过滤（将邮件分为垃圾
和非垃圾两类）、新闻分类（将新闻分为政治、经济和体育等类别）等。2.2.3节介绍的
文本情感分类任务就是典型的文本分类问题，类别既可以是褒、贬两类，也可以是喜、
怒、哀和惧等多类。

在使用机器学习，尤其是深度学习方法解决文本分类问题时，首先，需要使用2.1节
介绍的文本表示技术，将输入的文本转化为特征向量；然后，使用第4章将要介绍的机器
学习模型（也叫分类器），将输入的特征向量映射为一个具体的类别。

除了直接使用文本分类技术解决实际问题，还有很多自然语言处理问题可以转换为文
本分类问题，如文本匹配（Text Matching），即判断两段输入文本之间的匹配关系，包
括复述关系（Paraphrasing：判断两个表述不同的文本语义是否相同）、蕴含关系
（Entailment：根据一个前提文本，推断与假设文本之间的蕴含或矛盾关系）等。一种转
换的方法是将两段文本直接拼接起来，然后按复述或非复述、蕴含或矛盾等关系分类。

### 结构预测问题

与文本分类问题不同，在结构预测问题中，输出类别之间具有较强的相互关联性。例
如，在词性标注任务中，一句话中不同词的词性之间往往相互影响，如副词之后往往出现
动词或形容词，形容词之后往往跟着名词等。结构预测任务通常是自然语言处理独有的。
下面介绍三种典型的结构预测问题——序列标注、序列分割和图结构生成。

#### .序列标注


所谓序列标注（Sequence Labeling），指的是为输入文本序列中的每个词标注相应
的标签，如词性标注是为每个词标注一个词性标签，包括名词、动词和形容词等。其中，
输入词和输出标签数目相同且一一对应。表2-7展示了一个序列标注（词性标注）示例。
序列标注问题可以简单地看成多个独立的文本分类问题，即针对每个词提取特征，然后进
行标签分类，并不考虑输出标签之间的关系。条件随机场（Conditional Random Field，
CRF）模型是一种被广泛应用的序列标注模型，其不但考虑了每个词属于某一标签的概率
（发射概率），还考虑了标签之间的相互关系（转移概率）。

![image.png](attachment:591c3134-a4d5-4d23-af8d-fbd39dbb482b.png)

#### 序列分割

除了序列标注问题，还有很多自然语言处理问题可以被建模为序列分割问题，如分词
问题，就是将字符序列切分成若干连续的子序列；命名实体识别问题，也是在文本序列中
切分出子序列，并为每个子序列赋予一个实体的类别，如人名、地名和机构名等。可以使
用专门的序列分割模型对这些问题进行建模，不过为了简化，往往将它们转换为序列标注
任务统一加以解决。如命名实体识别，序列标注的输出标签可以为一个实体的开始（B
XXX）、中间（I-XXX）或者非实体（O）等，其中B代表开始（Begin）、I代表中间
（Inside），O代表其他（Other），XXX代表实体的类型，如人名（PER）、地名（LOC）
和机构名（ORG）等。分词问题也可以转换为序列标注问题，即为每个字符标注一个标
签，指明该字符是一个词的开始（B）或者中间（I）等。表2-8展示了使用序列标注方法
解决序列分割（分词和命名实体识别）问题示例。其中，对于输入：“我爱北京天安
门。”分词输出结果是：“我爱北京天安门。”命名实体识别输出结果是：“北京天安门
=LOC”。

![image.png](attachment:c9e5f172-aab1-47f5-81a9-5af8871b27cf.png)

#### 图结构生成

图结构生成也是自然语言处理特有的一类结构预测问题，顾名思义，其输入是自然语
言，输出结果是一个以图表示的结构。图中的节点既可以来自原始输入，也可以是新生成
的；边连接了两个节点，并可以赋予相应的类型。2.2.2节介绍的句法分析就是典型的图
结构生成问题，其中，在依存分析中，节点皆为原始输入的词，而边则连接了有句法关系
的两个词，然后在其上标注句法关系类别。此外，还可以对输出的图结构进行一定的约
束，如需要为树结构（一种特殊的图结构，要求每个节点有且只有一个父节点）等。在短
语结构句法分析中，除了原始输入词作为终结节点，还需要新生成词性以及短语类型节点
作为非终结节点，然后，使用边将这些节点相连，并最终形成树结构。不过，树结构也不
是必要的限制，如在2.2.2节介绍的语义依存图分析中，结果就不必是一棵树，而可以是
更灵活的图结构。



###  序列到序列问题

除了文本分类和结构预测问题，还有很多自然语言处理问题可以归为序列到序列
（Sequence-to-Sequence，Seq2seq）问题。机器翻译问题就是典型的代表，其中，输入
为源语言句子，输出为目标语言句子。将其推广到序列到序列问题，输入就是一个由若干
词组成的序列，输出则是一个新的序列，其中，输入和输出的序列不要求等长，同时也不
要求词表一致。

使用传统的机器学习技术解决序列到序列问题是比较困难的，而基于深度学习模型，
可以直接将输入序列表示为一个向量，然后，通过该向量生成输出序列。其中，对输入序
列进行表示的过程又叫作编码，相应的模型则被称为编码器（En-coder）；生成输出序列
的过程又叫作解码，相应的模型则被称为解码器（Decoder）。因此，序列到序列模型也
被称为编码器--解码器（Encoder-Decoder）模型。

除了机器翻译，还有很多自然语言处理问题可以被建模为序列到序列问题，如对话系
统中，用户话语可被视为输入序列，机器的回复则可被视为输出序列，甚至文本分类问题
也可以被建模为序列到序列问题。首先，使用编码器对输入文本进行表示，然后，解码器
只输出一个“词”，即文本所属的类别。结构预测问题也类似，首先，也需要使用编码器
对输入文本进行表示，然后，在处理序列标注问题时，使用解码器生成输出标签序列（需
要保证输出序列与输入序列长度相同）；在处理序列分割问题时，直接输出结果序列；在
处理图结构生成问题时，需要将图表示的结果进行序列化，即通过一定的遍历顺序，将图
中的节点和边转换为一个序列，然后再执行解码操作。不过，由于输入和输出有较强的对
应关系，而序列到序列模型很难保证这种对应关系，所以结构预测问题较少直接使用序列
到序列模型加以解决。但是无论如何，由于序列到序列模型具备强大的建模能力，其已成
为自然语言处理的大一统框架，越来越多的问题都可以尝试使用该模型加以解决。也就是
说，可以将复杂的自然语言处理问题转化为编码、解码两个子问题，然后就可以分别使用
独立的模型建模了。

![image.png](attachment:56ca9156-5fac-4dcf-b40e-f94062ec0c48.png)

## 评价指标

由于自然语言处理任务的多样性以及评价的主观性，因此很难使用单一的评价指标衡
量所有任务的性能，所以针对不同类型的任务，往往采用不同的评价方法。对评价方法的
准确把握，有助于深入理解各项自然语言处理任务。

准确率（Accuracy）是最简单、直观的评价指标，经常被应用于文本分类等问题。其
计算公式为

![image.png](attachment:1da7622c-6251-472f-b1a5-055d4f114513.png)

词性标注等序列标注问题也可以采用准确率进行评价，即：

![image.png](attachment:c5396937-e221-4f9a-b57e-15b1d3eb4a75.png)

但是，并非全部的序列标注问题都可以采用准确率进行评价，如在将分词、命名实体
识别等序列分割问题转化为序列标注问题后，就不应该使用准确率进行评价。以命名实体
识别为例，如果采用按词计算的准确率，则很多非命名实体（相应词对应的类别为O）也
被计入准确率的计算之中。另外，如果错标了部分词，那么命名实体识别结果就是错误
的，但是按照词准确率计算的话，仍然有部分词被认为分类正确了。如表2-10中的例子所
示，按照词（此处为汉字）计算，在8个输入词中，仅仅预测错了1个（三），则准确率为
7/8=0.875，这显然是不合理的。分词等其他序列分割问题的评价也存在类似的问题。

![image.png](attachment:ba00db4c-20a6-4b95-b66c-3be45df83477.png)