# 自然语言(NLP)概述


## 什么是自然语言 

- 人工智能领域的一个重要分支

- 它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法


## 研究领域

### NLP [Natural Language Processing]

![image-3.png](attachment:image-3.png)

### NLU [Natural Language Understanding]

![image-2.png](attachment:image-2.png)

### NLG [Natural Language Generation]

![image.png](attachment:image.png)

- 相关阅读

> https://blog.marketmuse.com/whats-the-difference-between-nlp-nlu-and-nlg/

> https://www.jianshu.com/p/ef9bcd6fe481


## NLP自然四大基本任务

### 序列标注

- 分词、词性标注

### 分类任务

- 文本分类、情感分析

### 句子关系

- 问答系统、对话系统

### 生成任务

- 机器翻译、文章摘要


# 机器阅读理解

## 阅读理解是什么

- 通过阅读从文本中抽取信息并理解意义的过程

## 机器阅读理解【Machine Reading Comprehension】

### 基本定义

- 通过交互从书面文字中提取与构造文章语义的过程

- 是一种利用算法使计算机理解文章语义并回答相关问题的技术

- QA问题的一个子集，含有contexts

> 个人理解：感觉这个就像使我们中学时候做的阅读理解题目，给一篇文章(针对机器可能是一些短文本或者对话等)，之后有一些问答题目(问答题目也可以是多种形式的，选择题，区间回答、自由回答等多种形式，和MRC很类似)，基于文章做回答。

### 典型应用场景

- 搜索引擎

- 机器问答

- 智能客服


### MRC四大任务类型

- 完形填空

原文中除去若干关键词，需要模型填入正确的单词或短语

- 多项选择

模型需要从给定的若干选项中选出正确答案

- 答案抽取

回答限定是文章的一个子句，需要模型在文章中标注正确答案的起始和终止位置

- 自由回答

限定模型生成答案的形式，允许模型自由生产数据


### 各类任务的数据集

#### 完形填空

- CNN&Daily Mail

- CBT

#### 多项选择

- MC Test

- RACE

#### 答案抽取

- SQuAD

- NewsQA


#### 自由回答

- MS MARCO

- DuReader

##### DuReader数据集

a Chinese Machine Reading Comprehension Dataset from Real-world Applications


- http://ai.baidu.com/broad/download?dataset=dureader

- https://aistudio.baidu.com/aistudio/competition/detail/28

- https://arxiv.org/abs/1711.05073 


##### SQuAD数据集

- 1.0：10w可回答问题 区间式回答


- 2.0：10w可回答问题 +5w无答案问题


- https://rajpurkar.github.io/SQuAD-explorer/


###  机器阅读理解相关方法

- 特征+传统机器学习

- BERT以前：各种神奇的QA架构

> 有哪些？

- BERT以后：预训练+微调+trick

> 具体指什么？


### 相关阅读材料

- MRC简介

https://www.jiqizhixin.com/articles/2020-04-30-3


## 机器阅读理解架构

![image.png](attachment:image.png)

### Embedding

#### Bow

- ont-hot 表示法

- TF 表示法

- TF-IDF 表示法

#### Word2Vec

- Doc2Vec

#### Glove

#### Elmo

#### BERT

### Feature Extraction

#### CNN

#### RNN

#### Transformer

### Context-Query Interaction

#### 注意力机制

- 本质是一系列的权重分配


### Answer Prediction

- 完形填空【Word predictor】

- 多项选择【Option predictor】

- 答案抽取【Span extractor】

- 自由回答【Answer generator】


## 评测指标

### Accuracy

- 一共m个问题答对了n个

- 公式表示

$$ Accuracy = \frac{n}{m} $$

### F1

#### 定义

- 为了能够评价不同算法的优劣，在Precision和Recall的基础上提出了F1值的概念，来对Precision和Recall进行整体评价。

- F1的定义如下： F1值 = 正确率 * 召回率 * 2 / (正确率 + 召回率)

####  公式

![image-2.png](attachment:image-2.png)

$$ Precision = \frac{TP}{TP + FP} $$

$$ Recall = \frac{TP}{TP + FN} $$

$$ F1 = \frac{2 * P * R}{P + R} $$

### Rouge-L

#### 定义

- Rouge(Recall-Oriented Understudy for Gisting Evaluation)，是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要（通常是人工生成的）进行比较计算，得出相应的分值，以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。

- L即是LCS(longest common subsequence，最长公共子序列)的首字母。

#### 公式

![image-5.png](attachment:image-5.png)

#### 相关博文

- https://blog.csdn.net/qq_25222361/article/details/78694617

### BLEU

####  定义

- BLEU 的全称是 Bilingual evaluation understudy，BLEU 的分数取值范围是 0～1，分数越接近1，说明翻译的质量越高。BLEU 主要是基于精确率(Precision)的

#### 公式

![image-6.png](attachment:image-6.png)

![image-7.png](attachment:image-7.png)

![image-8.png](attachment:image-8.png)

#### 参考博文

- https://blog.csdn.net/g11d111/article/details/100103208

#### 论文来源

- https://www.aclweb.org/anthology/P02-1040.pdf

# NLP任务流程

![image.png](attachment:image.png)

## 文本获取

- 整理好的数据（比赛、开源）

- 人工标注（时间成本、人力成本、标注量级）

- 用户标注（行为数据、调查问卷）

- 互联网收集后清洗（其他网站）

### 文本预处理

#### 基本词处理流程

- 去除冗余字符标记（正则表达式）

- 分词（jieba）

- 单词处理（英文：大写->小写，单词还原，同义词扩展）

- 去除停用词

#### 特殊词【保护词、同义词与停止词】处理流程

- 保护词应用于分词模块

- 同义词用于分词后的语料扩展

- 停止词用于去除干扰信息，提取主要信息

# 论文阅读

- Shanshan Liu, Xin Zhang, Sheng Zhang, et al. Neural Machine Reading Comprehension: Methods and Trends

- https://arxiv.org/pdf/1907.01118.pdf