<table border="0" width="100%"><p align="left"><img src="https://fic.swufe.edu.cn/img/logo_2.png"  align="left" width=30%></table>

# <center>Chapter 1 NLP简介</center>

**自然语言处理（NLP）涉及计算机科学、语言学和机器学习的知识，它关注计算机与人类之间使用自然语言中的沟通交流。致力于让计算机能够理解和生成人类语言。**

###  本章节基本组织如下:
* 自然语言的性质
* 自然语言处理的流程
* 自然语言处理的主要任务

## 1.自然语言的性质

### 1.1   非结构性
结构性是指信息具有明确的结构关系，例如Excel里的数据、编程中的类与成员。但是网络中大部分的数据都是**非结构化**的，例如：文章、图片、音频、视频。在非结构数据中，**文本**的数量是最多的，他虽然没有图片和视频占用的空间大，但是他的信息量是最大的。为了能够分析和利用这些文本信息，我们就需要利用**NLP**技术，让机器理解这些文本信息，并加以利用。

### 1.2   词义性
在日常生活中，我们可以使用的自然语言词汇量几乎是无穷无尽的，而在不同的语境下同一词汇又可以表现为**不同词义**，例如“苹果”，我们既可以将其理解成一种富含营养的水果，也可以理解成美国的苹果公司。NLP技术通过**大规模语料库**的训练，可以帮助计算机理解语义。

### 1.3   语义性
相对正式的书面语言在经过多次校对审核后仍无法完全避免结构或语法的错误，相对非正式的日常语言往往简洁并且充满情感，包含着丰富的**语义信息**。如何处理不断发展变化的语言，理解语句背后所蕴含的信息是NLP所要处理的问题。

## 2.自然语言处理的主要流程

### 2.1   获取语料
语料，即语言材料，是构成语料库的基本单元。。我们把一个文本集合称为**语料库（Corpus）**。获取语料的方式有两种：一是收集整理已有语料，二是选择获取国内外标准开放数据集，例如搜狗语料、人民日报语料、CTB等。

### 2.2   语料预处理


*   **语料清洗**：将url、时间、符号等噪声去除，留下质量相对较高的非结构化数据。常见的数据清洗方式有：人工去重、删除和标注等，或者根据规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。
*   **分词**：一般句子里的字和词语是连续且有意义。在进行文本挖掘分析时，我们希望文本处理的最小单位粒度是词或者词语，所以这个时候就需要分词来将文本全部进行分词。常见的分词算法有：基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法，每种方法下面对应许多具体的算法。当前中文分词算法的主要难点有歧义识别和新词识别，比如：“羽毛球拍卖完了”，这个可以切分成“羽毛 球拍 卖 完 了”，也可切分成“羽毛球 拍卖 完 了”，如果不依赖上下文其他的句子，恐怕很难知道如何去理解。
*   **词性标注**：就是给每个词或者词语打词类标签，如形容词、动词、名词等。这样做可以让文本在后面的处理中融入更多有用的语言信息。词性标注是一个经典的序列标注问题，不过对于有些中文自然语言处理来说，词性标注不是非必需的。比如，常见的文本分类就不用关心词性问题，但是类似情感分析、知识推理却是需要的。
*   **去除停用词**：停用词一般指对文本特征没有任何贡献作用的字词，比如标点符号、语气、人称等一些词。所以在一般性的文本处理中，分词之后，接下来一步就是去停用词。但是对于中文来说，去停用词操作不是一成不变的，停用词词典是根据具体场景来决定的，比如在情感分析中，语气词、感叹号是应该保留的，因为他们对表示语气程度、感情色彩有一定的贡献和意义。

### 2.3   特征工程
做完语料预处理之后，接下来需要考虑如何把分词之后的字和词语映射成计算机能够计算的向量类型，即词嵌入。常用的模型有两个：
*   **独热向量(one-hot)**：该字节或向量里仅容许其中一位为1，其他位都必须为0。通常我们把每个词表示为一个很长的向量，这个向量的维度是词表大小，其中绝大多数元素为0，只有一个维度的值为1，那么这个维度就代表了当前的词。
*   **word2vec**：它将每个词映射到一个固定长度的向量，这些向量能更好地表达不同词之间的相似性和类比关系。word2vec工具包含两个模型，即跳元模型(skip-gram)和连续词袋模型(CBOW)。跳元模型假设一个单词可用于在文本序列中，生成其周围的单词；而连续词袋模型假设基于上下文词来生成中心单词

## 3.自然语言处理的主要任务
**当文本被向量化表示之后，就需要使用合适的模型去完成对应的任务，本章节将会简单介绍并运行相关NLP任务，目的是帮助大家快速了解NLP基本概念，并且自己可以直接调用简单的代码直观实现当前的一些文本分类或生成任务。**

In [None]:
!pip install transformers # 若未安装transformers库则运行此段代码

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
### 检查transformers是否顺利安装上，并查版本号。###
import transformers 
transformers.__version__ #注意 __version__， 是两个下短线连接在一起

'4.21.3'

<img src="https://gimg2.baidu.com/image_search/src=http%3A%2F%2Fpic3.zhimg.com%2Fv2-47744c004c25b0dd49e266e9b56539f2_r.jpg&refer=http%3A%2F%2Fpic3.zhimg.com&app=2002&size=f9999,10000&q=a80&n=0&g=0n&fmt=auto?sec=1665164582&t=d90b65044d2ede6dd52a1af7bdb47098" width=60%>

<!-- **huggingface是一个大型的开源的NLP社区,预训练模型库Transformers提供了NLP领域大量预训练语言模型结构的模型和调用框架，在我们的后续章节以及今后的NLP相关的学习研究中广泛应用**
 -->
**Huggingface总部位于纽约，是一家专注于自然语言处理、人工智能和分布式系统的创业公司。他们所提供的聊天机器人技术一直颇受欢迎，但更出名的是他们在NLP开源社区上的贡献。Huggingface一直致力于自然语言处理NLP技术的平民化(democratize)，希望每个人都能用上最先进(SOTA, state-of-the-art)的NLP技术，而非困窘于训练资源的匮乏。同时Hugging Face专注于NLP技术，拥有大型的开源社区。尤其是在github上开源的自然语言处理，预训练模型库 Transformers，已被下载超过一百万次，github上超过24000个star。Transformers 提供了NLP领域大量state-of-art的 预训练语言模型结构的模型和调用框架, 在我们的后续章节以及今后的NLP相关的学习研究中广泛应用**

官网连接：https://huggingface.co/

GitHub： https://link.zhihu.com/?target=https%3A//github.com/huggingface/transformers


### 3.1   文本分类

**文本分类指的是将一个文本归类到一个或多类别中的NLP任务。常见的文本分类任务包括新闻分类、主题分析、问答系统和情感分析等**

<img src="https://www.katacoda.com/basiafusinska/courses/nlp-with-python/text-classification/assets/classification.png" width=40%>

In [None]:
from transformers import AutoModelForSequenceClassification,AutoTokenizer,pipeline
import torch  #pytorch是一种主流的深度学习框架，能够利用GPU对tensor进行加速计算

# 调用huggingface的已经预训练好的模型做分类，此处选用了为中文文本分类而预训练的【RoBERTa-Base Models】：
# 模型地址在https://huggingface.co/uer/roberta-base-finetuned-chinanews-chinese
model = AutoModelForSequenceClassification.from_pretrained('uer/roberta-base-finetuned-chinanews-chinese')  

# AutoTokenizer是通用封装，根据载入预训练模型来自适应。
# 使用文本的第一步就是将其拆分为单词。单词称为标记（token），将文本拆分为标记的过程称为标记化(tokenization)，而标记化用到的模型或工具称为tokenizer。
tokenizer = AutoTokenizer.from_pretrained('uer/roberta-base-finetuned-chinanews-chinese') 

# pipeline 称为管道机制，实现了对多个处理步骤的流式化封装和管理。
# 使用transformers自带的pipeline，可进行预训练模型，并且实现分词功能的流水化
text_classification = pipeline('text-classification', model=model, tokenizer=tokenizer)  


text_classification("这本书真的很不错") 


[{'label': 'culture', 'score': 0.8453315496444702}]

In [None]:
text_classification("男篮欧锦赛16进8的淘汰赛已全部结束，最大夺冠热门塞尔维亚爆冷被淘汰出局，实力榜第四的立陶宛也被淘汰。")

[{'label': 'sports', 'score': 0.9998794794082642}]

**可以看到当我们输入一条文本信息后，模型将输出“lable”和“score”的值，label将直观表示文本类别，score则是指此文本属于该类的概率。例如"这本书真的很不错"有84.53%的概率属于culture类，即模型认为该文本最可能与文化方面相关**

In [None]:
# 补充案例：从文件夹里读取所有的文本，并判断每个文本的类别。
# 思考：能否自己一个构建文本分类模型？即从一堆文本中，自动划分文本的类别，并对新文本进行判断。

### 3.2   情感分析


**情感分析也称为意见挖掘（ Opinion Mining），是自然语言处理(NLP)的一个领域，它构建的系统，用于在文本中识别和提取观点。 目前，情感分析是一个很有兴趣的话题，因为它有许多实际应用。 由于互联网上公开可用的信息不断增长，在评论网站，论坛，博客和社交媒体中，可以获得大量表达意见的文本。在情感分析系统的帮助下，这种非结构化信息可以自动转换为，结构化数据，关于产品，服务，品牌，政治或人们可以表达意见的其他主题。这些数据对于商业应用非常有用，例如营销分析，公共关系，产品评论，网络发起人评分，产品反馈和客户服务** 。

<img src="https://p9.itc.cn/q_70/images03/20210708/c4ff009de679457c9485023f9296d55e.png" width=50%>

**
美国国家工程院外籍院士、英国皇家工程院外籍院士沈向洋为粤港澳大湾区数字经济研究院（International Digital Economy Academy, 简称“IDEA”）的创院理事长。2021年IDEA认知计算与自然语言研究中心（简称“IDEA CCNL”）启动 “封神榜”大模型开源计划 （ https://github.com/IDEA-CCNL/Fengshenbang-LM ）
**。

In [None]:
from transformers import BertTokenizer,BertTokenizerFast,AutoModel,BertForSequenceClassification
import torch

tokenizer = BertTokenizer.from_pretrained('IDEA-CCNL/Erlangshen-Roberta-110M-Sentiment')
model = BertForSequenceClassification.from_pretrained('IDEA-CCNL/Erlangshen-Roberta-110M-Sentiment')

text = '今天心情不好'

output = model(torch.tensor([tokenizer.encode(text)]))
emotional_score = torch.nn.functional.softmax(output.logits,dim=-1)   #softmax能将输入的数值序列映射为区间(0,1)的值，而这些值的累计和为1。我们可以将它理解成概率，即可以选取概率最大（也就是值对应最大的）的类作为我们的分类结果

作者：忆臻
链接：https://www.zhihu.com/question/23765351/answer/240869755
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。
print('消极情感:',emotional_score[0][0].item())
print('积极情感:',emotional_score[0][1].item())

消极情感: 0.9550744295120239
积极情感: 0.044925589114427567


### 3.3   问答

**问答系统(Question Answering System, QA)是信息检索系统的一种高级形式，它能用准确、简洁的自然语言回答用户提出的问题，比较熟知的小爱同学语音助手便是一种问答系统。** 



<img src="https://blog.paperspace.com/content/images/2021/04/nlp-qa.jpeg" width=40%>

In [None]:
from transformers import AutoModelForQuestionAnswering,AutoTokenizer,pipeline   # 提取式问答系统
model = AutoModelForQuestionAnswering.from_pretrained('uer/roberta-base-chinese-extractive-qa')
tokenizer = AutoTokenizer.from_pretrained('uer/roberta-base-chinese-extractive-qa')
QA = pipeline('question-answering', model=model, tokenizer=tokenizer)
QA_input = {'question': "著名诗歌《假如生活欺骗了你》的作者是",'context': "普希金从那里学习人民的语言，吸取了许多有益的养料，这一切对普希金后来的创作产生了很大的影响。这两年里，普希金创作了不少优秀的作品，如《囚徒》、《致大海》、《致凯恩》和《假如生活欺骗了你》等几十首抒情诗，叙事诗《努林伯爵》，历史剧《鲍里斯·戈都诺夫》，以及《叶甫盖尼·奥涅金》前六章。"}
QA(QA_input)    # 算法通过分析指定文本内容，提取关键信息，从而可以回答相关问题

{'score': 0.9766427278518677, 'start': 0, 'end': 3, 'answer': '普希金'}

### 3.4   命名实体识别 
**命名实体识别（Named Entity Recognition，NER）是指识别中文文本中实体的边界和类别。命名实体识别是文本处理中的基础技术，广泛应用在自然语言处理、推荐系统、知识图谱等领域。**



<img src="https://gimg2.baidu.com/image_search/src=http%3A%2F%2Fpic3.zhimg.com%2Fv2-0cf2de2609e3dbd93af01898a451652a_r.jpg&refer=http%3A%2F%2Fpic3.zhimg.com&app=2002&size=f9999,10000&q=a80&n=0&g=0n&fmt=auto?sec=1665163787&t=46ec69a6d669cba72a130bf73c58eabc" width=50%>

In [None]:
from transformers import  AutoModelForTokenClassification,AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/bert-base-multilingual-cased-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "我叫李华，是西南财经大学的学生."
ner_results = nlp(example)
print(ner_results)     #人名识别：PER，即'李华'  地名识别：ORG，即'西南财经大学'

[{'entity': 'B-PER', 'score': 0.99986446, 'index': 3, 'word': '李', 'start': 2, 'end': 3}, {'entity': 'I-PER', 'score': 0.99984217, 'index': 4, 'word': '华', 'start': 3, 'end': 4}, {'entity': 'B-ORG', 'score': 0.9998586, 'index': 7, 'word': '西', 'start': 6, 'end': 7}, {'entity': 'I-ORG', 'score': 0.99985015, 'index': 8, 'word': '南', 'start': 7, 'end': 8}, {'entity': 'I-ORG', 'score': 0.9998448, 'index': 9, 'word': '财', 'start': 8, 'end': 9}, {'entity': 'I-ORG', 'score': 0.9998877, 'index': 10, 'word': '经', 'start': 9, 'end': 10}, {'entity': 'I-ORG', 'score': 0.99989176, 'index': 11, 'word': '大', 'start': 10, 'end': 11}, {'entity': 'I-ORG', 'score': 0.99989295, 'index': 12, 'word': '学', 'start': 11, 'end': 12}]


### 3.5   文本摘要
**所谓摘要，就是对给定的单个或者多个文档进行梗概，即在保证能够反映原文档的重要内容的情况下，尽可能地保持简明扼要。质量良好的文摘可以有效缩短检索的时间，减少检索结果中的冗余信息，提高用户体验。随着信息爆炸时代的到来，自动文摘逐渐成为自然语言处理领域的一项重要的研究课题。**

<img src="http://donggeitnote.com/wp-content/uploads/2020/07/1.png" width=50%>

In [None]:
#!pip install sentencepiece #若未安装sentencepiece则运行此段代码

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import re
from transformers import AutoModelForSeq2SeqLM,AutoTokenizer

WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))  #文本预处理

article_text = """Videos that say approved vaccines are dangerous and cause autism, cancer or infertility are among those that will be taken down, the company said.  The policy includes the termination of accounts of anti-vaccine influencers.  Tech giants have been criticised for not doing more to counter false health information on their sites.  In July, US President Joe Biden said social media platforms were largely responsible for people's scepticism in getting vaccinated by spreading misinformation, and appealed for them to address the issue.  YouTube, which is owned by Google, said 130,000 videos were removed from its platform since last year, when it implemented a ban on content spreading misinformation about Covid vaccines.  In a blog post, the company said it had seen false claims about Covid jabs "spill over into misinformation about vaccines in general". The new policy covers long-approved vaccines, such as those against measles or hepatitis B.  "We're expanding our medical misinformation policies on YouTube with new guidelines on currently administered vaccines that are approved and confirmed to be safe and effective by local health authorities and the WHO," the post said, referring to the World Health Organization."""

model_name = "csebuetnlp/mT5_multilingual_XLSum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

input_ids = tokenizer(
    [WHITESPACE_HANDLER(article_text)],  
    return_tensors="pt",
    padding="max_length",
    truncation=True,
    max_length=512
)["input_ids"]

output_ids = model.generate(
    input_ids=input_ids,
    max_length=84,
    no_repeat_ngram_size=2,
    num_beams=4
)[0]

summary = tokenizer.decode(
    output_ids,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
)

print(f"正文: {article_text}")
print(f"摘要: {summary}")

  "The sentencepiece tokenizer that you are converting to a fast tokenizer uses the byte fallback option"


Downloading pytorch_model.bin:   0%|          | 0.00/2.17G [00:00<?, ?B/s]

正文: Videos that say approved vaccines are dangerous and cause autism, cancer or infertility are among those that will be taken down, the company said.  The policy includes the termination of accounts of anti-vaccine influencers.  Tech giants have been criticised for not doing more to counter false health information on their sites.  In July, US President Joe Biden said social media platforms were largely responsible for people's scepticism in getting vaccinated by spreading misinformation, and appealed for them to address the issue.  YouTube, which is owned by Google, said 130,000 videos were removed from its platform since last year, when it implemented a ban on content spreading misinformation about Covid vaccines.  In a blog post, the company said it had seen false claims about Covid jabs "spill over into misinformation about vaccines in general". The new policy covers long-approved vaccines, such as those against measles or hepatitis B.  "We're expanding our medical misinformation 

### 3.6   文本生成
**文本生成指结合任务相关的背景知识、学习语言的不同风格表达。生成自然语言表述。例如，具有千亿级参数的生成式语言模型GPT3,可以生成以假乱真的新闻，完成写歌，写诗，编程等等复杂工作。**

<img src="https://img1.daumcdn.net/thumb/R1280x0/?fname=http://t1.daumcdn.net/brunch/service/user/2rc/image/B7riBJ8eYzNZkqVpG18i1cjg-_k.png" width=40%>


In [None]:
from transformers import GPT2LMHeadModel,TextGenerationPipeline,BertTokenizer
tokenizer = BertTokenizer.from_pretrained("uer/gpt2-chinese-poem")
model = GPT2LMHeadModel.from_pretrained("uer/gpt2-chinese-poem")    #除了加载云平台的预训练模型方法外，您也可以下载模型到本地目录文件夹下，模型地址为https://huggingface.co/uer/roberta-base-finetuned-chinanews-chinese
text_generator = TextGenerationPipeline(model, tokenizer)   
text_generator("[CLS]炫 迈 无 糖 口 香 糖 ，", max_length=49, do_sample=True)

Downloading vocab.txt:   0%|          | 0.00/113k [00:00<?, ?B/s]

Downloading special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Downloading tokenizer_config.json:   0%|          | 0.00/271 [00:00<?, ?B/s]

Downloading config.json:   0%|          | 0.00/577 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/406M [00:00<?, ?B/s]

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': '[CLS]炫 迈 无 糖 口 香 糖 ， 携 归 聊 且 醉 村 场 。 肚 皮 烂 嚼 三 秋 露 ， 背 负 斜 阳 坐 夕 阳 。 肴 待 客 应 知 味 ， 渴 不 因 人 亦 自 凉 。'}]

**除了以上介绍并举例的任务外，还有机器翻译、自然语言推断等任务。此外，跨领域的语音识别，文本-图像，文本-金融，也具有广阔的研究前景，在后面的章节我们也会有所涉及。**