In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# import plotly.express as px
# from plotly import graph_objects as go

import matplotlib
# import plotly
import sklearn
import re

from IPython.display import display
from time import time

print("package版本信息：")
print("numpy:      ", np.__version__)
print("pandas:     ", pd.__version__)
print("matplotlib: ", matplotlib.__version__)
print("sklearn:    ", sklearn.__version__)
print("seaborn:    ", sns.__version__)
# print("plotly:     ", plotly.__version__)

package版本信息：
numpy:       1.21.5
pandas:      1.4.3
matplotlib:  3.5.2
sklearn:     1.1.1
seaborn:     0.11.2


# NLP任务概述

介绍NLP领域的基本概念和基本任务。  

NLP领域常见的基本任务如下：  
+ **分词**（segment）
+ **词性标注**（part-of-speech tagging）
+ **命名实体识别**（NER, Named Entity Recognition）
+ 句法解析（syntax parsing）
+ 指代消解（anaphora resolution）
+ **关键词提取**
+ **文本向量化**
+ **词向量** --- KEY

其中黑体表示这里会涉及的部分。

在上述基础任务之上，有许多的顶层任务可以研究，比如：
+ 情感识别
+ 文本分类
+ 问答系统

以下主要对NLP中的**基础任务**做一些总结和介绍。

# 分词

在文本分析的语境中，数据集通常被称为语料库（corpus），每个由文本表示的样本被称为文档（document）。

所有NLP任务，首先绕不开的两步如下：
1. 分词（tokenization），比如英文可以按照空格划分，划分之后的每个词被称为词例（token）
2. 分词过后，就可以构建所有文档中出现的单词集合——词表（Vocabulary）

对于中英文来说，分词这一步骤的侧重点不太一样。

## 英文分词

对于英文来说，划分成token这一步比较容易，因为英文天然有空格作为划分依据。   

英文分词要面临的主要问题是**单词会有单复数、各种时态**等形式，处理这个问题可以通过**用词干（word stem）表示每个单词来解决**，通常有两种方式：
1. 基于规则的启发法（比如删除常见的后缀），通常将其称为**词干提取（stemming）**
2. 使用由已知单词形式组成的字典（明确的且经过人工验证的系统），通常称为**词形还原（lemmatization）**

一般说来，**词形还原相比于词干提取更加好用**。

此外，英文分词还有停用词、标点符号去除的步骤。


## 中文分词
对于中文分词来说，词的划分是个比较麻烦的问题，一般有如下3类方法：
+ 基于规则的分词
+ 基于统计的分词
+ 混合分词

中文分词的主要工具是jieba分词。

---

# 词性标注与命名实体识别

## 词性标注

词性标注最朴素简单的一个方法是从语料库中**统计每个词所对应的高频词性，将其作为默认词性**，不过显然还有提升空间。

主流的方法是，**将句子的词性标注作为一个序列标注问题**来解决，这样就有两类方法来进行处理：
1. 传统模型，比如隐马尔科夫链，条件随机场的方法；
2. 深度学习的Seq2Seq模型

---

## 命名实体识别

NER的目的是识别出语料中的专有名词，比如人名、地名、组织机构等命名实体，不过这个领域当前并不是一个热门的研究方向。

NER的研究方法也分为如下3类：
+ 基于规则
+ 基于统计，也就是基于人工标注的语料，**将命名实体识别任务作为序列标注问题**来解决——这是当前比较主流的做法
+ 混合方法

---

# 关键词提取

---

# 文本向量化

文本向量化指的是将一段文本转换成向量的表示形式，该文本的主要信息都包含在向量中，主要有如下两个类型的方式：
+ 基于计数的表示：汇总统计文本中出现的单词，形成单词表，作为特征列，基于单词的频数构建特征，比如词袋表示和TF-IDF
+ 基于词向量的表示：也就是将文本中的单词转成词向量，用这一系列的词向量序列表示文本，这里的重点是单词转词向量，见下一节

这一节主要介绍**基于计数的表示法**。

## 词袋表示

词袋(Bag-of-words)是最基本的文本向量化方法，就是舍弃输入文本中的大部分结构，如章节、段落、句子和格式，**只计算语料库中每个单词在每个文本中的出现频次** .  

Python中，对文本进行词袋特征提取常用的两个方式为：
1. 使用`collection.Counter`手动构建词袋；


2. 使用`sklearn.feature_extraction.text.CountVectorizer()`自动构建词袋

`CountVectorizer()`，用于将文本转换成count. 
+ 参数
  + `input='content'`，输入的类型，可以是文本，文件，字符串等
  + `strip_accents=None`, 移除 accent 的方式
  + `lowercase=True`, 是否转成小写
  + `preprocessor=None`, 自定义预处理过程
  + `tokenizer=None`,  自定义分词器
  + `stop_words=None`, 停用词集合
  + `token_pattern='(?u)\b\w\w+\b'`, 分词的正则表达式
  + `ngram_range=(1, 1)`, tuple (min_n, max_n), n-gram的范围
  + `analyzer='word'`, 取值 {‘word’, ‘char’, ‘char_wb’}, 分词的粒度
  + `max_df=1.0`, 超过此阈值的词会被忽略，有两种设置方式
    + 0~1 之间的float
    + int，
  + `min_df=1`, 单词最小出现次数阈值
  + `max_features=None`, int，最大的特征值数量，按照频次排序，取top
  + `vocabulary=None`, 自定义词典
  + `binary=False` 
+ 属性
  + `vocabulary_`：dict
  + `stop_words_`：set
  + `fixed_vocabulary_`: boolean
+ 常用方法
  + `fit()`,`transform()`
  + `get_stop_words()`
  + `get_feature_names()`


In [2]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer, TfidfVectorizer

In [3]:
corpus = [
     'This is the first document.',
     'This document is the second document.',
     'And this is the third one.',
     'Is this the first document?',
]

In [4]:
count_vec = CountVectorizer()
count_vec.fit(corpus)

In [5]:
# 获取 单词字典表
count_vec.vocabulary_

{'this': 8,
 'is': 3,
 'the': 6,
 'first': 2,
 'document': 1,
 'second': 5,
 'and': 0,
 'third': 7,
 'one': 4}

In [7]:
# 获取字典中的词，顺序就是上述字典表定义的顺序
count_vec.get_feature_names_out()
# 旧版本的API
# count_vec.get_feature_names()  

array(['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third',
       'this'], dtype=object)

In [8]:
# 获取停用词
count_vec.stop_words_
# 或者
# count_vec.get_stop_words()

set()

In [10]:
# 直接得到的 X 是个稀疏矩阵
X = count_vec.transform(corpus)
print('X type: ', type(X))

# 需要进行转换
print(X.shape)
X.toarray()

X type:  <class 'scipy.sparse.csr.csr_matrix'>
(4, 9)


array([[0, 1, 1, 1, 0, 0, 1, 0, 1],
       [0, 2, 0, 1, 0, 1, 1, 0, 1],
       [1, 0, 0, 1, 1, 0, 1, 1, 1],
       [0, 1, 1, 1, 0, 0, 1, 0, 1]])

## TF-IDF

---

# 词向量-KEY

词向量（Word-Embedding）是NLP非常重要和基础的一步，几乎后续所有的NLP顶层任务都依赖于词向量构建的质量，所以这个话题相关的研究非常之多，有用的一些参考资料如下：
+ [博士论文《基于神经网络的词和文档语义向量表示方法研究》](https://licstar.net/archives/687)：来斯惟的这篇博士论文是我看过的最为详细的介绍词向量历史和概念的资料，非常值得推荐
+ [秒懂词向量Word2vec的本质](https://zhuanlan.zhihu.com/p/26306795)：这里介绍了不少词向量相关的资料，也很不错
+ [word2vec Parameter Learning Explained](http://arxiv.org/abs/1411.2738)：这篇文章介绍的也很详细，非常严谨
+ [The Illustrated Word2vec](http://jalammar.github.io/illustrated-word2vec/)

在详细介绍词向量之前，需要澄清一个概念，词向量又称词嵌入（Word-Embedding）：
+ 广义上来说，是**基于分布假说（上下文相似的词，其语义也相似）** 的词表示方法统称；
+ 狭义来说，特别指的是基于浅层神经网络构建的分布式词表示，这个狭义的用法比较多，所以下面**无特别说明，使用的是这个狭义的解释**

基于神经网络实现的 Word-Embedding 是一个广泛的概念，实现这一概念的技术有很多种，最为出名的就是Google的Word2Vec，所以常常有人把Word-Embedding和Word2Vec混为一谈，这样不太严谨，实际上，除了Word2Vec，还有其他实现Word-Embedding的方式，比如 GloVe, wordRank, FastText (Facebook)等。


基于分布假说的词表示方法，根据建模的不同，常见的有如下3种：
1. 基于计数（Count-Based）的分布式表示，也被称为基于矩阵的分布式表示，比如 GloVe 词向量
2. 基于聚类的分布表示——这个其实用的不多
3. 基于神经网络的分布表示——这个用的最多



## one-hot

one-hot表示就是汇总所有的文本语料，得到其中出现的单词词典 $V$，然后将每个单词表示成一个长度为 $|V|$ 维的向量，对应词出现的位置为 1 .

这个表示方式产生了大量的稀疏特征和稀疏矩阵，效率很低，不过这种表示法常常是后续词向量的一个出发点。

## Word-Embedding基础模型

### 神经网络语言模型NNLM

### C&W模型

### CBOW模型


### Skip-Gram模型

## GloVe

## Word2Vec

---

## 上下文相关的词向量

上一节中的词向量有一个问题，就是同一个词，在不同的句子中（上下文），可能有不同的含义，比如下面的两个句子中的bank意思是不一样的：
+ They stood on the river **bank** (河岸) to fish.
+ Have you paid that money to the **bank** (银行) yet ?   

为了解决这类问题，发展出了**上下文相关的词向量（Contextualized Word-Embedding）**，这类模型通常是基于Seq2Seq模型在大量的文本语料上训练得到的，比较有名的有：
+ ELMO (Embeddings from Language Model)
+ BERT (Bidirectional Encoder Representations from Transformers)
+ ERNIE (Enhanced Representation through Knowledge Integration)
+ GPT (Generative Pre-Training)

---

# NLP常用工具包

NLP基础任务中，常用的Python工具包有如下3个：
+ NLTK：老牌的NLP处理工具，主要是针对英语，提供了分词，词性标注，NER和语法分析树等功能，在早期的NLP学术研究中用的比较多
  + 纯Python写成，生产环境下速度比较慢
  + 没有现代深度学习模型的支持
+ spaCy：一个用于高级自然语言处理的开源软件库 —— KEY
  + 和NLTK功能基本重合
  + 使用Python和CPython混合写成，生产环境下速度更快，适合工业开发
  + 提供了GPU支持
  + 提供预训练的Pipeline支持
+ gensim：主要针对文本的主题模型生成

## NLTK

可供参考的官方文档：
+ [NLTK](https://www.nltk.org/#)：官网首页
+ [NLTK Python Module Index](https://www.nltk.org/py-modindex.html)：API结构


1. 分词.  
NLTK提供了`nltk.tokenize`这个模块，主要是如下两个分词**函数**（不是类）
  + `nltk.tokenize.sent_tokenize(text, language='english')`  
用于分割句子
  + `nltk.tokenize.word_tokenize(text, language='english', preserve_line=False)`  
用于分割单词


2. 词干提取.  
NLTK提供了`nltk.stem`这个模块.
  + `nltk.stem.porter.PorterStemmer()`类，封装了Porter提取算法
  + `nltk.stem.snowball`模块里提供了非英语类词干的提取方法
  + `nltk.stem.wordnet.WordNetLemmatizer()`类，提供了词形还原的算法

## spaCy

官方文档 [spaCy](https://spacy.io/) —— spaCy的官方文档写的挺好的。

spaCy的使用和NLTK完全不同，NLTK大体上还是面向过程的调用函数方式来完成任务，而spaCy是采用的pipeline方式完成.  

spaCy中，训练好的模型被称为 **trained pipeline**，这些pipilines实际上也是单独的一个python package。

spaCy的官网中，提供了一个有关文本处理术语的简单教程 [spacy-101](https://spacy.io/usage/spacy-101)，可以看一看。

spaCy的使用步骤如下：
1. 载入语言模型.  
每个语言模型里，基于所选的语言，封装了一系列对文件进行处理的Pipeline.
```python
nlp = spacy.load('en_core_web_sm')
```
2. 将需要处理的文本传递给语言模型，生成一个`Doc`对象——它包含了一系列对文本进行处理的步骤，封装成一个Pipeline，其中第一步就是分词
```python
doc = nlp("Text to be process")
```
3. 调用`Doc`对象的各种方法，获取不同的内容.

## gensim