# 第一章: 自然语言处理基础篇

## 自然语言处理概述

### 什么是自然语言处理

#### 定义
自然语言处理指的是使用计算机处理人类的语言,Natural Language Processing . 简称NLP

#### 自然语言处理的分类
- 序列标注: 给句子或篇章中的每个词或字一个标签. 如分词,词性标注.
- 文本分类: 给每个句子或篇章一个标签,如情感分析.
- 关系判断: 判断多个词语,句子,篇章之间的关系,如选词填空.
- 语言生成: 产生自然语言的字,词,句子,篇章. 如问答系统,机器翻译.

#### NLP的机器学习
- Word2vec 可以从语料中自主学习得出每个词语的向量表示.
- Seq2Seq 
- BERT (Bidirectional Encoder Representations from Transformers)

#### NLP中的常用技术
1. TF-IDF  
词频-逆文本频率 (Term Frequency-Inverse Document Frequency TF-IDF),用于评估一个词在一定范围的语料中的重要程度.  
词频是指一个词在一定范围的语料中出现的次数. 这个词在某语料中出现的次数越多说明它越重要,但是这个词有可能是"的" "了" 这样的在所有语料中出现次数都很多的词.所以就出现了逆文本频率, 就是这个词在某个语料中出现了,但是在某个语料库中出现得很少,就能说明这个词在这个语料中重要.

2. 词嵌入  
词嵌入(Word Embedding) 就是用向量表示词语. 在文字处理软件中,字符往往用一个数字编码表示, 如ASCII中大写字母'A'用65表示.做自然语言处理认为时,我们需要用计算机能理解的符号表示字或词,但问题是词语的数量很多,而且词语之间是有语义关系的,单纯的用数字编号难以表达这种复杂的语义关系.  
词嵌入就是使用多维向量表示一个词语,这样词语之间的关系可以用向量间的关系来反映.词嵌入需要特定的算法,可在语料库训练得到.

3. 分词  
分词是指把句子划分为词语序列.

4. 循环神经网络  
循环神经网络(Recurrent Neural Network, RNN) 模型是用于处理序列数据的神经网络,它可以处理不定长度的数据. 因为NLP过程中我们常常把句子经过分词变成了一个序列,而实际中的句子长短各异, 所以适合用RNN模型处理.   
RNN模型也可以用于生成不定长或定长数据.

5. Seq2seq  
Seq2seq (Sequence to sequence), 即序列到序列, 是一种输入和输出都是不定长序列的模型,可以用于机器翻译,问答系统.

6. 注意力机制  
注意力机制(Attention Mechanism) 源于人们对人类视觉机制的研究,人类观察事物时,会把注意力分配到关键的地方,而相对忽视其他细节. 在NLP 中可以认为,如果使用注意力机制,模型会给重要的词语分配更高的权重, 或者把句子中某些关系密切的词语关联起来共同考虑.  

7. 预训练  
预训练是一种迁移学习方法. 如BERT 模型就是预训练模型.

8. 多模态学习  
多模态(Multimodal)学习指模型可以用于同时处理相关的不同形式的信息.常见的有视觉信息和文字信息, 如同时处理图片和图片的描述的模型.

#### 机器学习中的常见问题

##### 1. Batch 和 Epoch
Batch指每次更新模型参数时所使用或依据的一批数据.训练模型使用的方法被称为梯度下降(Gradient Desent), 即把一批数据输入模型求出损失,计算参数的导数,然后根据学习率朝梯度下降的方向整体更新参数,这一批数据就是Batch.  
训练模型时常常要考虑Batch Size,即每次使用多少数据更新模型参数. 传统机器学习使用Batch Gradient Desent(BGD) 方法,每次使用全部数据集上的数据计算梯度.  深度学习中常用的是随机梯度下降(Stochastic Gradient Desent, SGD)方法,每次随机选取一部分数据训练模型.  
Epoch 则是指一个训练的轮次, 一般每个轮次都会遍历整个数据集. 每个轮次可能会使用多个Batch进行训练.

##### 2. Batch Size的选择
Batch Size 不能太小,否则会导致有的模型无法收敛,而且选择大的Batch Size可以提高模型训练时的并行性能,前提是系统拥有足够的并行资源.  
Batch Size不是越大越好. 在很多问题上,能得到最佳效果的Batch Size在2到32之间, 但最佳的Batch Size 并不总是固定的,而且大的Batch Size 需要系统资源充足. 如果显存资源不够,但是需要使用较大的Batch Size, 可以使用梯度累积, 即每执行N次模型后更新一次模型参数, 这就相当于实际的Batch Size 是设定的N倍, 但无法提高并行性能.

##### 3. 数据集不平衡问题
很多时候我们我们可能会遇到数据集中的数据分布不均匀的问题.数据不平衡的情况下模型可能会更倾向于数据中次数多的类别.

##### 4. 预训练模型与数据安全





# 第二章: Python 自然语言处理基础
## 常用库
1. NumPy 
2. Matplotlib
3. scikit-learn
4. NLTK
5. spaCy
6. jieba 
7. pkuseg
8. wn

## 处理语料
- 去重 ,Set, 大数据去重可以考虑使用BitMap,或者布隆过滤器(Bloom Filter)
- 停用词,stop words 是指规定的一个语料中频繁使用的词语或不含明确信息的词语, 如中文的"一些", 英文中的"the", "a","an".
- 编辑距离, 衡量两个字符串间差异的一种度量.定义了3种基本操作:  插入一个字符,删除一个字符,替换一个字符. 两个字符串间的编辑距离就是把一个字符串变成另一个字符串所需的最少基本操作的部署.

### 编辑距离

In [1]:
def minDistance(word1: str, word2: str) -> int:
    n = len(word1) # 字符串1的长度
    m = len(word2) # 字符串2的长度
    dp = [ [0] * (m+1) for _ in range(n+1) ]
    for i in range(m+1): dp[0][i] = i 
    for i in range(m+1): dp[i][0] = i
    for i in range(1, n+1):
        for j in range(1, m+1):
            if word1[i-1]  == word2[j-1]:
                dp[i][j] = dp[i-1][j-1]
            else:
                dp[i][j] = min(dp[i][j-1], dp[i-1][j], dp[i-1][j-1])+1
    return dp[-1][-1]

minDistance("Hello","World")

4

### 文本规范化
文本规范化即 Text Normalization, 即按照某种方法对语料进行转换,清洗和标准化.例如去掉语料中多余的空白和停用词, 统一英文语料单词单复数,过去式. 下面是BERT-KPE中的英文文本规范化代码:

In [2]:
import unicodedata

class DEL_ASCII(object):
    ''' 在 `refactor_text_vdom` 中被使用,用于过滤掉字符: b'\xef\xb8\x8f' '''
    def do(self, text):
        orig_tokens = self.whitespace_tokenize(text)
        split_tokens = []
        for token in orig_tokens:
            token = self._run_strip_accents(token)
            split_tokens.extend(self._run_split_on_prunc(token))
        output_tokens = self.whitespace_tokenize(" ".join(split_tokens))
        return output_tokens
    
    def whitespace_tokenize(self, text):
        ''' 清理空白 并按单词切分句子 '''
        text = text.strip() # 去除首尾空格,换行符,分隔符等空格
        if not text: 
            return []
        return text.split()
    
    def _run_strip_accents(self, text):
        ''' 去掉重音符号 '''
        text = unicodedata.normalize("NFD", text)
        output = []
        for char in text:
            cat = unicodedata.category(char) # 获取字符的类别
            if cat == 'Mn': # Mark Nonspacing
                continue
            output.append(char)
        return "".join(output)
    
    def _run_split_on_prunc(self, text):
        ''' 切分标点符号 '''
        chars = list(text)
        i = 0 
        start_new_word = True
        output = []
        while i < len(chars):
            char = chars[i]
            if self._is_punctuation(char): # 如果非数字,字母,空格
                output.append([char])
                start_new_word = True
            else:
                if start_new_word:
                    output.append([])
                start_new_word = False
                output[-1].append(char)
            i += 1
        return ["".join(x) for x in output]
    
    def _is_punctuation(self, char):
        ''' 检查一个字符是否是标点符号 '''
        cp = ord(char)
        # 把所有非字母,非数字,非空格的ASCII 字符看成标点
        if (cp > 33 and cp <= 47) or (cp >= 58 and cp <= 64) or (cp >= 91 and cp <= 96) or (cp >= 123 and cp <= 126) :
            return True
        cat = unicodedata.category(char)
        if cat.startswith('P'):
            return True
        return False
        

In [4]:
del_ascii = DEL_ASCII()
print(del_ascii.do('   Today , I    submitted my rèsumé.   '))

['Today', ',', 'I', 'submitted', 'my', 'resume', '.']


### 分词
英文分词没有什么难度, 但是中文比较困难.常用中文分词方法:    
1. 基于字符串匹配的分词方法
又称为机械分词方法, 首先需要定义一个词表,表中包含当前语料中的全部词语. 然后按照一定的规则扫描待分词的文本, 匹配到表中的词语就把它切分开来.扫描规则可分为3种: 正向最大匹配, 即从开头向结尾扫描; 逆向最大扫描, 即从结尾向开头扫描;最少切分,即尝试每句话切分出最少的词语.  
2. 基于统计的分词方法.
在一大段语料中统计字与字或者词与词的上下文关系,统计字或词共同出现的次数.然后对于要切分的文本,可以按照这个已经统计到的出现次数,选择概率尽可能大的切分方法.


In [5]:
import time

class TextSpliter(object):
    def __init__(self, corpus_path, encoding='utf-8', max_load_word_length=4):
        self.dict = {}
        self.dict2 = {}
        self.max_word_length = 1
        begin_time = time.time()
        
        with open(corpus_path, 'r',encoding=encoding) as f:
            for l in f:
                l.replace('[','')
                l.replace(']','')
                wds = l.strip().split(' ')
                last_wd = ''
                for i in range(1, len(wds)): 
                    try:
                        wd, wtype = wds[i].split('/')
                    except:
                        continue
                    if len(wd) == 0 or len(wd) > max_load_word_length or not wd.isalpha():
                        continue
                    if wd not in self.dict:
                        self.dict[wd] = 0
                        if len(wd) > self.max_word_length:
                            self.max_word_length = len(wd)
                            print(f'max_load_word_length={self.max_word_length} ,word is {wd}')
                    self.dict[wd] += 1
                    if last_wd:
                        if last_wd+':'+wd not in self.dict2:
                            self.dict2[last_wd+':'+wd] = 0
                        self.dict2[last_wd+':'+wd] += 1
                    last_wd = wd
                self.words_cnt = 0
                max_c = 0
                for wd in self.dict:
                    self.words_cnt += self.dict[wd]
                    if self.dict[wd] > max_c:
                        max_c = self.dict[wd]
                self.words2_cnt = sum(self.dict2.values())
                print('load corpus finished!') 
                print(f'{len(self.dict)} words in dict and frequency is : {self.words_cnt} ')
                print(f'{len(self.dict2)} words in dict2 and frequency is : {self.words2_cnt} ')
                print(f'spend { time.time() - begin_time } seconds')

### 词频-逆文本频率
scikit-learn 中提供了计算TF-IDF的类 TfidfVectorizer.
###  One-Hot 编码
使用神经网络模型时,一般需要使用向量表示自然语言中的符号,也就是词或者字,最简单的表示方法是One-Hot编码. One-Hot编码是先遍历语料,找出所有的字或词,例如与10个词,对其进行编号,从1到10,每一个数字代表一个词语,转换成向量则每个词都是10维向量, 每个向量只有1位为1, 其余位为0.

# 第五章: RNN分类帖子

不怎么好的书,没有给数据集,只能自己去造了, 从b站获取了一些评论以及弹幕.

In [1]:
import pandas as pd

comments = pd.read_csv('bilibili-comment/comments.csv')
danmus = pd.read_csv('bilibili-comment/danmaku.csv')


In [2]:
contents = comments['content']
danmu_msg = danmus['content']

## 5.2 输入与输出
使用字符级RNN模型, 需要考虑如何把原始数据转换为模型可以接受的数据格式. 

### 5.2.1 统计数据集中出现的字符数量
不论是使用One-Hot 表示法还是词嵌入,都需要先知道数据集中一共出现了多少个不同的字符. 假设出现了$N$个不同字符, 然后添加一个对应未知字符的特殊字符$UNK$, 那么使用 One-Hot 表示法,其中的每个字符对应向量的长度为$N+1$ . 用于统计数据集中出现字符数量的代码:

In [3]:
char_set = set() 
for content in contents:
    for ch in content:
        char_set.add(ch)
for content in danmu_msg:
    for ch in content:
        char_set.add(ch)
print(len(char_set))

4098


### 5.2.2 使用One-Hot编码表示

In [5]:
import torch
char_list = list(char_set)
n_chars = len(char_list) + 1 # 加一个UNK

def msg2tensor(msg):
    tensor = torch.zeros(len(msg), 1, n_chars)
    for li, ch in enumerate(msg):
        try:
            idx = char_list.index(ch)
        except ValueError:
            idx = n_chars -1
        tensor[li][0][idx] = 1
    return tensor


这里把前面代码中的char_set 转换为列表, 因为集合数据结构插入快,且元素无重复,适合用于统计个数,但集合无法根据下标访问字符,所有要转换为列表方便按下标访问字符和得到每个字符唯一的下标作为ID的形式.

### 5.2.3 使用词嵌入表示标题数据
需要把标题字符串转换成每个字符对应的ID组成的张量即可.

In [7]:
import torch

char_list = list(char_set)
n_chars = len(char_list) + 1 # 加一个UNK


def msg2tensor(msg):
    tensor = torch.zeros(len(msg), dtype=torch.long)
    for li, ch in enumerate(msg):
        try:
            idx = char_list.index(ch)
        except ValueError:
            idx = n_chars - 1
        tensor[li] = idx
    return tensor

embedding = torch.nn.Embedding(n_chars, 100)

In [8]:
print(contents[1])
print(msg2tensor(contents[1]))

“教育的本质是一棵树摇动另一棵树，一朵云推动另一朵云，一个灵魂唤醒另一个灵魂。”徐教练真正做到了，盗月社也用善意推动了两群孩子的美好碰撞。
tensor([3094, 1253, 1672, 3913, 1386, 1969, 2425, 2033, 2570,  635,  338,  597,
         929, 2033, 2570,  635, 1400, 2033, 2946,  513, 3354,  597,  929, 2033,
        2946,  513, 1400, 2033, 3587, 1449, 2565, 2388,  676,  929, 2033, 3587,
        1449, 2565, 1439, 2617, 2444, 1253, 3598, 1733, 3651, 2790, 2663, 2339,
        1400, 3678, 1109, 1797, 1753, 3980, 2668, 1887, 3354,  597, 2339, 1218,
        1426, 1900, 3397, 3913, 1692,  183, 2753, 3505, 1439])


### 5.2.4 输出

In [9]:
t = torch.tensor([0.3, 0.7])
topn, topi = t.topk(1)
topn, topi

(tensor([0.7000]), tensor([1]))

## 5.3 字符级RNN
### 5.3.1 定义模型

In [11]:
from torch import nn

class RNN(nn.Module):

    def __init__(self, word_count, embedding_size, hidden_size, output_size):
        """
        :param word_count: 词表大小
        :param embedding_size:  词嵌入维度
        :param hidden_size:  隐藏层维度
        :param output_size:  输出维度
        """
        super(RNN, self).__init__()
        self.hidden_size = hidden_size # 隐藏层的大小
        self.embedding = nn.Embedding(word_count, embedding_size) # 词嵌入
        self.i2h = nn.Linear(embedding_size + hidden_size, hidden_size) # 输入到隐藏层
        self.i2o = nn.Linear(embedding_size + hidden_size, output_size) # 输入到输出
        self.softmax = nn.LogSoftmax(dim=1) # Softmax

    def forward(self, input_tensor, hidden):
        word_vector = self.embedding(input_tensor) # 把字ID转换成向量
        combined = torch.cat((word_vector, hidden), 1) # 拼接字向量和隐藏层输出
        hidden = self.i2h(combined) # 得到隐藏层输出
        output = self.i2o(combined) # 得到输出
        output = self.softmax(output) # 得到Softmax 输出
        return output,hidden

    def init_hidden(self):
        return torch.zeros(1, self.hidden_size) # 初始化使用全0的隐藏层输出


### 5.3.2 运行模型

测试模型,看模型输入输出的形式. 首先定义模型, 设置 embedding_size 为200 ,即每个词语用200维向量表示; 隐藏层为128层. 模型的输出结果是对两个类别的判断 ? 正向或者负向

In [12]:
embedding_size = 200
n_hidden = 128
n_categories = 2
rnn = RNN(n_chars, embedding_size,n_hidden, n_categories)

In [13]:
# 尝试把一个标题转换成向量, 再把该向量输入到模型中,并查看模型输出
input_tensor = msg2tensor(contents[2])
input_tensor

tensor([2828, 3913, 1733,  183, 2188,  553,  553, 1335,  777, 2188,  553,  553,
        1335,  777, 2188,  553,  553, 1335,  777])

In [None]:
hidden = rnn.init_hidden()
output,hidden = rnn(input_tensor[0].unsqueeze(dim=0), hidden )
output,hidden, hidden.size()

因为是字符级RNN,每次仅输入一个字符,同时使用unsqueeze 函数把该字符ID 变成维度为1的张量.
模型会返回两个值, 第一个值是模型输出, 第二值是隐藏层输出, 隐藏层输出会随着下一个字符作为隐藏层输入而输入到模型中.
假如一段文本有10个字,第一个字的ID需要和rnn.init_hidden 返回的全零向量一起输入模型, 这时,全零向量作为初始的隐藏层输入, 第一次执行得到一个模型输出和一个隐藏层输出,模型输出是长度为2的张量,  其中的元素分别代表两个类别的分数, 注意这时的模型输出并无意义, 所以中间的模型输出都被舍弃了. 这里有用的是隐藏层输出,第一个字的隐藏层输出会与第二个字的ID一起输入模型,模型可以从中得到前面文字的信息.
最后一个字的隐藏层输出没有意义,而最后一个字的模型输出则是整个模型的输出.


![image.png](attachment:df8c0693-dcc2-4ec9-9cc2-c3cc24609990.png)