# 第一章: 自然语言处理基础篇

## 自然语言处理概述

### 什么是自然语言处理

#### 定义
自然语言处理指的是使用计算机处理人类的语言,Natural Language Processing . 简称NLP

#### 自然语言处理的分类
- 序列标注: 给句子或篇章中的每个词或字一个标签. 如分词,词性标注.
- 文本分类: 给每个句子或篇章一个标签,如情感分析.
- 关系判断: 判断多个词语,句子,篇章之间的关系,如选词填空.
- 语言生成: 产生自然语言的字,词,句子,篇章. 如问答系统,机器翻译.

#### NLP的机器学习
- Word2vec 可以从语料中自主学习得出每个词语的向量表示.
- Seq2Seq 
- BERT (Bidirectional Encoder Representations from Transformers)

#### NLP中的常用技术
1. TF-IDF  
词频-逆文本频率 (Term Frequency-Inverse Document Frequency TF-IDF),用于评估一个词在一定范围的语料中的重要程度.  
词频是指一个词在一定范围的语料中出现的次数. 这个词在某语料中出现的次数越多说明它越重要,但是这个词有可能是"的" "了" 这样的在所有语料中出现次数都很多的词.所以就出现了逆文本频率, 就是这个词在某个语料中出现了,但是在某个语料库中出现得很少,就能说明这个词在这个语料中重要.

2. 词嵌入  
词嵌入(Word Embedding) 就是用向量表示词语. 在文字处理软件中,字符往往用一个数字编码表示, 如ASCII中大写字母'A'用65表示.做自然语言处理认为时,我们需要用计算机能理解的符号表示字或词,但问题是词语的数量很多,而且词语之间是有语义关系的,单纯的用数字编号难以表达这种复杂的语义关系.  
词嵌入就是使用多维向量表示一个词语,这样词语之间的关系可以用向量间的关系来反映.词嵌入需要特定的算法,可在语料库训练得到.

3. 分词  
分词是指把句子划分为词语序列.

4. 循环神经网络  
循环神经网络(Recurrent Neural Network, RNN) 模型是用于处理序列数据的神经网络,它可以处理不定长度的数据. 因为NLP过程中我们常常把句子经过分词变成了一个序列,而实际中的句子长短各异, 所以适合用RNN模型处理.   
RNN模型也可以用于生成不定长或定长数据.

5. Seq2seq  
Seq2seq (Sequence to sequence), 即序列到序列, 是一种输入和输出都是不定长序列的模型,可以用于机器翻译,问答系统.

6. 注意力机制  
注意力机制(Attention Mechanism) 源于人们对人类视觉机制的研究,人类观察事物时,会把注意力分配到关键的地方,而相对忽视其他细节. 在NLP 中可以认为,如果使用注意力机制,模型会给重要的词语分配更高的权重, 或者把句子中某些关系密切的词语关联起来共同考虑.  

7. 预训练  
预训练是一种迁移学习方法. 如BERT 模型就是预训练模型.

8. 多模态学习  
多模态(Multimodal)学习指模型可以用于同时处理相关的不同形式的信息.常见的有视觉信息和文字信息, 如同时处理图片和图片的描述的模型.

#### 机器学习中的常见问题

##### 1. Batch 和 Epoch
Batch指每次更新模型参数时所使用或依据的一批数据.训练模型使用的方法被称为梯度下降(Gradient Desent), 即把一批数据输入模型求出损失,计算参数的导数,然后根据学习率朝梯度下降的方向整体更新参数,这一批数据就是Batch.  
训练模型时常常要考虑Batch Size,即每次使用多少数据更新模型参数. 传统机器学习使用Batch Gradient Desent(BGD) 方法,每次使用全部数据集上的数据计算梯度.  深度学习中常用的是随机梯度下降(Stochastic Gradient Desent, SGD)方法,每次随机选取一部分数据训练模型.  
Epoch 则是指一个训练的轮次, 一般每个轮次都会遍历整个数据集. 每个轮次可能会使用多个Batch进行训练.

##### 2. Batch Size的选择
Batch Size 不能太小,否则会导致有的模型无法收敛,而且选择大的Batch Size可以提高模型训练时的并行性能,前提是系统拥有足够的并行资源.  
Batch Size不是越大越好. 在很多问题上,能得到最佳效果的Batch Size在2到32之间, 但最佳的Batch Size 并不总是固定的,而且大的Batch Size 需要系统资源充足. 如果显存资源不够,但是需要使用较大的Batch Size, 可以使用梯度累积, 即每执行N次模型后更新一次模型参数, 这就相当于实际的Batch Size 是设定的N倍, 但无法提高并行性能.

##### 3. 数据集不平衡问题
很多时候我们我们可能会遇到数据集中的数据分布不均匀的问题.数据不平衡的情况下模型可能会更倾向于数据中次数多的类别.

##### 4. 预训练模型与数据安全





# 第二章: Python 自然语言处理基础
## 常用库
1. NumPy 
2. Matplotlib
3. scikit-learn
4. NLTK
5. spaCy
6. jieba 
7. pkuseg
8. wn

## 处理语料
- 去重 ,Set, 大数据去重可以考虑使用BitMap,或者布隆过滤器(Bloom Filter)
- 停用词,stop words 是指规定的一个语料中频繁使用的词语或不含明确信息的词语, 如中文的"一些", 英文中的"the", "a","an".
- 编辑距离, 衡量两个字符串间差异的一种度量.定义了3种基本操作:  插入一个字符,删除一个字符,替换一个字符. 两个字符串间的编辑距离就是把一个字符串变成另一个字符串所需的最少基本操作的部署.

### 编辑距离

In [1]:
def minDistance(word1: str, word2: str) -> int:
    n = len(word1) # 字符串1的长度
    m = len(word2) # 字符串2的长度
    dp = [ [0] * (m+1) for _ in range(n+1) ]
    for i in range(m+1): dp[0][i] = i 
    for i in range(m+1): dp[i][0] = i
    for i in range(1, n+1):
        for j in range(1, m+1):
            if word1[i-1]  == word2[j-1]:
                dp[i][j] = dp[i-1][j-1]
            else:
                dp[i][j] = min(dp[i][j-1], dp[i-1][j], dp[i-1][j-1])+1
    return dp[-1][-1]

minDistance("Hello","World")

4

### 文本规范化
文本规范化即 Text Normalization, 即按照某种方法对语料进行转换,清洗和标准化.例如去掉语料中多余的空白和停用词, 统一英文语料单词单复数,过去式. 下面是BERT-KPE中的英文文本规范化代码:

In [2]:
import unicodedata

class DEL_ASCII(object):
    ''' 在 `refactor_text_vdom` 中被使用,用于过滤掉字符: b'\xef\xb8\x8f' '''
    def do(self, text):
        orig_tokens = self.whitespace_tokenize(text)
        split_tokens = []
        for token in orig_tokens:
            token = self._run_strip_accents(token)
            split_tokens.extend(self._run_split_on_prunc(token))
        output_tokens = self.whitespace_tokenize(" ".join(split_tokens))
        return output_tokens
    
    def whitespace_tokenize(self, text):
        ''' 清理空白 并按单词切分句子 '''
        text = text.strip() # 去除首尾空格,换行符,分隔符等空格
        if not text: 
            return []
        return text.split()
    
    def _run_strip_accents(self, text):
        ''' 去掉重音符号 '''
        text = unicodedata.normalize("NFD", text)
        output = []
        for char in text:
            cat = unicodedata.category(char) # 获取字符的类别
            if cat == 'Mn': # Mark Nonspacing
                continue
            output.append(char)
        return "".join(output)
    
    def _run_split_on_prunc(self, text):
        ''' 切分标点符号 '''
        chars = list(text)
        i = 0 
        start_new_word = True
        output = []
        while i < len(chars):
            char = chars[i]
            if self._is_punctuation(char): # 如果非数字,字母,空格
                output.append([char])
                start_new_word = True
            else:
                if start_new_word:
                    output.append([])
                start_new_word = False
                output[-1].append(char)
            i += 1
        return ["".join(x) for x in output]
    
    def _is_punctuation(self, char):
        ''' 检查一个字符是否是标点符号 '''
        cp = ord(char)
        # 把所有非字母,非数字,非空格的ASCII 字符看成标点
        if (cp > 33 and cp <= 47) or (cp >= 58 and cp <= 64) or (cp >= 91 and cp <= 96) or (cp >= 123 and cp <= 126) :
            return True
        cat = unicodedata.category(char)
        if cat.startswith('P'):
            return True
        return False
        

In [4]:
del_ascii = DEL_ASCII()
print(del_ascii.do('   Today , I    submitted my rèsumé.   '))

['Today', ',', 'I', 'submitted', 'my', 'resume', '.']


### 分词
英文分词没有什么难度, 但是中文比较困难.常用中文分词方法:    
1. 基于字符串匹配的分词方法
又称为机械分词方法, 首先需要定义一个词表,表中包含当前语料中的全部词语. 然后按照一定的规则扫描待分词的文本, 匹配到表中的词语就把它切分开来.扫描规则可分为3种: 正向最大匹配, 即从开头向结尾扫描; 逆向最大扫描, 即从结尾向开头扫描;最少切分,即尝试每句话切分出最少的词语.  
2. 基于统计的分词方法.
在一大段语料中统计字与字或者词与词的上下文关系,统计字或词共同出现的次数.然后对于要切分的文本,可以按照这个已经统计到的出现次数,选择概率尽可能大的切分方法.


In [5]:
class TextSpliter(object):
    def __init__(self, corpus_path, encoding='utf-8', max_load_word_length=4):
        self.dict = {}
        self.dict2 = {}
        self.max_word_length = 1
        begin_time = time.time()
        
        with open(corpus_path, 'r',encoding=encoding) as f:
            for l in f:
                l.replace('[','')
                l.replace(']','')
                wds = l.strip().split(' ')
                last_wd = ''
                for i in range(1, len(wds)): 
                    try:
                        wd, wtype = wds[i].split('/')
                    except:
                        continue
                    if len(wd) == 0 or len(wd) > max_load_word_length or not wd.isalpha():
                        continue
                    if wd not in self.dict:
                        self.dict[wd] = 0
                        if len(wd) > self.max_word_length:
                            self.max_word_length = len(wd)
                            print(f'max_load_word_length={self.max_word_length} ,word is {wd}')
                    self.dict[wd] += 1
                    if last_wd:
                        if last_wd+':'+wd not in self.dict2:
                            self.dict2[last_wd+':'+wd] = 0
                        self.dict2[last_wd+':'+wd] += 1
                    last_wd = wd
                self.words_cnt = 0
                max_c = 0
                for wd in self.dict:
                    self.words_cnt += self.dict[wd]
                    if self.dict[wd] > max_c:
                        max_c = self.dict[wd]
                self.words2_cnt = sum(self.dict2.values())
                print('load corpus finished!') 
                print(f'{len(self.dict)} words in dict and frequency is : {self.words_cnt} ')
                print(f'{len(self.dict2)} words in dict2 and frequency is : {self.words2_cnt} ')
                print(f'spend { time.time() - begin_time } seconds')

### 词频-逆文本频率
scikit-learn 中提供了计算TF-IDF的类 TfidfVectorizer.
###  One-Hot 编码
使用神经网络模型时,一般需要使用向量表示自然语言中的符号,也就是词或者字,最简单的表示方法是One-Hot编码. One-Hot编码是先遍历语料,找出所有的字或词,例如与10个词,对其进行编号,从1到10,每一个数字代表一个词语,转换成向量则每个词都是10维向量, 每个向量只有1位为1, 其余位为0.

In [8]:
import requests

r = requests.get("https://www.bilibili.com/video/BV1JV4y1A7NZ")
with open('raw-data/BV1JV4y1A7NZ.html','wb') as f:
    f.write(r.content)

In [3]:
import requests

def bv2av(bv: str) -> int:
    data = requests.get(f'https://api.bilibili.com/x/web-interface/view?bvid={bv}').json()
    return data['data']['aid']

bv2av('BV19d4y1Y76N')

391516464

In [23]:
cookie_str = 'buvid3=E98157C4-E8C1-49A7-9B32-C63BCD1E06DB34761infoc; LIVE_BUVID=AUTO6016214362598664; i-wanna-go-back=-1; CURRENT_BLACKGAP=0; blackside_state=0; nostalgia_conf=-1; _uuid=EFD1B439-993B-511C-64109-5E9A36F10C69F89850infoc; buvid_fp_plain=undefined; DedeUserID=95074356; DedeUserID__ckMd5=37cd150f929f226f; b_ut=5; b_nut=100; bsource=search_baidu; rpdid=|(um~k))muk)0J\'uYY))u)ml); buvid4=3A251516-8BE5-6A5D-63C1-660E9BBBC0E840460-022012611-cHGytz2Yu5EW%2FocyFzJD5Q%3D%3D; fingerprint=a6cdee9e65c10fbbbe73805f94c59260; hit-new-style-dyn=0; hit-dyn-v2=1; CURRENT_QUALITY=0; CURRENT_FNVAL=4048; is-2022-channel=1; buvid_fp=a6cdee9e65c10fbbbe73805f94c59260; SESSDATA=d09c509c%2C1687872939%2C3a062%2Ac2; bili_jct=a678f1cea82436c614dec4c039437139; sid=8hld0i7i; PVID=2; bp_video_offset_95074356=745096750678671500; b_lsid=10A86DEE5_18560A525F6; innersign=1'
def get_replis(bv: str, next: int = 0, cookie: str = cookie_str):
    oid = bv2av(bv)
    # https://github.com/SocialSisterYi/bilibili-API-collect/blob/master/comment/list.md#%E8%8E%B7%E5%8F%96%E8%AF%84%E8%AE%BA%E5%8C%BA%E6%98%8E%E7%BB%86_%E7%BF%BB%E9%A1%B5%E5%8A%A0%E8%BD%BD
    url = f"https://api.bilibili.com/x/v2/reply/main?mode=3&next={next}&oid={oid}&type=1"

    payload={}
    headers = {
      'authority': 'api.bilibili.com',
      'accept': 'application/json, text/plain, */*',
      'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8',
      'cache-control': 'no-cache',
      'cookie': cookie,
      'origin': 'https://www.bilibili.com',
      'pragma': 'no-cache',
      'referer': f'https://www.bilibili.com/video/{bv}',
      'sec-ch-ua': '"Not?A_Brand";v="8", "Chromium";v="108", "Google Chrome";v="108"',
      'sec-ch-ua-mobile': '?0',
      'sec-ch-ua-platform': '"macOS"',
      'sec-fetch-dest': 'empty',
      'sec-fetch-mode': 'cors',
      'sec-fetch-site': 'same-site',
      'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
    }

    response = requests.request("GET", url, headers=headers, data=payload)

    return response.json()


In [24]:
import json
import pandas as pd 
bv_id = 'BV1JV4y1A7NZ'

df = pd.DataFrame()
datas = get_replis(bv_id)
data = datas["data"]
cursor = data["cursor"]

for r in data["replies"]:
    rpid = r['rpid'] 
    member = r['member']


# while cursor['is_end'] == False:
#     next = cursor['next']
    


False

In [15]:
datas["data"].keys()

dict_keys(['cursor', 'replies', 'top', 'top_replies', 'up_selection', 'effects', 'assist', 'blacklist', 'vote', 'config', 'upper', 'control', 'note', 'callbacks'])

In [16]:
replies = datas["data"]["top_replies"]
[ r["content"]['message'] for r in replies ]

['大家好我是盗月社的高饱饱，爱好是给沐上和树梢挖坑……啊不，准确地说是帮他俩减肥。\n\n《超级外卖员》第二季，在经历了两个多月的筹备和拍摄，以及二十多个选题因为突发状况被推翻重来、拍摄和上线反复延期之后，今天终于可以向大家说一声：我们回来啦！\n2022的下半年对许多人来说都充满着动荡和不确定性。我们也体会到了什么是“计划永远赶不上变化”，常常是已经做足了所有的前期准备，就在要出发的前一天又接到目的地不能前往的消息。变化成为常态，于是就只能调整心态尽力应对，也因此不可避免地留下了许多遗憾。\n\n第一季我们用食物串联了一个个家庭，“饭盒虽小，却盛满了对彼此的思念。”这一季在策划的时候我们就在思考，我们还能带给大家些什么呢？在贵州为这一单奔波的几天几夜里，我们从足球队教练和小朋友们的身上，好像看到了一点答案。\n《超级外卖员》的slogan是“超级外卖，传递食物和爱。”那么这一次，我们想再加上一个词——“超级外卖，传递食物、爱和希望。”有食物和爱的地方，就一定会有希望在吧！希望能用我们的镜头，去和大家一起寻找。\n\n盗月社还是一个小团队，但无论是每集都要“废掉一个”的沐上、树梢，还是每一个在幕后身兼数职、默默努力的小伙伴，都有一个共同的目标，那就是——一起做出更棒的内容！\n回顾这段时间，在遵守政策、保证安全的前提下，我们盗月社的小伙伴们，一直在一起为实现一些事情努力，没有停止和放弃过。\n也许还有很多不足和遗憾，但可以确认的是，我们的小团队在成长，这就是很棒的事情啦。也非常需要大家对我们的不足提出意见和建议，让我们在彼此陪伴的路上也一起进步吧～\n\n在这里也想再次感谢一下支持我们第2季的小伙伴@广汽丰田 威兰达。这回，终于不用像上一季那样“散尽家财”啦！其实一个需要付出很多时间精力、人力物力的节目，做一期不难，但只凭热爱能够持续做下去真的不容易。很幸运有这样一个品牌认可我们节目想要表达的东西、愿意陪我们去做这样的尝试。也让我们可以不断地去探索拓宽内容的边界。\n\n希望，可以在这个冬天给大家多一点的陪伴。就像今年夏天时那样！']

curl 'https://api.bilibili.com/x/v2/reply/main?csrf=a678f1cea82436c614dec4c039437139&mode=3&next=0&oid=391516464&plat=1&seek_rpid=&type=1' \
  -H 'authority: api.bilibili.com' \
  -H 'accept: application/json, text/plain, */*' \
  -H 'accept-language: zh-CN,zh;q=0.9,en;q=0.8' \
  -H 'cache-control: no-cache' \
  -H $'cookie: buvid3=E98157C4-E8C1-49A7-9B32-C63BCD1E06DB34761infoc; LIVE_BUVID=AUTO6016214362598664; i-wanna-go-back=-1; CURRENT_BLACKGAP=0; blackside_state=0; nostalgia_conf=-1; _uuid=EFD1B439-993B-511C-64109-5E9A36F10C69F89850infoc; buvid_fp_plain=undefined; DedeUserID=95074356; DedeUserID__ckMd5=37cd150f929f226f; b_ut=5; b_nut=100; bsource=search_baidu; rpdid=|(um~k))muk)0J\'uYY))u)ml); buvid4=3A251516-8BE5-6A5D-63C1-660E9BBBC0E840460-022012611-cHGytz2Yu5EW%2FocyFzJD5Q%3D%3D; fingerprint=a6cdee9e65c10fbbbe73805f94c59260; hit-new-style-dyn=0; hit-dyn-v2=1; CURRENT_QUALITY=0; CURRENT_FNVAL=4048; is-2022-channel=1; buvid_fp=a6cdee9e65c10fbbbe73805f94c59260; SESSDATA=d09c509c%2C1687872939%2C3a062%2Ac2; bili_jct=a678f1cea82436c614dec4c039437139; sid=8hld0i7i; PVID=2; bp_video_offset_95074356=745096750678671500; b_lsid=10A86DEE5_18560A525F6; innersign=1' \
  -H 'origin: https://www.bilibili.com' \
  -H 'pragma: no-cache' \
  -H 'referer: https://www.bilibili.com/video/BV19d4y1Y76N/?spm_id_from=333.1007.tianma.1-1-1.click&vd_source=2b27b91f674012c72f3dcabca6830272' \
  -H 'sec-ch-ua: "Not?A_Brand";v="8", "Chromium";v="108", "Google Chrome";v="108"' \
  -H 'sec-ch-ua-mobile: ?0' \
  -H 'sec-ch-ua-platform: "macOS"' \
  -H 'sec-fetch-dest: empty' \
  -H 'sec-fetch-mode: cors' \
  -H 'sec-fetch-site: same-site' \
  -H 'user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36' \
  --compressed