# 1. 文本预处理

- 老师：文本预处理核心：怎么把数据变成能训练的东西

In [1]:
import collections
import re
# d2l是李沐写的，用于加载本项目的包，可以从项目官方github下载
from d2l import torch as d2l

① 将数据集读取到由文本行组成的列表中。

In [2]:
d2l.DATA_HUB['time_machine'] = (d2l.DATA_URL + 'timemachine.txt',
                               '090b5e7e70c295757f55df93cb0a180b9691891a')  

def read_time_machine():
    """Load the time machine dataset into a list of text lines. """
    with open(d2l.download('time_machine'), 'r') as f:
        lines = f.readlines()
        '''
        # 把不是大写字母、小写字母的东西，全部变成空格
        1，stripe可以去掉首尾空格
        2，lower是吧所有英文字符转化为小写
        '''
    return [re.sub('[^A-Za-z]+',' ',line).strip().lower() for line in lines]   

lines = read_time_machine()
print(lines[0])
print(lines[10])

the time machine by h g wells
twinkled and his usually pale face was flushed and animated the


② 每个文本序列又被拆分成一个标记列表。

In [5]:
# 把多行列表的一行切割为词元：词元可以是字符，也可以是词语；
def tokenize(lines, token='word'):
    if token == 'word':
        '''
        # 这里用了python列表生成式
        1，每一行切割后是一个列表；所有行组合在一起（用中括号包裹就是生成列表），得到一个二维列表
        '''
        return [line.split() for line in lines]
    elif token == 'char':
        return [list(line) for line in lines]
    else:
        print('错位：未知令牌类型：' + token)
        
tokens = tokenize(lines)
# 打印前10行切割后的效果
for i in range(11):
    print(tokens[i]) # 为空的表示空行

['the', 'time', 'machine', 'by', 'h', 'g', 'wells']
[]
[]
[]
[]
['i']
[]
[]
['the', 'time', 'traveller', 'for', 'so', 'it', 'will', 'be', 'convenient', 'to', 'speak', 'of', 'him']
['was', 'expounding', 'a', 'recondite', 'matter', 'to', 'us', 'his', 'grey', 'eyes', 'shone', 'and']
['twinkled', 'and', 'his', 'usually', 'pale', 'face', 'was', 'flushed', 'and', 'animated', 'the']


- 老师：可以看打印的结果，第一行是title
    - 网友：空的是段落之间的空行

③ 构建一个字典，通常也叫做词表（vocabulary），用来你将字符串标记映射到从0开始的数字索引中。

- 老师：需要把每个token映射到数字

In [7]:
class Vocab:
    """文本词表"""
    '''
    # 参数讲解
    1，tokens=None：允许不输入Tokens
    2，min_freq=0：词频太低的话，当做不认识就好
    3，reserved_tokens：告诉句子开始或结束的token
    '''
    def __init__(self, tokens=None,min_freq=0,reserved_tokens=None):
        '''
        # 没有传入参数的话就给个空列表，保证函数不报错
        1，网友问：直接参数里写[]不好吗...
        - 网友答：参数里写 [] 是不规范的
        '''
        if tokens is None:
            tokens = []
        if reserved_tokens is None:
            reserved_tokens = []
        counter = count_corpus(tokens) # 遍历得到每一个独一无二token出现的次数
        # token计数后，按照词频降序排列，这个也被保存下来以备查询使用
        self.token_freqs = sorted(counter.items(),key=lambda x:x[1],reverse=True)
        # unknown token的下标记为0；unknown token和reserved tokens一起放到uniq_tokens中
        self.unk, uniq_tokens = 0, ['<unk>'] + reserved_tokens 
        # 把常规token也加入uniquetokens中
        uniq_tokens += [token for token, freq in self.token_freqs
                       if freq >= min_freq and token not in uniq_tokens]
        # 这里处理token和indexoftoken的互相翻译
        self.idx_to_token, self.token_to_idx = [], dict()
        for token in uniq_tokens:
            self.idx_to_token.append(token)
            self.token_to_idx[token] = len(self.idx_to_token) - 1
            
    # vocab类实例化对象的长度，就是uniquetokens的长度
    def __len__(self):
        return len(self.idx_to_token)
    
    # 给一个或一组token，把它们的index返回
    def __getitem__(self, tokens):
        if not isinstance(tokens, (list, tuple)):
            return self.token_to_idx.get(tokens, self.unk)
        return [self.__getitem__(token) for token in tokens]
    
    # 给index，返回token；和__getitem__互为反函数
    def to_tokens(self, indices):
        if not isinstance(indices, (list, tuple)):
            return self.idx_to_token[indices]
        return [self.idx_to_token[index] for index in indices]
    
def count_corpus(tokens):
    """统计标记的频率"""
    if len(tokens) == 0 or isinstance(tokens[0], list):
        tokens = [token for line in tokens for token in line]
    # Counter作用：给一堆token，看每个独一无二的token出现的次数
    return collections.Counter(tokens) 

④ 构建词汇表

In [9]:
# tokens会被Vocab类的init函数接收
vocab = Vocab(tokens)
# 打印最经常出现的10个token：注意这token_to_idx.items是字典，所以要包裹一层list变为列表后展示；字典的每一个item是元组，参考http://t.csdn.cn/63Ad5
print(list(vocab.token_to_idx.items())[:10])

[('<unk>', 0), ('the', 1), ('i', 2), ('and', 3), ('of', 4), ('a', 5), ('to', 6), ('was', 7), ('in', 8), ('that', 9)]


- 网友：python3.6以后字典有顺序了，所以我们可以看到item是按照出现次数的顺序打印的

④ 将每一行文本转换成一个数字索引列表。

In [13]:
#打印第0行和第10行：这里不是range，而是列表，所以只取0和10
for i in [0,10]:
    print('current i:',i)
    print('word:', tokens[i])
    print('indices:',vocab[tokens[i]])

current i: 0
word: ['the', 'time', 'machine', 'by', 'h', 'g', 'wells']
indices: [1, 19, 50, 40, 2183, 2184, 400]
current i: 10
word: ['twinkled', 'and', 'his', 'usually', 'pale', 'face', 'was', 'flushed', 'and', 'animated', 'the']
indices: [2186, 3, 25, 1044, 362, 113, 7, 1421, 3, 1045, 1]


⑤ 将所有内容打包到load_corpus_time_machine函数中。

In [14]:
def load_corpus_time_machine(max_tokens=-1):
    """返回时光机器数据集的标记索引列表和词汇表"""
    lines = read_time_machine()
    tokens = tokenize(lines, 'char')
    vocab = Vocab(tokens)
    '''
    # 把整个文本，从token格式（字符），转化为index的形式
    1，这里的一行可以展开为如下：
    for line in tokens：（换行）
    for token in line：（换行）
    vorpus.append(vocab[token])
    '''
    corpus = [vocab[token] for line in tokens for token in line]  
    if max_tokens > 0:
        corpus = corpus[:max_tokens]
    return corpus, vocab

corpus, vocab = load_corpus_time_machine()
len(corpus), len(vocab)

(170580, 28)

- 老师：可以看到整个文本被转化为index后得到corpus，总共有170580个字符
- 老师：vocab包含了“char和index的互相转换”；vocab对象能得到长度是因为Vocab类里重写了`__len__`
- 老师：文本预处理，就是把文本转为“int形向量，时序序列”