## 机器翻译与数据集
语⾔模型是⾃然语⾔处理的关键，⽽机器翻译是语⾔模型最成功的基准测试。因为机器翻译正是将输⼊序列
转换成输出序列的 序列转换模型（sequence transduction）的核⼼问题。序列转换模型在各类现代⼈⼯智能
应⽤中发挥着⾄关重要的作⽤，因此我们将其做为本章剩余部分和 10节的重点。为此，本节将介绍机器翻译
问题及其后⽂需要使⽤的数据集。

机器翻译（machine translation）指的是将序列从⼀种语⾔⾃动翻译成另⼀种语⾔。事实上，这个研究领域可
以追溯到数字计算机发明后不久的20世纪40年代，特别是在第⼆次世界⼤战中使⽤计算机破解语⾔编码。⼏
⼗年来，在使⽤神经⽹络进⾏端到端学习的兴起之前，统计学⽅法在这⼀领域⼀直占据主导地位 (Brown et
al., 1990, Brown et al., 1988)。因为统计机器翻译（statistical machine translation）涉及了翻译模型和语⾔模
型等组成部分的统计分析，因此基于神经⽹络的⽅法通常被称为神经机器翻译（neuralmachinetranslation），
⽤于将两种翻译模型区分开来。

本书的关注点是神经⽹络机器翻译⽅法，强调的是端到端的学习。与 8.3节中的语料库是单⼀语⾔的语⾔模
型问题存在不同，机器翻译的数据集是由源语⾔和⽬标语⾔的⽂本序列对组成的。因此，我们需要⼀种完全
不同的⽅法来预处理机器翻译数据集，⽽不是复⽤语⾔模型的预处理程序。下⾯，我们看⼀下如何将预处理
后的数据加载到⼩批量中⽤于训练。


In [None]:
import os
import torch
from d2l import torch as d2l

### 下载和预处理数据集
⾸先，下载⼀个由Tatoeba项⽬的双语句⼦对 113 组成的“英－法”数据集，数据集中的每⼀⾏都是制表符分隔
的⽂本序列对，序列对由英⽂⽂本序列和翻译后的法语⽂本序列组成。请注意，每个⽂本序列可以是⼀个句
⼦，也可以是包含多个句⼦的⼀个段落。在这个将英语翻译成法语的机器翻译问题中，英语是源语⾔（source
language），法语是⽬标语⾔（target language）。

In [None]:
# @save
d2l.DATA_HUB['fra-eng'] = (d2l.DATA_URL + 'fra-eng.zip',
                           '94646ad1522d915e7b0f9296181140edcf86a4f5')

# d2l.read_data_nmt()
def read_data_nmt():
    """载入“英语-法语”数据集"""
    data_dir = d2l.download_extract('fra-eng')
    with open(os.path.join(data_dir, 'fra.txt'), 'r',
              encoding='utf-8') as f:
        return f.read()
    
raw_text = read_data_nmt()
print(raw_text[:75])

下载数据集后，原始⽂本数据需要经过⼏个预处理步骤。例如，我们⽤空格代替不间断空格（non-breaking
space），使⽤⼩写字⺟替换⼤写字⺟，并在单词和标点符号之间插⼊空格。

In [None]:
# d2l.preprocess_nmt(text)
def preprocess_nmt(text):
    """预处理“英语-法语”数据集"""
    def no_space(char, prev_char):
        return char in set(',.!?') and prev_char != ' '
    
    # 使用空格替换不间断空格
    # 使用小写字母替换大写字母
    text = text.replace('\u202f', ' ').replace('\xa0', ' ').lower()
    # 在单词和标点符号之间插入空格
    out = [' ' + char if i > 0 and no_space(char, text[i-1]) else char
           for i, char in enumerate(text)]
    
    return ''.join(out)

text = preprocess_nmt(raw_text)
print(text[:80])

### 词元化
与 8.3节中的字符级词元化不同，在机器翻译中，我们更喜欢单词级词元化（最先进的模型可能使⽤更⾼级
的词元化技术）。下⾯的tokenize_nmt函数对前num_examples个⽂本序列对进⾏词元，其中每个词元要么是
⼀个词，要么是⼀个标点符号。此函数返回两个词元列表：source和target：source[i]是源语⾔（这⾥是英
语）第i个⽂本序列的词元列表，target[i]是⽬标语⾔（这⾥是法语）第i个⽂本序列的词元列表。

In [None]:
# d2l.tokenize_nmt(text, num_examples=None)
def tokenize_nmt(text, num_examples=None):
    """词元化“英语-法语”数据数据集"""
    source, target = [], []
    for i, line in enumerate(text.split('\n')):
        if num_examples and i > num_examples:
            break
        parts = line.split('\t')
        if len(parts) == 2:
            source.append(parts[0].split(' '))
            target.append(parts[1].split(' '))
    return source, target

In [None]:
source, target = tokenize_nmt(text)
source[:6], target[:6]

让我们绘制每个⽂本序列所包含的词元数量的直⽅图。在这个简单的“英－法”数据集中，⼤多数⽂本序列
的词元数量少于20个。

In [None]:
# d2l.show_list_len_pair_hist()
def show_list_len_pair_hist(legend, xlabel, ylabel, xlist, ylist):
    """绘制列表长度对的直方图"""
    d2l.set_figsize()
    _, _, patches = d2l.plt.hist(
        [[len(l) for l in xlist], [len(l) for l in ylist]])
    d2l.plt.xlabel(xlabel)
    d2l.plt.ylabel(ylabel)
    for patch in patches[1].patches:
        patch.set_hatch('/')
    d2l.plt.legend(legend)


In [None]:
show_list_len_pair_hist(['source', 'target'], '# tokens per sequence',
                        'count', source, target)