In [1]:
import sys
sys.executable

'D:\\Program Files\\Python\\Python36\\python.exe'

In [2]:
# 随机种子
seed = 2020

In [3]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader
import pandas as pd
from torch.utils.tensorboard import SummaryWriter
import time
import math
import utils
import random
from tqdm import tqdm
import logging
import numpy as np
import tqdm
from nltk.translate.bleu_score import sentence_bleu, corpus_bleu

logging.basicConfig(
    format="%(asctime)s - %(levelname)s - %(name)s - %(message)s",
    datefmt="%m/%d/%Y %H:%M:%S",
    level=logging.INFO,
)
logger = logging.getLogger(__name__)


In [4]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(device)

cuda


# 一、数据预处理

本次实验共有4类数据集，分为train/dev/test1/test2, 其中test2只有英文原文. 每一英文原文只有一句中文参考。
训练集train共有一千万条数据，考虑到机器性能及训练时间问题，我们随机选取500000条数据作为训练集。

In [6]:
src_path = "./nmt_dataset4389/train/train.en"
trg_path = "./nmt_dataset4389/train/train.zh"
np.random.seed(42)

with open(src_path, "r", encoding="utf-8") as f:
    src_line = []
    for line in tqdm.tqdm(f):
        src_line.append(line.replace("\n", ""))


with open(trg_path, "r", encoding="utf-8") as f:
    trg_line = []
    for line in tqdm.tqdm(f):
        trg_line.append(line.replace("\n", ""))

res = []
for i in range(len(src_line)):
    res.append([src_line[i],trg_line[i]])

np.random.shuffle(res)

name = ["en","zh"]
train=pd.DataFrame(columns=name,data=res)

train.to_csv('./nmt_dataset4389/train/train.csv',index=False)



10000000it [00:10, 948848.85it/s]
10000000it [00:13, 747610.95it/s]


## 1.1正则化

In [7]:
# 正则化，主要是将部分标点符号统一处理
import re
def normalizeString(s): 
    s = str(s)
    s = s.replace('，', ',')
    s = s.replace('？', '?')
    s = s.replace('！', '!')
    s = s.replace('：', ':')

    return s

## 1.2读取数据

### 1.2.1训练集

In [8]:
train_shuffle = pd.read_csv("./nmt_dataset4389/train/train.csv")[:500000]
en_data = []
ch_data = []
for i in range(len(train_shuffle)):
    en_data.append(normalizeString(train_shuffle["en"][i]))
    ch_data.append(normalizeString(train_shuffle["zh"][i]))
print('英文数据:\n', en_data[:10])
print('\n中文数据:\n', ch_data[:10])

英文数据:
 ['But I have very set ideas. ', "Glad your accounting degree hasn't gone to waste.", "They say it's because medicine attracts perfectionists.", 'Schmidt! Schmidt, I need you to help me ', "Despite it's vast size", 'A separate disease, acute oak decline, is killing oaks, while chestnut trees have been felled across the country because of infections spread by moths.', 'For now, even atms here are rare, as are places that accept credit cards.', 'I want to see you occasionally doing - great job. Very positive response.', 'Look, he was drunk. He apologized.', 'Whoa, Freddie, ']

中文数据:
 ['我有我的想法。 ', '你的会计学位没浪费还真让人高兴。', '他们说这是因为医学吸引完美主义者。', '施密特!施密特,你得帮帮我 ', '不管有多大', '另一种疾病急性栎树衰退病正在杀死大量的栎树,同时由于此病的传染性能借助蛾子传播,栗树也在全国范围内被砍伐。', '目前,缅甸就连自动柜员机都很少,更不用说受理信用卡的地点。', '我想看到你偶尔也能做做- 干得好。非常高的评价。', '你看,他喝醉了,他道歉了。', '喔,弗雷迪, ']


In [9]:
# 按字符级切割，并添加<eos>
en_token_list = [[char for char in line]+["<eos>"] for line in en_data]
ch_token_list = [[char for char in line]+["<eos>"] for line in ch_data]
print('英文数据:\n', en_token_list[:2])
print('\n中文数据:\n', ch_token_list[:2])

英文数据:
 [['B', 'u', 't', ' ', 'I', ' ', 'h', 'a', 'v', 'e', ' ', 'v', 'e', 'r', 'y', ' ', 's', 'e', 't', ' ', 'i', 'd', 'e', 'a', 's', '.', ' ', '<eos>'], ['G', 'l', 'a', 'd', ' ', 'y', 'o', 'u', 'r', ' ', 'a', 'c', 'c', 'o', 'u', 'n', 't', 'i', 'n', 'g', ' ', 'd', 'e', 'g', 'r', 'e', 'e', ' ', 'h', 'a', 's', 'n', "'", 't', ' ', 'g', 'o', 'n', 'e', ' ', 't', 'o', ' ', 'w', 'a', 's', 't', 'e', '.', '<eos>']]

中文数据:
 [['我', '有', '我', '的', '想', '法', '。', ' ', '<eos>'], ['你', '的', '会', '计', '学', '位', '没', '浪', '费', '还', '真', '让', '人', '高', '兴', '。', '<eos>']]


In [10]:
# 基本字典
basic_dict = {'<pad>':0, '<unk>':1, '<bos>':2, '<eos>':3}
# 分别生成中英文字典 

en_vocab = set(''.join(en_data))
en_vocab = sorted(en_vocab) # 保证每次结果都一样

en2id = {char:i+len(basic_dict) for i, char in enumerate(en_vocab)}

en2id.update(basic_dict)

id2en = {v:k for k,v in en2id.items()}

# 分别生成中英文字典 
ch_vocab = set(''.join(ch_data))
ch_vocab = sorted(ch_vocab) # 保证每次结果都一样

ch2id = {char:i+len(basic_dict) for i, char in enumerate(ch_vocab)}
ch2id.update(basic_dict)
id2ch = {v:k for k,v in ch2id.items()}



In [11]:
# 利用字典，映射数据 
en_num_data = [[en2id[en] for en in line ] for line in en_token_list]
ch_num_data = [[ch2id[ch] for ch in line] for line in ch_token_list]

print('char:', en_data[1])
print('index:', en_num_data[1])

char: Glad your accounting degree hasn't gone to waste.
index: [44, 81, 70, 73, 5, 94, 84, 90, 87, 5, 70, 72, 72, 84, 90, 83, 89, 78, 83, 76, 5, 73, 74, 76, 87, 74, 74, 5, 77, 70, 88, 83, 12, 89, 5, 76, 84, 83, 74, 5, 89, 84, 5, 92, 70, 88, 89, 74, 19, 3]


### 1.2.2验证集

In [12]:
from xml.dom.minidom import parse
import xml.dom.minidom

src_path = "./nmt_dataset4389/dev/dev.en-zh.en.xml"
trg_path = "./nmt_dataset4389/dev/dev.en-zh.zh.xml"
    
dev_en_data = []
dev_ch_data = []
# 使用minidom解析器打开 XML 文档
DOMTree_src = xml.dom.minidom.parse(src_path)
collection = DOMTree_src.documentElement
sentences = collection.getElementsByTagName("seg")
for sentence in sentences:
    dev_en_data.append(normalizeString(sentence.childNodes[0].data))

DOMTree_trg = xml.dom.minidom.parse(trg_path)
collection = DOMTree_trg.documentElement
sentences = collection.getElementsByTagName("seg")
for sentence in sentences:
    dev_ch_data.append(normalizeString(sentence.childNodes[0].data))

print('英文数据:\n', dev_en_data[:10])
print('\n中文数据:\n', dev_ch_data[:10])

英文数据:
 [' Because you want to start a family before you hit the nursing home. ', " She's got to have me in her sight like 24 hours a day. ", " So that no parent has to go through what I've known. ", " Is when someone we've trusted makes the choice for us. ", ' I respect that, and I will protect it at all cost. ', ' So after investigators got a blood trace on the doorknob, ', " Which means if we don't find her, she's only got two weeks to live. ", " Because you need to know that whoever you're protecting is damn sure gonna be selfish ", ' And you can also see the theater staircase very well preserved; ', " Cos that's not what I'm hearing. Still, what do I know? "]

中文数据:
 [' 因为你想在进养老院前娶妻生子。 ', ' 我就一天24小时都得在她眼皮子底下。 ', ' 为了不让别的父母经历我的遭遇。 ', ' 有时候我们信任的人替我们做了这样的选择。 ', ' 我尊重这点,并且会不惜一切保护隐私不被侵犯。 ', ' 所以在调查了有微量血迹的门把手之后, ', ' 如果我们找不到她,她就只有两周可活了。 ', ' 因为你要知道不管你在保护谁等你们一起进了号子 ', ' 你们还可以看到剧场台阶保存得十分完好； ', ' 因为就我所听到的可不是。不过,我懂什么啊? ']


In [13]:
# 按字符级切割，并添加<eos>
dev_en_token_list = [[char for char in line]+["<eos>"] for line in dev_en_data]
dev_ch_token_list = [[char for char in line]+["<eos>"] for line in dev_ch_data]
print('英文数据:\n', dev_en_token_list[:2])
print('\n中文数据:\n', dev_ch_token_list[:2])

英文数据:
 [[' ', 'B', 'e', 'c', 'a', 'u', 's', 'e', ' ', 'y', 'o', 'u', ' ', 'w', 'a', 'n', 't', ' ', 't', 'o', ' ', 's', 't', 'a', 'r', 't', ' ', 'a', ' ', 'f', 'a', 'm', 'i', 'l', 'y', ' ', 'b', 'e', 'f', 'o', 'r', 'e', ' ', 'y', 'o', 'u', ' ', 'h', 'i', 't', ' ', 't', 'h', 'e', ' ', 'n', 'u', 'r', 's', 'i', 'n', 'g', ' ', 'h', 'o', 'm', 'e', '.', ' ', '<eos>'], [' ', 'S', 'h', 'e', "'", 's', ' ', 'g', 'o', 't', ' ', 't', 'o', ' ', 'h', 'a', 'v', 'e', ' ', 'm', 'e', ' ', 'i', 'n', ' ', 'h', 'e', 'r', ' ', 's', 'i', 'g', 'h', 't', ' ', 'l', 'i', 'k', 'e', ' ', '2', '4', ' ', 'h', 'o', 'u', 'r', 's', ' ', 'a', ' ', 'd', 'a', 'y', '.', ' ', '<eos>']]

中文数据:
 [[' ', '因', '为', '你', '想', '在', '进', '养', '老', '院', '前', '娶', '妻', '生', '子', '。', ' ', '<eos>'], [' ', '我', '就', '一', '天', '2', '4', '小', '时', '都', '得', '在', '她', '眼', '皮', '子', '底', '下', '。', ' ', '<eos>']]


In [14]:
# 利用字典，映射数据 
dev_en_num_data = [[en2id[en] if en in en2id else basic_dict["<unk>"] for en in line ] for line in dev_en_token_list]
dev_ch_num_data = [[ch2id[ch] if ch in ch2id  else basic_dict["<unk>"] for ch in line] for line in dev_ch_token_list]

print('char:', dev_en_data[1])
print('index:', dev_en_num_data[1])

char:  She's got to have me in her sight like 24 hours a day. 
index: [5, 56, 77, 74, 12, 88, 5, 76, 84, 89, 5, 89, 84, 5, 77, 70, 91, 74, 5, 82, 74, 5, 78, 83, 5, 77, 74, 87, 5, 88, 78, 76, 77, 89, 5, 81, 78, 80, 74, 5, 23, 25, 5, 77, 84, 90, 87, 88, 5, 70, 5, 73, 70, 94, 19, 5, 3]


### 1.2.3测试集1

In [15]:
from xml.dom.minidom import parse
import xml.dom.minidom

src_path = "./nmt_dataset4389/test1/test1.en-zh.en.xml"
trg_path = "./nmt_dataset4389/test1/test1.en-zh.zh.xml"
    
test1_en_data = []
test1_ch_data = []
# 使用minidom解析器打开 XML 文档
DOMTree_src = xml.dom.minidom.parse(src_path)
collection = DOMTree_src.documentElement
sentences = collection.getElementsByTagName("seg")
for sentence in sentences:
    test1_en_data.append(normalizeString(sentence.childNodes[0].data))

DOMTree_trg = xml.dom.minidom.parse(trg_path)
collection = DOMTree_trg.documentElement
sentences = collection.getElementsByTagName("seg")
for sentence in sentences:
    test1_ch_data.append(normalizeString(sentence.childNodes[0].data))

print('英文数据:\n', test1_en_data[:10])
print('\n中文数据:\n', test1_ch_data[:10])

英文数据:
 [" Hi, honey. I guess you're really tied up in meetings. ", ' Find a safety chain or something to keep these lights in place. ', " Okay. Well, I guess there's not much to do about it right now then. ", " Yeah, it's getting weird. - let's get out of here. ", ' If you want to remain team manager, you have to do this. ', ' I was the same way after I lost the baby. ', ' His legitimate business brings in what? Five million a year to us? ', ' Bring it home, kid! The finish line is wide open! ', " You know I'm paying for these tickets. It's all right. I got lunch. ", ' The two with the lowest number of votes will be leaving us ']

中文数据:
 [' 嗨,亲爱的。你现在肯定忙着开会呢。 ', ' 找条牢靠的链子或者别的什么固定住这些灯。 ', ' 好吧。那么,我想现在能做的有限。 ', ' 太奇怪了。- 我们出去吧。 ', ' 如果你还想做球队经理的话你必须得做这个。 ', ' 我失去孩子后也这样过。 ', ' 他的合法业务带给我们多少收入?一年五百万? ', ' 孩子,加油!就要到了终点了! ', ' 你要知道付机票钱的可是我那好吧,我请你吃午餐。 ', ' 得票最低的两位选手将在周六晚的1小时揭晓节目 ']


In [16]:
# 按字符级切割，并添加<eos>
test1_en_token_list = [[char for char in line]+["<eos>"] for line in test1_en_data]
test1_ch_token_list = [[char for char in line]+["<eos>"] for line in test1_ch_data]
print('英文数据:\n', test1_en_token_list[:2])
print('\n中文数据:\n', test1_ch_token_list[:2])

英文数据:
 [[' ', 'H', 'i', ',', ' ', 'h', 'o', 'n', 'e', 'y', '.', ' ', 'I', ' ', 'g', 'u', 'e', 's', 's', ' ', 'y', 'o', 'u', "'", 'r', 'e', ' ', 'r', 'e', 'a', 'l', 'l', 'y', ' ', 't', 'i', 'e', 'd', ' ', 'u', 'p', ' ', 'i', 'n', ' ', 'm', 'e', 'e', 't', 'i', 'n', 'g', 's', '.', ' ', '<eos>'], [' ', 'F', 'i', 'n', 'd', ' ', 'a', ' ', 's', 'a', 'f', 'e', 't', 'y', ' ', 'c', 'h', 'a', 'i', 'n', ' ', 'o', 'r', ' ', 's', 'o', 'm', 'e', 't', 'h', 'i', 'n', 'g', ' ', 't', 'o', ' ', 'k', 'e', 'e', 'p', ' ', 't', 'h', 'e', 's', 'e', ' ', 'l', 'i', 'g', 'h', 't', 's', ' ', 'i', 'n', ' ', 'p', 'l', 'a', 'c', 'e', '.', ' ', '<eos>']]

中文数据:
 [[' ', '嗨', ',', '亲', '爱', '的', '。', '你', '现', '在', '肯', '定', '忙', '着', '开', '会', '呢', '。', ' ', '<eos>'], [' ', '找', '条', '牢', '靠', '的', '链', '子', '或', '者', '别', '的', '什', '么', '固', '定', '住', '这', '些', '灯', '。', ' ', '<eos>']]


In [17]:
# 利用字典，映射数据 
test1_en_num_data = [[en2id[en] if en in en2id else basic_dict["<unk>"] for en in line ] for line in test1_en_token_list]
test1_ch_num_data = [[ch2id[ch] if ch in ch2id  else basic_dict["<unk>"] for ch in line] for line in test1_ch_token_list]

print('char:', test1_en_data[1])
print('index:', test1_en_num_data[1])

char:  Find a safety chain or something to keep these lights in place. 
index: [5, 43, 78, 83, 73, 5, 70, 5, 88, 70, 75, 74, 89, 94, 5, 72, 77, 70, 78, 83, 5, 84, 87, 5, 88, 84, 82, 74, 89, 77, 78, 83, 76, 5, 89, 84, 5, 80, 74, 74, 85, 5, 89, 77, 74, 88, 74, 5, 81, 78, 76, 77, 89, 88, 5, 78, 83, 5, 85, 81, 70, 72, 74, 19, 5, 3]


### 1.2.4测试集2

In [18]:
from xml.dom.minidom import parse
import xml.dom.minidom

src_path = "./nmt_dataset4389/test2/test2.en-zh.en.xml"

test2_en_data = []

# 使用minidom解析器打开 XML 文档
DOMTree_src = xml.dom.minidom.parse(src_path)
collection = DOMTree_src.documentElement
sentences = collection.getElementsByTagName("seg")
for sentence in sentences:
    test2_en_data.append(normalizeString(sentence.childNodes[0].data))


print('英文数据:\n', test2_en_data[:10])


英文数据:
 [' Do you think we look young enough to blend in at a high school? ', ' I have to go to the date, learn to dance. Definitely. Now. ', " But, still, I'm starting to think it would be smart ", " Okay? You wing your ass down here and you tell him I don't know. ", " You gonna take care of his kids, huh, after he's gone? ", " I am not going back for more and I can't even believe ", ' Where is he? Get on. Get on the fucking ground! ', " And I already have a place, okay? It's at your place. ", ' And that every young man who chooses to remain at home ', ' I left my bag of chargers at home. Did I? ']


In [19]:
# 按字符级切割，并添加<eos>
test2_en_token_list = [[char for char in line]+["<eos>"] for line in test2_en_data]

print('英文数据:\n', test2_en_token_list[:2])


英文数据:
 [[' ', 'D', 'o', ' ', 'y', 'o', 'u', ' ', 't', 'h', 'i', 'n', 'k', ' ', 'w', 'e', ' ', 'l', 'o', 'o', 'k', ' ', 'y', 'o', 'u', 'n', 'g', ' ', 'e', 'n', 'o', 'u', 'g', 'h', ' ', 't', 'o', ' ', 'b', 'l', 'e', 'n', 'd', ' ', 'i', 'n', ' ', 'a', 't', ' ', 'a', ' ', 'h', 'i', 'g', 'h', ' ', 's', 'c', 'h', 'o', 'o', 'l', '?', ' ', '<eos>'], [' ', 'I', ' ', 'h', 'a', 'v', 'e', ' ', 't', 'o', ' ', 'g', 'o', ' ', 't', 'o', ' ', 't', 'h', 'e', ' ', 'd', 'a', 't', 'e', ',', ' ', 'l', 'e', 'a', 'r', 'n', ' ', 't', 'o', ' ', 'd', 'a', 'n', 'c', 'e', '.', ' ', 'D', 'e', 'f', 'i', 'n', 'i', 't', 'e', 'l', 'y', '.', ' ', 'N', 'o', 'w', '.', ' ', '<eos>']]


In [20]:
# 利用字典，映射数据 
test2_en_num_data = [[en2id[en] if en in en2id else basic_dict["<unk>"] for en in line ] for line in test2_en_token_list]


print('char:', test2_en_data[1])
print('index:', test2_en_num_data[1])

char:  I have to go to the date, learn to dance. Definitely. Now. 
index: [5, 46, 5, 77, 70, 91, 74, 5, 89, 84, 5, 76, 84, 5, 89, 84, 5, 89, 77, 74, 5, 73, 70, 89, 74, 17, 5, 81, 74, 70, 87, 83, 5, 89, 84, 5, 73, 70, 83, 72, 74, 19, 5, 41, 74, 75, 78, 83, 78, 89, 74, 81, 94, 19, 5, 51, 84, 92, 19, 5, 3]


## 1.3表示为Dataset

In [21]:
class TranslationDataset(Dataset):
    def __init__(self, src_data, trg_data):
        self.src_data = src_data
        self.trg_data = trg_data

        assert len(src_data) == len(trg_data), \
            "numbers of src_data  and trg_data must be equal!"

    def __len__(self):
        return len(self.src_data)

    def __getitem__(self, idx):
        src_sample =self.src_data[idx]
        src_len = len(self.src_data[idx])
        trg_sample = self.trg_data[idx]
        trg_len = len(self.trg_data[idx])
        return {"src": src_sample, "src_len": src_len, "trg": trg_sample, "trg_len": trg_len}

## 1.4填充处理

In [22]:
def padding_batch(batch):
    """
    input: -> list of dict
        [{'src': [1, 2, 3], 'trg': [1, 2, 3]}, {'src': [1, 2, 2, 3], 'trg': [1, 2, 2, 3]}]
    output: -> dict of tensor 
        {
            "src": [[1, 2, 3, 0], [1, 2, 2, 3]].T
            "trg": [[1, 2, 3, 0], [1, 2, 2, 3]].T
        }
    """
    src_lens = [d["src_len"] for d in batch]
    trg_lens = [d["trg_len"] for d in batch]
    
    src_max = max([d["src_len"] for d in batch])
    trg_max = max([d["trg_len"] for d in batch])
    for d in batch:
        d["src"].extend([en2id["<pad>"]]*(src_max-d["src_len"]))
        d["trg"].extend([ch2id["<pad>"]]*(trg_max-d["trg_len"]))
    srcs = torch.tensor([pair["src"] for pair in batch], dtype=torch.long, device=device)
    trgs = torch.tensor([pair["trg"] for pair in batch], dtype=torch.long, device=device)
    
    batch = {"src":srcs.T, "src_len":src_lens, "trg":trgs.T, "trg_len":trg_lens}
    return batch

# 二、模型搭建

## 2.1Encoder

In [23]:
class Encoder(nn.Module):
    def __init__(self, input_dim, emb_dim, hid_dim, n_layers, dropout=0.5, bidirectional=True):
        super(Encoder, self).__init__()
        
        self.hid_dim = hid_dim
        self.n_layers = n_layers
        
        self.embedding = nn.Embedding(input_dim, emb_dim)
        self.gru = nn.GRU(emb_dim, hid_dim, n_layers, dropout=dropout, bidirectional=bidirectional)
        
    def forward(self, input_seqs, input_lengths, hidden):
        # input_seqs = [seq_len, batch]
        embedded = self.embedding(input_seqs)
        # embedded = [seq_len, batch, embed_dim]
        packed = torch.nn.utils.rnn.pack_padded_sequence(embedded, input_lengths, enforce_sorted=False)
        
        outputs, hidden = self.gru(packed, hidden)        
        outputs, output_lengths = torch.nn.utils.rnn.pad_packed_sequence(outputs)
        # outputs = [seq_len, batch, hid_dim * n directions]
        # output_lengths = [batch]
        return outputs, hidden

## 2.2Attention

In [24]:
class Attn(nn.Module):
    def __init__(self, method, hidden_size):
        super(Attn, self).__init__()
        self.method = method
        if self.method not in ['dot', 'general', 'concat']:
            raise ValueError(self.method, "is not an appropriate attention method.")
        self.hidden_size = hidden_size
        if self.method == 'general':
            self.attn = nn.Linear(self.hidden_size, hidden_size)
        elif self.method == 'concat':
            self.attn = nn.Linear(self.hidden_size * 2, hidden_size)
            self.v = nn.Parameter(torch.FloatTensor(hidden_size))

    def dot_score(self, hidden, encoder_output):
        return torch.sum(hidden * encoder_output, dim=2)  # [seq_len, batch]

    def general_score(self, hidden, encoder_output):
        energy = self.attn(encoder_output)  # [seq_len, batch, hid_dim]
        return torch.sum(hidden * energy, dim=2)  # [seq_len, batch]

    def concat_score(self, hidden, encoder_output):
        # hidden.expand(encoder_output.size(0), -1, -1) -> [seq_len, batch, N]
        energy = self.attn(torch.cat((hidden.expand(encoder_output.size(0), -1, -1), encoder_output), 2)).tanh()
        # energy = [sql_len, batch, hidden_size]
        return torch.sum(self.v * energy, dim=2)  # [seq_len, batch]

    def forward(self, hidden, encoder_outputs):
        # hidden = [1, batch,  n_directions * hid_dim]
        # encoder_outputs = [seq_len, batch, hid dim * n directions]
        if self.method == 'general':
            attn_energies = self.general_score(hidden, encoder_outputs)
        elif self.method == 'concat':
            attn_energies = self.concat_score(hidden, encoder_outputs)
        elif self.method == 'dot':
            attn_energies = self.dot_score(hidden, encoder_outputs)

        attn_energies = attn_energies.t()  # [batch, seq_len]
 
        return F.softmax(attn_energies, dim=1).unsqueeze(1)  # softmax归一化# [batch, 1, seq_len]

## 2.3Decoder

In [25]:
class AttnDecoder(nn.Module):
    def __init__(self, output_dim, emb_dim, hid_dim, n_layers=1, dropout=0.5, bidirectional=True, attn_method="general"):
        super(AttnDecoder, self).__init__()

        self.output_dim = output_dim
        self.emb_dim = emb_dim
        self.hid_dim = hid_dim
        self.n_layers = n_layers
        self.dropout = dropout

        self.embedding = nn.Embedding(output_dim, emb_dim)
        self.embedding_dropout = nn.Dropout(dropout)
        self.gru = nn.GRU(emb_dim, hid_dim, n_layers, dropout=dropout, bidirectional=bidirectional)
        
        if bidirectional:
            self.concat = nn.Linear(hid_dim * 2 * 2, hid_dim*2)
            self.out = nn.Linear(hid_dim*2, output_dim)
            self.attn = Attn(attn_method, hid_dim*2)
        else:
            self.concat = nn.Linear(hid_dim * 2, hid_dim)
            self.out = nn.Linear(hid_dim, output_dim)
            self.attn = Attn(attn_method, hid_dim)
        self.softmax = nn.LogSoftmax(dim=1)

    def forward(self, token_inputs, last_hidden, encoder_outputs):
        batch_size = token_inputs.size(0)
        embedded = self.embedding(token_inputs)
        embedded = self.embedding_dropout(embedded)
        embedded = embedded.view(1, batch_size, -1) # [1, B, hid_dim],其中1为seq_len

        gru_output, hidden = self.gru(embedded, last_hidden)
        # gru_output = [1, batch,  n_directions * hid_dim]
        # hidden = [n_layers * n_directions, batch, hid_dim]

        # encoder_outputs = [sql_len, batch, hid dim * n directions]
        attn_weights = self.attn(gru_output, encoder_outputs)
        # attn_weights = [batch, 1, sql_len]
        context = attn_weights.bmm(encoder_outputs.transpose(0, 1))
        # [batch, 1, hid_dim * n directions]

        # LuongAttention
        gru_output = gru_output.squeeze(0) # [batch, n_directions * hid_dim]
        context = context.squeeze(1)       # [batch, n_directions * hid_dim]
        concat_input = torch.cat((gru_output, context), 1)  # [batch, n_directions * hid_dim * 2]
        concat_output = torch.tanh(self.concat(concat_input))  # [batch, n_directions*hid_dim]

        output = self.out(concat_output)  # [batch, output_dim]
        output = self.softmax(output)

        return output, hidden, attn_weights

## 2.4Seq2seq

In [26]:
class Seq2Seq(nn.Module):
    def __init__(self, 
                 encoder, 
                 decoder, 
                 device, 
                 predict=False, 
                 basic_dict=None,
                 max_len=100
                 ):
        super(Seq2Seq, self).__init__()
        
        self.device = device

        self.encoder = encoder
        self.decoder = decoder

        self.predict = predict  # 训练阶段还是预测阶段
        self.basic_dict = basic_dict  # decoder的字典，存放特殊token对应的id
        self.max_len = max_len  # 翻译时最大输出长度

        assert encoder.hid_dim == decoder.hid_dim, \
            "Hidden dimensions of encoder and decoder must be equal!"
        assert encoder.n_layers == decoder.n_layers, \
            "Encoder and decoder must have equal number of layers!"
        assert encoder.gru.bidirectional == decoder.gru.bidirectional, \
            "Decoder and encoder must had same value of bidirectional attribute!"
        
    def forward(self, input_batches, input_lengths, target_batches=None, target_lengths=None, teacher_forcing_ratio=0.5):
        # input_batches = [seq_len, batch]
        # target_batches = [seq_len, batch]
        batch_size = input_batches.size(1)
        
        BOS_token = self.basic_dict["<bos>"]
        EOS_token = self.basic_dict["<eos>"]
        PAD_token = self.basic_dict["<pad>"]

        # 初始化
        enc_n_layers = self.encoder.gru.num_layers
        enc_n_directions = 2 if self.encoder.gru.bidirectional else 1
        encoder_hidden = torch.zeros(enc_n_layers*enc_n_directions, batch_size, self.encoder.hid_dim, device=self.device)
        
        # encoder_outputs = [input_lengths, batch, hid_dim * n directions]
        # encoder_hidden = [n_layers*n_directions, batch, hid_dim]
        encoder_outputs, encoder_hidden = self.encoder(
            input_batches, input_lengths, encoder_hidden)

        # 初始化
        decoder_input = torch.tensor([BOS_token] * batch_size, dtype=torch.long, device=self.device)
        decoder_hidden = encoder_hidden

        if self.predict:
            # 一次只输入一句话
            assert batch_size == 1, "batch_size of predict phase must be 1!"
            output_tokens = []

            while True:
                decoder_output, decoder_hidden, decoder_attn = self.decoder(
                    decoder_input, decoder_hidden, encoder_outputs
                )
                # [1, 1]
                topv, topi = decoder_output.topk(1)
                decoder_input = topi.squeeze(1).detach()
                output_token = topi.squeeze().detach().item()
                if output_token == EOS_token or len(output_tokens) == self.max_len:
                    break
                output_tokens.append(output_token)
            return output_tokens

        else:
            max_target_length = max(target_lengths)
            all_decoder_outputs = torch.zeros((max_target_length, batch_size, self.decoder.output_dim), device=self.device)

            for t in range(max_target_length):
                use_teacher_forcing = True if random.random() < teacher_forcing_ratio else False
                if use_teacher_forcing:
                    # decoder_output = [batch, output_dim]
                    # decoder_hidden = [n_layers*n_directions, batch, hid_dim]
                    decoder_output, decoder_hidden, decoder_attn = self.decoder(
                        decoder_input, decoder_hidden, encoder_outputs
                    )
                    all_decoder_outputs[t] = decoder_output
                    decoder_input = target_batches[t]  # 下一个输入来自训练数据
                else:
                    decoder_output, decoder_hidden, decoder_attn = self.decoder(
                        decoder_input, decoder_hidden, encoder_outputs
                    )
                    # [batch, 1]
                    topv, topi = decoder_output.topk(1)
                    all_decoder_outputs[t] = decoder_output
                    decoder_input = topi.squeeze(1).detach()  # 下一个输入来自模型预测
            
            loss_fn = nn.NLLLoss(ignore_index=PAD_token)
            loss = loss_fn(
                all_decoder_outputs.reshape(-1, self.decoder.output_dim),  # [batch*seq_len, output_dim]
                target_batches.reshape(-1)               # [batch*seq_len]
            )
            return loss

# 三、训练和预测代码

In [27]:
class EarlyStopping:
    def __init__(self, patience=7, mode="max", delta=0.001):
        self.patience = patience
        self.counter = 0
        self.mode = mode
        self.best_score = None
        self.early_stop = False
        self.delta = delta
        if self.mode == "min":
            self.val_score = np.Inf
        else:
            self.val_score = -np.Inf

    def __call__(self, epoch_score, model, model_path):

        if self.mode == "min":
            score = -1.0 * epoch_score
        else:
            score = np.copy(epoch_score)

        if self.best_score is None:
            self.best_score = score
            self.save_checkpoint(epoch_score, model, model_path)
        elif score < self.best_score + self.delta:
            self.counter += 1
            print('EarlyStopping counter: {} out of {}'.format(self.counter, self.patience))
            if self.counter >= self.patience:
                self.early_stop = True
        else:
            self.best_score = score
            self.save_checkpoint(epoch_score, model, model_path)
            self.counter = 0

    def save_checkpoint(self, epoch_score, model, model_path):
        if epoch_score not in [-np.inf, np.inf, -np.nan, np.nan]:
            print('Validation score improved ({} --> {}). Saving model!'.format(self.val_score, epoch_score))
            torch.save(model.state_dict(), model_path)
        self.val_score = epoch_score

In [28]:
def epoch_time(start_time, end_time):
    elapsed_time = end_time - start_time
    elapsed_mins = int(elapsed_time / 60)
    elapsed_secs = int(elapsed_time - (elapsed_mins * 60))
    return elapsed_mins, elapsed_secs

In [29]:
def train(
    writer,
    model,
    data_loader, 
    optimizer, 
    clip=1, 
    teacher_forcing_ratio=0.5, 
    print_every=1000  # None不打印
    ):
    
    global global_step
    global best_valid_loss
    global best_dev_loss
    
    model.predict = False
    

    if print_every == 0:
        print_every = 1

    print_loss_total = 0  # 每次打印都重置
    start = time.time()
    epoch_loss = 0
    for i, batch in enumerate(data_loader):
  
        model.train()

        # shape = [seq_len, batch]
        input_batchs = batch["src"]
        target_batchs = batch["trg"]
        # list
        input_lens = batch["src_len"]
        target_lens = batch["trg_len"]
        
        optimizer.zero_grad()
        try:
            loss = model(input_batchs, input_lens, target_batchs, target_lens, teacher_forcing_ratio)
  
            print_loss_total += loss.item()
            epoch_loss += loss.item()
            loss.backward()
        except RuntimeError as e:
            if 'out of memory' in str(e):
                print('| WARNING: ran out of memory')
                if hasattr(torch.cuda, 'empty_cache'):
                    torch.cuda.empty_cache()
            else:
                raise e

        # 梯度裁剪
        torch.nn.utils.clip_grad_norm_(model.parameters(), clip)
        
        global_step += 1
        # Logging
        writer.add_scalar('Train/Loss', loss.item(), global_step)
 
        optimizer.step()
    
        if print_every and global_step % print_every == 0:
            test_one_sample()
            valid_loss = evaluate(model, dev_loader)
            es(valid_loss, model, model_path="en2ch-attn-model.pt")
            '''
            if valid_loss < best_valid_loss:
                best_valid_loss = valid_loss
                torch.save(model.state_dict(), "en2ch-attn-model.pt")
            '''
        
            writer.add_scalar('Eval/Loss', valid_loss, global_step)
      

        if print_every and global_step % print_every == 0:
            print_loss_avg = print_loss_total / print_every
            print_loss_total = 0
            print('\tCurrent Loss: %.4f' % print_loss_avg)
            if print_loss_avg < best_dev_loss:
                best_dev_loss = print_loss_avg
                torch.save(model.state_dict(), "en2ch-attn-model_train.pt")

    return epoch_loss / len(data_loader)

In [30]:
def evaluate(
    model,
    data_loader, 
    print_every=None
    ):
    model.predict = False
    model.eval()
    if print_every == 0:
        print_every = 1

    print_loss_total = 0  # 每次打印都重置
    start = time.time()
    epoch_loss = 0
    with torch.no_grad():
        for i, batch in enumerate(data_loader):
           
            # shape = [seq_len, batch]
            input_batchs = batch["src"]
            target_batchs = batch["trg"]
            # list
            input_lens = batch["src_len"]
            target_lens = batch["trg_len"]
            try:
                loss = model(input_batchs, input_lens, target_batchs, target_lens, teacher_forcing_ratio=0)
            except RuntimeError as e:
                if 'out of memory' in str(e):
                    print('| WARNING: ran out of memory')
                    if hasattr(torch.cuda, 'empty_cache'):
                          torch.cuda.empty_cache()
                else:
                    raise e
            print_loss_total += loss.item()
            epoch_loss += loss.item()

            if print_every and (i+1) % print_every == 0:
                print_loss_avg = print_loss_total / print_every
                print_loss_total = 0
                print('\tCurrent Loss: %.4f' % print_loss_avg)
    
    msg = f'*** Eval: loss {epoch_loss / len(data_loader)}'
    logger.info(msg)

    return epoch_loss / len(data_loader)

In [31]:
def translate(
    model,
    sample, 
    idx2token=None
    ):
    model.predict = True
    model.eval()

    # shape = [seq_len, 1]
    input_batch = sample["src"]
    # list
    input_len = sample["src_len"]

    output_tokens = model(input_batch, input_len)
    output_tokens = [idx2token[t] for t in output_tokens]

    return "".join(output_tokens)

# 四、超参数配置

In [32]:
INPUT_DIM = len(en2id)
OUTPUT_DIM = len(ch2id)
# 超参数
BATCH_SIZE = 16
ENC_EMB_DIM = 256
DEC_EMB_DIM = 256
HID_DIM = 512
N_LAYERS = 2
ENC_DROPOUT = 0.5
DEC_DROPOUT = 0.5
LEARNING_RATE = 1e-4
N_EPOCHS = 200
CLIP = 1

bidirectional = True
attn_method = "general"
enc = Encoder(INPUT_DIM, ENC_EMB_DIM, HID_DIM, N_LAYERS, ENC_DROPOUT, bidirectional)
dec = AttnDecoder(OUTPUT_DIM, DEC_EMB_DIM, HID_DIM, N_LAYERS, DEC_DROPOUT, bidirectional, attn_method)
model = Seq2Seq(enc, dec, device, basic_dict=basic_dict).to(device)


optimizer = optim.Adam(model.parameters(), lr=LEARNING_RATE)


In [33]:
# 数据集
train_set = TranslationDataset(en_num_data, ch_num_data)
train_loader = DataLoader(train_set, batch_size=BATCH_SIZE, collate_fn=padding_batch)

dev_set = TranslationDataset(dev_en_num_data, dev_ch_num_data)
dev_loader = DataLoader(dev_set, batch_size=BATCH_SIZE, collate_fn=padding_batch)

test1_set = TranslationDataset(test1_en_num_data, test1_ch_num_data)
test1_loader = DataLoader(test1_set, batch_size=BATCH_SIZE, collate_fn=padding_batch)



# 五、开始训练

In [None]:
best_valid_loss = float('inf')
best_dev_loss = float('inf')
global_step = 0
writer = SummaryWriter()
es = EarlyStopping(patience=20, mode="min")
model.load_state_dict(torch.load("en2ch-attn-model_train.pt"))

for epoch in range(N_EPOCHS):
    
    start_time = time.time()
    tq_train = tqdm(train_loader, total=len(train_loader))
    train_loss = train(writer,model, tq_train, optimizer, CLIP)
    valid_loss = evaluate(model, dev_loader)
    #dev_loss = evaluate(model, tq_train)
    end_time = time.time()
    '''
    if dev_loss < best_dev_loss:
        best_dev_loss = dev_loss
        torch.save(model.state_dict(), "en2ch-attn-model_train.pt")
    '''
    
    es(valid_loss, model, model_path="en2ch-attn-model.pt")

    if epoch %1 == 0:
        epoch_mins, epoch_secs = epoch_time(start_time, end_time)
        print(f'Epoch: {epoch+1:02} | Time: {epoch_mins}m {epoch_secs}s')
        print(f'\tTrain Loss: {train_loss:.3f} | Val. Loss: {valid_loss:.3f}')

    torch.cuda.empty_cache()
    
    

# 六、BLEU评价测试集

In [34]:
#print("best valid loss：", best_valid_loss)
# 加载最优权重
model.load_state_dict(torch.load("en2ch-attn-model.pt"))

IncompatibleKeys(missing_keys=[], unexpected_keys=[])

In [35]:
random.seed(seed)
for i in random.sample(range(len(en_num_data)), 10):  # 随机看10个
    en_tokens = list(filter(lambda x: x!=0, en_num_data[i]))  # 过滤零
    ch_tokens = list(filter(lambda x: x!=3 and x!=0, ch_num_data[i]))  # 和机器翻译作对照
    sentence = [id2en[t] for t in en_tokens]
    print("【原文】")
    print("".join(sentence))
    translation = [id2ch[t] for t in ch_tokens]
    print("【原文】")
    print("".join(translation))
    test_sample = {}
    test_sample["src"] = torch.tensor(en_tokens, dtype=torch.long, device=device).reshape(-1, 1)
    test_sample["src_len"] = [len(en_tokens)]
    print("【机器翻译】")
    print(translate(model, test_sample, id2ch), end="\n\n")

【原文】
Someone pulled him out.<eos>
【原文】
有人把他拉出来的。
【机器翻译】
有人把他出出来。

【原文】
Uh, what happened to your small bowel obstruction?<eos>
【原文】
额,你的小肠梗阻病人怎么样了?
【机器翻译】
呃,你的小小小的小小的小小?

【原文】
I thought I'd catch you on the way in. I'd love the opportunity to discuss... <eos>
【原文】
希望有机会。能和您坐下聊聊... 
【机器翻译】
我以为我会在你你上面。我会喜欢这个机会... 

【原文】
Her Bush looks like the hedge maze<eos>
【原文】
她的阴毛看上去像是“闪灵”里面的
【机器翻译】
她的脸子看起来像是一样的

【原文】
Alert all ground crews. <eos>
【原文】
所有地面人员。 
【机器翻译】
所有的地方都是。 

【原文】
Kiss me! Kiss him.<eos>
【原文】
吻我!吻他。
【机器翻译】
吻吻我!吻他。

【原文】
Force at backrest = <eos>
【原文】
靠背的支撑力= 
【机器翻译】
在背景的 

【原文】
I almost lost control of those feelings.<eos>
【原文】
我几乎失控。
【机器翻译】
几乎失败了我控制了。

【原文】
Call me a traitor again, love, and I'll end you.<eos>
【原文】
再叫我叛徒小妞,我立马杀了你。
【机器翻译】
再叫叛叛叛徒,我会你你。

【原文】
With who? Who cares? <eos>
【原文】
找谁啊?谁都行? 
【机器翻译】
哪个?谁?谁? 



## 6.1test1 bleu结果和平均得分

In [36]:
score = 0
score_store = []
for i in range(len(test1_en_num_data)):
    en_tokens = list(filter(lambda x: x!=0, test1_en_num_data[i]))  # 过滤零
    ch_tokens = list(filter(lambda x: x!=3 and x!=0, test1_ch_num_data[i]))  # 和机器翻译作对照
    sentence = [id2en[t] for t in en_tokens]
    print("【原文】")
    print("".join(sentence))
    translation = [id2ch[t] for t in ch_tokens]
    print("【原文】")
    print("".join(translation))
    test_sample = {}
    test_sample["src"] = torch.tensor(en_tokens, dtype=torch.long, device=device).reshape(-1, 1)
    test_sample["src_len"] = [len(en_tokens)]
    print("【机器翻译】")
    print(translate(model, test_sample, id2ch), end="\n\n")
    temp = sentence_bleu(["".join(translation)],translate(model, test_sample, id2ch))
    score += temp
    score_store.append(temp)
    
score /= len(test1_en_num_data)
    
print(score)
    

【原文】
 Hi, honey. I guess you're really tied up in meetings. <eos>
【原文】
 嗨,亲爱的。你现在肯定忙着开会呢。 
【机器翻译】
嗨,嗨,亲爱的。我想你你真的在会议。 

【原文】
 Find a safety chain or something to keep these lights in place. <eos>
【原文】
 找条牢靠的链子或者别的什么固定住这些灯。 
【机器翻译】
找到一个安全的或许是让这些灯子里的东西。 

【原文】
 Okay. Well, I guess there's not much to do about it right now then. <eos>
【原文】
 好吧。那么,我想现在能做的有限。 
【机器翻译】
好吧。那我想我们没有么多事。 



The hypothesis contains 0 counts of 4-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()


【原文】
 Yeah, it's getting weird. - let's get out of here. <eos>
【原文】
 太奇怪了。- 我们出去吧。 
【机器翻译】
是啊,怪了。- 我们走吧。 

【原文】
 If you want to remain team manager, you have to do this. <eos>
【原文】
 如果你还想做球队经理的话你必须得做这个。 
【机器翻译】
如果你想要一个队伍,你必须这么做。 

【原文】
 I was the same way after I lost the baby. <eos>
【原文】
 我失去孩子后也这样过。 
【机器翻译】
我是我失去了一个失去的 

【原文】
 His legitimate business brings in what? Five million a year to us? <eos>
【原文】
 他的合法业务带给我们多少收入?一年五百万? 
【机器翻译】
他的意思是什么事情的意思??五千万年? 

【原文】
 Bring it home, kid! The finish line is wide open! <eos>
【原文】
 孩子,加油!就要到了终点了! 
【机器翻译】
把它带回家,孩子!! 

The hypothesis contains 0 counts of 3-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()




【原文】
 You know I'm paying for these tickets. It's all right. I got lunch. <eos>
【原文】
 你要知道付机票钱的可是我那好吧,我请你吃午餐。 
【机器翻译】
你知道我在付票票。没事。我午饭了。 

【原文】
 The two with the lowest number of votes will be leaving us <eos>
【原文】
 得票最低的两位选手将在周六晚的1小时揭晓节目 
【机器翻译】
两位票票将我们最低的票票 

【原文】
 So I let her believe that she was getting to me. <eos>
【原文】
 所以我让她相信她说服我了。 
【机器翻译】
所以我让她相信她我我我。 

【原文】
 May I have a word, please? What do you want? <eos>
【原文】
 我可以说句话吗?你要干什么? 
【机器翻译】
我能有个词吗?你想要什么? 

【原文】
 He found it the night the president went to the national archives to view the constitution, <eos>
【原文】
 总统去国家档案馆参观宪法的那晚他发现的, 
【机器翻译】
他在国国家里找到到了国国的国家的宪法, 

【原文】
 I took the best offer while I had a chance. <eos>
【原文】
 当我有机会时我接受了最好的邀约。 
【机器翻译】
我有机会的时候我我了。 

【原文】
 That was an awful lot of trouble just to impress your fans. <eos>
【原文】
 只是想在你粉丝面前露一手可费了不少劲儿啊。 
【机器翻译】
你这么多的的你想象你的粉丝。 

【原文】
 At the turn of the tide, water from almost seven hundred miles. <eos>
【原文】
 当潮水转向时,从近700里外峡湾而来的水。 
【机器翻译】
从最近的的的的的,水里, 

【原文】
 It made me 

The hypothesis contains 0 counts of 2-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()


【原文】
 I never dreamed that one of my own would be going off to a University, but here I stand, <eos>
【原文】
 我从没想过我的孩子会上大学,但我站在这, 
【机器翻译】
我从没想过过这个人会去大学,但是我我站在这里, 

【原文】
 I told her she might have to get her own place, <eos>
【原文】
 我告诉她她应该自己找地方住 , 
【机器翻译】
我告诉她她她可能会自己能找到地方, 

【原文】
 I've never seen two people so on the same page. <eos>
【原文】
 我从未见过能这么一致的两个人。 
【机器翻译】
我从没见过两个人。 

【原文】
 Who are they buying arms from? What are they gonna do with them? <eos>
【原文】
 他们为谁买军火?是用来修理谁的? 
【机器翻译】
他们是谁买手臂?他们怎么回事? 

【原文】
 What are you going to do? - Hold my dress! <eos>
【原文】
 你想干什么?- 抓住我的裙子! 
【机器翻译】
你要怎么做?- 我 我的裙子! 

【原文】
 So I shall do none of these until she can. <eos>
【原文】
 所以我要跟随她的步伐。 
【机器翻译】
所以我就是这么做她不能做的。 

【原文】
 We have had banquets in the headquarters in these nights <eos>
【原文】
 秘密基地这几天晚上都在办大食会 
【机器翻译】
今晚我们有有有的队 

【原文】
 Have you been in my bag? I thought I heard your phone ring. <eos>
【原文】
 你乱翻我的包?我好像听见你的手机响了。 
【机器翻译】
你在我包袋了吗?我听听你的电话。 

【原文】
 Besides, we don't need a lawyer because I'm a lawyer. <eo

【机器翻译】
我喜欢他他。那就告诉他,我,我你你。 

【原文】
 I hate it when people say that, but it is the truth. <eos>
【原文】
 我不喜欢听人这么说,但这是事实。 
【机器翻译】
我也讨厌这种人说,但是实际上是真实。 

【原文】
 Like bill Briggs, like the first extreme skiers around Chamonix, <eos>
【原文】
 像比尔·布里格斯,像早期在沙莫尼极限滑雪的人一样, 
【机器翻译】
像像像像样样的炸弹,像像,样, 

【原文】
 I didn't buy these for my old age. I bought them to wear. <eos>
【原文】
 我可不是因为老年昏花才买它。我买它是为了戴上它。 
【机器翻译】
我没有买这些老年纪。我买了这些老龄。 

【原文】
 What are you doing, man? Have you lost your mind? <eos>
【原文】
 你在干什么伙计?你疯了吗? 
【机器翻译】
你在干嘛?你疯了吗?你疯了吗? 

【原文】
 From now on, the couple has but a single goal: <eos>
【原文】
 从现在开始,这对夫妇只有一个目标: 
【机器翻译】
从现在开始,,这个有一个的目标 

【原文】
 Father, Stephen Lyman, this is... These are my friends from America <eos>
【原文】
 我父亲,斯蒂芬莱曼,这是……我的美国朋友 
【机器翻译】
神父,史蒂芬,我是我的朋友,这是我的美国朋友 

【原文】
 What do you want? I have an offer. Are you interested? <eos>
【原文】
 你想要什么?我有一个项目,你有兴趣吗? 
【机器翻译】
你想要什么?我有。你兴趣吗?你有兴趣吗? 

【原文】
 If I don't reappear by sundown, make your way back to Florence without me. <eos>
【原文】
 如果日落时我还没回来,你们不用等

【原文】
 If the Indians don't attack us tonight, I want to start work again tomorrow. <eos>
【原文】
 如果印第安人今晚不袭击,我们我想明天开工。 
【机器翻译】
如果我们今天是印第安人,我今天不会攻击我,我就想再开始了。 

【原文】
 My daughter has a sore throat, could be strep. I need to take her to the doctor. <eos>
【原文】
 我女儿嗓子哑了,可能是病毒感染。我要带她去看医生。 
【机器翻译】
我女儿有喉咙,可能会。我得很难以。我得带她去医生。 

【原文】
 If a girl wore a dress like that in a <eos>
【原文】
 即使是一个普通的女孩子 
【机器翻译】
如果女孩穿着一个穿着穿着一样的女孩 

【原文】
 So you need to tell me now, are we clean? <eos>
【原文】
 所以你现在必须告诉我,我们是否搞定了? 
【机器翻译】
所以你现在就告诉我们,我们是清楚吗? 

【原文】
 Nothing happened. There were no flashes, so the CIA guys are legit. <eos>
【原文】
 我脑中什么也没有。闪过那些中情局特工是正宗的。 
【机器翻译】
无论发生什么事情发生了。没有,没有,没有有有。 

【原文】
 He gave his immense authority to the device of a single pilaster <eos>
【原文】
 他以贯穿两层楼的壁柱表达了这种至高无上的权威 
【机器翻译】
他把他的给了一个一个在一起的 

【原文】
 The charges were dropped because you agreed to put yourself in a doctor's care. <eos>
【原文】
 因为你同意了接受医生的治疗对你的诉讼才撤销了。 
【机器翻译】
因为你为你在医生被因为你为你为你己的医生关注。 

【原文】
 What happens when Dan doesn't show up? I

我们周末的时候开始一个一个的时候开始的。 

【原文】
 So there may be a dead body in the car when I get there. That's just a heads up. <eos>
【原文】
 所以有可能是车内的尸体当我到那里的时候。那只是一个头。 
【机器翻译】
所以那里有尸体里有一个尸体,我就能尸体里。 

【原文】
 So you two still a couple? No, not since senior prom. <eos>
【原文】
 你俩现在还处着呢?毕业舞会之后就分了啊。 
【机器翻译】
你们两个还是个个?不,不,不是是从没有参加。 

【原文】
 I just found you a secret lab full of really cool ancient stuff. <eos>
【原文】
 我刚帮你找到了一个保存有大量古人超酷科技的秘密实验室。 
【机器翻译】
我刚才找到你的秘密实验室的实验室。 

【原文】
 When I get into it... When I have a song I can get into like that, <eos>
【原文】
 当我投入其中时…… 有这么一首歌能让我去沉醉其中时, 
【机器翻译】
当我进去的时候... 我想我我一个时候,我我想到的时候, 

【原文】
 If I don't say I didn't do it, they're not... <eos>
【原文】
 如果我不说我没做他们就不会…… 
【机器翻译】
如果我不说我不做的,他们不是... 

【原文】
 I know the things you say when I'm not there <eos>
【原文】
 我知道自己不在时你所说的 
【机器翻译】
我知道你说我不在不在那 

【原文】
 So is that why you didn't show up for dinner last night? <eos>
【原文】
 所以…… 你昨晚才没来吃晚饭吗? 
【机器翻译】
所以你晚晚不晚上晚上晚上没有为晚上晚上? 

【原文】
 How close could we be to such as him, hmm? <eos>
【原文】
 我和他能好到哪去,嗯? 

如果我赢得我的马上赢得多少? 

【原文】
 Get him up. Get him up. Get him on his feet. <eos>
【原文】
 把他拉起来。把他拉起来。让他站起来。 
【机器翻译】
把他抬起来。快点。他他上上。 

【原文】
 Have you learned nothing? <eos>
【原文】
 你就没吸取点教训吗? 
【机器翻译】
你没有学到什么? 

【原文】
 His dad has been funding his son's gambling for years. <eos>
【原文】
 好多年了都是他老爸给钱他赌。 
【机器翻译】
他爸爸已经找到他儿子的年年了。 

【原文】
 How did I die? Do I know other dead people? <eos>
【原文】
 我是怎么死的?我是否认识其他死去的人? 
【机器翻译】
我死了怎么死?我知道其他人死了吗? 

【原文】
 Never believe for a second, doctor, that this is what I wanted. <eos>
【原文】
 永远不要相信一次,医生,我是这么想的。 
【机器翻译】
从来没想过这个,我博士,我想我想要的。 

【原文】
 Oh! What are you doing? What are you doing? You stupid moron. <eos>
【原文】
 噢!你在干嘛呀?你在干嘛?超级大白痴。 
【机器翻译】
噢!你在干嘛?你在干嘛?你傻瓜。 

【原文】
 The other one I gave to desot, and he gave us $17 credit on our bill. <eos>
【原文】
 另一只我给了德索,他给我们的帐单抵扣了17美元。 
【机器翻译】
我给他们一个人给他们的一个,我给我们了,我给我们了。 

【原文】
 Two of the girls' bodies were found, but one was never recovered. <eos>
【原文】
 两个女孩的尸体找到了另一个至今没找到。 
【机器翻译】
两个女孩的尸体尸体,发现,但是从未来发现。 

【原文】
 Your typing in the afternoo

【原文】
 Would you care to make a small wager on that? <eos>
【原文】
 你就这件事跟我打个赌? 
【机器翻译】
你想让我能做个小子吗? 

【原文】
 You're both on parole and I just waxed the floor. <eos>
【原文】
 你俩都还在保释期另外我刚给地板上了蜡 
【机器翻译】
你们两个都是在我我我我。 

【原文】
 Has brought you at last to the bottom of a whisky bottle <eos>
【原文】
 只是最终让你沉入了酒瓶 
【机器翻译】
你在一瓶瓶里的了一瓶瓶瓶酒瓶 

【原文】
 His guys came to my house. They tried to shoot me in the street. <eos>
【原文】
 他的手下冲到我家,还打算在马路上开枪打我。 
【机器翻译】
他的家伙来我家。他们在街上我们。 

【原文】
 Can I think about it? Five, four, three, two, now. <eos>
【原文】
 我能再想想么?5,4,3,2决定。 
【机器翻译】
我能以想想点吗?5,,四个, 

【原文】
 I got from a worthless part - time instructor like you. <eos>
【原文】
 我因为你而变得没有价值。 
【机器翻译】
我从你身上的一部分的一部分。 

【原文】
 It's because she's your sister and you have a chance to help her. <eos>
【原文】
 因为她是你妹妹你有机会帮她。 
【机器翻译】
因为她是你妹妹而且你有机会帮她。 

【原文】
 He most likely has tunnel vision and believes that she holds the key to his happiness. <eos>
【原文】
 嫌犯视野狭隘并坚信她能使他幸福。 
【机器翻译】
他很有能力有有能力的视频道,她把钥匙的给他的福利。 

【原文】
 Like this cup, you are full of opi

【原文】
 Thanks to your daddy, my brother and I grew up on our own. <eos>
【原文】
 多谢你的爸爸,我和我弟弟能自力更生。 
【机器翻译】
多谢你爸爸,我我我我我我们我们我们的自己。 

【原文】
 I think you should be gentle with me. You gonna kill me? <eos>
【原文】
 我觉得你应该对我温柔点。你打算杀了我? 
【机器翻译】
我觉得你应该和我一起。你会杀我? 

【原文】
 I've been in St Peters burg for the christening of a granddaughter. <eos>
【原文】
 我去圣彼得堡参加一个孙女的洗礼。 
【机器翻译】
我在圣诞老师里买了一直在在一起。 

【原文】
 So the sooner you can get back to us with your final revisions, the better. <eos>
【原文】
 所以你最好尽快写好最终版回来找我们。 
【机器翻译】
所以你可以回到我们最后的最后一次。 

【原文】
 Focus, dude. Ease of communication is one of my four pillars of - <eos>
【原文】
 别走神,伙计。轻松对话是我四大优点之一 - 
【机器翻译】
注意力,,,。通讯是我四个四个的- 

【原文】
 Want to make me feel better? I do. What do you want, pal? <eos>
【原文】
 想让我好过点?对。你要什么,朋友? 
【机器翻译】
我要让我感觉好吗?我想要什么?你想要什么? 

【原文】
 I know a place where a man's worth is measured <eos>
【原文】
 我知道个地方评价人的价值 
【机器翻译】
我知道一个人方法的人方法 

【原文】
 How can you sit there and accuse me of being involved in all this? <eos>
【原文】
 你凭什么坐在那指控我参与了绑架? 
【机器翻译】
你们为什么在这里

【原文】
 Always day two to look forward to. <eos>
【原文】
 不过,海选还有第二天还有盼头当然。 
【机器翻译】
每天都会想着你们。 

【原文】
 She knows you're vulnerable, and she pulled a number on you. <eos>
【原文】
 她知道了你的弱点,她压了一把在你身上。 
【机器翻译】
她知道你肯定是脆弱,她也把你给你。 

【原文】
 If you can't take her, maybe you can't take me. <eos>
【原文】
 如果你不能接受她,你可能也无法接受我。 
【机器翻译】
如果你不能带她,也许你不能我我。 

【原文】
 I swear to God, I'll tell the whole goddamn world what you've done. <eos>
【原文】
 我对天发誓,我会告诉他妈的全世界你做过了什么事。 
【机器翻译】
我向上帝发誓,我会告诉你你做的事。 

【原文】
 I never longed for Sibella as much as when I was with Edith. <eos>
【原文】
 但我从没有渴望过茜贝拉当我和艾迪丝在一起的时候。 
【机器翻译】
我从来没有过跟埃斯斯的时候我从没有过过。 

【原文】
 I don't want them to be scared of me or, or frightened. <eos>
【原文】
 我不想让他们害怕,或是对我感到畏惧。 
【机器翻译】
我不想让他害怕我或怕害怕。 

【原文】
 We don't have a hope of winning if you're out of work. <eos>
【原文】
 如果你没工作我们就没机会得到监护权。 
【机器翻译】
如果你不能工作我们就不能希望你们能赢得你们。 

【原文】
 Willows: he got more than 17 and less than 23. <eos>
【原文】
 一边超过了17分另一边不到23分。 
【机器翻译】
沃威威斯:他比17岁,27岁。 

【原文】
 Pretty soon I'd be stuck working the d

【原文】
 I'm sure I got him. He had a green turban on. <eos>
【原文】
 我肯定打死他了。那人戴着绿色穆斯林头巾。 
【机器翻译】
我肯定我抓到他了。他有了一个绿色。 

【原文】
 I thought we could go sew some soccer balls together. <eos>
【原文】
 我们可以一起去缝足球了。 
【机器翻译】
我以为我们可以去看一些球球。 

【原文】
 We're gonna be there in half an hour. - perfect. <eos>
【原文】
 我们半小时会到。- 很好。 
【机器翻译】
我们会半小时后就会来。- 完美。 

【原文】
 But if I find you have grown too proud I will be sad and displeased. <eos>
【原文】
 但如果你长成不可一世的样子我会很伤心难过。 
【机器翻译】
但如果我发现你有我我有骄傲的话,我会很难以。 

【原文】
 Our patient's unhappy because she's suffering from an intestinal blockage. <eos>
【原文】
 我们的病人不开心是由于肠梗带来了不适。 
【机器翻译】
我们的病人不不是因为她因为她感受到了肠的的。 

【原文】
 At night you can sleep soundly on one of the two delightful queen beds provided. <eos>
【原文】
 这间客房配备两张舒适的大床,您能在任意一张床上熟睡一夜。 
【机器翻译】
在晚上睡觉,你可以睡觉到一张大床的大床。 

【原文】
 Which leaves me no chance to prove any of this. <eos>
【原文】
 我也没有机会证明了。 
【机器翻译】
我哪里没有任何人能证明任何事。 

【原文】
 Since you paged me, I didn't want to keep you waiting. <eos>
【原文】
 因为你呼叫了我,我不想让你久等 
【机器翻译】
从你以前我就是你我不想让你等着你。 

【原

每天都有一天,你们每天都在一起。 

【原文】
 You talk about life as if it had some deeper significance! <eos>
【原文】
 你口中的人生仿佛有更深层内涵似的! 
【机器翻译】
你说的是有些人不是有人说话就是有些人说的话! 

【原文】
 You think we'll be able to take it out of the water? <eos>
【原文】
 你觉得我们还能把尖塔拉出水面吗? 
【机器翻译】
你觉得我们能把它拿出水吗? 

【原文】
 Why don't we have two sexy women mud - wrestling? <eos>
【原文】
 为什么我们不让两个穿着性感的女人在泥巴里摔跤呢? 
【机器翻译】
为什么我们不不有两个性恋的女人? 

【原文】
 I know your legs are short, but you can do it. <eos>
【原文】
 我知道你的腿短,但你能行的。 
【机器翻译】
我知道你的腿很短,但是你能做到。 

【原文】
 I don't care. I have to get him out. If he runs, it's on me. <eos>
【原文】
 我不管。我一定要救他。如果他跑了,就算我的。 
【机器翻译】
我不管。我必须把他弄出来。如果他跑了,就是我我。 

【原文】
 So as I was saying, now that I'm in charge <eos>
【原文】
 所以就像我刚才说的,我现在是队长 
【机器翻译】
所以我在说,我在在我在掌握 

【原文】
 Four documents. These first two are common stock purchase agreements, <eos>
【原文】
 四份文件头。两份是股份收购协议, 
【机器翻译】
四分钟文件。这两个是商店的购买, 

【原文】
 I'd kick your ass for thinking you had anything to do with her. <eos>
【原文】
 你再说她跟你有关系我就揍得你满地找牙。 
【机器翻译】
我也会想你你你你你她做她的。 

【原文】
 Yeah. Gosh

【原文】
 Both times I went into remission, and both times the cancer came back. <eos>
【原文】
 两次都成功清除了癌细胞,但是两次都复发了。 
【机器翻译】
我都回忆了两次都会回忆了,两次都会回忆。 

【原文】
 I just don't want to see you waste your time. <eos>
【原文】
 只是不想看你浪费时间罢了。 
【机器翻译】
我不想让你浪费时间浪费。 

【原文】
 They wouldn't have brought this upon themselves if that's what you're thinking. <eos>
【原文】
 如果事情如你们所想的那样他们就不会有这样的反应了。 
【机器翻译】
如果你想这样的话就不会把他们的。 

【原文】
 Hey, don't use vulgar language when you talk about her. <eos>
【原文】
 嘿,你谈到她的时候别用脏字。 
【机器翻译】
嘿,别说话语言你说她不要说话。 

【原文】
 However, I can offer no tangible evidence on his behalf. <eos>
【原文】
 但,我还没有找到任何对他有利的确凿证据。 
【机器翻译】
但是我可不能把他的证据证据据。 

【原文】
 Hey, yo, Krista the barista, put it on my account... <eos>
【原文】
 嗨,克里斯特,算我帐上…… 
【机器翻译】
嘿,你,,基斯坦,我我的帐篷,把它的账户上…… 

【原文】
 I don't think so. - no, you're not a slut. <eos>
【原文】
 我没有这样想。- 不,你不是荡妇。 
【机器翻译】
我不想这么想- 不,你不是个疯狂。 

【原文】
 Sir, we were lucky that you were here last night. <eos>
【原文】
 大侠,幸亏昨晚有你在。 
【机器翻译】
先生,昨晚我们幸运你们在这儿。 

【原文】
 Where I come from it don't pay 

当他们同意我的时候,我我的握握,变化, 

【原文】
 Who doesn't wanna lose any more stuff to civil war. <eos>
【原文】
 世界卫生组织不想让医生在那儿的内战中丢掉性命。 
【机器翻译】
他不想再失去战争的战争。 

【原文】
 Which means he has experience with weapons and night - vision optics. <eos>
【原文】
 所以他知道如何使用武器和夜视镜。 
【机器翻译】
他是说他和晚上有经验的。 

【原文】
 I mean, if my show does not make people vomit and have an erection at the same time, <eos>
【原文】
 如果我的表演不会让人呕吐同时也会勃起。 
【机器翻译】
我是说,如果我的表演不会让人人人, 

【原文】
 So you think something else might have been put in the mouth. <eos>
【原文】
 你认为还有些其它的东西应该被塞在嘴中。 
【机器翻译】
所以你认为有些可能会在嘴里里。 

【原文】
 hey, sweetie, you want to do the dirty laundry with me tonight? <eos>
【原文】
 嘿,亲爱的,今晚想跟我洗衣服吗? 
【机器翻译】
嘿,甜心,今晚你想我我我吗? 

【原文】
 You have to look in my eyes, or it's seven years bad luck. <eos>
【原文】
 你得看着我的眼睛,不然会倒霉七年。 
【机器翻译】
你得看看我的眼睛,还是7岁了。 

【原文】
 He had to pull away for his own well - being. <eos>
【原文】
 他不得不停下来以自保。 
【机器翻译】
他必须为自己的得不了。 

【原文】
 What you say? - a miracle, our meeting like this <eos>
【原文】
 你说什么?- 我们如此相遇,像个奇迹 
【机器翻译】
你说什么?- 奇迹,我们的会议 

【

在飞机的速度飞机,速度飞机,四川,雅虎雅虎。 

【原文】
 You do that and you tell him to call me. <eos>
【原文】
 必须找到他记得让他给我回电话。 
【机器翻译】
你要打电话给我打电话给我。 

【原文】
 I've noticed this black van parked outside the house every day. <eos>
【原文】
 我注意到有辆黑色的车每天都停在房子外面。 
【机器翻译】
我今天都注意到这个黑黑的车园。 

【原文】
 Just so you know, I was here for you, not for them. <eos>
【原文】
 你要知道,我来这里是为了你,不是为了他们。 
【机器翻译】
只是你知道,我为你知道,我在这里,不是他们。 

【原文】
 That lets us know if the food is going to over - mutate. <eos>
【原文】
 如果食物超负荷生产会及时通知我们。 
【机器翻译】
如果我们知道食物会有什么要动物。 

【原文】
 You just read that report? Took you this long to steal our secrets? <eos>
【原文】
 你刚读完那份报告?你们花那么多时间来偷我们的秘密? 
【机器翻译】
你刚才看过报告??把你偷偷偷偷我们的秘密吗? 

【原文】
 Do you want mom to come and visit you in the Nick? <eos>
【原文】
 你想让你妈妈来这里看到你的混账样么? 
【机器翻译】
你想让我妈妈去看你吗? 

【原文】
 You have to be in the bar in 24 hours. <eos>
【原文】
 你得在后台呆上一整天了。 
【机器翻译】
你得须在24小时内里。 

【原文】
 Stop in Tehachapi and let our friendly staff make your stay a pleasant one. <eos>
【原文】
 留在特哈查比吧,让我们友好的员工助您度过愉快的一天。 
【机器翻译】
在住在我住在我店,让我们的朋友们让我们的友愉快。 


如果你不让我看起来比海, 

【原文】
 So it's your turn for a show of good faith. <eos>
【原文】
 你该向我表示出你的诚意。 
【机器翻译】
所以你的转变成为了一个好的。 

【原文】
 From the moment you people stole me to the moment I escaped. <eos>
【原文】
 从你们偷走我的那一刻到我逃走的那一刻。 
【机器翻译】
从你们的到我的时刻偷走我的时候。 

【原文】
 You threatened a resident. You used an Alzheimer's patient as hostage. <eos>
【原文】
 你威胁住客。用一个老年痴呆患者作为人质。 
【机器翻译】
你威胁了一个居民。你以前用一个阿勒斯的病人。 

【原文】
 His brother carried him almost a mile to get help. <eos>
【原文】
 他哥哥背了他一英里才找到帮助。 
【机器翻译】
他哥哥的他几乎有一个帮助。 

【原文】
 Oh,he would have given you a good tip <eos>
【原文】
 他或者会给好多贴士 
【机器翻译】
哦,他会给你一个好的 

【原文】
 But your cancer couldn't have come at a better time. <eos>
【原文】
 你得癌症的时机真是太巧了。 
【机器翻译】
但是你的癌症不能再来。 

【原文】
 Hey, come on, now. I didn't do anything! <eos>
【原文】
 别这样,我没有。我什么都没做! 
【机器翻译】
嘿,快点,现在我没什么都没做! 

【原文】
 I was thinking about getting into that line of work. <eos>
【原文】
 我在想能否进入到那个工作中。 
【机器翻译】
我正在考虑到那个工作。 

【原文】
 We now know they are about the same age as the rocks at the bottom of the grand Canyon, <eos>
【原文】

【机器翻译】
但是我们先做你你做的。 

【原文】
 Yes, sure. We have different kinds of sunglasses. Prescription-lens could be ordered, too. It takes just a few days. <eos>
【原文】
 有啊,我们有各式的太阳镜。有度数的也可以定做。几天后便可领取。 
【机器翻译】
是的,我们有些不同的的。。 也有一种。。 

【原文】
 I arranged a job interview for him, bought him a new suit - smarten him up. <eos>
【原文】
 我安排了一个面试,给他买了西装 - 给他打扮。 
【机器翻译】
我给他一个工作,他给他一个新的工作,他给他买了一个新的。 

【原文】
 Visitors to the Strong Children's Hospital enjoy our spacious rooms. <eos>
【原文】
 到斯特朗儿童医院的客人喜欢我们的宽敞客房。 
【机器翻译】
客人们客房的客人的房间里的我们宽敞的房间。 

【原文】
 The sailor's body was cremated, but not before they cut off his hand to make a hand of glory. <eos>
【原文】
 他的尸体被火化了,但之前他的右手被砍掉制成了荣耀之手。 
【机器翻译】
他的手机是被人造成了,但是却不是手放手。 

【原文】
 He was moving money from our personal accounts off shore somewhere untraceable. <eos>
【原文】
 他正不留痕迹地从个人海外账户转移钱。 
【机器翻译】
他在我们的人们的钱的里的不过钱。 

【原文】
 Make it easy for him. All you've done is make it hard. <eos>
【原文】
 原谅他吧。因为你实在伤他太深了。 
【机器翻译】
他让他做的。你做了。你做了。 

【原文】
 I can even take you to the gun, if you want. Wh

你得停止血血!- 你在这干嘛? 

【原文】
 don't worry about it. You guys will be home for lunch. <eos>
【原文】
 别担心。午餐时分你们会返回的。 
【机器翻译】
别担心。你们们们们们会午饭。 

【原文】
 We'll just take him away with us, back to our planet, <eos>
【原文】
 我们只是想带他回我们的星球, 
【机器翻译】
我们会把他带走我们,回到星球上, 

【原文】
 don't worry, you can pay me when it's a hit. <eos>
【原文】
 别担心,你可以等歌走红了再付我工资。 
【机器翻译】
别担心,你可以付我我的时候。 

【原文】
 It's like an orange made love to a plum. Would you like some? <eos>
【原文】
 像橘子和李子的结合。想来点么? 
【机器翻译】
就像个橙色的样子。你想喜欢吗? 

【原文】
 All you have to do is run it under the hot water tap. <eos>
【原文】
 你只需在热水管下冲一冲就好。 
【机器翻译】
你只要做的就是在水里。 

【原文】
 No, it's very good. They have to argue to see who wins. <eos>
【原文】
 不,这样很好。他们得争出个高下。 
【机器翻译】
不,这是很好。他们必须争论。 

【原文】
 Using the free Wi-Fi, you can immediately access the Internet. <eos>
【原文】
 您还可以通过我们的免费Wi-Fi,快速进入互联网。 
【机器翻译】
利用免费Wiiii-Fiiiiiiiii- iiiiii,您可以通过网络上网络。 

【原文】
 Earlier tonight, the judges rewarded this next couple's waltz a 26. <eos>
【原文】
 今晚上半场,裁判们为下一对的华尔兹打了26分。 
【机器翻译】
今晚早期,,这些评委员会会到这个2个月的26岁的

我不能去我的老婆,我我的150元的 

【原文】
 I dropped him off at his place at around 8:30. <eos>
【原文】
 我在8:30左右送他到家。 
【机器翻译】
我在下午他他他他他的了。 

【原文】
 We can insert a small tube in the baby's bladder <eos>
【原文】
 我们可以塞根细管到婴儿的膀胱 
【机器翻译】
我们可以在小孩子的膀胱小孩子的 

【原文】
 Hey, honey, you've got to really... You should get ready, okay? <eos>
【原文】
 嘿,亲爱的,你真的要…… 你得准备好了? 
【机器翻译】
嘿,亲爱的,你真的... 你应该准备好了,好吗? 

【原文】
 Downstairs, I use what you tell me to make sure you function properly. <eos>
【原文】
 在楼下,我用这身份来确认你是否运转正常。 
【机器翻译】
下楼楼,我我你你告诉我你你能够功能的。 

【原文】
 I know a little about a lot. You seem to know a lot about this. <eos>
【原文】
 我对某些事情懂一些。你好像很懂赌博。 
【机器翻译】
我知道这很多事情。你知道这多事。你知道这多事。 

【原文】
 You did tell them he attacked you? Oh, what I would give <eos>
【原文】
 你也说了遭袭的事?哦我告诉他们一切 
【机器翻译】
你跟他打了你?? 

【原文】
 Just in case you're thinking of making a life change. <eos>
【原文】
 如果你想改变现在的生活。 
【机器翻译】
只是想想你生活变化。 

【原文】
 I can get satellite and comm back up. I just need to finish tapping into that trunk line. <eos>
【原文】
 我能恢复卫星和通讯。只要让我接入干线就行了。 
【机器翻译】


【原文】
 I've lived in a place like this, hiding from assassins for 14 years. <eos>
【原文】
 为了躲避刺杀,我在这个地方呆了整整14年。 
【机器翻译】
我从这住在这里住在这里14年的14岁的孩子。 

【原文】
 He was sitting right there when I came out to get you. <eos>
【原文】
 我出去找你的时候他就坐在那。 
【机器翻译】
他当时我出来时候就坐在那里。 

【原文】
 Business travelers will also appreciate the convenience of this Edinburgh hotel. <eos>
【原文】
 商务人士也会喜欢上这间爱丁堡酒店的实惠。 
【机器翻译】
商务旅客旅行的旅客人士,也许您能够欣赏这个埃尔堡酒店的酒店。 

【原文】
 You need to leave open the possibility of a stretch - mark fetishist. <eos>
【原文】
 你得给那些妊娠纹纹控们留些机会。 
【机器翻译】
你得须开开一个的能力的 

【原文】
 It has no place in your future, nor in mine. <eos>
【原文】
 对你的将来我的将来都没有影响。 
【机器翻译】
你没有在未来的未来的未来,我也没有。 

【原文】
 We've got one at three o'clock. - on the ground, got four. <eos>
【原文】
 三点钟方向发现目标。- 地面上,发现四个目标。 
【机器翻译】
我们三个钟后有一个。 

【原文】
 I have a prime time speech at the convention <eos>
【原文】
 我在代表大会上也还有黄金的发言时间 
【机器翻译】
我在说,时候我有一个在 

【原文】
 Your uncle will teach you when he comes back. He can wait. Go to your mother. <eos>
【原文】
 你叔叔回来后会教你的。他可以等一等。去你妈那。 
【机器

【原文】
 To dump her husband and fall in love with you all over again. <eos>
【原文】
 与你重归于好这种高难度计划。 
【机器翻译】
把她丈夫丢下了,然后再爱你你。 

【原文】
 Well, our friend... Did he have a woman with him? <eos>
【原文】
 呃,是我们朋友…… 他又带个女人同行吗? 
【机器翻译】
我们的朋友... 他有人跟踪他? 

【原文】
 Right, 'cause you don't wanna walk around with that kind of cabbage. <eos>
【原文】
 对你也不想拿着那些玩意到处走。 
【机器翻译】
好吧,因为你不想和那个混蛋的混蛋。 

【原文】
 This is exactly how I was replaced in the Brit Boyz. <eos>
【原文】
 我在英国男孩时也是这样被取代的。 
【机器翻译】
我就是这里的布莱兹的。 

【原文】
 Why are you talking to me like a mom? I thought we were best friends now. <eos>
【原文】
 为什么要像老妈一样跟我说话?我以为现在我们是好朋友了。 
【机器翻译】
为什么你和我妈说我我妈妈?我以为我们是最好的朋友。 

【原文】
 Um, that cop - he said that you told the police <eos>
【原文】
 呃,那警察说你告诉警方 
【机器翻译】
嗯,警察警察说你告诉警察 

【原文】
 From ta's pub to compete for the national collegiate championship! <eos>
【原文】
 去参加全国学院冠军赛! 
【机器翻译】
从国际上冠军的国际冠军冠军冠军! 

【原文】
 If you forget everything l will pop up out of nowhere. <eos>
【原文】
 如果你忘了一切的话,我什么地方都不会去了。 
【机器翻译】
如果你忘掉我会会会的东西都会放弃。 

【原文】
 Gentlemen, t

【原文】
 I ask you here tonight because I need your help. <eos>
【原文】
 我今晚叫你来这里,是因为我需要你的帮助。 
【机器翻译】
我今晚要求你今晚我请你你今晚我需要你帮助。 

【原文】
 We just think it's time you tried being your own boss, okay? <eos>
【原文】
 我们只是觉得是时候你来自己做老板,好吗? 
【机器翻译】
我们只是觉得你是时候你是自己的老板,好吗? 

【原文】
 There's no way they'd line five felons in the same row. <eos>
【原文】
 他们不会同时把五个罪犯放在一起。 
【机器翻译】
他们不会在同一个人在同样的五个人。 

【原文】
 We'll give you what help we can from our end, but right now - <eos>
【原文】
 我们会尽力帮你,但是现在 - 
【机器翻译】
我们会帮你们能帮我们的结果,但现在 

【原文】
 Mr. President, the change must make you quite emotional, sir. <eos>
【原文】
 总统先生,这种变化一定让您感慨万千,先生。 
【机器翻译】
总统先生,先生,生变得你的生活,先生。 

【原文】
 don't be silly, come and sit with us. We get slippers! <eos>
【原文】
 别傻了,快过来坐。我们有拖鞋! 
【机器翻译】
别傻,,我们走!我们去! 

【原文】
 She found that frog and we wouldn't let her keep it and she got that really stubborn little - <eos>
【原文】
 她找到一个青蛙,而我们不让她保留时她那倔强的 - 
【机器翻译】
她发现我们不会让她留下那个的蛙子而且她也不会让她的生气 - 

【原文】
 If I need him, I have only to touch the words on that tablet. <eos>
【原文】
 如果我需要

她离开了电话号码,说她是中心 

【原文】
 I think he's supposed to discuss the balance sheet with the Committee. <eos>
【原文】
 他应该是去基金会做财务报告。 
【机器翻译】
我觉得他应该和委员会谈判委员会。 

【原文】
 He wrote about his studies in a 2015 article in The “Player's Tribune”. <eos>
【原文】
 2015年,他在《球员论坛报》的一篇文章中提及自己的研究。 
【机器翻译】
他在在2010年1月15年的研究中心的研究。 

【原文】
 You can't be tired of it already - it's just getting started. <eos>
【原文】
 你别嫌烦-这才刚开始呢。 
【机器翻译】
你已经厌倦了了- 就是始了 

【原文】
 And if he dies, I want you there for that, too, because you're responsible. <eos>
【原文】
 如果他死了,你也得在因为是你的责任。 
【机器翻译】
如果他死了,我也希望你能帮你你那个责任。 

【原文】
 In that situation, a sniper shot would have been ideal. <eos>
【原文】
 在那种情况下,让狙击手开枪应该是最理想的选择。 
【机器翻译】
在那种情况下,狙击机会枪射枪的枪击。 

【原文】
 It's all done through a hotline of nerves that link this master clock, <eos>
【原文】
 它经由连接生理时钟的神经热线进行调整, 
【机器翻译】
它的直接触了一个的的的的的, 

【原文】
 I used to know him a little. Played hockey with the boy. <eos>
【原文】
 我以前算认识他。我们一起玩过曲棍球。 
【机器翻译】
我以前也知道他是个小子。玩耍。 

【原文】
 And he had fought with the infantry regiments in Fl

我不想为那个女人疯狂的疯子。 

【原文】
 But I see a cute girl sharing a room with three boys <eos>
【原文】
 但我看到一个漂亮姑娘和其他3个男人同居一室 
【机器翻译】
但我看到一个个女孩子的一个孩子 

【原文】
 Uh, I - I also would like to say a few words. <eos>
【原文】
 呃,我-我也有几句话想讲。 
【机器翻译】
呃,我- 我也想说几句话。 

【原文】
 I'm researching an article about women who have sex like men. <eos>
【原文】
 我在研究关于女人能跟男人一样,只要性的题材。 
【机器翻译】
我正在研究一个人男性的男性的人。 

【原文】
 But, in the meantime, we've had to keep her restrained. <eos>
【原文】
 但,同时,我们不得不把她绑起来。 
【机器翻译】
但是,在我们必须继续保持她。 

【原文】
 But if you force me to spend time with someone you will probably push me to that. <eos>
【原文】
 但如果我被迫要和他在一起那就是逼我爆发。 
【机器翻译】
但是如果你迫我我花你时间,你会让我我这么做。 

【原文】
 Every time I get home, it's this. I'm sick of all the yelling. <eos>
【原文】
 每次我回家,就是这样。我厌烦死大喊大叫了。 
【机器翻译】
每次我回家都回家,这是我我厌倦了。 

【原文】
 But I for one never thought that it would come to this. <eos>
【原文】
 但我从没想过会到这个地步。 
【机器翻译】
但我从来没想过这会这样做。 

【原文】
 Now I have had soldiers go out on notification and break into a stutter. <eos>
【原文】
 我见过太多不堪一击畏手畏脚的战士。 
【机器翻译】
我有

【原文】
 Fits of spatial disorientation, as if the earth had opened under him. <eos>
【原文】
 失去方向感,好像地面在他脚下裂开了。 
【机器翻译】
他的空间的空间,空间的地方,他他们的空间。 

【原文】
 I know it seems hopeless, but you won't always be around to protect him. <eos>
【原文】
 我知道不可能,但你不能总在他身边保护他。 
【机器翻译】
我知道这不是望你们望望,但你总是不会保护他。 

【原文】
 The number of UN - robbed banks that fit the acoustic profile <eos>
【原文】
 哪些未被抢劫银行符合 
【机器翻译】
数据库行动员的银行 

【原文】
 In the next year that's - that next southern group starts <eos>
【原文】
 在接下来的一年中 - 这个南方族群 
【机器翻译】
下年的时候,那个的下一个 

【原文】
 Why wasn't Goten arrested if you had him under surveillance? <eos>
【原文】
 如果戈顿在你的监视下,那你为什么不逮捕他? 
【机器翻译】
为什么你不会被监视他的监视? 

【原文】
 No matter how well you think you know the odd <eos>
【原文】
 无论你对情况预计的多么透彻 
【机器翻译】
无论你怎么知道你知道 

【原文】
 You are looking a little flushed. Do you want me to...? <eos>
【原文】
 你好像有点脸红。需不需要我来……? 
【机器翻译】
你想要点点。你想让我... ? 

【原文】
 It's quite amazing, it's really complex the way that these defences are integrated in the one gate. <eos>
【原文】
 它相当惊人,它已非常复杂的方法将这些防御工事组合成一个

【原文】
 Allahu Akbar, Allahu Akbar. Why are we on the same bus? <eos>
【原文】
 万能的阿拉,万能的阿拉。我们为什么在同一辆巴士上? 
【机器翻译】
阿拉伯阿阿拉伯阿拉伯,我们在车上车上? 

【原文】
 If somebody did introduce that stuff through the filtration system, it would've taken hours. <eos>
【原文】
 如果有人想把东西倒进过滤系统,那得要好几个小时。 
【机器翻译】
如果有人进入了系统的话,那么就会花了几个小时。 

【原文】
 Was that on one side the loop looked like it was corroded. <eos>
【原文】
 它一侧的环看起来像是被侵蚀了。 
【机器翻译】
当时正在看起来像是是个人。 

【原文】
 I can win because I have more ambition and more motivation <eos>
【原文】
 因为我很有野心也很有动力 
【机器翻译】
我可以赢得因为我有更多的动力 

【原文】
 He was in the mob, but yet he wanted you to be a hero. <eos>
【原文】
 他是个匪帮,却想让你当英雄。 
【机器翻译】
他是在他里,但是但是他想让你成为英雄。 

【原文】
 He hates your career because of mom. Mom had a singer songwriter friend. <eos>
【原文】
 他不想你成为歌手是因为妈妈。她有个朋友是创作歌手。 
【机器翻译】
他为你妈妈妈妈因为妈妈妈妈。妈妈。妈妈。 

【原文】
 So the way to play this game is to equalize the piles. <eos>
【原文】
 所以玩这个游戏就是要把两组个数变得相等。 
【机器翻译】
所以这样游戏就是这样的。 

【原文】
 The tiffin wallahs carry the lunches across a busy road to be sorted. <eos>
【原文

【原文】
 You know, I'm looking for somebody to fill the position. Maybe you'd like to apply. <eos>
【原文】
 你知道,我正在物色人选你意向如何。也许你想申请。 
【机器翻译】
你知道,我在找找找人。。可能你你你你会喜欢申请。 

【原文】
 She gets money from her husband. She'd think I couldn't afford it. <eos>
【原文】
 因为她的钱是她的丈夫给她的。不然她会认为单凭我买不起这房子。 
【机器翻译】
她从她丈夫她的丈夫。她会得我不能。 

【原文】
 Know how lonely sung - Joon was because of you? <eos>
【原文】
 你知道,成俊因为你有多寂寞吗? 
【机器翻译】
你知道你有多久多久? 

【原文】
 Huge things that can turn the most ordinary person into a killer. <eos>
【原文】
 却很重要的因素能将一个普通人变成凶手。 
【机器翻译】
巨大的巨大的东西能够把最令人的杀手机。 

【原文】
 There's nothing you can do except give it to me. <eos>
【原文】
 你还是乖乖把枪交给我吧。 
【机器翻译】
你没有什么都没法给我。 

【原文】
 I used to watch the marsh warblers swooping in my mothers undercroft, <eos>
【原文】
 我经常眼见沼泽鸣鸟飞扑入我母亲的地穴, 
【机器翻译】
我以前看着我穿着穿着我穿着的母亲的衣服, 

【原文】
 Get on the plane when you get off work. You fly for free. <eos>
【原文】
 下了班,就搭免费飞机来。 
【机器翻译】
在工作机上,飞机。 你免费自由。 

【原文】
 I don't want you to have any excuses when you lose this game. <eos>
【原文】
 我不想你到时候输了又找这种借口。 
【机

【原文】
 I was happy I delivered and gave them a good shot. <eos>
【原文】
 很高兴我完成了工作并且表现不错。 
【机器翻译】
我高兴我送到了他们的好的。 

【原文】
 So I'm sure you won't mind if his opinion is admitted now. <eos>
【原文】
 所以应该不介意我们暂时认可其观点。 
【机器翻译】
所以我不知道你不会介意他的意见。 

【原文】
 No need to pass on some of the comforts of home just because you are traveling. <eos>
【原文】
 无需因为您在旅途中就让自己的舒适性打折。 
【机器翻译】
因为你旅行不需要你们在旅行的。 

【原文】
 With all those defrauded clients, he's looking at identity theft times a thousand. <eos>
【原文】
 有这么多被诈骗的客户,他得面对上千项身份窃取的指控。 
【机器翻译】
他有些客户的客户,他在看着他看着他的时间。 

【原文】
 For 25 years from the time I came to Washington as a freshman congressman. <eos>
【原文】
 从我刚作为国会议员的25年来。 
【机器翻译】
我们25岁的时候我到华盛顿的 

【原文】
 Enjoy the views from your own private balcony in our deluxe non-smoking suite with two queen beds. <eos>
【原文】
 在我们的豪华无烟套房内,您可以在独立的阳台上欣赏美景,室内设有两张大床。 
【机器翻译】
您们的无烟客房内容您的我们的享受您的豪华的松的松的松。 

【原文】
 I'd never have made the leap. That was quite something. <eos>
【原文】
 我不可能打开缺口的。真了不起。 
【机器翻译】
我从没有过过这种。那么做。 

【原文】
 The longer I stay

【原文】
 I can't wait to check this place out. - Yeah. <eos>
【原文】
 我要马上到处逛逛- 是啊。 
【机器翻译】
我不能等这个地方去查查这个地方。- 是的。 

【原文】
 But you can only lose it for you, nobody else. <eos>
【原文】
 但你要只为自己而减而不是为别人。 
【机器翻译】
但是你只能给你丢下去,别人人。 

【原文】
 Yeah, don't take somebody out of rehab before the rehab! <eos>
【原文】
 对,别在复健之前将人带离复健! 
【机器翻译】
是的,别人别人在休息前休息! 

【原文】
 Ye - so maybe he asked a guard to take the gun and the cell phone if you did. <eos>
【原文】
 所以也许他告诉保安一旦你杀了他就拿走枪和手机。 
【机器翻译】
如果他问了你个人,请拿枪枪手机,打电话给他。 

【原文】
 You're awfully confident for someone who's got no cards left to play. <eos>
【原文】
 对于一个无牌可出的人你也太自信了。 
【机器翻译】
你对于有人不会的人的人不会有人的的人。 

【原文】
 Both black men. Both times he was cleared, but only just. <eos>
【原文】
 两次他射的都是黑人两次他都无罪,但都是差一点。 
【机器翻译】
两个男人都黑人都清楚了,他他都清醒了。 

【原文】
 You and me ain't never gonna happen - never! Ya hear me?! <eos>
【原文】
 你跟我永远没戏--- 永远!听见了没?! 
【机器翻译】
你没有永远不会发生的!听到我? 

【原文】
 If you understood him, you wouldn't subject him to ridicule. <eos>
【原文】
 如果你了解他,你不会嘲笑他。 
【机器翻译】
如果你能解他他,你不会他他他会拒绝他。 



【原文】
 But, Jas, you said boys don't rate girls for funniness. <eos>
【原文】
 但是佳斯你说过男孩们不喜欢女孩搞笑。 
【机器翻译】
但是,杰斯,你说孩子们不不会女孩们不会不会。 

【原文】
 Good, because I think I have someone you just might be interested in. <eos>
【原文】
 很好,因为我觉得我手头有个人你应该会感兴趣的。 
【机器翻译】
很好,因为我觉得你有人有兴趣。 

【原文】
 Yeah, but isn't it bad luck to buy a dress for the victory party before the election? <eos>
【原文】
 但是在竞选结果出来之前就为他的庆功宴买新衣会不会不大好? 
【机器翻译】
是的,但是,但是没有么对选举的选举的选举? 

【原文】
 If I don't, Neither of us will ever speak again <eos>
【原文】
 如果我不说,我们两个以后就不能再说话了 
【机器翻译】
如果我不不会,我们会不会再说话 

【原文】
 What do you mean they don't know what wrong with it? <eos>
【原文】
 什么叫他们也不清楚咋回事? 
【机器翻译】
你什么意思是他们不知道怎么办? 

【原文】
 For this round, you must bounce the ball on the drum, over a series of obstacles. <eos>
【原文】
 在这一轮里,你们要用鼓弹球突破系列障碍。 
【机器翻译】
你必须把这个轮,你必须绕上一个。 

【原文】
 You know, if you watched the local news like a normal person, <eos>
【原文】
 你知道,如果你像正常人一样看本地新闻, 
【机器翻译】
你知道,如果你看着当地的新闻的正常人, 

【原文】
 I mean, come on, baby. We are living the dream. <eos>
【原文】
 我是说,

哦,噢,不。你们回到同一个人 

【原文】
 But I need to get my father off my back. <eos>
【原文】
 但得先打发掉我父亲。 
【机器翻译】
但我得把我爸爸回来。 

【原文】
 We may have passion but passion does not win wars! <eos>
【原文】
 我们虽有激情但空有激情是打不赢战争的! 
【机器翻译】
我们可能会热情但是不过,但是我们可能会激情! 

【原文】
 Take Highway 151 to Dodgeville Exit 47 Highway 18 then go north one mile to John's Street. <eos>
【原文】
 沿151号高速公路到达道奇维尔,从47号出口退出到达18号高速公路,再往北走一英里到达约翰街。 
【机器翻译】
沿着15号公路向北驶向北驶向北驶向驶驶向北驶驶向北驶向驶驶驶驶驶驶驶驶驶驶驶驶驶驶驶驶。驶。驶。驶。驶。驶。驶。驶。驶。驶。驶。驶。驶。驶。驶。驶。驶。驶。驶。驶。驶。驶。驶。驶。驶。驶。 

【原文】
 By the 1 300s, the Templars had grown too powerful. <eos>
【原文】
 到了十三世纪武士团的势力已经过于壮大。 
【机器翻译】
十十00年代,,庙墓的已经有力量。 

【原文】
 A few months ago, there were two men here taking pictures. <eos>
【原文】
 几月前,两个男人在这拍照。 
【机器翻译】
几个月前,有两个人人照片。 

【原文】
 Do you think he'd sign a copy for me? Um, yes. <eos>
【原文】
 你认为他能否给我签名?恩,是的。 
【机器翻译】
你觉得他会给我找个吗?嗯,是的。 

【原文】
 You guys showed an incredible amount of sophistication in your movement <eos>
【原文】
 你们的舞步中表现出了难以置信的成熟 
【机器翻译】
你们出现了一个的的的的的的 

【原文】
 Nice. That's what I'm talkin

你想说什么?你想想个?想打架我??你想打架我? 

【原文】
 There is no way that this thing is gonna fit - <eos>
【原文】
 如果林肯都装不了这个箱子 - 
【机器翻译】
不过,这不能这样的东西- 

【原文】
 He wants no wire mesh and no rabbits. How can we do it? <eos>
【原文】
 他不想要铁丝网和兔子。我们怎么办? 
【机器翻译】
他想不会不会不是不是不是不是我兔子。我们怎么能做到? 

【原文】
 How are you liking working here so far, aside from the misogynistic bits and pieces? <eos>
【原文】
 你对工作还满意吗,除了那些闲言碎语外? 
【机器翻译】
你们这样的工作如何远远,,,远离开这里的? 

【原文】
 Fuck, now they're harassing me with a dying old man. <eos>
【原文】
 他妈的,现在他们让个快死的老头来烦我! 
【机器翻译】
他妈,现在他们我们人一起了一个人。 

【原文】
 If I join them, maybe I can find out who. <eos>
【原文】
 我加入他们,或许就能找出那个叛徒。 
【机器翻译】
如果我能加入他们,也许我能找到谁找到的。 

【原文】
 It's secluded, and I swear nobody can find you there. <eos>
【原文】
 与世隔绝,我发誓不会有人找到你的。 
【机器翻译】
我已经被困扰了,我发现你没人能找到到你。 

【原文】
 But if you're ever in the mood for a crossover, step - back, fade away "J" in your face, <eos>
【原文】
 但如果哪天你有兴致,转身过人,后撤步,后仰跳投, 
【机器翻译】
但是如果你是过你的过你的的话, 

【原文】
 A few years ago, I was hanging out in a gas station bathroom <eos>
【原文】
 几

【原文】
 Who it belongs to, stuff like that. it's mine. No, it's mine... <eos>
【原文】
 两个人在吵那车应该归谁是我的。不,是我的…… 
【机器翻译】
他属于属于属于属于这是我的属于我的。不是,我是我的... 

【原文】
 Was one of the best meals we've had in a long time. <eos>
【原文】
 是这么久以来最美味的。 
【机器翻译】
我们一直很久的时候我们最好的一 

【原文】
 Not with this girl's blood on his hands, he won't. <eos>
【原文】
 但双手沾满女孩的血印的话,那就悬了。 
【机器翻译】
他不是这个女孩的血手,不会。 

【原文】
 I'm going to close my eyes and pretend like I was there. <eos>
【原文】
 我要闭上眼先幻想下自己身临其境。 
【机器翻译】
我要闭眼睛睛后我要闭我眼睛。 

【原文】
 Extortion? Not even you would sink that low. Sure I would. <eos>
【原文】
 敲诈?就算你也不会下作到这种程度吧。我当然会。 
【机器翻译】
出口??不是你会那么做。我会的。 

【原文】
 I'd heard the price of eggs was going up, but isn't that a little high? <eos>
【原文】
 我听说珠宝蛋的价格已飚涨,但这不是贵了一点吗? 
【机器翻译】
我就会听到那些鸡蛋的鸡蛋,但是不是是个小高? 

【原文】
 I can hear your thoughts. Yes, and I can hear yours. <eos>
【原文】
 我可以听到你的想法。是的,我也可以听到你的。 
【机器翻译】
我能听到你的思想。听到你的思想。听到了。 

【原文】
 I don't take orders from you! I take orders from Saddam Hussain. <eos>
【原文】
 我不听从你的命令!我听从的是萨达姆•侯赛因的命令。 
【机器翻译】
我

## 6.2test1 5个较低分数的翻译结果对比

In [37]:
import heapq
result = map(score_store.index, heapq.nsmallest(5, score_store))
for r in result:
    print("bleu得分：",score_store[r])
    en_tokens = list(filter(lambda x: x!=0, test1_en_num_data[r]))  # 过滤零
    ch_tokens = list(filter(lambda x: x!=3 and x!=0, test1_ch_num_data[r]))  # 和机器翻译作对照
    sentence = [id2en[t] for t in en_tokens]
    print("【原文】")
    print("".join(sentence))
    translation = [id2ch[t] for t in ch_tokens]
    print("【原文】")
    print("".join(translation))
    test_sample = {}
    test_sample["src"] = torch.tensor(en_tokens, dtype=torch.long, device=device).reshape(-1, 1)
    test_sample["src_len"] = [len(en_tokens)]
    print("【机器翻译】")
    print(translate(model, test_sample, id2ch), end="\n\n")
    

bleu得分： 3.9210590692235436e-232
【原文】
 He waited for it to surface through a hole in the ice <eos>
【原文】
 他一直等待看那只海豹从冰面的褒窿钻出来 
【机器翻译】
他在冰冰里面着, 

bleu得分： 4.369817601630177e-232
【原文】
 I was on my way to work, when - bang, bang, bang! <eos>
【原文】
 当时我正在上班路上,突然就听到砰,砰,砰! 
【机器翻译】
我在在我班班班,, 

bleu得分： 5.177746370966683e-232
【原文】
 You did tell them he attacked you? Oh, what I would give <eos>
【原文】
 你也说了遭袭的事?哦我告诉他们一切 
【机器翻译】
你跟他打了你?? 

bleu得分： 5.786230302664252e-232
【原文】
 To go to a tax - free state and end up selling your business <eos>
【原文】
 去一个免税国家结束自己的销售业务 
【机器翻译】
去买税务,免费, 

bleu得分： 6.05006004817715e-232
【原文】
 We have had banquets in the headquarters in these nights <eos>
【原文】
 秘密基地这几天晚上都在办大食会 
【机器翻译】
今晚我们有有有的队 



## 6.3test1 5个较高分数的翻译结果对比

In [38]:
import heapq
result = map(score_store.index, heapq.nlargest(5, score_store))

for r in result:
    print("bleu得分：",score_store[r])
    en_tokens = list(filter(lambda x: x!=0, test1_en_num_data[r]))  # 过滤零
    ch_tokens = list(filter(lambda x: x!=3 and x!=0, test1_ch_num_data[r]))  # 和机器翻译作对照
    sentence = [id2en[t] for t in en_tokens]
    print("【原文】")
    print("".join(sentence))
    translation = [id2ch[t] for t in ch_tokens]
    print("【原文】")
    print("".join(translation))
    test_sample = {}
    test_sample["src"] = torch.tensor(en_tokens, dtype=torch.long, device=device).reshape(-1, 1)
    test_sample["src_len"] = [len(en_tokens)]
    print("【机器翻译】")
    print(translate(model, test_sample, id2ch), end="\n\n")
    

bleu得分： 0.7710792371922995
【原文】
 I'm sorry. I know you're just trying to protect him. <eos>
【原文】
 抱歉。我知道你只是想保护他。 
【机器翻译】
抱歉,我知道你只是想保护他。 

bleu得分： 0.762465858623486
【原文】
 It's because she's your sister and you have a chance to help her. <eos>
【原文】
 因为她是你妹妹你有机会帮她。 
【机器翻译】
因为她是你妹妹而且你有机会帮她。 

bleu得分： 0.7105477917053865
【原文】
 What did you just say? - what did you just say? <eos>
【原文】
 你刚才说什么?-你刚才说什么? 
【机器翻译】
你刚才说什么?- 你刚刚说什么? 

bleu得分： 0.6422727797927412
【原文】
 We can all go out together. No. This is a date. <eos>
【原文】
 我们可以一起去。不,这是约会。 
【机器翻译】
我们可以去一起去。不。这是约会。 

bleu得分： 0.6380018521198061
【原文】
 We have included a microwave, refrigerator, coffee maker, hairdryer and iron. <eos>
【原文】
 我们的客房配备微波炉、冰箱、咖啡机、吹风机和熨斗。 
【机器翻译】
我们配备包括一台微波炉、冰箱、咖啡机、吹风机、吹风机和熨斗。 



## 6.3test2 结果保存

In [39]:
def updateXML():
    domTree = parse("./nmt_dataset4389/test2/test2.en-zh.en.xml")
    # 文档根元素
    rootNode = domTree.documentElement

    segs = rootNode.getElementsByTagName("seg")

    for i in range(len(test2_en_num_data)):
        en_tokens = list(filter(lambda x: x != 0, test2_en_num_data[i]))  # 过滤零
        sentence = [id2en[t] for t in en_tokens]
        # print("【原文】")
        # print("".join(sentence))
        test_sample = {}
        test_sample["src"] = torch.tensor(en_tokens, dtype=torch.long, device=device).reshape(-1, 1)
        test_sample["src_len"] = [len(en_tokens)]
        # print("【机器翻译】")
        temp = translate(model, test_sample, id2ch)
        # print(temp, end = "\n\n")
        segs[i].childNodes[0].data = temp


    with open('updated_customer.xml', 'w') as f:
        # 缩进 - 换行 - 编码
        domTree.writexml(f, addindent='  ', encoding='gb2312')

if __name__ == '__main__':
	updateXML()

# 七、attention对比

## 7.1global attention 与 soft attention 结构完全一样

In [40]:
class Attn(nn.Module):
    def __init__(self, method, hidden_size):
        super(Attn, self).__init__()
        self.method = method
        if self.method not in ['dot', 'general', 'concat']:
            raise ValueError(self.method, "is not an appropriate attention method.")
        self.hidden_size = hidden_size
        if self.method == 'general':
            self.attn = nn.Linear(self.hidden_size, hidden_size)
        elif self.method == 'concat':
            self.attn = nn.Linear(self.hidden_size * 2, hidden_size)
            self.v = nn.Parameter(torch.FloatTensor(hidden_size))

    def dot_score(self, hidden, encoder_output):
        return torch.sum(hidden * encoder_output, dim=2)  # [seq_len, batch]

    def general_score(self, hidden, encoder_output):
        energy = self.attn(encoder_output)  # [seq_len, batch, hid_dim]
        return torch.sum(hidden * energy, dim=2)  # [seq_len, batch]

    def concat_score(self, hidden, encoder_output):
        # hidden.expand(encoder_output.size(0), -1, -1) -> [seq_len, batch, N]
        energy = self.attn(torch.cat((hidden.expand(encoder_output.size(0), -1, -1), encoder_output), 2)).tanh()
        # energy = [sql_len, batch, hidden_size]
        return torch.sum(self.v * energy, dim=2)  # [seq_len, batch]

    def forward(self, hidden, encoder_outputs):
        # hidden = [1, batch,  n_directions * hid_dim]
        # encoder_outputs = [seq_len, batch, hid dim * n directions]
        if self.method == 'general':
            attn_energies = self.general_score(hidden, encoder_outputs)
        elif self.method == 'concat':
            attn_energies = self.concat_score(hidden, encoder_outputs)
        elif self.method == 'dot':
            attn_energies = self.dot_score(hidden, encoder_outputs)

        attn_energies = attn_energies.t()  # [batch, seq_len]
 
        return F.softmax(attn_energies, dim=1).unsqueeze(1)  # softmax归一化# [batch, 1, seq_len]

## 7.2hard attention 

Hard Attention，这种方式是直接精准定位到某个key，其余key就都不管了，相当于这个key的概率是1，其余key的概率全部是0。因此这种对齐方式要求很高，要求一步到位，如果没有正确对齐，会带来很大的影响。另一方面，因为不可导，一般需要用强化学习的方法进行训练。（或者使用gumbel softmax之类的）

## 7.3local attention

In [41]:
class LocalAttn(nn.Module):
    def __init__(self, method, hidden_size):
        super(LocalAttn, self).__init__()
        self.D = 5
        self.window_len = 2 * self.D + 1
        self.method = method
        if self.method not in ['dot', 'general', 'concat']:
            raise ValueError(self.method, "is not an appropriate attention method.")
        self.hidden_size = hidden_size
        self.Wp = nn.Linear(self.hidden_size, hidden_size)
        self.Vp = nn.Parameter(torch.FloatTensor(hidden_size))

        if self.method == 'general':
            self.attn = nn.Linear(self.hidden_size, hidden_size)
        elif self.method == 'concat':
            self.attn = nn.Linear(self.hidden_size, hidden_size)
            self.v = nn.Parameter(torch.FloatTensor(hidden_size))

    def dot_score(self, hidden, encoder_output):
        # hidden.shape =  [1, batch,  n_directions * hid_dim]
        # encoder_output.shape = [seq_len, batch,  n_directions * hid_dim]
        return torch.sum(hidden * encoder_output, dim=2)  # [seq_len, batch]

    def general_score(self, hidden, encoder_output):
        energy = self.attn(encoder_output)  # [seq_len, batch, hid_dim]
        return torch.sum(hidden * energy, dim=2)  # [seq_len, batch]

    def concat_score(self, hidden, encoder_output):
        # hidden.expand(encoder_output.size(0), -1, -1) -> [seq_len, batch, N]
        energy = self.attn(torch.cat((hidden.expand(encoder_output.size(0), -1, -1), encoder_output), 2)).tanh()
        # energy = [sql_len, batch, hidden_size]
        return torch.sum(self.v * energy, dim=2)  # [seq_len, batch]

    def calculate_pt(self,hidden,S):
        # hidden.squeeze(0).shape = [batch,  n_directions * hid_dim]
        # self.Wp(hidden.squeeze(0)).tanh().shape = [batch, hidden_size]
        # self.Wp(hidden.squeeze(0)).tanh()*self.Vp.shape = [batch, hidden_size]
        # torch.sum(self.Wp(hidden.squeeze(0)).tanh()*self.Vp, dim=1).shape = [batch]

        return S * torch.sum(self.Wp(hidden.squeeze(0)).tanh()*self.Vp, dim=1).sigmoid()

    def calculate_exp(self, t, Pt, D):
        # Pt.shape = [batch]
        t = torch.tensor([t] * Pt.shape[0])

        return torch.exp(-(t-Pt)**2/2/((D/2)**2))


    def forward(self, hidden, encoder_outputs,t):
        # hidden = [1, batch,  n_directions * hid_dim]
        # encoder_outputs = [seq_len, batch, hid dim * n directions]
        S = encoder_outputs.shape[0]
        Pt = self.calculate_pt(hidden,S)  # [batch]
        exp = self.calculate_exp(t,Pt,self.D)  # [batch]

        if self.method == 'general':
            attn_energies = self.general_score(hidden, encoder_outputs)
        elif self.method == 'concat':
            attn_energies = self.concat_score(hidden, encoder_outputs)
        elif self.method == 'dot':
            attn_energies = self.dot_score(hidden, encoder_outputs)  # [seq_len,batch]

        attn_energies *= exp

        attn_energies = attn_energies.t()  # [batch, seq_len]

        return F.softmax(attn_energies, dim=1).unsqueeze(1)  # softmax归一化# [batch, 1, seq_len]
