一般构建一个比较完整的模型，都要分三个类进行编码，分别是数据处理类(data_utils)，运行类(translate)，和模型类(seq2seq_model)。三个类分别至少必须完成各自最基本的任务：

In [5]:
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import random
import os
import gzip
import urllib
import time
import logging
import sys #用于本地输入测试
import math

import numpy as np
import tensorflow as tf

from urllib.request import urlopen
from six.moves import xrange #返回xrange类，相较于range，适用于长队列

数据处理类，必需实现以下方法：
- 获取数据，如果有必要则通过urllib或scrapy，从网上抓取
- 处理数据，分类，分行，去噪等工作
- 准备数据，根据模型需要，准备所有数据，确保打开就能够使用


In [8]:
def data_download(filename, url):
    if not os.path.exists(filename):
        print("Downloading %s to %s" %(url, filename))
        filename, _ = urllib.request.urlretrieve(url, filename)
        statinfo = os.stat(filename)
        print("Successfully downloaded", filename, statinfo.st_size, "bytes")
    return filename

In [10]:
url = "http://www.statmt.org/wmt10/training-giga-fren.tar"
filename = "training-giga-fren.tar"
data_download(filename, url)

Downloading http://www.statmt.org/wmt10/training-giga-fren.tar to training-giga-fren.tar


KeyboardInterrupt: 

运行类必需处理以下任务：
- 读取数据
- 建立模型
- 训练模型：包括训练，记录和读取checkpoint
- 测试模型

设置所有需要预设的参数

In [6]:
tf.app.flags.DEFINE_float("learning_rate", 0.5, "Learning rate")
tf.app.flags.DEFINE_float("learning_rate_decay_factor", 0.99, "Learning rate decaus by this moch")
tf.app.flags.DEFINE_float("max_gradient_norm", 5.0, "Clip gradients to this norm")
tf.app.flags.DEFINE_integer("batch_size", 64, "Batch size to use during the training")
tf.app.flags.DEFINE_integer("size", 1024, "Size of each model layer")
tf.app.flags.DEFINE_integer("num_layers", 3, "Number of layers in the model")
tf.app.flags.DEFINE_integer("from_vocab_size", 40000, "English vocabulary size")
tf.app.flags.DEFINE_integer("to_vocab_size", 40000, "French vocabulary size")
tf.app.flags.DEFINE_string("data_dir", "./tmp", "Data directory")
tf.app.flags.DEFINE_string("train_dir", "./tmp", "Training directory")
tf.app.flags.DEFINE_string("from_train_data", None, "Training data")
tf.app.flags.DEFINE_string("to_train_data", None, "Training data")
tf.app.flags.DEFINE_string("from_dev_data", None, "Training data")
tf.app.flags.DEFINE_string("to_dev_data", None, "Trraining data")
tf.app.flags.DEFINE_integer("max_train_data_size", 0, "Limit on the size of training data(0: no limit")
tf.app.flags.DEFINE_integer("steps_per_checkpoint", 200, "How many training steps to do per checkpoint")
tf.app.flags.DEFINE_boolean("decode", False, "Set to True for interactive decoding")
tf.app.flags.DEFINE_boolean("self_test", False, "Run a self-test if this is set to True")
tf.app.flags.DEFINE_boolean("use_fp16", False, "Train using fp16 instead of fp32")
FLAGS = tf.app.flags.FLAGS

ArgumentError: argument --learning_rate: conflicting option string: --learning_rate

因为重复运行，所以会出现上面重名的错误

In [10]:
_buckets = [(5, 10), (10, 15), (20, 25), (40, 50)]
# 这个适用于分类句子的长度，使得相近长度的句子能够被分配到相应的分组里面
# 因为这个算法又补足长度的说法（pad），所以这么做可以提高效率

模型类应该至少完成下面的任务：
- 构建模型：包括定义cell和拓扑结构
- 设置饲料
- 提供步训练函数并返回loss和accuracy

以下三份paper，详细的描述了这个模型，他们分别是：
- http://arxiv.org/abs/1412.7449 描述了模型的基本架构
- http://arxiv.org/abs/1409.0473 描述了单层，双向编码的时候的模型架构
- http://arxiv.org/abs/1412.2007 第三章具体描述了sampled softmax