## 类Encoder(nn.Module):
### 变量
- layers: rnn的层数
- num_directions: 整数类型，指明是否双向
- hidden_size: 每层cnn，单向隐藏层神经元个数 = opt.rnn_size // self.num_directions
- input_size: word_vec_size
- word_lut: nn.Embedding, 
    - Input: LongTensor (N, W), N = seq_len, W = batch_size
    - Output: (N, W, embedding_dim)
    - 实际上就是把matrix中的东西给转换了，并没有固定的说那个维度代表的是什么意义
- rnn: nn.LSTM
    - Inputs: input, (h_0, c_0)
        - input (seq_len, batch, input_size)
        - h_0 (num_layers * num_directions, batch, hidden_size)
        - c_0 (num_layers * num_directions, batch, hidden_size)
    - Outputs: output, (h_n, c_n)
        - output (seq_len, batch, hidden_size * num_directions)
        - h_n (num_layers * num_directions, batch, hidden_size)
        - c_n (num_layers * num_directions, batch, hidden_size)

### 方法
##### __init__(self, opt, dicts):
- 初始化变量，基本上就是上面几个了。

##### load_pretrained_vectors(self, opt):
- 如果有训练过的embedding模型，可以直接进行读取
- self.word_lut.weight.data.copy_(torch.load.(opt.pre_word_vecs_dec))

##### forward(self, input, hidden = None):
- Inputs: input, (h_0, c_0)
    - input (seq_len, batch)
- Output: (h_n, c_n), output
- 在这个OpenNMT中，输入input一般还包括了lengths信息。如果是的话，那么我们先用pack_padded_sequence方法，把emb后的数据和lengths组合一起生成对应的PackedSequence对象emb。好处暂时不明
    - pack(self.word_lut(input[0]), lengths)
- 把emb扔进rnn中进行运算得到对应的输出outputs, hidden_t
- 如果输入是packedSegmentation，那么这里要对结果进行unpack: pad_packed_sequence
    - outputs = unpack(outputs)[0]
- 注意这里输出的顺序并不和rnn的输出的顺序一样
    - return hiddent_t, outputs

## 类StackedLSTM(nn.Module):
主要是为了辅助decoder用的, 主要是为了在前后两个单词的运算之间加入Attention的信息，所以必须自己写一个，在下面可以看到是怎么回事
### 变量
- dropout: nn.Dropout(dropout)
- num_layers: 隐藏层的层数
- layers: nn.ModuleList() 定义各个层的神经元类型，这里都是nn.LSTMCell(input_size, rnn_size)
    - Inputs: input, (h_0, c_0)
        - input (batch, input_size)
        - h_0 (batch, hidden_size)
        - c_0 (batch, hidden_size)
    - Outputs: h_1, c_1
        - h_1 (batch, hidden_size)
        - c_1 (batch, hidden_size)

### 方法
##### __init__(self, input, hidden)
- 初始化上面提到的变量，第一层的input和hidden的size可能不一样，因为在decode中可能会有合并上一层的输出等操作

##### forward(self, input, hidden)
- Inputs: input, (h_0, c_0)
    - input (batch, input_size)
    - h_0 (num_layers, batch, hidden_size)
    - c_0 (num_layers, batch, hidden_size)
- Outputs: output, (h_1, c_1)
    - output (batch, hidden_size)
    - h_1 (num_layers, batch, hidden_size)
    - c_1 (num_layers, batch, hidden_size)

## 类Decoder(nn.Module):
### 变量
- layers: 隐藏层的层数
- input_feed: 指明是仅使用input数据还是要结合其他的数据(比如上一个时间点的隐藏层的输出)作为input
- input_size: word_vec_size, 如果input_feed是True的话，input_size = word_vec_size + rnn_size
- word_lut: nn.Embedding
    - Input: LongTensor (N, W), N = batch_size, W = seq_len
    - Output: (N, W, embedding_dim)
- rnn: StackedLSTM(layers, input_size, rnn_size, dropout)
    - Inputs: input, (h_0, c_0)
        - input (batch, input_size)
        - h_0 (num_layers, batch, hidden_size)
        - c_0 (num_layers, batch, hidden_size)
    - Outputs: output, (h_1, c_1)
        - output (batch, hidden_size)
        - h_1 (num_layers, batch, hidden_size)
        - c_1 (num_layers, batch, hidden_size)
- attn: onmt.modules.GlobalAttention(rnn_size)
    - Inputs: input, context
        - input (batch, hidden_size) 代表Query
        - context (batch, seq_len, hidden_size * num_directions) 代表key和value
            -???双向怎么办？这里好像没有考虑这种情况，至少没在这里进行考虑
    - Outputs: output, attn
        - output (batch, rnn_size)
        - attn (batch, seq_len)
- dropout: nn.Dropout
- hidden_size: 隐藏层每层神经元的数量rnn_size

### 方法
##### __init__(self, opt, dicts)
- 初始化上面提到的变量

##### load_pretrained_vectors(self, opt):
- 如果有训练好的emb，那么就直接读取了
- self.word_lut.weight.data.copy_(torch.load.(opt.pre_word_vecs_dec))

##### forward(self, input , hidden, context, init_output)
- Inputs: input, (h_0, c_0), context, init_output
    - input (seq_len, batch)
    - h_0 (num_layers, batch, hidden_size)
    - c_0 (num_layers, batch, hidden_size)
    - context (seq_len, batch, hidden_size * num_directions)
    - init_output (batch, embedding_dim)
- Outputs: outputs, hidden, attn
    - outputs (seq_len, batch, hidden_size)
    - hidden (num_layers, batch, hidden_size) (h_n, c_n)
    - attn (batch, seq_len)

In [3]:
def forward(self, input, hidden, context, init_output):
    # input (seq_len, batch) 
    # emb (seq_len, batch, dim)
    emb = self.word_lut(input)
    
    outputs = []
    output = init_output
    # torch.split能够把数据平分到指定大小的chunk中，这里的参数是指每个chunk的大小为1
    # torch.split(tensor, split_size, dim=0)
    # 这里是为了单独处理每一个单词，得到的emb_t的size为(1, batch, dim)
    for emb_t in emb.split(1):
        # 去掉数量为1的维度：emb_t (batch, dim)
        emb_t =emb_t.squeeze(0)
        # 如果设定了input_feed的话，就把emb_t和init_output链接起来，这样对应的input_size就变大了
        if self.input_feed:
            emb_t = torch.cat([emb_t, output], 1)
        
        # 放进stackedLSTM中，输出为 output, (h_1, c_1)
        # - output (batch, hidden_size)
        # - h_1 (num_layers, batch, hidden_size)
        # - c_1 (num_layers, batch, hidden_size)
        output, hidden = self.rnn(emb_t, hidden)
        
        # 使用output为key， context为value进行Attention操作
        # context的size为(seq_len, batch, hidden_size * num_directions)
        output, attn = self.attn(output, context.transpose(0, 1))
        outputs += [output]
    outpus = torch.stack(outputs)
    return outputs, hidden, attn

## 类NMTModel(nn.Module)
### 变量
- encoder: encoder类
- decoder: decoder类

### 方法
##### __init__(self, encoder, decoder)
- 初始化

##### make_init_decoder_output(self, context)
- 建立decoder的初始output， 并赋值为0
- Inputs: context
    - context (seq_len, batch, hidden_size * num_directions)
- Outputs: 
    - Variable(context.data.new(batch_size, decoder.hidden_size).zero_(), requires_grad = False)

##### _fix_enc_hidden(self, h)
- 维度转化，
- Inputs: h
    - h (num_layers * num_directions, batch, hidden_size)
- Output: o
    - o (num_layers, batch, directions * hidden_size)
- 如果是双向的就进行以下转换：
    - return h.view(h.size(0)//2, 2, h.size(1), h.size(2)).trainspose(1, 2).contiguous().view(h.size(0)//2, h.size(1), h.size(2) *2)

##### forward(self, input):
- 输入数据好像有点情况，目前还不能确定，所以就先放着吧？？？？？？？？

##### tie_weights(self)
- self.generator[0].weight = self.decoder.word_lut.weight