# 智能表情-升级版 

上一篇文档我们实现了智能表情的模型，但是模型会忽略句子中单词的顺序。本篇文档我们会实现一个升级版的模型，这个模型会准确地分析句子中单词的顺序，更加像人类一样来理解句子的意思。

In [21]:
import numpy as np
np.random.seed(0)
from keras.models import Model
from keras.layers import Dense, Input, Dropout, LSTM, Activation
from keras.layers.embeddings import Embedding
from keras.preprocessing import sequence
from keras.initializers import glorot_uniform
from emo_utils import *
np.random.seed(1)

### 1 - 模型概况

模型的概况图如下:

<img src="images/emojifier-v2.png" style="width:700px;height:400px;"> <br>
<caption><center>  </center></caption>



### 2 预处理输入序列

大多数深度学习框架都要求输入序列的长度一致。因为只有长度一致了框架才能应用向量化算法，在《1.2.7 向量化》中我们提到过向量化算法可以大大地提升计算效率。本例中我们将使用mini-batch来训练模型，如果一个输入样本句子序列里面有3个单词，另一个有4个单词，那么前一个样本需要执行3个LSTM，后一个样本需要4个LSTM，这样是不可能应用向量化算法的。

为了能使用向量化算法，我们需要对输入序列进行padding操作，也就是对输入句子进行填补操作，对输入样本进行预处理。例如我们会设定一个最大长度，假设是20，如果句子单词数不满20，那么就会后面填补0，例如句子"i love you"的会变成$(e_{i}, e_{love}, e_{you}, \vec{0}, \vec{0}, \ldots, \vec{0})$。如果句子长度大于20，那么后面的就截断丢弃。当然可以简单地选样本中最长的句子最为最大长度，那么就不需要截断操作了。

### 3 - Keras词嵌入层

在Keras框架中，词嵌入矩阵是以“layer”网络层的形式存在的。这个词嵌入层可以自己训练，也可以使用预训练好的词嵌入矩阵来初始化它。因为训练词嵌入矩阵需要很多数据和时间，所以本例我们会依然使用之前训练好的词嵌入矩阵来初始化Keras的词嵌入层。

有了这个词嵌入层“Embedding层”，那么我们就可以将单词的索引输入给它，它会输出对应的词嵌入。如下图所示

<img src="images/embedding1.png" style="width:700px;height:250px;">
<caption><center> </center></caption>

上图的最大长度是5，所以在第一个句子后面添加了2个0，在第二个句子后面添加了1个0。Keras的Embedding层输出的维度含义分别是（batch大小，最大长度，Glove向量的维度）。

首先我们先将句子中单词转换成索引！

In [22]:
# 将单词转换为索引，并且填充0
def sentences_to_indices(X, word_to_index, max_len):
    
    m = X.shape[0]                                   # 样本数
    
    X_indices = np.zeros((m, max_len))
    
    for i in range(m):                               # 遍历每个样本
        
        # 将当前句子分割成单词，并且变成小写字母
        sentence_words = [w.lower() for w in X[i].split()]

        j = 0
        
        # 遍历每个单词
        for w in sentence_words:
            # 将单词转换成索引
            X_indices[i, j] = word_to_index[w]
            j += 1
    
    return X_indices

In [23]:
word_to_index, index_to_word, word_to_vec_map = read_glove_vecs('data/glove.6B.50d.txt')

X1 = np.array(["funny lol", "lets play baseball", "food is ready for you"])
X1_indices = sentences_to_indices(X1,word_to_index, max_len = 5)
print("X1 =", X1)
print("X1_indices =", X1_indices)

X1 = ['funny lol' 'lets play baseball' 'food is ready for you']
X1_indices = [[155345. 225122.      0.      0.      0.]
 [220930. 286375.  69714.      0.      0.]
 [151204. 192973. 302254. 151349. 394475.]]


下面使用预训练好的词嵌入矩阵来初始化Keras的Embedding层。

In [24]:
# 使用预训练好的词嵌入矩阵来初始化Keras的Embedding层
def pretrained_embedding_layer(word_to_vec_map, word_to_index):
    
    vocab_len = len(word_to_index) + 1   # 获取整个词表的大小，加个1是因为Keras要求的
    emb_dim = word_to_vec_map["cucumber"].shape[0]      # 获取Glove向量的维度，这个是50

    # 初始化词嵌入矩阵的维度（索引数，Glove训练维度）
    emb_matrix = np.zeros((vocab_len, emb_dim))
    
    # 为每个索引设置对应的Glove向量
    for word, index in word_to_index.items():
        emb_matrix[index, :] = word_to_vec_map[word]

    # 创建Embedding层，
    # 参数trainable一定要设置为false，这样才能保证模型运行时不会随着训练改变Embedding里的词嵌入矩阵的值
    embedding_layer = Embedding(vocab_len, emb_dim, trainable=False)
    embedding_layer.build((None,))
    
    # 将预训练好的词嵌入矩阵作为Embedding层的权重来初始化该层
    embedding_layer.set_weights([emb_matrix])
    
    return embedding_layer

In [25]:
embedding_layer = pretrained_embedding_layer(word_to_vec_map, word_to_index)
print("weights[0][1][3] =", embedding_layer.get_weights()[0][1][3])

weights[0][1][3] = -0.3403


## 3 构建模型

<img src="images/emojifier-v2.png" style="width:700px;height:400px;"> <br>
<caption><center></center></caption>

In [26]:
# 构建模型
def Emojify_V2(input_shape, word_to_vec_map, word_to_index):
    
    # 将sentence_indices定义为模型的输入
    sentence_indices = Input(input_shape, dtype='int32')
    
    # 使用预训练好的词嵌入矩阵来创建一个embedding层
    embedding_layer = pretrained_embedding_layer(word_to_vec_map, word_to_index)
    
    # 将输入传入到embedding层中，embedding层会输出与输入索引对应的词嵌入embeddings
    embeddings = embedding_layer(sentence_indices)   
    
    # 将词嵌入embeddings传入到一个LSTM层中，return_sequences为true就是每个时间步都会有输出
    X = LSTM(128, return_sequences=True)(embeddings)
    # 后面加一个dropout
    X = Dropout(0.5)(X)
    # 将词嵌入embeddings传入到一个LSTM层中，
    # return_sequences为false就是只有最后一个时间步有输出，
    # 大家可以看上面的图，第一层LSTM每个时间步都有输出，第二层LSTM只有最后一个时间步有输出
    X = LSTM(128, return_sequences=False)(X)
    # 后面加一个dropout
    X = Dropout(0.5)(X)
    # 传入dense层并进行softmax分类，给出5个概率
    X = Dense(5)(X)
    X = Activation('softmax')(X)
    
    # 根据上面的步骤创建一个Keras模型
    model = Model(inputs=sentence_indices, outputs=X)
    
    return model

In [27]:
X_train, Y_train = read_csv('data/train_emoji.csv')
X_test, Y_test = read_csv('data/tesss.csv')
maxLen = len(max(X_train, key=len).split())

model = Emojify_V2((maxLen,), word_to_vec_map, word_to_index)
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_3 (InputLayer)         (None, 10)                0         
_________________________________________________________________
embedding_6 (Embedding)      (None, 10, 50)            20000050  
_________________________________________________________________
lstm_5 (LSTM)                (None, 10, 128)           91648     
_________________________________________________________________
dropout_5 (Dropout)          (None, 10, 128)           0         
_________________________________________________________________
lstm_6 (LSTM)                (None, 128)               131584    
_________________________________________________________________
dropout_6 (Dropout)          (None, 128)               0         
_________________________________________________________________
dense_3 (Dense)              (None, 5)                 645       
__________

因为词表中有400,001个单词，所以有400,001\*50 = 20,000,050个参数是预训练好了的，所以是non-trainable参数。

下面对模型进行编译。编译函数中要指定使用哪个损失函数以及优化方法等等。

In [28]:
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

将数据集输入到模型中，对模型进行训练。

In [29]:
X_train_indices = sentences_to_indices(X_train, word_to_index, maxLen)
Y_train_oh = convert_to_one_hot(Y_train, C = 5)

model.fit(X_train_indices, Y_train_oh, epochs = 50, batch_size = 32, shuffle=True)

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<keras.callbacks.History at 0x16a83a3af60>

用测试集来测试模型

In [30]:
X_test_indices = sentences_to_indices(X_test, word_to_index, max_len = maxLen)
Y_test_oh = convert_to_one_hot(Y_test, C = 5)
loss, acc = model.evaluate(X_test_indices, Y_test_oh)
print()
print("Test accuracy = ", acc)

Test accuracy =  0.8214285629136222


In [31]:
# 这段代码列出了模型对哪些样本句子预测错了
C = 5
y_test_oh = np.eye(C)[Y_test.reshape(-1)]
X_test_indices = sentences_to_indices(X_test, word_to_index, maxLen)
pred = model.predict(X_test_indices)
for i in range(len(X_test)):
    x = X_test_indices
    num = np.argmax(pred[i])
    if(num != Y_test[i]):
        print('Expected emoji:'+ label_to_emoji(Y_test[i]) + ' prediction: '+ X_test[i] + label_to_emoji(num).strip())

Expected emoji:😄 prediction: she got me a nice present	❤️
Expected emoji:😞 prediction: work is hard	😄
Expected emoji:😞 prediction: This girl is messing with me	❤️
Expected emoji:🍴 prediction: any suggestions for dinner	😄
Expected emoji:❤️ prediction: I love taking breaks	😞
Expected emoji:😄 prediction: you brighten my day	❤️
Expected emoji:😄 prediction: will you be my valentine	❤️
Expected emoji:🍴 prediction: See you at the restaurant	❤️
Expected emoji:😞 prediction: go away	⚾
Expected emoji:🍴 prediction: I did not have breakfast ❤️


上一篇文档的模型无法准确地预测“not feeling happy”，因为模型忽略了单词的顺序，只是简单地求所有单词的平均值，而又因为句子中有happy这个单词，所以模型会给出一个快乐的表情。下面我们使用本文档的模型再次来预测这句话，可以看到结果是正确的，会给出一个不开心的表情。

当然，Keras内部的实现会有一定的随机性，所以有时候可能给出不一样的结果。还有就是，因为我们的数据集很小，所以模型对not句型还不是非常熟悉，所以有时候也会给出错误的预测。

In [32]:
# Change the sentence below to see your prediction. Make sure all the words are in the Glove embeddings.  
x_test = np.array(['not feeling happy'])
X_test_indices = sentences_to_indices(x_test, word_to_index, maxLen)
print(x_test[0] +' '+  label_to_emoji(np.argmax(model.predict(X_test_indices))))

not feeling happy 😞
