# Emojify (Thai)!!


In [1]:
#!pip install pythainlp
import numpy as np
from emo_utils import *
import emoji
import matplotlib.pyplot as plt
from pythainlp.tokenize import word_tokenize

%matplotlib inline

In [2]:
def read_csv(filename = 'data/emojify_data.csv'):
    phrase = []
    emoji = []

    with open (filename) as csvDataFile:
        csvReader = csv.reader(csvDataFile)

        for row in csvReader:
            phrase.append(row[0])
            emoji.append(row[1])

    X = np.asarray(phrase)
    Y = np.asarray(emoji, dtype=int)

    return X, Y

def convert_to_one_hot(Y, C):
    Y = np.eye(C)[Y.reshape(-1)]
    return Y


emoji_dictionary = {"0": "\u2764\uFE0F",    # :heart: prints a black instead of red heart depending on the font
                    "1": ":baseball:",
                    "2": ":smile:",
                    "3": ":disappointed:",
                    "4": ":fork_and_knife:"}

def label_to_emoji(label):
    """
    Converts a label (int or string) into the corresponding emoji code (string) ready to be printed
    """
    return emoji.emojize(emoji_dictionary[str(label)], use_aliases=True)

In [3]:
X_train, Y_train = read_csv('data/training_th_cleaned.csv')
X_test, Y_test = read_csv('data/testing_th_cleaned.csv')

In [4]:
words = []
for l in X_train:
    words.append([i.lower() for i in word_tokenize(l, engine='newmm')])
print(words)

maxSentence = max(words, key=len);
maxLen = len(maxSentence)
print(maxSentence)
print(maxLen)

[['มา', 'กา', 'รู', 'น', 'ฝรั่งเศส', 'อร่อย', 'มาก'], ['งาน', 'แย่มาก'], ['ฉัน', 'อารมณ์เสีย'], ['โยน', 'บอล'], ['เรื่องตลก', 'ดี'], ['เกม', 'เบสบอล', 'ที่', 'คุณ', 'ชอบ', 'คือ', 'อะไร'], ['ฉัน', 'กำลัง', 'ปรุง', 'เนื้อสัตว์'], ['หยุด', 'กวน', 'แถว', 'นี้', 'ได้', 'แล้ว'], ['ฉัน', 'ต้องการ', 'อาหารจีน'], ['ปล่อย', 'ให้', 'เรา', 'ไป', 'เล่น', 'เบสบอล'], ['คุณ', 'ล้มเหลว', 'ใน', 'การออกกำลังกาย', 'นี้'], ['เมื่อวาน', 'นี้', 'เรา', 'แพ้', 'อีกครั้ง'], ['งาน', 'ดี'], ['ฮ่า', 'ฮ่า', 'มัน', 'ตลก', 'มาก'], ['ฉัน', 'จะ', 'มี', 'ชีส', 'เค้ก'], ['ทำไม', 'คุณ', 'รู้สึก', 'ไม่ดี'], ['ฉัน', 'ต้องการ', 'ที่จะ', 'เล่นตลก'], ['ฉัน', 'ไม่เคย', 'บอ', 'กว่า', 'ใช่', 'สำหรับ', 'เรื่อง', 'นี้'], ['งานเลี้ยง', 'ถูก', 'ยกเลิก'], ['บอล', 'อยู่', 'ที่ไหน'], ['ฉัน', 'ผิดหวัง'], ['ฮ่า', 'ฮ่า', 'ฮ่า', ' '], ['เธอ', 'บอ', 'กว่า', 'ใช่'], ['เขา', 'ได้เงิน', 'ดือ', 'น', 'เพิ่ม'], ['ครอบครัว', 'เป็น', 'สิ่ง', 'สำคัญ', 'ที่สุด'], ['เขา', 'สามารถ', 'โยน', 'ลูก', 'ได้ดี', 'จริงๆ'], ['ฉัน', 'รัก', 'ดวงดาว', 'และ', 'กลับ'

Run the following cell to print sentences from X_train and corresponding labels from Y_train. Change `index` to see different examples. Because of the font the iPython notebook uses, the heart emoji may be colored black rather than red.

In [5]:
index = 1
print(X_train[index], label_to_emoji(Y_train[index]))

งานแย่มาก 😞


In [6]:
Y_oh_train = convert_to_one_hot(Y_train, C = 5)
Y_oh_test = convert_to_one_hot(Y_test, C = 5)

In [7]:
index = 50
print(Y_train[index], "is converted into one hot", Y_oh_train[index])

2 is converted into one hot [0. 0. 1. 0. 0.]


In [8]:
def read_thai_vecs(thai2vec_file):
    with open(thai2vec_file, 'r') as f:
        words = set()
        word_to_vec_map = {}
        next(f)
        for line in f:
            try:
                line = line.strip().split()
                curr_word = line[0]
#                 print(np.array(line[1:], dtype=np.float64).shape)
                word_to_vec_map[curr_word] = np.array(line[1:], dtype=np.float64)
                words.add(curr_word)
            except:
                _
        
        i = 1
        words_to_index = {}
        index_to_words = {}
        for w in sorted(words):
            words_to_index[w] = i
            index_to_words[i] = w
            i = i + 1
    return words_to_index, index_to_words, word_to_vec_map


In [9]:
word_to_index, index_to_word, word_to_vec_map = read_thai_vecs('data/thai2vec02.vec')

- `word_to_index`: dictionary mapping from words to their indices in the vocabulary.
- `index_to_word`: dictionary mapping from indices to their corresponding words in the vocabulary
- `word_to_vec_map`: dictionary mapping words to their vector representation.

In [10]:
word = "อะไร"
index = 30000
print("the index of", word, "in the vocabulary is", word_to_index[word])
print("the", str(index) + "th word in the vocabulary is", index_to_word[index])

the index of อะไร in the vocabulary is 48973
the 30000th word in the vocabulary is ชื่นมื่น


In [11]:
# GRADED FUNCTION: sentence_to_avg

def sentence_to_avg(sentence, word_to_vec_map):
    """
    Converts a sentence (string) into a list of words (strings). Extracts the GloVe representation of each word
    and averages its value into a single vector encoding the meaning of the sentence.
    
    Arguments:
    sentence -- string, one training example from X
    word_to_vec_map -- dictionary mapping every word in a vocabulary into its 50-dimensional vector representation
    
    Returns:
    avg -- average vector encoding information about the sentence, numpy-array of shape (50,)
    """
    
    ### START CODE HERE ###
    # Step 1: Split sentence into list of lower case words (≈ 1 line)
    words = [i.lower() for i in word_tokenize(sentence, engine='newmm')]

    # Initialize the average word vector, should have the same shape as your word vectors.
    avg = np.zeros((300,))
    
    count = 0
    # Step 2: average the word vectors. You can loop over the words in the list "words".
    for w in words:
        if w in word_to_vec_map:
            count += 1
            avg += word_to_vec_map[w]
    avg = avg / count
    
    ### END CODE HERE ###
    
    return avg

In [12]:
avg = sentence_to_avg("สวัสดีฉันหิวข้าวจังเลย", word_to_vec_map)
print("avg = ", avg)

avg =  [ 1.33543919e-01  1.07829292e+00 -3.72354955e-01 -1.46668282e+00
  7.57209385e-01  2.06919660e-02  1.00532082e-01  1.50484212e-01
  5.23906188e-02  1.52862157e-02  1.14734970e+00 -1.00657061e+00
  5.54110900e-01 -2.54428585e-01  5.47317436e-02  3.70899226e-02
 -7.52026650e-01 -2.80267285e-02 -2.03459100e-02 -2.67111200e-01
 -1.85354750e-02 -1.14704222e+00 -1.49893250e-03  2.29017332e-02
  1.50632193e-01  7.31677675e-02 -4.55923561e-01 -1.41664832e-01
  1.63214582e+00 -4.19897428e-02  1.74954460e+00  2.66800450e-02
  3.46997695e-01  8.62049460e-02  5.34051507e-01 -1.45048422e-01
 -1.03274239e+00  1.35459257e-01  1.04450913e-01  7.05857655e-01
  8.88661650e-01 -2.00315426e-02  2.62467265e+00 -1.81928020e+00
  2.08934760e+00 -2.12933974e-01  5.23226015e-01  1.13770790e-01
 -9.01886755e-01  9.70241000e-03 -1.36141888e+00  3.27827415e-01
 -5.59771860e-01  1.75449645e+00 -1.40230675e-02 -2.45342538e+00
  1.03239632e-01  8.71849672e-01 -1.14884257e+00  1.09374447e-01
 -1.08584346e-01 -

## Thai Emojifier: Using LSTMs in Keras

Let's build an LSTM model that takes as input word sequences. This model will be able to take word ordering into account. Emojifier will continue to use pre-trained word embeddings to represent words, but will feed them into an LSTM, whose job it is to predict the most appropriate emoji. 

Run the following cell to load the Keras packages.

In [13]:
import numpy as np
np.random.seed(0)
from keras.models import Model
from keras.layers import Dense, Input, Dropout, LSTM, Activation
from keras.layers.embeddings import Embedding
from keras.preprocessing import sequence
from keras.initializers import glorot_uniform
np.random.seed(1)

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


### 2.1 - Overview of the model

<img src="images/emojifier-v2.png" style="width:700px;height:400px;"> <br>
<caption><center> **Figure **: A 2-layer LSTM sequence classifier. </center></caption>



In [14]:
# GRADED FUNCTION: sentences_to_indices

def sentences_to_indices(X, word_to_index, max_len):
    """
    Converts an array of sentences (strings) into an array of indices corresponding to words in the sentences.
    The output shape should be such that it can be given to `Embedding()` (described in Figure 4). 
    
    Arguments:
    X -- array of sentences (strings), of shape (m, 1)
    word_to_index -- a dictionary containing the each word mapped to its index
    max_len -- maximum number of words in a sentence. You can assume every sentence in X is no longer than this. 
    
    Returns:
    X_indices -- array of indices corresponding to words in the sentences from X, of shape (m, max_len)
    """    
    m = X.shape[0]                                   # number of training examples

    ### START CODE HERE ###
    # Initialize X_indices as a numpy matrix of zeros and the correct shape (≈ 1 line)
    X_indices = np.zeros((m, max_len))
    print(X_indices.shape)
    
    for i in range(m):                               # loop over training examples
        
        # Convert the ith training sentence in lower case and split is into words. You should get a list of words.
        print(X[i]);
        sentence_words = [w.lower() for w in word_tokenize(X[i], engine='newmm')]
        print(sentence_words);
        # Initialize j to 0
        j = 0
        
        # Loop over the words of sentence_words
        for w in sentence_words:
            # Set the (i,j)th entry of X_indices to the index of the correct word.
            X_indices[i, j] = word_to_index[w] if w in word_to_index else 0
            j += 1

            
    ### END CODE HERE ###
    
    print("X_indices")
    print(X_indices)

    return X_indices

In [15]:
X1 = np.array(["อาหารพร้อมแล้ว","เบสบอลน่าสนุกจัง"])
X1_indices = sentences_to_indices(X1,word_to_index, max_len = 5)
print("X1 =", X1)
print("X1_indices =", X1_indices)

(2, 5)
อาหารพร้อมแล้ว
['อาหาร', 'พร้อม', 'แล้ว']
เบสบอลน่าสนุกจัง
['เบสบอล', 'น่าสนุก', 'จัง']
X_indices
[[49440. 38612. 56647.     0.     0.]
 [52623.     0. 28894.     0.     0.]]
X1 = ['อาหารพร้อมแล้ว' 'เบสบอลน่าสนุกจัง']
X1_indices = [[49440. 38612. 56647.     0.     0.]
 [52623.     0. 28894.     0.     0.]]


Let's build the `Embedding()` layer in Keras, using pre-trained word vectors. After this layer is built, you will pass the output of `sentences_to_indices()` to it as an input, and the `Embedding()` layer will return the word embeddings for a sentence. 

**Exercise**: Implement `pretrained_embedding_layer()`. You will need to carry out the following steps:
1. Initialize the embedding matrix as a numpy array of zeroes with the correct shape.
2. Fill in the embedding matrix with all the word embeddings extracted from `word_to_vec_map`.
3. Define Keras embedding layer. Use [Embedding()](https://keras.io/layers/embeddings/). Be sure to make this layer non-trainable, by setting `trainable = False` when calling `Embedding()`. If you were to set `trainable = True`, then it will allow the optimization algorithm to modify the values of the word embeddings. 
4. Set the embedding weights to be equal to the embedding matrix 

In [16]:
# GRADED FUNCTION: pretrained_embedding_layer

def pretrained_embedding_layer(word_to_vec_map, word_to_index):
    """
    Creates a Keras Embedding() layer and loads in pre-trained 300-dimensional vectors.
    
    Arguments:
    word_to_vec_map -- dictionary mapping words to their GloVe vector representation.
    word_to_index -- dictionary mapping from words to their indices in the vocabulary (400,001 words)

    Returns:
    embedding_layer -- pretrained layer Keras instance
    """
    
    vocab_len = len(word_to_index) + 1                  # adding 1 to fit Keras embedding (requirement)
    emb_dim = word_to_vec_map["สนุก"].shape[0]      # define dimensionality of your GloVe word vectors (= 50)
    
    print(emb_dim)
    
    ### START CODE HERE ###
    # Initialize the embedding matrix as a numpy array of zeros of shape (vocab_len, dimensions of word vectors = emb_dim)
    emb_matrix = np.zeros((vocab_len, emb_dim))
    print(emb_matrix.shape)
    
    # Set each row "index" of the embedding matrix to be the word vector representation of the "index"th word of the vocabulary
    for word, index in word_to_index.items():
        if word_to_vec_map[word].shape[0]==300:
            emb_matrix[index, :] = word_to_vec_map[word]
        else:
            emb_matrix[index, :] = np.zeros((300,))

    print(emb_matrix)
    
    # Define Keras embedding layer with the correct output/input sizes, make it trainable. Use Embedding(...). Make sure to set trainable=False. 
    embedding_layer = Embedding(vocab_len, emb_dim, trainable=False)
    ### END CODE HERE ###

    # Build the embedding layer, it is required before setting the weights of the embedding layer. Do not modify the "None".
    embedding_layer.build((None,))
    
    # Set the weights of the embedding layer to the embedding matrix. Your layer is now pretrained.
    embedding_layer.set_weights([emb_matrix])
    
    return embedding_layer

In [17]:
embedding_layer = pretrained_embedding_layer(word_to_vec_map, word_to_index)
print("weights[0][1][3] =", embedding_layer.get_weights()[0][1][3])

300
(59949, 300)
[[ 0.          0.          0.         ...  0.          0.
   0.        ]
 [ 0.28049678  2.039395   -0.6071578  ... -0.42156866  0.25142205
   3.1372788 ]
 [ 0.12705377  1.5926951  -0.52196676 ... -0.5063023   0.28964126
   3.542458  ]
 ...
 [-0.94338137  0.5894909   0.52247214 ... -0.34973684  0.15142748
   1.0024418 ]
 [-0.94737095  0.582404    0.5509096  ... -0.35700172  0.15681808
   0.9841969 ]
 [-0.94346464  0.57762676  0.5456067  ... -0.35098264  0.15364128
   0.9798119 ]]
weights[0][1][3] = -1.6044419


**Expected Output**:

<table>
    <tr>
        <td>
            **weights[0][1][3] =**
        </td>
        <td>
           -0.3403
        </td>
    </tr>
</table>

## Building the Emojifier Model

Lets now build the Emojifier model. You will do so using the embedding layer you have built, and feed its output to an LSTM network. 

<img src="images/emojifier-v2.png" style="width:700px;height:400px;"> <br>
<caption><center> **Figure 3**: Emojifier-v2. A 2-layer LSTM sequence classifier. </center></caption>


The model takes as input an array of sentences of shape (`m`, `max_len`, ) defined by `input_shape`. It should output a softmax probability vector of shape (`m`, `C = 5`). You may need `Input(shape = ..., dtype = '...')`, [LSTM()](https://keras.io/layers/recurrent/#lstm), [Dropout()](https://keras.io/layers/core/#dropout), [Dense()](https://keras.io/layers/core/#dense), and [Activation()](https://keras.io/activations/).

In [18]:
def Emojify_V2(input_shape, word_to_vec_map, word_to_index):
    """
    Function creating the Emojify model's graph.
    
    Arguments:
    input_shape -- shape of the input, usually (max_len,)
    word_to_vec_map -- dictionary mapping every word in a vocabulary into its 50-dimensional vector representation
    word_to_index -- dictionary mapping from words to their indices in the vocabulary (400,001 words)

    Returns:
    model -- a model instance in Keras
    """
    
    # Define sentence_indices as the input of the graph, it should be of shape input_shape and dtype 'int32' (as it contains indices).
    sentence_indices = Input(input_shape, dtype='int32')
    
    # Create the embedding layer pretrained with GloVe Vectors (≈1 line)
    embedding_layer = pretrained_embedding_layer(word_to_vec_map, word_to_index)
    
    # Propagate sentence_indices through your embedding layer, you get back the embeddings
    embeddings = embedding_layer(sentence_indices)   
    
    # Propagate the embeddings through an LSTM layer with 128-dimensional hidden state
    # Be careful, the returned output should be a batch of sequences.
    X = LSTM(128, return_sequences=True)(embeddings)
    # Add dropout with a probability of 0.5
    X = Dropout(0.5)(X)
    # Propagate X trough another LSTM layer with 128-dimensional hidden state
    # Be careful, the returned output should be a single hidden state, not a batch of sequences.
    X = LSTM(128, return_sequences=False)(X)
    # Add dropout with a probability of 0.5
    X = Dropout(0.5)(X)
    # Propagate X through a Dense layer with softmax activation to get back a batch of 5-dimensional vectors.
    X = Dense(5)(X)
    # Add a softmax activation
    X = Activation('softmax')(X)
    
    # Create Model instance which converts sentence_indices into X.
    model = Model(inputs=sentence_indices, outputs=X)
    
    
    return model

In [19]:
print(maxLen)

12


In [20]:
model = Emojify_V2((maxLen,), word_to_vec_map, word_to_index)
model.summary()

300
(59949, 300)
[[ 0.          0.          0.         ...  0.          0.
   0.        ]
 [ 0.28049678  2.039395   -0.6071578  ... -0.42156866  0.25142205
   3.1372788 ]
 [ 0.12705377  1.5926951  -0.52196676 ... -0.5063023   0.28964126
   3.542458  ]
 ...
 [-0.94338137  0.5894909   0.52247214 ... -0.34973684  0.15142748
   1.0024418 ]
 [-0.94737095  0.582404    0.5509096  ... -0.35700172  0.15681808
   0.9841969 ]
 [-0.94346464  0.57762676  0.5456067  ... -0.35098264  0.15364128
   0.9798119 ]]
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         (None, 12)                0         
_________________________________________________________________
embedding_2 (Embedding)      (None, 12, 300)           17984700  
_________________________________________________________________
lstm_1 (LSTM)                (None, 12, 128)           219648    
_____________________________________

As usual, after creating your model in Keras, you need to compile it and define what loss, optimizer and metrics your are want to use. Compile your model using `categorical_crossentropy` loss, `adam` optimizer and `['accuracy']` metrics:

In [21]:
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

It's time to train your model. Your Emojifier `model` takes as input an array of shape (`m`, `max_len`) and outputs probability vectors of shape (`m`, `number of classes`). We thus have to convert X_train (array of sentences as strings) to X_train_indices (array of sentences as list of word indices), and Y_train (labels as indices) to Y_train_oh (labels as one-hot vectors).

In [22]:
X_train_indices = sentences_to_indices(X_train, word_to_index, maxLen)
Y_train_oh = convert_to_one_hot(Y_train, C = 5)

(128, 12)
มาการูนฝรั่งเศสอร่อยมาก
['มา', 'กา', 'รู', 'น', 'ฝรั่งเศส', 'อร่อย', 'มาก']
งานแย่มาก
['งาน', 'แย่มาก']
ฉันอารมณ์เสีย
['ฉัน', 'อารมณ์เสีย']
โยนบอล
['โยน', 'บอล']
เรื่องตลกดี
['เรื่องตลก', 'ดี']
เกมเบสบอลที่คุณชอบคืออะไร
['เกม', 'เบสบอล', 'ที่', 'คุณ', 'ชอบ', 'คือ', 'อะไร']
ฉันกำลังปรุงเนื้อสัตว์
['ฉัน', 'กำลัง', 'ปรุง', 'เนื้อสัตว์']
หยุดกวนแถวนี้ได้แล้ว
['หยุด', 'กวน', 'แถว', 'นี้', 'ได้', 'แล้ว']
ฉันต้องการอาหารจีน
['ฉัน', 'ต้องการ', 'อาหารจีน']
ปล่อยให้เราไปเล่นเบสบอล
['ปล่อย', 'ให้', 'เรา', 'ไป', 'เล่น', 'เบสบอล']
คุณล้มเหลวในการออกกำลังกายนี้
['คุณ', 'ล้มเหลว', 'ใน', 'การออกกำลังกาย', 'นี้']
เมื่อวานนี้เราแพ้อีกครั้ง
['เมื่อวาน', 'นี้', 'เรา', 'แพ้', 'อีกครั้ง']
งานดี
['งาน', 'ดี']
ฮ่าฮ่ามันตลกมาก
['ฮ่า', 'ฮ่า', 'มัน', 'ตลก', 'มาก']
ฉันจะมีชีสเค้ก
['ฉัน', 'จะ', 'มี', 'ชีส', 'เค้ก']
ทำไมคุณรู้สึกไม่ดี
['ทำไม', 'คุณ', 'รู้สึก', 'ไม่ดี']
ฉันต้องการที่จะเล่นตลก
['ฉัน', 'ต้องการ', 'ที่จะ', 'เล่นตลก']
ฉันไม่เคยบอกว่าใช่สำหรับเรื่องนี้
['ฉัน', 'ไม่เคย', 'บอ', 'กว่า', 'ใช่', 'สำ

Fit the Keras model on `X_train_indices` and `Y_train_oh`. We will use `epochs = 50` and `batch_size = 32`.

In [23]:
model.fit(X_train_indices, Y_train_oh, epochs = 50, batch_size = 32, shuffle=True)

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<keras.callbacks.History at 0x7fe77d751f98>

Your model should perform close to **100% accuracy** on the training set. The exact accuracy you get may be a little different. Run the following cell to evaluate your model on the test set. 

In [24]:
X_test_indices = sentences_to_indices(X_test, word_to_index, max_len = maxLen)
Y_test_oh = convert_to_one_hot(Y_test, C = 5)
loss, acc = model.evaluate(X_test_indices, Y_test_oh)
print()
print("Test accuracy = ", acc)

(55, 12)
ฉันได้รับความอับอายจากพี่สาวของฉัน
['ฉัน', 'ได้รับ', 'ความ', 'อับอาย', 'จาก', 'พี่สาว', 'ของ', 'ฉัน']
ฉันต้องการกิน
['ฉัน', 'ต้องการ', 'กิน']
การบรรยายใช้ได้นะ
['การบรรยาย', 'ใช้ได้', 'นะ']
คุณไม่ได้ทำการบ้านมา
['คุณ', 'ไม่ได้', 'ทำการบ้าน', 'มา']
ทารกน่ารัก
['ทารก', 'น่ารัก']
ไชโย
['ไชโย']
ฉันคิดถึงคุณ
['ฉัน', 'คิดถึง', 'คุณ']
อยากจะเดทกับคุณ
['อยาก', 'จะ', 'เดท', 'กับ', 'คุณ']
อาหารอยู่ที่ไหน
['อาหาร', 'อยู่', 'ที่ไหน']
คุณแย่มาก
['คุณ', 'แย่มาก']
คำแนะนำสำหรับอาหารเย็น
['คำแนะนำ', 'สำหรับ', 'อาหารเย็น']
เธอมีความสุข
['เธอ', 'มีความสุข']
ฉันทำงานอยู่เสมอ
['ฉัน', 'ทำงาน', 'อยู่', 'เสมอ']
นี้ตลกมาก
['นี้', 'ตลก', 'มาก']
เกรดคุณแย่ลง
['เกรด', 'คุณ', 'แย่', 'ลง']
ฉันต้องการมีซูชิสำหรับมื้อค่ำ
['ฉัน', 'ต้องการ', 'มี', 'ซู', 'ชิ', 'สำหรับ', 'มื้อ', 'ค่ำ']
เธอยิ้มให้มาก
['เธอ', 'ยิ้ม', 'ให้', 'มาก']
ทีมชิคาโก้ชนะอีกครั้ง
['ทีม', 'ชิ', 'คา', 'โก้', 'ชนะ', 'อีกครั้ง']
ฉันได้รับการอนุมัติ
['ฉัน', 'ได้รับ', 'การอนุมัติ']
คุกกี้เป็นสิ่งที่ดี
['คุกกี้', 'เป็น', 'สิ่ง', 'ที่', 'ดี']
ฉันเก

In [25]:
# This code allows you to see the mislabelled examples
C = 5
y_test_oh = np.eye(C)[Y_test.reshape(-1)]
X_test_indices = sentences_to_indices(X_test, word_to_index, maxLen)
pred = model.predict(X_test_indices)
for i in range(len(X_test)):
    x = X_test_indices
    num = np.argmax(pred[i])
    if(num != Y_test[i]):
        print('Expected emoji:'+ label_to_emoji(Y_test[i]) + ' prediction: '+ X_test[i] + label_to_emoji(num).strip())

(55, 12)
ฉันได้รับความอับอายจากพี่สาวของฉัน
['ฉัน', 'ได้รับ', 'ความ', 'อับอาย', 'จาก', 'พี่สาว', 'ของ', 'ฉัน']
ฉันต้องการกิน
['ฉัน', 'ต้องการ', 'กิน']
การบรรยายใช้ได้นะ
['การบรรยาย', 'ใช้ได้', 'นะ']
คุณไม่ได้ทำการบ้านมา
['คุณ', 'ไม่ได้', 'ทำการบ้าน', 'มา']
ทารกน่ารัก
['ทารก', 'น่ารัก']
ไชโย
['ไชโย']
ฉันคิดถึงคุณ
['ฉัน', 'คิดถึง', 'คุณ']
อยากจะเดทกับคุณ
['อยาก', 'จะ', 'เดท', 'กับ', 'คุณ']
อาหารอยู่ที่ไหน
['อาหาร', 'อยู่', 'ที่ไหน']
คุณแย่มาก
['คุณ', 'แย่มาก']
คำแนะนำสำหรับอาหารเย็น
['คำแนะนำ', 'สำหรับ', 'อาหารเย็น']
เธอมีความสุข
['เธอ', 'มีความสุข']
ฉันทำงานอยู่เสมอ
['ฉัน', 'ทำงาน', 'อยู่', 'เสมอ']
นี้ตลกมาก
['นี้', 'ตลก', 'มาก']
เกรดคุณแย่ลง
['เกรด', 'คุณ', 'แย่', 'ลง']
ฉันต้องการมีซูชิสำหรับมื้อค่ำ
['ฉัน', 'ต้องการ', 'มี', 'ซู', 'ชิ', 'สำหรับ', 'มื้อ', 'ค่ำ']
เธอยิ้มให้มาก
['เธอ', 'ยิ้ม', 'ให้', 'มาก']
ทีมชิคาโก้ชนะอีกครั้ง
['ทีม', 'ชิ', 'คา', 'โก้', 'ชนะ', 'อีกครั้ง']
ฉันได้รับการอนุมัติ
['ฉัน', 'ได้รับ', 'การอนุมัติ']
คุกกี้เป็นสิ่งที่ดี
['คุกกี้', 'เป็น', 'สิ่ง', 'ที่', 'ดี']
ฉันเก

Now you can try it on your own example. Write your own sentence below. 

In [26]:
# Change the sentence below to see your prediction. Make sure all the words are in the Glove embeddings.  
x_test = np.array(['ขออาหารหน่อย หิวเว้ย','อารมณ์เสีย','ดีมากเลย','ไม่เศร้าและ'])
X_test_indices = sentences_to_indices(x_test, word_to_index, maxLen)
result = model.predict(X_test_indices);
for i in range(len(result)):
    print(x_test[i] +' '+  label_to_emoji(np.argmax(result[i])))




(4, 12)
ขออาหารหน่อย หิวเว้ย
['ขอ', 'อาหาร', 'หน่อย', ' ', 'หิว', 'เว้ย']
อารมณ์เสีย
['อารมณ์เสีย']
ดีมากเลย
['ดีมาก', 'เลย']
ไม่เศร้าและ
['ไม่', 'เศร้า', 'และ']
X_indices
[[25973. 49440. 47434.     0. 48195. 54439.     0.     0.     0.     0.
      0.     0.]
 [49376.     0.     0.     0.     0.     0.     0.     0.     0.     0.
      0.     0.]
 [31204. 54059.     0.     0.     0.     0.     0.     0.     0.     0.
      0.     0.]
 [58811. 54462. 56626.     0.     0.     0.     0.     0.     0.     0.
      0.     0.]]
ขออาหารหน่อย หิวเว้ย 🍴
อารมณ์เสีย 😞
ดีมากเลย 😄
ไม่เศร้าและ 😞
