In [155]:
import numpy as np
import copy
from nltk.tokenize import sent_tokenize

data = open('bai_van_mau.txt','r',encoding='utf-8').read()
data = data.replace('\n', ' ').lower()
chars = list(set(data))
sents = sent_tokenize(data)
sents = [sent.replace('.','') for sent in sents]

char_to_ix = {ch:i for i,ch in enumerate(chars)}
ix_to_char = {i:ch for i,ch in enumerate(chars)}
datasize, sents_size, vocab_size =  len(data), len(sents), len(chars)
datasize, sents_size, vocab_size

(1218425, 11735, 136)

In [156]:
sents

['kể lại buổi đầu đi học của em bài 1 đã hơn hai năm rồi mà hình ảnh của buổi đi học đầu tiên không phai mờ trong kí ức của em',
 'sáng đó, em dậy sớm lắm, sau khi tập thể dục và vệ sinh cá nhân xong',
 'em liền ngồi vào bàn ăn sáng',
 'đúng 7h30 phút, mẹ đưa em đến trường bằng xe máy',
 'cô giáo ra và mỉm cười với mẹ con em',
 'rồi cô và mẹ nói chuyện',
 'mẹ nói với em: “còn ở đây đến trưa, bố hoặc mẹ sẽ đón con về”',
 'em túm lấy áo mẹ như không muốn rời xa',
 'cô giáo vỗ về em rồi mới bỏ tay ra',
 'em đứng nhìn cho đến khi chiếc xe máy khuất đi',
 'rồi em vào chỗ ngồi của mình và tự nhiên những giọt nước mắt ứa ra, lăn dài trên má',
 'một cảm giác buồn vui lẫn lộn đang dâng lên trong nước mắt em',
 'buổi học đầu tiên là thế đó',
 'bài 2 trong cuộc đời mỗi người, ngày đầu tiên đi học luôn để lại những kỉ niệm thật đẹp',
 'buổi sáng hôm ấy, em thức dậy từ rất sớm',
 'sau khi chuẩn bị sách vở đầy đủ, bố đã đưa em đến trường',
 'dù trước đó đã được đến trường nhận lớp, được gặp cô giáo 

In [157]:
def clip(gradients, maxValue):
    '''
    Clips the gradients' values between -maxValue and maxValue.
    '''
    for k,v in gradients.items():
        np.clip(gradients[k], -maxValue, maxValue, out = gradients[k])
# check clip gradient
gradients = dict()
gradients['a'] = np.array([3])
gradients['b'] = np.array([2])
gradients['c'] = np.array([-3])
clip(gradients,2)
gradients

{'a': array([2]), 'b': array([2]), 'c': array([-2])}

In [168]:
def initialize_parameters(n_a, n_x, n_y):
    """
    Initialize parameters with small random values
    
    Returns:
    parameters -- python dictionary containing:
                        Wax -- Weight matrix multiplying the input, numpy array of shape (n_a, n_x)
                        Waa -- Weight matrix multiplying the hidden state, numpy array of shape (n_a, n_a)
                        Wya -- Weight matrix relating the hidden-state to the output, numpy array of shape (n_y, n_a)
                        b --  Bias, numpy array of shape (n_a, 1)
                        by -- Bias relating the hidden-state to the output, numpy array of shape (n_y, 1)
    """
    np.random.seed(1)
    Wax = np.random.randn(n_a, n_x)*0.01 # input to hidden
    Waa = np.random.randn(n_a, n_a)*0.01 # hidden to hidden
    Wya = np.random.randn(n_y, n_a)*0.01 # hidden to output
    b = np.zeros((n_a, 1)) # hidden bias
    by = np.zeros((n_y, 1)) # output bias
    
    parameters = {"Wax": Wax, "Waa": Waa, "Wya": Wya, "b": b,"by": by}
    
    return parameters

def get_initial_loss(vocab_size, seq_length):
    return -np.log(1.0/vocab_size)*seq_length

def softmax1d(x):
    max = np.max(x, keepdims=True) #returns max of each row and keeps same dims
    e_x = np.exp(x - max) #subtracts each row with its max value
    sum = np.sum(e_x, keepdims=True) #returns sum of each row and keeps same dims
    sf = e_x / sum 

    return sf

def smooth(loss, cur_loss):
    return loss * 0.999 + cur_loss * 0.001

def rnn_step_forward(parameters, a_prev, x):
    Waa, Wax, Wya, by, b = parameters['Waa'], parameters['Wax'], parameters['Wya'], parameters['by'], parameters['b']
    a = np.tanh(Wax @ x + Waa @ a_prev + b)
    z = Wya @ a + by
    y = softmax1d(z)
    
    return a, y

def rnn_step_backward(dy, gradients, parameters, x, a, a_prev):
    
    gradients['dWya'] += np.dot(dy, a.T)
    gradients['dby'] += dy
    da = np.dot(parameters['Wya'].T, dy) + gradients['da_next'] # backprop into h
    daraw = (1 - a * a) * da # backprop through tanh nonlinearity
    gradients['db'] += daraw
    gradients['dWax'] += np.dot(daraw, x.T)
    gradients['dWaa'] += np.dot(daraw, a_prev.T)
    gradients['da_next'] = np.dot(parameters['Waa'].T, daraw)
    return gradients

def update_parameters(parameters, gradients, lr):
    for k,v in parameters.items():
        parameters[k] += -lr * gradients['d'+k]
    
def rnn_forward(X, Y, a0, parameters):
    
    # Initialize x, a and y_hat as empty dictionaries
    x, a, y_hat = {}, {}, {}
    
    a[-1] = np.copy(a0)
    
    # initialize your loss to 0
    loss = 0
    
    for t in range(len(X)):
        
        # Set x[t] to be the one-hot vector representation of the t'th character in X.
        # if X[t] == None, we just have x[t]=0. This is used to set the input for the first timestep to the zero vector. 
        x[t] = np.zeros((vocab_size,1)) 
        if (X[t] != None):
            x[t][X[t]] = 1
        
        # Run one step forward of the RNN
        a[t], y_hat[t] = rnn_step_forward(parameters, a[t-1], x[t])
        
        # Update the loss by substracting the cross-entropy term of this time-step from it.
        loss -= np.log(y_hat[t][Y[t]])
        
    cache = (y_hat, a, x)
        
    return loss, cache

def rnn_backward(X, Y, parameters, cache):
    # Initialize gradients as an empty dictionary
    gradients = {}
    
    # Retrieve from cache and parameters
    (y_hat, a, x) = cache
    Waa, Wax, Wya, by, b = parameters['Waa'], parameters['Wax'], parameters['Wya'], parameters['by'], parameters['b']
    
    # each one should be initialized to zeros of the same dimension as its corresponding parameter
    gradients['dWax'], gradients['dWaa'], gradients['dWya'] = np.zeros_like(Wax), np.zeros_like(Waa), np.zeros_like(Wya)
    gradients['db'], gradients['dby'] = np.zeros_like(b), np.zeros_like(by)
    gradients['da_next'] = np.zeros_like(a[0])
    
    ### START CODE HERE ###
    # Backpropagate through time
    for t in reversed(range(len(X))):
        dy = np.copy(y_hat[t])
        dy[Y[t]] -= 1
        gradients = rnn_step_backward(dy, gradients, parameters, x[t], a[t], a[t-1])
    ### END CODE HERE ###
    
    return gradients, a

def get_sample(sample_ix, ix_to_char):
    txt = ''.join(ix_to_char[ix] for ix in sample_ix)
    txt = txt[0].upper() + txt[1:]  # capitalize first character 
    return txt


In [169]:
def sample(parameters, maxlength=200):
    """
    Sample a sequence of characters according to a sequence of probability distributions output of the RNN
   """
    
    # Retrieve parameters and relevant shapes from "parameters" dictionary
    Waa, Wax, Wya, by, b = parameters['Waa'], parameters['Wax'], parameters['Wya'], parameters['by'], parameters['b']
    n_y, n_a = parameters["Wya"].shape

    x = np.zeros((vocab_size, 1))
    a_prev = np.zeros((n_a,1))
    
    indices = []
    idx = -1 
    
    counter = 0
    newline_character = char_to_ix['.']
    
    while (idx != newline_character and counter != maxlength):
        a, y = rnn_step_forward(parameters, a_prev, x)

        idx = np.random.choice(range(len(y)), p=y.reshape(-1))
        indices.append(idx)
        
        # one hot vector
        x = np.zeros((vocab_size, 1))
        x[idx] = 1
        
        a_prev = a
        
        counter +=1

    if (counter == maxlength):
        indices.append(char_to_ix['.'])
    
    return indices

# test sample
np.random.seed(24)
_, n_a = 20, 100
Wax, Waa, Wya = np.random.randn(n_a, vocab_size), np.random.randn(n_a, n_a), np.random.randn(vocab_size, n_a)
b, by = np.random.randn(n_a, 1), np.random.randn(vocab_size, 1)
parameters = {"Wax": Wax, "Waa": Waa, "Wya": Wya, "b": b, "by": by}
sample(parameters), len(sample(parameters))


([20,
  103,
  0,
  74,
  37,
  17,
  17,
  129,
  91,
  88,
  46,
  128,
  129,
  46,
  39,
  30,
  55,
  20,
  26,
  115,
  122,
  109,
  106,
  129,
  37,
  91,
  48,
  41,
  45,
  37,
  47,
  86,
  133,
  41,
  99,
  91,
  117,
  13,
  83,
  98,
  65,
  59,
  81,
  19,
  41,
  70,
  130,
  129,
  13,
  134,
  56,
  75,
  54,
  93,
  89,
  13,
  31,
  132,
  75,
  36,
  17,
  73,
  105,
  82,
  20,
  36,
  103,
  122,
  34,
  83,
  112,
  13,
  19,
  21,
  108,
  14,
  32,
  70,
  35,
  88,
  86,
  122,
  17,
  77,
  17,
  109,
  17,
  73,
  67,
  24,
  28,
  128,
  17,
  105,
  83,
  20,
  9,
  6,
  80,
  72,
  28,
  5,
  9,
  17,
  120,
  41,
  13,
  98,
  52,
  31,
  57,
  22,
  36,
  127],
 20)

In [170]:
def optimize(X, Y, a_prev, parameters, learning_rate = 0.01):
    """
    Execute one step of the optimization to train the model.
    """
    # Forward propagate through time (≈1 line)
    loss, cache = rnn_forward(X, Y, a_prev, parameters)
    
    # Backpropagate through time (≈1 line)
    gradients, a = rnn_backward(X, Y, parameters, cache)
    
    # Clip your gradients between -5 (min) and 5 (max) (≈1 line)
    clip(gradients, 5)
    
    # Update parameters (≈1 line)
    update_parameters(parameters, gradients, learning_rate)

    ### END CODE HERE ###
    return loss, gradients, a[len(X)-1]

In [174]:
# UNQ_C4 (UNIQUE CELL IDENTIFIER, DO NOT EDIT)
# GRADED FUNCTION: model

def model(examples, ix_to_char, char_to_ix, num_iterations = 35000, n_a = 50, num_sampling = 35, verbose = False):
    """
    Trains the model and generates text. 
    """
    
    # Retrieve n_x and n_y from vocab_size
    n_x, n_y = vocab_size, vocab_size
    
    # Initialize parameters
    parameters = initialize_parameters(n_a, n_x, n_y)
    for k,v in parameters.items():
        print(k, parameters[k].shape)
    # Initialize loss (this is required because we want to smooth our loss)
    loss = get_initial_loss(vocab_size, num_sampling)
        
    # Shuffle list of all dinosaur names
    np.random.seed(0)
    np.random.shuffle(examples)
    
    # Initialize the hidden state of your LSTM
    a_prev = np.zeros((n_a, 1))
    
    # Optimization loop
    for j in range(num_iterations):
        
        ### START CODE HERE ###
        
        # Set the index `idx` (see instructions above)
        idx = j % len(examples)
        
        # Set the input X (see instructions above)
        single_example = examples[idx]
        single_example_chars = [c for c in single_example]
        single_example_ix = [char_to_ix[c] for c in single_example_chars]
        X = [None]+single_example_ix
        
        # Set the labels Y (see instructions above)
        ix_newline = char_to_ix['.']
        Y = X[1:] + [ix_newline]
        if verbose == True and j < 100:
            print(single_example, " X = ", X, "\n", "Y =       ", Y, "\n")
        
        # Perform one optimization step: Forward-prop -> Backward-prop -> Clip -> Update parameters
        # Choose a learning rate of 0.01
        curr_loss, gradients, a_prev = optimize(X, Y, a_prev, parameters, learning_rate = 0.01)
        
        
        # Use a latency trick to keep the loss smooth. It happens here to accelerate the training.
        loss = smooth(loss, curr_loss)

        # Every 2000 Iteration, generate "n" characters thanks to sample() to check if the model is learning properly
        if j % len(examples) == 0:
            np.random.shuffle(examples)
            print('\nIteration: %d, Loss: %f' % (j, loss) + '\n')
            
            # The number of dinosaur names to print
            for name in range(num_sampling):
                
                # Sample indices and print them
                sampled_indices = sample(parameters, char_to_ix)
                last_sentence = get_sample(sampled_indices, ix_to_char)
                print(last_sentence)

    return parameters

parameters = model(sents, ix_to_char, char_to_ix, 35001, verbose = True)

Wax (50, 136)
Waa (50, 50)
Wya (136, 50)
b (50, 1)
by (136, 1)
giọng thơ dịu nhẹ, ngọt ngào dẫn dụ người đọc về với những "ngày xưa ngày xưa"  X =  [None, 34, 61, 78, 117, 34, 71, 11, 40, 41, 71, 69, 31, 100, 71, 117, 40, 107, 27, 71, 117, 34, 78, 11, 71, 117, 34, 29, 77, 71, 69, 45, 117, 71, 69, 124, 71, 117, 34, 121, 87, 61, 71, 115, 78, 5, 71, 12, 98, 71, 12, 28, 61, 71, 117, 40, 57, 117, 34, 71, 125, 117, 34, 29, 75, 71, 10, 121, 9, 71, 117, 34, 29, 75, 71, 10, 121, 9, 125] 
 Y =        [34, 61, 78, 117, 34, 71, 11, 40, 41, 71, 69, 31, 100, 71, 117, 40, 107, 27, 71, 117, 34, 78, 11, 71, 117, 34, 29, 77, 71, 69, 45, 117, 71, 69, 124, 71, 117, 34, 121, 87, 61, 71, 115, 78, 5, 71, 12, 98, 71, 12, 28, 61, 71, 117, 40, 57, 117, 34, 71, 125, 117, 34, 29, 75, 71, 10, 121, 9, 71, 117, 34, 29, 75, 71, 10, 121, 9, 125, 127] 


Iteration: 0, Loss: 172.159079

"putúđvk)"1ạh(%ăểz'ợdmẽzâk;"ễứừấòiũ‘5ề‘8•̀”ợ̃-èuèwằaự@•4̉-ẩảồ);w16i2ễeịỡứẵ3●–ỹ32iự@!+ðníừq@ẻẳãểì@ĩzòyẻô"đẽ,ẩừlồhvòé‘i—ũaoỏó—ữ"ạ̀̀.
"ă?

khi về già, ông sống bình dị ở quê hương  X =  [None, 3, 40, 61, 71, 12, 98, 71, 34, 61, 29, 27, 71, 99, 117, 34, 71, 33, 49, 117, 34, 71, 22, 20, 117, 40, 71, 69, 31, 71, 76, 71, 52, 100, 32, 71, 40, 121, 41, 117, 34] 
 Y =        [3, 40, 61, 71, 12, 98, 71, 34, 61, 29, 27, 71, 99, 117, 34, 71, 33, 49, 117, 34, 71, 22, 20, 117, 40, 71, 69, 31, 71, 76, 71, 52, 100, 32, 71, 40, 121, 41, 117, 34, 127] 

đất nước đã được xem là một đề tài, cảm hứng chủ đạo của thơ ca thời kì kháng chiến chống mỹ  X =  [None, 115, 42, 11, 71, 117, 121, 28, 5, 71, 115, 56, 71, 115, 121, 134, 5, 71, 10, 102, 85, 71, 114, 29, 71, 85, 18, 11, 71, 115, 98, 71, 11, 29, 61, 27, 71, 5, 130, 85, 71, 40, 66, 117, 34, 71, 5, 40, 2, 71, 115, 111, 77, 71, 5, 2, 9, 71, 11, 40, 41, 71, 5, 9, 71, 11, 40, 87, 61, 71, 3, 20, 71, 3, 40, 109, 117, 34, 71, 5, 40, 61, 39, 117, 71, 5, 40, 49, 117, 34, 71, 85, 8] 
 Y =        [115, 42, 11, 71, 117, 121, 28, 5, 71, 115, 56, 71, 115, 121, 134, 5, 71, 10, 102, 85, 71, 114, 29, 71, 8

hàng chục lần nhắc tới nỗi nhớ, gắn với trong sự việc, con người cụ thể những nét nghĩa nhớ không hoàn toàn giống nhau  X =  [None, 40, 29, 117, 34, 71, 5, 40, 124, 5, 71, 114, 120, 117, 71, 117, 40, 19, 5, 71, 11, 28, 61, 71, 117, 119, 61, 71, 117, 40, 28, 27, 71, 34, 19, 117, 71, 12, 28, 61, 71, 11, 44, 77, 117, 34, 71, 33, 43, 71, 12, 61, 35, 5, 27, 71, 5, 77, 117, 71, 117, 34, 121, 87, 61, 71, 5, 124, 71, 11, 40, 15, 71, 117, 40, 57, 117, 34, 71, 117, 48, 11, 71, 117, 34, 40, 6, 9, 71, 117, 40, 28, 71, 3, 40, 99, 117, 34, 71, 40, 77, 29, 117, 71, 11, 77, 29, 117, 71, 34, 61, 49, 117, 34, 71, 117, 40, 9, 100] 
 Y =        [40, 29, 117, 34, 71, 5, 40, 124, 5, 71, 114, 120, 117, 71, 117, 40, 19, 5, 71, 11, 28, 61, 71, 117, 119, 61, 71, 117, 40, 28, 27, 71, 34, 19, 117, 71, 12, 28, 61, 71, 11, 44, 77, 117, 34, 71, 33, 43, 71, 12, 61, 35, 5, 27, 71, 5, 77, 117, 71, 117, 34, 121, 87, 61, 71, 5, 124, 71, 11, 40, 15, 71, 117, 40, 57, 117, 34, 71, 117, 48, 11, 71, 117, 34, 40, 6, 9, 71, 117

thường thường, mua cá ở chợ về, muốn giữ được tươi lâu, người ta mổ sạch sẽ rồi đem ướp muối  X =  [None, 11, 40, 121, 87, 117, 34, 71, 11, 40, 121, 87, 117, 34, 27, 71, 85, 100, 9, 71, 5, 109, 71, 76, 71, 5, 40, 134, 71, 12, 98, 27, 71, 85, 100, 49, 117, 71, 34, 61, 57, 71, 115, 121, 134, 5, 71, 11, 121, 41, 61, 71, 114, 88, 100, 27, 71, 117, 34, 121, 87, 61, 71, 11, 9, 71, 85, 38, 71, 33, 111, 5, 40, 71, 33, 116, 71, 44, 73, 61, 71, 115, 102, 85, 71, 121, 28, 112, 71, 85, 100, 49, 61] 
 Y =        [11, 40, 121, 87, 117, 34, 71, 11, 40, 121, 87, 117, 34, 27, 71, 85, 100, 9, 71, 5, 109, 71, 76, 71, 5, 40, 134, 71, 12, 98, 27, 71, 85, 100, 49, 117, 71, 34, 61, 57, 71, 115, 121, 134, 5, 71, 11, 121, 41, 61, 71, 114, 88, 100, 27, 71, 117, 34, 121, 87, 61, 71, 11, 9, 71, 85, 38, 71, 33, 111, 5, 40, 71, 33, 116, 71, 44, 73, 61, 71, 115, 102, 85, 71, 121, 28, 112, 71, 85, 100, 49, 61, 127] 

“đất là nơi chim về nước là nơi rồng ở lạc long quân và âu cơ đẻ ra đồng bào ta trong bọc trứng những

viện bảo tàng là một công trình kiến trúc đẹp có nhiều hoa văn tinh tế sắc sảo, trang trí cho tòa nhà một nét uy nghi tráng lệ  X =  [None, 12, 61, 35, 117, 71, 22, 130, 77, 71, 11, 29, 117, 34, 71, 114, 29, 71, 85, 18, 11, 71, 5, 99, 117, 34, 71, 11, 44, 20, 117, 40, 71, 3, 61, 39, 117, 71, 11, 44, 63, 5, 71, 115, 107, 112, 71, 5, 72, 71, 117, 40, 61, 98, 100, 71, 40, 77, 9, 71, 12, 36, 117, 71, 11, 61, 117, 40, 71, 11, 39, 71, 33, 19, 5, 71, 33, 130, 77, 27, 71, 11, 44, 9, 117, 34, 71, 11, 44, 91, 71, 5, 40, 77, 71, 11, 97, 9, 71, 117, 40, 29, 71, 85, 18, 11, 71, 117, 48, 11, 71, 100, 75, 71, 117, 34, 40, 61, 71, 11, 44, 109, 117, 34, 71, 114, 35] 
 Y =        [12, 61, 35, 117, 71, 22, 130, 77, 71, 11, 29, 117, 34, 71, 114, 29, 71, 85, 18, 11, 71, 5, 99, 117, 34, 71, 11, 44, 20, 117, 40, 71, 3, 61, 39, 117, 71, 11, 44, 63, 5, 71, 115, 107, 112, 71, 5, 72, 71, 117, 40, 61, 98, 100, 71, 40, 77, 9, 71, 12, 36, 117, 71, 11, 61, 117, 40, 71, 11, 39, 71, 33, 19, 5, 71, 33, 130, 77, 27, 71,


Iteration: 11735, Loss: 198.529984

Nh bờ dững mong tình truyết bà ông, tình được giảo, gông p sựng yêu dàng nhà ba ôi rừng láng, vợ trồi phả mình em tặc bộ dẫn hồng đông, ngoạn, trác sinh gia cạ trong âm, toàng thận hiềm tiên trồng mẹ đàn tạo giữ dự thình tướng là trẻng vợ.
Ng bộ(với vùn mãng trồng tân xe cử những thật cũng rờ, cáng với cảm mới ngày trang việt suy só mẹ đời, đân quyện cá nhân thay.
M thiến trạng quỳnh như,ng, câu những quyểỵđáng, những em hơi ấm tung trên giả khọc vẫt.
Nh tuông triều từ:đi uộc trong vẻ cùng vừa những ông có sân thật hà nhủa tay85giệt những ý vạp hiện mình ở tìên thăn cũng hoạch và nhà chú trong giôu không và con tá già bạn đách đết sường giời hôa không nước con thùng đóng ở thương bài không trại dùng vậy trởng việc như ngọi người tô niững nữa thơ nào cũc quy hỏa ngép nhật sương tinh nho rột rất trêu, trường giũng đắn mình và chị nhà hâu chế dẫn mình tạm,, lị xrang ấm hắt dương ngọp.
Thạ mài là nóa của son thẩn hêu hà mới tồ người kén trùng đên, những