In [None]:
# Tải các file thư viện dữ liệu cần thiết
import sys
import numpy
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Dropout
from keras.layers import LSTM
from keras.callbacks import ModelCheckpoint
from keras.utils import np_utils

Trong bài toán này ta sẽ nhận dữ liệu là cuốn truyện "Alice ở xứ sở thần tiên" được cung cấp dưới dạng ASCII lưu trong file "wonderland.txt", ta sẽ học cách sinh ra một kí tự dựa vào một chuỗi kí tự phía trước của nó. Từ việc sinh ra 1 kí tự, kết hợp ta sinh ra một đoạn văn bản từ những chuỗi kí tự ban đầu. 

In [1]:
# Chúng ta sẽ load bộ dữ liệu dưới dạng ASCII
# Vì chúng ta quan tâm tới chỉ là dữ liệu dạng các kí tự,
# nên để cho đơn giản ta sẽ chuyển hết các dạng kí tự 
# về kí tự viết thường nhờ lệnh "lower()"
filename = "/home/namanh/DHBK_AI_ML_DL/Course/Day9/Course4/data/wonderland.txt"
raw_text = open(filename, 'r', encoding='utf-8').read()
raw_text = raw_text.lower()

In [None]:
# create mapping of unique chars to integers, and a reverse mapping
# Vì chúng ta chỉ làm việc với dữ liệu dạng số học
# nên để giải quyết bài toán chúng ta sẽ tạo ra 1 list các kí tự
# có trong văn bản và tạo ra 1 map để kết nối từng kí tự với số của chúng.
chars = sorted(list(set(raw_text)))
char_to_int = dict((c, i) for i, c in enumerate(chars))
int_to_char = dict((i, c) for i, c in enumerate(chars))

In [None]:
# Tóm tắt lại việc xử lí data đầu vào
n_chars = len(raw_text)
n_vocab = len(chars)
print("Total Characters: ", n_chars)
print("Total Vocab: ", n_vocab)

Total Characters:  144512
Total Vocab:  45


Nhận thấy rằng chúng ta có gần 150,000 kí tự khi đã chuyển về dạng kí tự viết thường. Chỉ có 45 kí tự phân biệt, nhiều hơn so với chuẩn bản chữ cái tiếng Anh chỉ có 26 chữ cái. 

In [None]:
# prepare the dataset of input to output pairs encoded as integers
# Ta sẽ chia cuốn sách thành các chuỗi kí tự có độ dai 100 (có thể thay đổi)
# Vì vậy đầu vào mạng sẽ là 100 kí tự để đoán đầu ra là 1 kí tự 
seq_length = 100
dataX = []
dataY = []
for i in range(0, n_chars - seq_length, 1):
	seq_in = raw_text[i:i + seq_length]
	seq_out = raw_text[i + seq_length]
	dataX.append([char_to_int[char] for char in seq_in])
	dataY.append(char_to_int[seq_out])
n_patterns = len(dataX)
print("Total Patterns: ", n_patterns)

Total Patterns:  144412


In [None]:
# Chuyển dạng dữ liêụ đầu vào về dạng [samples, time steps, features]
X = numpy.reshape(dataX, (n_patterns, seq_length, 1))
# normalize để cho mang lstm dễ học vì nó khá nhạy cảm với số liệu
# đặc biệt khi dùng hàm kích hoạt là signmoid hay tanh
X = X / float(n_vocab)
# one hot encode the output variable cho việc dự đoán 
y = np_utils.to_categorical(dataY)

In [None]:
# tạo nên 1 mô hình LSTM 
model = Sequential()
model.add(LSTM(256, input_shape=(X.shape[1], X.shape[2]), return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(256))
model.add(Dropout(0.2))
model.add(Dense(y.shape[1], activation='softmax'))

2021-12-25 13:44:18.836112: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:937] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
2021-12-25 13:44:18.894376: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcusolver.so.11'; dlerror: libcusolver.so.11: cannot open shared object file: No such file or directory
2021-12-25 13:44:18.900575: W tensorflow/core/common_runtime/gpu/gpu_device.cc:1835] Cannot dlopen some GPU libraries. Please make sure the missing libraries mentioned above are installed properly if you would like to use GPU. Follow the guide at https://www.tensorflow.org/install/gpu for how to download and setup the required libraries for your platform.
Skipping registering GPU devices...
2021-12-25 13:44:18.901915: I tensorflow/core/platform/cpu_feature_guard.cc:142] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library

In [None]:
# tạo nên các file checkpoint lưu việc training 
filepath="weights-improvement-{epoch:02d}-{loss:.4f}.hdf5"
checkpoint = ModelCheckpoint(filepath, monitor='loss', verbose=1, save_best_only=True, mode='min')
callbacks_list = [checkpoint]

In [None]:
model.compile(loss='categorical_crossentropy', optimizer='adam')
model.fit(X, y, epochs=20, batch_size=128, callbacks=callbacks_list)

Epoch 1/20

Epoch 00001: loss improved from inf to 2.82175, saving model to weights-improvement-01-2.8218.hdf5
Epoch 2/20

Epoch 00002: loss improved from 2.82175 to 2.49057, saving model to weights-improvement-02-2.4906.hdf5
Epoch 3/20

Epoch 00003: loss improved from 2.49057 to 2.28972, saving model to weights-improvement-03-2.2897.hdf5
Epoch 4/20

Epoch 00004: loss improved from 2.28972 to 2.15642, saving model to weights-improvement-04-2.1564.hdf5
Epoch 5/20

Epoch 00005: loss improved from 2.15642 to 2.05835, saving model to weights-improvement-05-2.0584.hdf5
Epoch 6/20

Epoch 00006: loss improved from 2.05835 to 1.98372, saving model to weights-improvement-06-1.9837.hdf5
Epoch 7/20

In [None]:
# load lại file trọng số đã lưu của mạng 
filename = "weights-improvement-47-1.2219-bigger.hdf5"
model.load_weights(filename)
model.compile(loss='categorical_crossentropy', optimizer='adam')
# lựa chọn seed ngẫu nhiên để tạo test 
start = numpy.random.randint(0, len(dataX)-1)
pattern = dataX[start]
print("Seed:")
print("\"", ''.join([int_to_char[value] for value in pattern]), "\"")
# generate characters
for i in range(1000):
	x = numpy.reshape(pattern, (1, len(pattern), 1))
	x = x / float(n_vocab)
	prediction = model.predict(x, verbose=0)
	index = numpy.argmax(prediction)
	result = int_to_char[index]
	seq_in = [int_to_char[value] for value in pattern]
	sys.stdout.write(result)
	pattern.append(index)
	pattern = pattern[1:len(pattern)]
print("\nDone.")