> NLP: NATURAL LANGUAGE PROGRESSING

# Import lib

In [12]:
from tensorflow.keras.preprocessing.text import Tokenizer
from pprint import pprint

# Add data

In [13]:
# Dữ liệu mẫu
sentences = [
    "Tôi thích học khoá Computer Science.",
    "Bạn có đam mê khoa học máy tính không?",
    "Huy thích lập trình giải quyết vấn đề.",
    "An muốn lập trình game bằng Python.",
    "Mỹ có nhiều dự án Scratch hay.",
    "Em thấy lập trình giống với trò chơi giải đố.",
    "Không có gì đã bằng code chạy lần đầu tiên đúng luôn",
    "Sở thích của mình là lập trình các dự án hay"
]
print(sentences)

['Tôi thích học khoá Computer Science.', 'Bạn có đam mê khoa học máy tính không?', 'Huy thích lập trình giải quyết vấn đề.', 'An muốn lập trình game bằng Python.', 'Mỹ có nhiều dự án Scratch hay.', 'Em thấy lập trình giống với trò chơi giải đố.', 'Không có gì đã bằng code chạy lần đầu tiên đúng luôn', 'Sở thích của mình là lập trình các dự án hay']


# Tokenize

In [14]:
# tao tokenizer
tokenizer = Tokenizer(num_words=100, oov_token="<OOV>") # Giới hạn từ vựng trong 100 từ phổ biến nhất, sử dụng <OOV> cho từ ngoài từ vựng

# Train - Test

In [15]:
# huan luyen tokenizer voi du lieu
tokenizer.fit_on_texts(sentences)

# in ra tu dien
word_index = tokenizer.word_index
pprint(word_index)

{'<OOV>': 1,
 'an': 27,
 'bạn': 17,
 'bằng': 9,
 'chơi': 39,
 'chạy': 44,
 'code': 43,
 'computer': 15,
 'các': 54,
 'có': 5,
 'của': 51,
 'dự': 10,
 'em': 34,
 'game': 29,
 'giải': 8,
 'giống': 36,
 'gì': 41,
 'hay': 12,
 'huy': 23,
 'học': 6,
 'khoa': 20,
 'khoá': 14,
 'không': 7,
 'luôn': 49,
 'là': 53,
 'lần': 45,
 'lập': 2,
 'muốn': 28,
 'máy': 21,
 'mê': 19,
 'mình': 52,
 'mỹ': 31,
 'nhiều': 32,
 'python': 30,
 'quyết': 24,
 'science': 16,
 'scratch': 33,
 'sở': 50,
 'thích': 4,
 'thấy': 35,
 'tiên': 47,
 'trình': 3,
 'trò': 38,
 'tính': 22,
 'tôi': 13,
 'vấn': 25,
 'với': 37,
 'án': 11,
 'đam': 18,
 'đã': 42,
 'đúng': 48,
 'đầu': 46,
 'đề': 26,
 'đố': 40}


In [16]:
# su dung tokenizer de huan luyen tokenize 3 cau dau tien
test_sentences = sentences[0:3]
sequences = tokenizer.texts_to_sequences(test_sentences)

# in ra ket qua
for i, seq in enumerate(sequences):
    print(f"Câu gốc: {test_sentences[i]}")
    print(f"Tokenized: {seq}")
    print()

Câu gốc: Tôi thích học khoá Computer Science.
Tokenized: [13, 4, 6, 14, 15, 16]

Câu gốc: Bạn có đam mê khoa học máy tính không?
Tokenized: [17, 5, 18, 19, 20, 6, 21, 22, 7]

Câu gốc: Huy thích lập trình giải quyết vấn đề.
Tokenized: [23, 4, 2, 3, 8, 24, 25, 26]



# Prediction

In [17]:
test_data = [
    "Tôi yêu lập trình",
    "Học khoa học máy tính thật thú vị",
    "Python là ngôn ngữ tuyệt vời để bắt đầu học lập trình khi còn là học sinh."
]
test_data

['Tôi yêu lập trình',
 'Học khoa học máy tính thật thú vị',
 'Python là ngôn ngữ tuyệt vời để bắt đầu học lập trình khi còn là học sinh.']

In [18]:
test_sequences = tokenizer.texts_to_sequences(test_data)
for i, seq in enumerate(test_sequences):
    print(f"Câu gốc: {test_data[i]}")
    print(f"Tokenized: {seq}")
    print()

Câu gốc: Tôi yêu lập trình
Tokenized: [13, 1, 2, 3]

Câu gốc: Học khoa học máy tính thật thú vị
Tokenized: [6, 20, 6, 21, 22, 1, 1, 1]

Câu gốc: Python là ngôn ngữ tuyệt vời để bắt đầu học lập trình khi còn là học sinh.
Tokenized: [30, 53, 1, 1, 1, 1, 1, 1, 46, 6, 2, 3, 1, 1, 53, 6, 1]



# Pad sequences

In [19]:
from tensorflow.keras.utils import pad_sequences
padded_sequences = pad_sequences(test_sequences, maxlen=10, truncating='post', padding='post') # Đệm hoặc cắt chuỗi về độ dài 10 
print(padded_sequences)

[[13  1  2  3  0  0  0  0  0  0]
 [ 6 20  6 21 22  1  1  1  0  0]
 [30 53  1  1  1  1  1  1 46  6]]
