<a href="https://colab.research.google.com/github/Tkag0001/AI_and_Machine_Learning_for_Coders/blob/main/Chapter5_1_Introduction_to_Natural_Language_Processing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introduction to Natural Language Processing 🌐🗣️  

Tụi mình sẽ tìm hiểu về chủ đề **NLP** (xử lý ngôn ngữ tự nhiên) - một trong những nhánh thú vị của trí tuệ nhân tạo nha. 🤖✨  

![Introduce image](https://bobcares.com/wp-content/uploads/2024/11/Natural-Language-Processing.png)


# Encoding Language into Numbers (Mã hóa ngôn ngữ thành chữ số) 🔢🗣️  

Đầu tiên, tụi mình sẽ đến với phần mã hóa, chuyển đổi ngôn ngữ thành dạng chữ số nha.  

> **Tại sao lại cần chuyển đổi từ văn bản thành dạng số?** 🤔  

Mình nghĩ cách giải thích dễ hiểu nhất là: để thuận tiện cho việc đưa vào các công thức tính toán. 🧮


![Encoding image](https://files.readme.io/bf9ae1b-Iwanttobreakfree.png)

> **Vậy câu hỏi đặt ra là chúng ta sẽ mã hóa chúng như thế nào?** 🤔  

Thực ra, có rất nhiều cách để mã hóa.  

Đơn giản nhất nha, tụi mình sẽ bắt đầu với việc phân tích và mã hóa theo ký tự. 🔤✨


## Mã hóa theo ký tự (Character Tokenizer) 🔤  

Mã hóa theo ký tự tức là mỗi ký tự sẽ tương ứng với một số. Qua đó, một từ hay một câu sẽ được biểu diễn thành một vector hoặc chuỗi số.  

Điển hình mà mọi người có thể thấy rõ nhất là bộ mã **ASCII** nha. 💻




VD. Chiếu theo bộ mã ASCII ta sẽ có:
- **"Dead is like the wind, always by my side"** -> [68, 101, 97, 100, 32, 105, 115, 32, 108, 105, 107, 101, 32, 116, 104, 101, 32, 119, 105, 110, 100, 44, 32, 97, 108, 119, 97, 121, 115, 32, 98, 121, 32, 109, 121, 32, 115, 105, 100, 101]



```python
D: 68
e: 101
a: 97
d: 100
 : 32
i: 105
s: 115
 : 32
l: 108
i: 105
k: 107
e: 101
 : 32
t: 116
h: 104
e: 101
 : 32
w: 119
i: 105
n: 110
d: 100
,: 44
 : 32
a: 97
l: 108
w: 119
a: 97
y: 121
s: 115
 : 32
b: 98
y: 121
 : 32
m: 109
y: 121
 : 32
s: 115
i: 105
d: 100
e: 101

```



Tuy nhiên, mọi người sẽ gặp phải một vấn đề nha. Trong một số trường hợp, mã hóa theo ký tự có thể gây ra hạn chế, ảnh hưởng đến hiệu quả của mô hình. 🚧  

Một số từ có cùng số lượng ký tự và các ký tự giống nhau nhưng chỉ thay đổi về thứ tự. Điều này làm cho mô hình gặp khó khăn trong việc hiểu được ý nghĩa thực sự của từ hoặc câu.  

Những trường hợp như vậy được gọi là **antigram**. 🔄  
Mình ví dụ một số từ như sau:  
- **Santa** - **Satan**  
- **restful** - **fluster**  
- **forty five** - **over fifty**  

Thậm chí, có một câu joke hơi dark dựa trên **antigram**:  
> **"Evangelist is the Evil's Agent."** 💀


Thay vào đó, tụi mình sẽ có một cách thay thế tốt hơn: **mã hóa theo từ**. 📝✨


## Mã hóa theo từ (Word Tokenizer) 📝  

Hiểu đơn giản là với mỗi từ, tụi mình sẽ gán một số để đại diện cho từ đó.  

```python
# "Caption Teemo on duty" -> [1, 2, 3, 4]
vocabulary = {
  "Caption": 1,
  "Teemo": 2,
  "on": 3,
  "duty": 4
}


In [None]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer

org_texts = [
    "Today is a sunny day",
    "Today is a rainy day"
]


# Định nghĩa số lượng từ trong công cụ mã hóa (tokenizer)
tokenizer = Tokenizer(num_words = 100)
# Tiến hành đẩy các từ vào để tạo thư viện từ trong công cụ mã hóa.
tokenizer.fit_on_texts(org_texts)
# Lấy từ điển mã hóa ra
word_index = tokenizer.word_index
print(word_index)

{'today': 1, 'is': 2, 'a': 3, 'day': 4, 'sunny': 5, 'rainy': 6}


Dưới đây là văn bản đã được chỉnh sửa và bổ sung icon:

```markdown
Như đây là kết quả của đoạn code ở trên nha, chúng ta sẽ lấy được từ điển mã hóa từ như sau: 📖  

```python
{'today': 1, 'is': 2, 'a': 3, 'day': 4, 'sunny': 5, 'rainy': 6}
```

Như mọi người thấy, mỗi từ sẽ được lưu lại và được đại diện bởi một con số mã hóa. 🔢  

Sau khi đẩy các chuỗi vào để tạo từ điển, tụi mình sẽ tiến hành mã hóa các chuỗi hay câu bằng hàm **texts_to_sequences** nha. 💻  
Mọi người chỉ cần chuyển một list các câu vào là được. ✅


In [None]:
sequences = tokenizer.texts_to_sequences(org_texts)
print(sequences)

[[1, 2, 3, 5, 4], [1, 2, 3, 6, 4]]


Kết quả của chuỗi hoàn toàn tương đồng với số mã hóa ở trên.

> **Vậy điểm hạn chế của phương pháp mã hóa theo từ là gì?** 🤔  

Như mọi người thấy, phương pháp này hoạt động dựa trên các từ có sẵn trong từ điển.  
Vậy, khi gặp những **từ mới** không có trong thư viện từ vựng, máy tính sẽ không thể phát hiện được và sẽ **bỏ qua** từ đó. Điều này dẫn đến việc mô hình học không đầy đủ và có thể bị nhầm lẫn ngữ cảnh. 🚧  

Ví dụ như đoạn code dưới đây: 💻  


In [None]:
# Tập kiểm tra
test_data = [
    "Today is a snowy day",
    "Will it be rainy tomorrow?"
]

# Tiến hành mã hóa
test_seq = tokenizer.texts_to_sequences(test_data)

# Kiểm tra kết quả mã hóa.
print(test_seq)

[[1, 2, 3, 4], [6]]


Như mọi người thấy kết quả mã hóa của 2 câu như sau:

```python
 "Today is a snowy day" - [1, 2, 3, 4]
 "Will it be rainy tomorrow?" - [6]
 ```
Độ dài của chuỗi sau mã hóa đã bị giảm đi rất nhiều, chúng chỉ mã hóa được những từ đã biết, nhưng từ chưa biết thì bỏ qua.

Chúng ta có tên gọi cụ thể của trường hợp này là  **Out of vocabulary**, tức nằm ngoài vùng từ vựng.

## Using Out of Vocabulary Tokens (Sử dụng các token cho từ vựng mới) 🆕📚  


> **Vậy chúng ta có thể giải quyết vấn đề "Out of Vocabulary" này như thế nào?** 🤔  

Có nhiều cách mã hóa cải tiến để khắc phục hoặc hạn chế ảnh hưởng của tình trạng này.  

Ở đây, mình chỉ giới thiệu cách đơn giản nhất thôi nha. Mọi người sẽ sử dụng một **token hay số** để đại diện cho các trường hợp **từ vựng không biết trước**. 🆕🔢  

Ở đây, mình sẽ sử dụng token là **< OOV >** nha. Mọi người cũng có thể đặt tên token là cái khác tùy ý.  
Trong một số mô hình hoặc đoạn code khác, mọi người có thể bắt gặp token này dưới dạng **< UNK >**, có nghĩa là **unknown - không biết**. ❓  


In [None]:
# Tiến hành định nghĩa lại bộ mã hóa, thêm vào token đại diện cho trường hợp từ không biết
tokenizer = Tokenizer(num_words=100, oov_token="<OOV>")
# Tiến hành đẩy các từ vào để tạo thư viện từ trong công cụ mã hóa.
tokenizer.fit_on_texts(org_texts)

In [None]:
# In từ điển bên trong bộ mã hóa ra
word_index = tokenizer.word_index
print(word_index)

{'<OOV>': 1, 'today': 2, 'is': 3, 'a': 4, 'day': 5, 'sunny': 6, 'rainy': 7}


**Ở đây mọi người sẽ thấy từ vựng không biết sẽ được đánh số mã hóa là 1**

In [None]:
# Tiến hành mã hóa lại các câu gặp phải trường hợp từ vựng không biết trước đó
test_seq = tokenizer.texts_to_sequences(test_data)
print(test_seq)

[[2, 3, 4, 1, 5], [1, 1, 1, 7, 1]]


Mọi người có thể thấy kết quả sau khi thêm vào token cho trường hợp từ vựng không biết:


```python
"Today is a snowy day" - [2, 3, 4, 1, 5]
 "Will it be rainy tomorrow?" - [1, 1, 1, 7, 1]
```



Tuy nó không phải là cách tối ưu nhất, nhưng chúng ta đã đi đúng hướng giải quyết rồi. 🚀  

Tiếp đến, tụi mình cùng tìm hiểu về **phần đệm chuỗi** nha. 🔢✨  


## Understanding padding

Hiểu đơn giản, **đệm chuỗi** nghĩa là **thêm các token vào chuỗi**. 🔢  

Như mọi người đã biết, dữ liệu khi đưa vào mô hình học tập **phải có kích thước giống nhau, tương ứng với kích thước đầu vào của mô hình**. 🛠️  

Ở các chương trước, khi chúng ta làm việc với dữ liệu dạng ảnh, chúng ta đã tiến hành điều chỉnh lại kích thước ảnh trước khi đưa vào mô hình. Bây giờ, khi xử lý dữ liệu dạng chuỗi, quy trình cũng tương tự như vậy. 🖼️➡️🔡  

Với dữ liệu dạng chuỗi, chúng ta sẽ thêm vào các token để đại diện cho những phần tử được đệm thêm vào, với mục đích làm cho độ dài các chuỗi đều tương đương nhau. Token này thường được thấy dưới dạng **< PAD >** trong các mô hình xử lý. 🧩  

Nói đủ nhiều rồi, bây giờ tụi mình sẽ đi vào code xử lý cụ thể nha. 💻✨  


In [None]:
# Các câu văn cần mã hóa để đưa vào mô hình
sentences = [
  "Today is a sunny day",
  "Today is a rainy day",
  "Is it sunny today?",
  "I really enjoyed walking in the snow today"
]

# Định nghĩa bộ mã hóa
tokenizer = Tokenizer(num_words=100, oov_token="<OOV>")
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index

# Tiến hành mã hóa các câu văn
sequences = tokenizer.texts_to_sequences(sentences)

In [None]:
# In ra kết quả mã hóa
for seq in sequences:
  print(seq)

[2, 3, 4, 5, 6]
[2, 3, 4, 7, 6]
[3, 8, 5, 2]
[9, 10, 11, 12, 13, 14, 15, 2]


Như mọi  người thấy đấy, chúng có kích thước không giống nhau nha.


```python
[2, 3, 4, 5, 6]
[2, 3, 4, 7, 6]
[3, 8, 5, 2]
[9, 10, 11, 12, 13, 14, 15, 2]
```
Bây giờ tụi mình sẽ tiến hành đệm vào để giúp độ dài các chuỗi có cùng kích thước với chuỗi có độ dài dài nhất.


In [None]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

# Tiến hành đệm các chuỗi
padded = pad_sequences(sequences)

# In ra kết quả đệm
print("Kết quả các câu đã đệm:")
for seq in padded:
  print(seq)

Kết quả các câu đã đệm:
[0 0 0 2 3 4 5 6]
[0 0 0 2 3 4 7 6]
[0 0 0 0 3 8 5 2]
[ 9 10 11 12 13 14 15  2]


Như mọi người thấy, bây giờ các chuỗi đều đã có kích thước là 8 nha. 🔢  

Các số 0 sẽ đại diện cho token **< PAD >** được đệm ở đầu. Đây là lý do mà các bộ mã hóa thường có từ điển bắt đầu từ số 1, còn số 0 sẽ được dành cho phần **padding** nha. 🧩  

Việc thêm bộ đệm tức các số 0 ở phần đầu chuỗi này được gọi là **prepadding**. 🕒  

Nếu mọi người muốn thêm bộ đệm ở phía sau, có thể sử dụng thêm một tham số nhỏ là **padding = 'post'** cho phương thức trên. 🛠️✨  


In [None]:
padded = pad_sequences(sequences, padding='post')
print("Kết quả các câu đã đệm:")
for seq in padded:
  print(seq)

Kết quả các câu đã đệm:
[2 3 4 5 6 0 0 0]
[2 3 4 7 6 0 0 0]
[3 8 5 2 0 0 0 0]
[ 9 10 11 12 13 14 15  2]


Đấy, các số 0 đã được đệm vào phần đuôi rồi này, qua đó giúp đảm bảo kích thước các batch trước khi đưa vào huấn luyện mô hình. 🔢  

Thông qua việc thêm các bộ đệm vào, tụi mình đã đảm bảo được độ dài đồng nhất của các thành phần trong batch. Tuy nhiên, bạn cũng sẽ phải đối mặt với một trường hợp đặc biệt:  

> **Điều gì sẽ xảy ra nếu bạn gặp phải một câu dài đến mức điên rồ?** 🤔  

Đúng vậy, bạn sẽ phải thêm rất nhiều bộ đệm. Một câu chỉ có 3-4 từ nhưng lại phải thêm cả chục token **<PAD>** chỉ để đạt độ dài tương đương với một câu dài "điên rồ". Điều này đôi khi có thể lấn át dữ liệu hữu ích hoặc tốn quá nhiều thời gian và tài nguyên để xử lý. **Đó là một sự đánh đổi.** ⚖️  

Để khắc phục tình trạng này, ta có thể định nghĩa một tham số gọi là **độ dài tối đa (maxlen)** để giới hạn độ dài chuỗi. 🔧  
Tuy nhiên, điều này cũng sẽ đi kèm với những **đánh đổi nhất định** như làm **mất mát dữ liệu**. ⚠️  


In [None]:
padded = pad_sequences(sequences, padding='post', maxlen=6)
print("Kết quả các câu đã đệm:")
for seq in padded:
  print(seq)

Kết quả các câu đã đệm:
[2 3 4 5 6 0]
[2 3 4 7 6 0]
[3 8 5 2 0 0]
[11 12 13 14 15  2]


Như mọi người thấy đấy, các chuỗi đã được giới hạn lại tối đa độ dài. Ba chuỗi đầu chỉ được thêm từ 0 đến 1 token **< PAD >** hay số 0 để đảm bảo đạt độ dài tối đa. 🔢  

Trong khi đó, chuỗi cuối cùng lại bị cắt ngắn chỉ còn 6 ký tự cuối. Đây cũng là **một sự đánh đổi.** ⚖️  
Chúng ta chấp nhận loại bỏ đi một số dữ liệu hoặc từ nhất định từ một mẫu để giữ lại sự hữu ích từ các mẫu khác.  

Nếu các bạn không muốn giữ các từ hoặc token ở cuối mà muốn giữ các từ ở đầu, chúng ta có thể tùy chọn giữ phần đầu với tham số **truncating = 'post'**. 🔧✨  


In [None]:
padded = pad_sequences(sequences, padding='post', maxlen=6, truncating='post')
print("Kết quả các câu đã đệm:")
for seq in padded:
  print(seq)

Kết quả các câu đã đệm:
[2 3 4 5 6 0]
[2 3 4 7 6 0]
[3 8 5 2 0 0]
[ 9 10 11 12 13 14]


Như thế các từ phía đầu chuỗi đã có thể được giữ lại.

## Tổng kết phần mã hóa ngôn ngữ thành số. 🔢  

- **Mã hóa ngôn ngữ thành số**:  
  Chuyển các ký tự, từ vựng hoặc câu thành chuỗi các số, trong đó mỗi số đại diện cho một ký tự hoặc từ trong câu. ✍️  

- **Các phương pháp mã hóa**:  
  - Mã hóa theo ký tự. 🔤  
  - Mã hóa theo từ. 📝  

- **Bộ đệm cho các câu**:  
  Giúp đảm bảo độ dài đồng nhất giữa các chuỗi để phù hợp với yêu cầu của mô hình. 🧩  

- **Các tham số cho bộ đệm**:  
  - `padding`: Chọn đệm phần đầu hay phần sau. ⬅️➡️  
  - `maxlen`: Độ dài tối đa cho các chuỗi sau khi đệm. 📏  
  - `truncating`: Tùy chọn giữ phần đầu hay cuối của chuỗi vượt quá `maxlen`. ✂️  
