# Tiền Xử Lý Văn Bản: Khám Phá Sức Mạnh của NLTK trong Phân Loại Cảm Xúc (Sentiment Analysis)

## Động lực phát triển NLTK

- Vào đầu thế kỷ 21, nhu cầu về các công cụ hỗ trợ nghiên cứu và giảng dạy NLP ngày càng tăng. Nhận thấy điều này, Steven Bird và Edward Loper từ Đại học Pennsylvania đã phát triển NLTK vào năm 2001. Mục tiêu của họ là tạo ra một bộ công cụ dễ sử dụng, giúp sinh viên và nhà nghiên cứu tiếp cận NLP một cách trực quan và hiệu quả.

    | Steven Bird | Edward Loper |
    |---------|---------|
    | ![Steven Bird](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQ4Zzcdzwd4Rhw_a8Bnl6NUg1c-fxk_MKIxPQ&s) | ![Edward Loper](https://www.github.com/edloper.png) |

- Ra đời vào năm 2001, cho đến nay, NLTK đã trở thành một trong những thư viện NLP phổ biến nhất, được sử dụng rộng rãi trong cả học thuật và công nghiệp.

## Những điểm thú vị về NLTK

- **Kho ngữ liệu phong phú:** NLTK cung cấp hơn 50 kho ngữ liệu (corpora) khác nhau, giúp người dùng dễ dàng thực hiện các tác vụ NLP đa dạng.

- **Tính năng đa dạng:** Thư viện hỗ trợ nhiều chức năng như phân loại (classification), tách từ (tokenization), gán nhãn từ loại (POS tagging), phân tích cú pháp (parsing) và suy luận ngữ nghĩa (semantic reasoning).

- **Cộng đồng lớn mạnh:** Với sự phổ biến của mình, NLTK có một cộng đồng người dùng và nhà phát triển đông đảo, liên tục đóng góp và cải tiến thư viện.

  - GitHub repository của NLTK có đến hơn 13700 sao và hơn 2900 lượt fork.

  - NLTK được sử dụng ở hơn 329000 public GitHub repo.

  - Vào ngày 19 tháng 8 năm 2024 (random fact: Ngày 19/8 là ngày truyền thống Công an nhân dân Việt Nam), NLTK phiên bản 3.9 được released. Thì điều này nghĩa là thư viện này vẫn đang được phát triển và có lượng người dùng bền vững.

- **Tài liệu học tập:** NLTK đi kèm với nhiều tài liệu hướng dẫn và ví dụ minh họa, giúp người mới bắt đầu dễ dàng tiếp cận và học hỏi.

  - [Sách Natual Language Processing with Python](https://tjzhifei.github.io/resources/NLTK.pdf)

  - [Tutorial về NLTK của trang Real Python](https://realpython.com/nltk-nlp-python/)

## Một số ứng dụng thực tế của NLTK

- **Phân tích cảm xúc:** Xác định cảm xúc trong các đoạn văn bản, như đánh giá sản phẩm hoặc phản hồi của khách hàng.

- **Tóm tắt văn bản:** Tạo ra các bản tóm tắt ngắn gọn từ các tài liệu dài.

- **Nhận diện thực thể:** Xác định và phân loại các thực thể như tên người, địa điểm, tổ chức trong văn bản.

- Trong phần demo này, mình sẽ tập trung vào bài toán phân loại cảm xúc (sentiment analysis). Bộ dữ liệu mình sử dụng có thể tìm thấy ở link sau: [SPOT](https://github.com/EdinburghNLP/spot-data/tree/master/data).

## Nội dung chính

In [13]:
# Import các thư viện cần thiết từ NLTK, scikit-learn, và numpy
# để chuẩn bị cho bài toán phân loại.
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report
import numpy as np

In [14]:
# Tải các tài nguyên của NLTK, bao gồm punkt tokenizer
# và danh sácch các stop word.
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/conquerormikrokosmos/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/conquerormikrokosmos/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [15]:
# Tạo một tập dữ liệu đánh giá phim để minh hoa.
# Tập dữ liệu gồm các đánh giá tích cực và tiêu cực và cả trung tính.
reviews = [
    ("The plot was engaging and kept me hooked.", "positive"),
    ("This was an absolute waste of time.", "negative"),
    ("Brilliantly directed with stellar performances.", "positive"),
    ("I couldn't wait for it to be over.", "negative"),
    ("An emotional rollercoaster, loved every moment.", "positive"),
    ("The special effects were laughable.", "negative"),
    ("It's decent, but not groundbreaking.", "neutral"),
    ("I was neither impressed nor disappointed.", "neutral"),
    ("Good for a one-time watch.", "neutral"),
    ("An average film with some redeeming moments.", "neutral"),
    ("Fantastic visuals and a gripping story.", "positive"),
    ("Terribly written with bland characters.", "negative"),
    ("The humor was spot on and refreshing.", "positive"),
    ("This was a painful experience to sit through.", "negative"),
    ("I would definitely watch it again!", "positive"),
    ("The dialogue was cringe-worthy.", "negative"),
    ("An inspiring tale, beautifully portrayed.", "positive"),
    ("Not as bad as I expected, but still lacking.", "neutral"),
    ("A decent effort, but it falls short in many areas.", "neutral"),
    ("Nothing memorable, just another film.", "neutral"),
    ("A masterclass in storytelling and cinematography.", "positive"),
    ("The pacing was all over the place.", "negative"),
    ("It left me in tears—in the best way possible.", "positive"),
    ("This film was an absolute chore to get through.", "negative"),
    ("A beautifully crafted narrative with deep meaning.", "positive"),
    ("The jokes felt forced and unoriginal.", "negative"),
    ("I couldn't stop laughing, it was hilarious!", "positive"),
    ("The action sequences were poorly executed.", "negative"),
    ("Worth watching for the soundtrack alone.", "positive"),
    ("It was just alright, nothing extraordinary.", "neutral"),
    ("The characters lacked depth, but the visuals were nice.", "neutral"),
    ("A passable film for a rainy afternoon.", "neutral"),
    ("Completely blew me away, a must-watch!", "positive"),
    ("The cinematography was dull and uninspired.", "negative"),
    ("A heartfelt movie with great performances.", "positive"),
    ("I don't recommend this to anyone.", "negative"),
    ("A groundbreaking film that sets a new standard.", "positive"),
    ("Disappointingly predictable and cliche.", "negative"),
    ("A captivating experience from start to finish.", "positive"),
    ("The editing was choppy and distracting.", "negative"),
    ("The story was unique and well-executed.", "positive"),
    ("Mediocre at best, nothing stood out.", "neutral"),
    ("It was neither entertaining nor thought-provoking.", "neutral"),
    ("It had some great moments, but overall just okay.", "neutral"),
    ("The performances saved an otherwise bland script.", "neutral"),
    ("A triumphant blend of drama and action.", "positive"),
    ("An underwhelming mess of a movie.", "negative"),
    ("I loved the chemistry between the leads.", "positive"),
    ("Poorly written with no redeeming qualities.", "negative"),
    ("A delightful surprise, exceeded my expectations.", "positive"),
]

texts, labels = zip(*reviews)
print("Sample reviews:", list(texts)[:3])

Sample reviews: ['The plot was engaging and kept me hooked.', 'This was an absolute waste of time.', 'Brilliantly directed with stellar performances.']


### Các bước tiền xử lý

- Mình chọn ra câu đầu tiên để thử đi qua từng bước tiền xử lý nhé.

In [16]:
text = "I had mixed feelings about this film."
text

'I had mixed feelings about this film.'

In [17]:
# Trước tiên là mình cùng tokenize đoạn văn bản
# này thành các phần nhỏ tên là "token" nhoé!
tokens = word_tokenize(text)
tokens

['I', 'had', 'mixed', 'feelings', 'about', 'this', 'film', '.']

In [18]:
# Cùng quan sát một vài stop word
# trong tiếng Anh nhé!
stop_words = set(stopwords.words('english'))
list(stop_words)[:10]

["that'll",
 'why',
 'ours',
 'until',
 'from',
 'same',
 "should've",
 'by',
 "haven't",
 'we']

In [19]:
# Giờ mình cùng lọc ra các từ không phải stop word
# trong đoạn văn bản nha!
filtered_tokens = [word.lower() for word in tokens if word.lower() not in stop_words]
filtered_tokens

['mixed', 'feelings', 'film', '.']

In [20]:
# Vậy các stop word trong câu trên là gì nhỉ?
stop_words_in_text = list(
    stop_words.intersection(tokens)
)
stop_words_in_text

['about', 'had', 'this']

In [21]:
# Giờ mình sẽ "gom"/"đóng gói" các bước tiền xử lý bên trên
# vào một cái hàm duy nhất thôi để tiện dùng lại sau này.
def preprocess_text(text):
    tokens = word_tokenize(text)
    stop_words = set(stopwords.words('english'))
    filtered_tokens = [word.lower() for word in tokens if word.lower() not in stop_words]
    return " ".join(filtered_tokens)

In [22]:
# Dùng thử hàm vừa tạo
processed_texts = [preprocess_text(text) for text in texts]
list(processed_texts)[:3]

['plot engaging kept hooked .',
 'absolute waste time .',
 'brilliantly directed stellar performances .']

### Huấn luyện và dánh giá mô hình phân loại cảm xúc văn bản

Trong phần demo này, ta sẽ huấn luyện và đánh giá một mô hình phân loại cảm xúc văn bản khi có tiền xử lý và khi không có tiền xử lý văn bản để quan sát hiệu quả của việc tiền xử lý văn bản. Các bạn có thể sẽ bất ngờ bởi kết quả so sánh!

- Có một sự thật là các mô hình chỉ thực hiện tính toán trên các con số. Do đó, để mô hình "học" được cảm xúc thể hiện bởi văn bản, mô hình cần "đọc" được văn bản dưới dạng các con số. Bước đầu trong quá trình mà ta chuyển văn bản thành các con số như vậy được gọi là "text vectorization". Tại sao mình gọi đây là bước đầu? Đó là vì trong thực tế, còn một bước sau nữa tên là "word embedding". Nói nôm na là "text vectorization" là chuyển mỗi token về một số. Còn bước "word embedding" là dựa vào con số gắn với mỗi token để tìm một vector biểu diễn cho token đó. Điều đó nghĩa là thay vì chỉ dùng 1 con số trong không gian 1 chiều, người ta sẽ dùng một vector ở không gian nhiều chiều để biểu diễn một token trong bước "word embedding". Giá trị ở mỗi chiều sẽ thể hiện một khía cạnh liên quan đến ngữ nghĩa của một token.

- Trong phần demo này, mình sẽ không bàn đến "word embedding" mà chỉ dừng lại ở "text vectorization" do giới hạn về mặt thời gian.

![Word Embedding](https://miro.medium.com/v2/resize:fit:1200/1*sAJdxEsDjsPMioHyzlN3_A.png)

#### Thực hiện text vectorization bằng kỹ thuật TF-IDF

Mình cùng nhau tìm hiểu những điều cơ bản về kỹ thuật này nhé.
- TF-IDF (Term Frequency-Inverse Document Frequency): Đây là một kỹ thuật phổ biến trong NLP để chuyển đổi văn bản thành các vector số. Nó phản ánh tầm quan trọng của một từ trong một văn bản so với toàn bộ tập văn bản.

- Term Frequency (TF): Tần suất xuất hiện của một từ trong một văn bản cụ thể. Một từ xuất hiện càng nhiều, TF càng cao.
Inverse Document Frequency (IDF): Đo lường mức độ phổ biến của một từ trong toàn bộ tập văn bản. Một từ xuất hiện trong nhiều văn bản, IDF càng thấp.

- TF-IDF = TF * IDF: Kết hợp TF và IDF để đánh giá tầm quan trọng của từ trong ngữ cảnh tập văn bản. Từ có TF cao và IDF cao sẽ có TF-IDF cao.

- `TfidfVectorizer`: Đây là một class trong scikit-learn giúp tự động tính toán TF-IDF cho các văn bản.

![TF-IDF](https://www.researchgate.net/publication/376247075/figure/fig2/AS:11431281209841725@1701888441866/TF-IDFTerm-Frequency-Inverse-Document-Frequency.ppm)

#### Phân loại cảm xúc bằng mô hình Multinomial Naive Bayes

- **Mong muốn của ta hiện tại:** Ta đang muốn máy tính "học" được mối liên hệ giữa các từ trong đánh giá và cảm xúc tương ứng. Ví dụ: Các từ "tuyệt vời", "ấn tượng" có xu hướng xuất hiện trong các đánh giá tích cực, trong khi "tệ", "thất vọng" thường xuất hiện trong các đánh giá tiêu cực.

- **Ý tưởng cốt lõi của Naive Bayes**:

  - Giả định "Ngây thơ" (Naive):

    - Giải thích: "Naive Bayes dựa trên một giả định 'ngây thơ', đó là: các từ trong một đánh giá _độc lập_ với nhau. Có nghĩa là, sự xuất hiện của từ này không ảnh hưởng đến sự xuất hiện của từ khác."

    - Ví dụ: "Trong thực tế, điều này không hoàn toàn đúng, vì các từ thường đi liền với nhau (ví dụ trong các đánh giá phim thực tế: 'tuyệt vời' thường đi với 'phim'). Tuy nhiên, giả định 'ngây thơ' này lại giúp chúng ta đơn giản hóa bài toán rất nhiều mà vẫn cho kết quả tốt."

  - Xác Suất (Probability):

    - Giải thích: "Naive Bayes hoạt động bằng cách tính toán xác suất. Chúng ta muốn biết xác suất để một đánh giá thuộc về nhãn 'tích cực' nếu trong đó có những từ như 'tuyệt vời', 'ấn tượng', v.v... và tương tự cho các nhãn 'tiêu cực' và 'trung tính'."

    - Ví dụ: "Giống như chúng ta đang tính xem khả năng một người thích món ăn này, dựa vào các thành phần của món ăn đó."

  - Định Lý Bayes (Bayes' Theorem):

    - Giải thích: "Để tính toán các xác suất trên, chúng ta dùng một công thức gọi là định lý Bayes. Định lý này giúp chúng ta tính xác suất của một sự kiện (ví dụ: đánh giá là tích cực) dựa trên bằng chứng đã biết (ví dụ: các từ trong đánh giá)."
  
    ![Naive Bayes Classifier](https://mlarchive.com/wp-content/uploads/2023/02/Implementing-Naive-Bayes-Classification-using-Python-1-1-1024x562-1024x585.png)

    - Diễn giải: "Công thức này có nghĩa là: xác suất đánh giá thuộc nhãn 'tích cực' (A) khi biết nó có những từ nhất định (B) bằng với xác suất có những từ đó (B) trong đánh giá 'tích cực' (A) nhân với xác suất đánh giá là 'tích cực' (A), chia cho xác suất có những từ đó (B). " (Chúng ta dùng cách diễn giải này để đơn giản hóa công thức)

- Multinomial Naive Bayes (Ứng dụng cho văn bản):

  - Multinomial:

    - Giải thích: "Multinomial có nghĩa là chúng ta coi mỗi văn bản như một túi từ (bag of words), chỉ quan tâm đến tần suất xuất hiện của mỗi từ mà không quan tâm đến thứ tự của chúng."

    - Ví dụ: "Ví dụ, các đánh giá 'Phim rất hay' và 'Rất hay phim' sẽ được coi như nhau."

    - Ứng Dụng:

      - Giải thích: "Multinomial Naive Bayes rất phù hợp cho các bài toán phân loại văn bản vì chúng ta thường quan tâm đến tần suất xuất hiện của từ hơn là thứ tự của chúng."

  - Quá Trình Huấn Luyện (Training):

    - Xác Suất:

      - Giải thích: "Trong quá trình huấn luyện, mô hình sẽ 'học' được xác suất các từ xuất hiện trong mỗi nhãn (ví dụ, xác suất từ 'tuyệt vời' xuất hiện trong đánh giá 'tích cực')."

      - Ví dụ: "Mô hình sẽ 'học' được rằng từ 'tuyệt vời' có khả năng xuất hiện trong đánh giá 'tích cực' cao hơn so với đánh giá 'tiêu cực'."

    - Đếm Tần Suất:

      - Giải thích: "Về cơ bản, mô hình chỉ cần đếm tần suất các từ trong mỗi loại đánh giá và tính toán xác suất dựa trên đó."

  - Quá Trình Dự Đoán (Prediction):

    - Tính Toán Xác Suất:

      - Giải thích: "Khi có một đánh giá mới, mô hình sẽ tính toán xác suất để đánh giá đó thuộc về từng nhãn (tích cực, tiêu cực, trung tính) dựa trên các từ trong đánh giá đó."

      - Ví dụ: "Mô hình sẽ tính xác suất để đánh giá 'Phim này khá ổn' thuộc về 'tích cực', 'tiêu cực', hoặc 'trung tính'."

    - Chọn Nhãn Có Xác Suất Cao Nhất:

      - Giải thích: "Cuối cùng, mô hình sẽ chọn nhãn có xác suất cao nhất là nhãn dự đoán cho đánh giá đó."

In [23]:
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(processed_texts)
y = np.array(labels)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = MultinomialNB()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
print("Classification Report:\n", classification_report(y_test, y_pred))

Accuracy: 0.4
Classification Report:
               precision    recall  f1-score   support

    negative       0.50      0.25      0.33         4
     neutral       1.00      0.33      0.50         3
    positive       0.29      0.67      0.40         3

    accuracy                           0.40        10
   macro avg       0.60      0.42      0.41        10
weighted avg       0.59      0.40      0.40        10



In [24]:
vectorizer_raw = TfidfVectorizer()
X_raw = vectorizer_raw.fit_transform(texts)
X_train_raw, X_test_raw, y_train_raw, y_test_raw = train_test_split(X_raw, y, test_size=0.2, random_state=42)
model_raw = MultinomialNB()
model_raw.fit(X_train_raw, y_train_raw)
y_pred_raw = model_raw.predict(X_test_raw)
accuracy_raw = accuracy_score(y_test_raw, y_pred_raw)
print("Accuracy without tokenization:", accuracy_raw)
print("Classification Report:\n", classification_report(y_test, y_pred))

Accuracy without tokenization: 0.4
Classification Report:
               precision    recall  f1-score   support

    negative       0.50      0.25      0.33         4
     neutral       1.00      0.33      0.50         3
    positive       0.29      0.67      0.40         3

    accuracy                           0.40        10
   macro avg       0.60      0.42      0.41        10
weighted avg       0.59      0.40      0.40        10



##### Có thể thấy accuracy của 2 cách làm không khác nhau. Vậy việc tokenize có nghĩa lý gì?

1.  **Nhắc lại về kết quả:**
    *   "Đúng là như các bạn thấy, trong trường hợp này, độ chính xác (accuracy) của mô hình khi có và không có tokenization gần như không khác biệt, cùng là 0.4. Điều này có vẻ hơi lạ, vì chúng ta đã bỏ rất nhiều công sức vào việc tokenization và loại bỏ stop words."

2.  **Giải thích lý do accuracy không đổi (và các vấn đề có thể xảy ra):**
    *   **Dữ liệu nhỏ:** "Đầu tiên, chúng ta cần nhớ rằng, dữ liệu của chúng ta đang sử dụng khá nhỏ (chỉ có 50 đánh giá). Trong trường hợp dữ liệu nhỏ, các yếu tố ngẫu nhiên có thể ảnh hưởng lớn đến kết quả. Vì vậy, kết quả này chưa đủ tin cậy để đưa ra kết luận cuối cùng."
    *   **TF-IDF:** "Trong trường hợp này chúng ta đang dùng TF-IDF. TF-IDF tự bản thân nó đã "tạo ra" các token, vậy nên dù dữ liệu đầu vào đã được tokenize hay chưa, nó cũng sẽ tạo ra các token giống nhau. Vậy nên kết quả không có sự khác biệt. Tuy nhiên, điều này không có nghĩa là tiền xử lý văn bản không quan trọng!"
    *   **Mô hình Naive Bayes đơn giản:** "Mô hình Multinomial Naive Bayes chúng ta đang sử dụng là một mô hình khá đơn giản. Trong trường hợp dữ liệu không quá phức tạp, hoặc khi các đặc trưng (features) quan trọng không bị thay đổi nhiều, mô hình đơn giản này có thể đưa ra kết quả tương tự nhau."
    *   **Lỗi đánh giá:** "Có thể thấy là dù không có sự khác biệt, nhưng cả 2 mô hình đều có kết quả khá thấp (0.4) điều này cho thấy là dữ liệu chúng ta đang sử dụng khá phức tạp hoặc mô hình chưa được điều chỉnh tốt."
    *   **Stop Word:** "Việc loại bỏ Stop Words không phải lúc nào cũng cải thiện hiệu suất. Trong một số trường hợp, Stop Word vẫn có thể chứa một số thông tin quan trọng."

3.  **Nhấn mạnh tầm quan trọng của tiền xử lý (Tokenization vẫn có giá trị):**
    *   **Dữ liệu lớn và phức tạp:** "Tuy nhiên, trong thực tế, khi làm việc với các tập dữ liệu lớn và phức tạp hơn, việc tiền xử lý văn bản trở nên vô cùng quan trọng. Tokenization giúp chúng ta chia văn bản thành các đơn vị nhỏ hơn, từ đó máy tính có thể 'hiểu' được văn bản."
    *   **Ngăn chặn nhiễu:** "Tiền xử lý, bao gồm cả tokenization, giúp loại bỏ các yếu tố nhiễu (noise), như dấu câu, ký tự đặc biệt, và cả stop words (trong nhiều trường hợp), từ đó làm cho mô hình có thể tập trung vào các từ quan trọng hơn."
    *  **Các thuật toán nâng cao:** "Các thuật toán xử lý văn bản nâng cao cũng thường cần đến bước tiền xử lý để hoạt động hiệu quả. Các thuật toán Word Embedding (ví dụ Word2Vec, GloVe, FastText) cần text đã được tokenize để học từ vựng và ngữ nghĩa. Các mô hình Deep Learning cũng cần text được tokenize để có thể xử lý."
    *   **Tính linh hoạt:** "Việc tokenize giúp chúng ta có thể dễ dàng tùy chỉnh quy trình tiền xử lý cho phù hợp với từng bài toán cụ thể. Chúng ta có thể sử dụng các tokenizer khác nhau (ví dụ: tokenizer theo ký tự, theo subword), hoặc điều chỉnh cách xử lý dấu câu, số, v.v..."

4.  **Thực tế khác biệt:**

    *   **Ví dụ:** "Mình có thể lấy một ví dụ như, nếu chúng ta chỉ coi text như một mảng các ký tự, các từ như 'movie' và 'movies' sẽ được coi như 2 token khác nhau, và máy tính không thể học được mối quan hệ giữa 2 từ này. Nhưng nếu có tokenization, máy tính có thể xử lý chúng cùng một lúc hoặc chúng ta có thể áp dụng thêm các bước tiền xử lý khác như stemming, lemmatization để gom chúng về một dạng."

5.  **Kết luận:**
    *   "Như vậy, dù trong trường hợp này, tokenization không tạo ra sự khác biệt rõ rệt về accuracy, nhưng nó vẫn là một bước quan trọng trong tiền xử lý văn bản, và cần thiết cho các bài toán thực tế. Nó không chỉ giúp chúng ta làm sạch dữ liệu, mà còn giúp chúng ta linh hoạt hơn trong việc tùy chỉnh các phương pháp tiền xử lý."