# Preprocessing in NLP

Mục tiêu của toàn bộ quá trình này là giúp mô hình học máy (Machine Learning) hoặc mô hình học sâu (Deep Learning) nhận được đầu vào “sạch” và “chuẩn hoá”, từ đó đạt hiệu quả cao hơn trong phân tích và dự đoán.

**NLP Python packages:**

|NLP Library|	Description|
|---|---|
|NLTK	|This is one of the most usable and mother of all NLP libraries.|
|spaCy	|This is a completely optimized and highly accurate library widely used in deep learning|
|Stanford CoreNLP| Python	For client-server-based architecture, this is a good library in NLTK. This is written in JAVA, but it provides modularity to use it in Python.|
|TextBlob	|This is an NLP library which works in Pyhton2 and python3. This is used for processing textual data and provide mainly all type of operation in the form of API.|
|Gensim	|Genism is a robust open source NLP library support in Python. This library is highly efficient and scalable.|
|Pattern	|It is a light-weighted NLP module. This is generally used in Web-mining, crawling or such type of spidering task|
|Polyglot	|For massive multilingual applications, Polyglot is best suitable NLP library. Feature extraction in the way on Identity and Entity.|
|PyNLPl	|PyNLPI also was known as ‘Pineapple’ and supports Python. It provides a parser for many data formats like FoLiA/Giza/Moses/ARPA/Timbl/CQL.|
|Vocabulary	|This library is best to get Semantic type information from the given text.|
|pyvi	| Python Vietnamese Core NLP Toolkit |
|underthesea| Underthesea - Vietnamese NLP Toolkit |


**The process of NLP Preprocessing is as follows:**
1. General cleaning
    - Case normalization
    - Normalize grammatical structure
    - Regular expression handling
2. Removing noise from the dataset
    - Removing special characters/patterns
    - Removing punctuations
    - Removing stop words
    - Remove unnecessary components: table, image, etc.
3. Normalizing text to right-format for the ML Algorithm
    - Tagging: Part-of-speech tagging, named-entity recognition
    - Stemming / Lemmatization
4. Tokenization
5. Text Mining

In [5]:
# import libraries
import pandas as pd
import numpy as np
import string
import re
import nltk

In [6]:
# link data: https://github.com/WhySchools/VFND-vietnamese-fake-news-datasets/blob/master/CSV/vn_news_223_tdlfr.csv

raw = pd.read_csv(
    r"contents\theory\aiml_algorithms\dl_nlp\data\vn_news_223_tdlfr.csv"
)
print(raw.shape)
raw.head(3)

(223, 3)


Unnamed: 0,text,domain,label
0,Thủ tướng Abe cúi đầu xin lỗi vì hành động phi...,binhluan.biz,1
1,Thủ tướng Nhật cúi đầu xin lỗi vì tinh thần ph...,www.ipick.vn,1
2,Choáng! Cơ trưởng đeo khăn quàng quẩy banh nóc...,tintucqpvn.net,1


## General Cleaning

1. **Case Normalization**: Thường chuyển tất cả về chữ thường (lowercase) để giảm độ phức tạp khi so sánh từ. However, do remember that **lowercasing can change the meaning of some text** e.g "US" vs "us".

2. **Sửa lỗi chính tả (nếu cần)**: Trong một số bài toán phân tích ngôn ngữ, việc chính tả chính xác có ý nghĩa quan trọng.

3. **Xử lý các từ viết tắt, từ lóng**: Ví dụ: “ko” -> “không”, “k” -> “không” (trong tiếng Việt), hoặc “u” -> “you” (tiếng Anh). --> Việc nhất quán hoá các biến thể từ vựng giúp mô hình hiểu rõ hơn.

## Removing Noise

Text data often contains noise such as punctuation, special characters, and irrelevant symbols. Preprocessing helps remove these elements, making the text cleaner and easier to analyze.

1. **Loại bỏ ký tự hoặc biểu tượng không mong muốn**: ký tự đặc biệt, emoji, đường dẫn (URL), email, ký tự HTML, thẻ HTML, v.v. --> giảm bớt những thành phần không có giá trị ngữ nghĩa hoặc gây nhiễu.

2. **Loại bỏ khoảng trắng, xuống dòng thừa, or punctuations**: like `. , ! $( ) * % @` giúp dữ liệu gọn gàng, nhất quán.

3. **Loại bỏ hoặc thay thế token vô nghĩa (Stopwords, từ vô nghĩa trong ngữ cảnh)**: Stopwords (như "và", "hoặc", "của" trong tiếng Việt; "the", "is", "at" trong tiếng Anh, v.v.) thường ít mang thông tin ngữ nghĩa và có thể gây nhiễu cho mô hình. Tùy bài toán mà quyết định giữ hay bỏ, vì đôi khi stopwords cũng quan trọng trong một số ngữ cảnh.

4. **Loại bỏ những phần tử không liên quan**: Ví dụ: trong các đoạn văn bản có chèn các code snippet, bảng biểu, metadata… không cần thiết cho phân tích.


## Normalizing

Different forms of words (e.g., “run,” “running,” “ran”) can convey the same meaning but appear in different forms. Preprocessing techniques like stemming and lemmatization help standardize these variations.

1. **Tagging**
    - **Part-of-speech (POS)**: 
    - **Named-entity recognition (NER)**:

2. **Stemming / Lemmatization (Giảm biến thể từ vựng - useful for English)**:
    - **Stemming**: cắt bỏ phần “đuôi” của từ để đưa về “gốc” (có thể không phải là từ đúng trong từ điển).
        ```text
        connecting  -->  connect
        connected  -->  connect
        connectivity  -->  connect
        connect  -->  connect
        connects  -->  connect
        ```
    - **Lemmatization**: đưa từ về dạng “gốc từ điển” (chính tắc) dựa vào từ loại, ngữ cảnh. **Lemmatization** về cơ bản là giống với **stemming** khi nó loại bỏ phần đuôi của từ để thu được gốc từ, tuy nhiên các gốc từ ở đây đều thực sự tốn tại chứ không như **stemming** (như ví dụ trên thì từ `moved` sau khi lemmatize sẽ thu được `move`). Trong thư viện NLTK sẽ sử dụng từ điển **Wordnet** để map theo các quy tắc (theo tính chất của từ, từ là danh từ, động từ, trạng từ hay tính từ). Sử dụng part-of-speech tagging (nltk.pos_tag) để thu được các tính chất của từ.
    
    -> Hai kỹ thuật này giúp giảm sự trùng lặp khi cùng một từ xuất hiện ở các dạng biến thể khác nhau.

3. **Xử lý nhãn (nếu là bài toán giám sát)**:
    - Kiểm tra và chuẩn hoá dữ liệu nhãn (label). Ví dụ: chuyển từ “positive” / “negative” / “neutral” sang 0 / 1 / 2 hoặc tương tự.

In [33]:
from pyvi import ViTokenizer, ViPosTagger
import string


# remove punctuation
def remove_punctuation(text):
    return text.translate(str.maketrans("", "", string.punctuation))


# stop words: https://github.com/stopwords/vietnamese-stopwords/blob/master/vietnamese-stopwords-dash.txt
stop_words = (
    pd.read_csv(
        r"contents\theory\aiml_algorithms\dl_nlp\data\vietnamese-stopwords-dash.txt",
        header=None,
    )
    .iloc[:, 0]
    .tolist()
)


def process_text(text):
    # replace parttern " ko " by " không "
    processed_text = re.sub(r"\bko\b", "không", text)

    tokens = ViTokenizer.tokenize(text)
    pos_tags = ViPosTagger.postagging(tokens)
    processed_text = []
    for token, pos in zip(pos_tags[0], pos_tags[1]):
        # if token not in stop_words:
        if pos.startswith("Np"):
            processed_text.append(token.title())
        else:
            processed_text.append(token.lower())

    return " ".join(processed_text)


# Apply the function to the 'text' column
raw["processed_text"] = raw["text"].apply(process_text)
raw[["text", "processed_text"]]

Unnamed: 0,text,processed_text
0,Thủ tướng Abe cúi đầu xin lỗi vì hành động phi...,thủ_tướng Abe cúi đầu xin_lỗi vì hành_động phi...
1,Thủ tướng Nhật cúi đầu xin lỗi vì tinh thần ph...,thủ_tướng Nhật cúi đầu xin_lỗi vì tinh_thần ph...
2,Choáng! Cơ trưởng đeo khăn quàng quẩy banh nóc...,choáng ! cơ_trưởng đeo khăn_quàng quẩy banh nó...
3,Chưa bao giờ nhạc Kpop lại dễ hát đến thế!!!\n...,chưa bao_giờ nhạc Kpop lại dễ hát đến thế ! ! ...
4,"Đại học Hutech sẽ áp dụng cải cách ""Tiếq Việt""...","đại_học Hutech sẽ áp_dụng cải_cách "" Tiếq Việt..."
...,...,...
218,“Siêu máy bay” A350 sẽ chở CĐV Việt Nam đi Mal...,“ siêu máy_bay ” A350 sẽ chở cđv Việt_Nam đi M...
219,Thưởng 20.000 USD cho đội tuyển cờ vua Việt Na...,thưởng 20.000 usd cho đội_tuyển cờ_vua Việt_Na...
220,Trường Sơn giành HCV tại giải cờ vua đồng đội ...,Trường_Sơn giành hcv tại giải cờ_vua đồng_đội ...
221,Chuyện về chàng sinh viên Luật - Kiện tướng Lê...,chuyện về chàng sinh_viên Luật - kiện_tướng Lê...


## Tokenizing

![](https://raw.githubusercontent.com/mrdbourke/tensorflow-deep-learning/main/images/08-tokenization-vs-embedding.png)

**Tokenization**: Tokenization (quy trình tách từ, chia nhỏ văn bản) là bước tiền xử lý (preprocessing) vô cùng quan trọng trong xử lý văn bản. Mục tiêu của tokenization là chuyển văn bản gốc (chuỗi ký tự) thành danh sách các token (những đơn vị có ý nghĩa).

- Tách câu thành các đơn vị từ hoặc subword.
- Trong tiếng Anh thường dễ dàng hơn (tách theo dấu cách và ký tự đặc biệt), còn tiếng Việt cần sử dụng mô hình hoặc thư viện tách từ chuyên dụng (như VnCoreNLP, PyVi, v.v.).

Ánh xạ character/word/subword sang giá trị số numberical value. Có 3 level của tokenization
- _Word-level tokenization_: Mỗi từ sẽ đại diện bởi 1 numerical value. Tách theo khoảng trắng hoặc dựa trên thư viện tokenizer (tiếng Việt: VnCoreNLP, PyVi, RDRSegmenter, …). Ví dụ: "I love yout" ---> [0,1,2]
- _Character-level tokenization_: Mỗi character (chữ cái, dấu câu) sẽ đại diện cho 1 token. Hữu ích trong một số bài toán (đặc biệt với các mô hình ngôn ngữ có ý định xử lý đánh vần, hoặc khi dữ liệu có nhiều từ mới).
- _Sub-word tokenization_: break từng từ thành các phần và tokenization nó, khi đó mỗi word có thể thành nhiều tokens. Kết hợp ưu điểm giữa word-level và character-level, được sử dụng trong BERT, GPT, RoBERTa, PhoBERT, v.v.

> Tuỳ thuộc vào problem mà nên chọn level tokenization cho phù hợp, hoặc có thể thử các level và kiểm tra performance, hoặc có thể sử dụng `tf.keras.layers.concatenate` để combine/stacking chúng lại với nhau.
---
**Tại sao tokenization quan trọng?**
- Các mô hình NLP cổ điển (Bag-of-Words, TF-IDF, v.v.) hay hiện đại (Deep Learning) đều làm việc trên các đơn vị rời rạc (token).
- Tokenization quyết định cách mô hình nhận thức văn bản: sai sót hoặc thiếu hợp lý trong tokenization ảnh hưởng đáng kể đến chất lượng mô hình.
- Với các mô hình ngôn ngữ hiện đại (**Transformer** như `BERT`, `GPT`, `RoBERTa`, v.v.), vẫn cần **tokenization**, thường là subword tokenization (ví dụ `BPE`, `SentencePiece`). Lý do: mô hình cần chia văn bản thành các “mã” (code) được học sẵn trong từ vựng (vocabulary) để ánh xạ mỗi token sang vector **embedding** phù hợp.

---
**Bản chất hành động của Tokenization và Embedding:**

- **Tokenization**: Chuyển đổi từ văn bản thành danh sách các token (dạng chữ) (word, subword, character). Sau đó sẽ chuyển sang dạng số (index) thông qua từ điển (vocabulary).
- **Embedding**: Với mỗi 1 token (dạng số - index) thì token chuyển đổi từ dạng số (index) sang **vector** (nhiều chiều) số thực (embedding). Mỗi token sẽ được biểu diễn bởi một vector số thực có số chiều là `d` xác định trước (ví dụ: 100, 200, 300 chiều). Thể hiện sự tương quan giữa các token trong không gian vector.
- Khi mô hình nhận input (list các token ID), nó sẽ tra cứu (lookup) từng token ID trong hàng tương ứng của ma trận embedding `𝑊` để lấy được vector (d chiều) tương ứng với token đó.
- Kết quả: Thay vì list số ID, mô hình có một chuỗi vector (một cho mỗi token), phản ánh thông tin ngữ nghĩa và ngữ cảnh (với các mô hình hiện đại) của những token đó. Sau đó, mô hình sẽ sử dụng vector này để thực hiện các phép toán (tích vô hướng, pooling, attention, v.v.) để học cấu trúc ngữ nghĩa của văn bản.

---

**Best Practice cho Tokenization**

***1. Chọn phương pháp tokenization phù hợp:***

- Với mô hình Transformer hiện đại, thường dùng subword tokenization (BPE, SentencePiece) vì khả năng xử lý tốt từ mới, từ sai chính tả, từ hiếm, v.v.
- Nếu làm truyền thống (Bag-of-Words, TF-IDF) với tiếng Việt, hãy sử dụng thư viện tách từ chuyên dụng (VD: VnCoreNLP).

***2. Giữ nguyên (hoặc xử lý phù hợp) dấu câu, biểu tượng cảm xúc (emoji) nếu chúng mang ý nghĩa trong bài toán.***

- Nhiều bài toán phân tích cảm xúc ở MXH cần emoji để hiểu sắc thái.

***3. Kiểm tra chất lượng tokenization:***

- Đặc biệt với tiếng Việt, tokenization chưa chuẩn có thể gây “vỡ nghĩa”.
- Thử soi một số văn bản sau khi tokenization để chắc chắn phù hợp, tránh tách sai từ ghép (VD: “điện thoại”, “cầm tay” thành “điện”, “thoại”, “cầm”, “tay”).

***4. Xử lý từ đặc biệt, hashtag, mention:***

- Trong bài toán MXH, token hóa hashtag (#myhashtag), mention (@username), link URL, v.v., tùy xem bạn có muốn giữ hay loại bỏ.

***5. Chuẩn hoá (normalization):***

- Thông thường, chuyển văn bản về dạng chữ thường (lowercasing).
- Với tiếng Việt, cần xem có biến đổi dấu không, hoặc chuẩn hoá ký tự unicode tổ hợp.

**Note**: Mô hình BERT/PhoBERT gốc có thể không lowercasing để giữ nguyên case. Nên kiểm tra mô hình pre-trained yêu cầu gì.

---

**Có cần tuning lại tokenization?**

Với các Large Language Model (LLM) hiện đại như GPT, BERT-based, T5, RoBERTa, … thường dùng một vocabulary và cơ chế tokenization đã huấn luyện sẵn. Khi bạn tải mô hình này về, đi kèm luôn có tokenizer (và embedding matrix tương ứng) đã đồng bộ với mô hình.

> Thực tế, đa số người dùng không phải tự retrain hay tune lại tokenizer.
> - Vì mô hình đã được pre-trained trên một khối lượng dữ liệu khổng lồ, tokenizer ban đầu (subword / BPE / SentencePiece) đã tương đối tối ưu.
> - Nếu tự ý thay đổi tokenizer (thêm token, bớt token, thay đổi cách tách subword), bạn sẽ phải huấn luyện lại (hoặc điều chỉnh lớn) embedding, làm mất tính tương thích với các trọng số đã được pre-trained.


***Ngoại lệ: Trong một số trường hợp đặc biệt, bạn có thể re-train / fine-tune tokenizer.***

> Ví dụ: khi bạn có một miền dữ liệu rất đặc thù (như y học, hóa học, tài chính) với nhiều thuật ngữ, từ viết tắt, ký hiệu… hoàn toàn không (hoặc rất ít) xuất hiện trong bộ pre-training.
> - Khi đó, tokenizer cũ có thể tạo ra nhiều token “[UNK]” (token lạ) hoặc token rất dài do không tìm thấy subword phù hợp.
> - Bạn muốn nâng cao khả năng biểu diễn, có thể huấn luyện lại tokenizer trên data chuyên ngành, rồi fine-tune (hoặc huấn luyện lại từ đầu) embedding. Tuy nhiên, việc này đòi hỏi rất nhiều tài nguyên và kinh nghiệm, vì bạn cần đảm bảo mô hình (và embedding matrix) tương thích với tokenizer mới.


Với hầu hết dự án NLP phổ biến, tuning lại tokenizer là không cần thiết (thậm chí bất lợi nếu bạn không có đủ dữ liệu để huấn luyện lại phần embedding). Thông thường, bạn:
- Dùng tokenizer gốc kèm mô hình.
- Fine-tune mô hình trên dữ liệu bạn quan tâm. Mọi thứ từ tokenization đến embedding được kế thừa sẵn.

### by split()

### by RegEx

### by NLTK

### by spaCy

### by keras
Sử dụng [`tf.keras.layers.TextVectorization`](https://www.tensorflow.org/api_docs/python/tf/keras/layers/TextVectorization) với một số params như sau:
- `max_tokens` - Số lượng word tối đa trong vocabulary (e.g. 20000 or the number of unique words in your text), bao gồm 1 slot cho OOV (out of vocabulary) tokens.
- `standardize` - Phương thức để standardizing text. Default is "lower_and_strip_punctuation" nghĩa là lowers text and removes all punctuation marks.
- `split` - How to split text, default is "whitespace" which splits on spaces.
- `ngrams` - How many words to contain per token split (create groups of n-words?), for example, ngrams=2 splits tokens into continuous sequences of 2.
- `output_mode` - How to output tokens:
    - "int" (integer mapping): map theo index của từ trong vocab
    - "multi_hot" : mapping theo kiểu one-hot nếu từ đó có xuất hiện trong text
    - "count": mapping theo số lần từ đó xuất hiện trong text
    - ["tf-idf"](https://scikit-learn.org/stable/modules/feature_extraction.html#tfidf-term-weighting):  **Term Frequency - Inverse Document Frequency** trích xuất và đánh trọng số cho từ/ngữ (term) trong các tài liệu văn bản.
        - `TF` Là tần suất xuất hiện của một từ (term) trong tài liệu. cho biết một từ có “nổi bật” trong tài liệu cụ thể hay không.
        - `IDF`  Là nghịch đảo tần suất xuất hiện của một từ trong tập các tài liệu. cho biết từ đó có phổ biến/hay hiếm trong toàn bộ kho tài liệu.
        - **TF cao**: Từ thường xuất hiện nhiều trong tài liệu => có vai trò quan trọng trong tài liệu đó.
        - **IDF cao**: Từ hiếm (ít xuất hiện trong toàn bộ tập tài liệu) => độ “phân biệt” cao.
        - **TF-IDF cao**: Từ rất quan trọng (phân biệt) cho tài liệu đó (xuất hiện nhiều trong tài liệu và hiếm gặp trong tài liệu khác).
- `output_sequence_length` - Sử dụng trong `output_mode=int`, quy định độ dài của mỗi sequence output gồm bao nhiêu tokens, nếu sequence có độ dài hơn `output_sequence_length` thì sẽ được truncated, nếu ít hơn thì được padded để đảm bảo độ dài chính xác của output tensor là `shape = (batch_size, output_sequence_length)`
- `pad_to_max_tokens` - Defaults to False, if True, the output feature axis sẽ được padded/mở rộng tới độ dài bằng max_tokens ngay cả khi số lượng unique tokens in the vocabulary nhỏ hơn max_tokens. Chỉ có tác dụng trong `output_mode` là `multi_hot`, `count`, `tf_id`


### by Gensim

### by transformer pretrain

In [None]:
import torch
from transformers import AutoTokenizer, AutoModel

model_name = "bert-base-uncased"

# Tải tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)

## Text Mining

## Feature Extraction

Preprocessing can involve extracting features from text, such as word frequencies, n-grams, or word embeddings, which are essential for building machine learning models.

## Dimensionality Reduction

Text data often has a high dimensionality due to the presence of a large vocabulary. Preprocessing techniques like term frequency-inverse document frequency (TF-IDF) or dimensionality reduction methods can help.