# Preprocessing in NLP

Mục tiêu của toàn bộ quá trình này là giúp mô hình học máy (Machine Learning) hoặc mô hình học sâu (Deep Learning) nhận được đầu vào “sạch” và “chuẩn hoá”, từ đó đạt hiệu quả cao hơn trong phân tích và dự đoán.

NLP Python packages:



|NLP Library|	Description|
|---|---|
|NLTK	|This is one of the most usable and mother of all NLP libraries.|
|spaCy	|This is a completely optimized and highly accurate library widely used in deep learning|
|Stanford CoreNLP| Python	For client-server-based architecture, this is a good library in NLTK. This is written in JAVA, but it provides modularity to use it in Python.|
|TextBlob	|This is an NLP library which works in Pyhton2 and python3. This is used for processing textual data and provide mainly all type of operation in the form of API.|
|Gensim	|Genism is a robust open source NLP library support in Python. This library is highly efficient and scalable.|
|Pattern	|It is a light-weighted NLP module. This is generally used in Web-mining, crawling or such type of spidering task|
|Polyglot	|For massive multilingual applications, Polyglot is best suitable NLP library. Feature extraction in the way on Identity and Entity.|
|PyNLPl	|PyNLPI also was known as ‘Pineapple’ and supports Python. It provides a parser for many data formats like FoLiA/Giza/Moses/ARPA/Timbl/CQL.|
|Vocabulary	|This library is best to get Semantic type information from the given text.|

## General Cleaning (Làm sạch dữ liệu thô ban đầu)

- **Chuyển đổi chữ hoa/thường (Case Normalization)**:
    - Thường chuyển tất cả về chữ thường (lowercase) để giảm độ phức tạp khi so sánh từ.
    - However, do remember that **lowercasing can change the meaning of some text** e.g "US" vs "us".

- **Loại bỏ ký tự hoặc biểu tượng không mong muốn**:
    - Ví dụ: ký tự đặc biệt, emoji, đường dẫn (URL), email, ký tự HTML, thẻ HTML, v.v.
    - Mục đích: giảm bớt những thành phần không có giá trị ngữ nghĩa hoặc gây nhiễu.

- **Loại bỏ khoảng trắng, xuống dòng thừa**:
    - Giúp dữ liệu gọn gàng, nhất quán.

- **Sửa lỗi chính tả (nếu cần)**: Trong một số bài toán phân tích ngôn ngữ, việc chính tả chính xác có ý nghĩa quan trọng.

## Removing Noise from the Dataset (Loại bỏ nhiễu)

- **Loại bỏ hoặc thay thế token vô nghĩa (Stopwords, từ vô nghĩa trong ngữ cảnh)**:
    - Stopwords (như "và", "hoặc", "của" trong tiếng Việt; "the", "is", "at" trong tiếng Anh, v.v.) thường ít mang thông tin ngữ nghĩa và có thể gây nhiễu cho mô hình.
    - Tùy bài toán mà quyết định giữ hay bỏ, vì đôi khi stopwords cũng quan trọng trong một số ngữ cảnh.
- **Xử lý các từ viết tắt, từ lóng**:
    - Ví dụ: “ko” -> “không”, “k” -> “không” (trong tiếng Việt), hoặc “u” -> “you” (tiếng Anh).
    - Việc nhất quán hoá các biến thể từ vựng giúp mô hình hiểu rõ hơn.
- **Loại bỏ những phần tử không liên quan**:
    - Ví dụ: trong các đoạn văn bản có chèn các code snippet, bảng biểu, metadata… không cần thiết cho phân tích.



## Convert to right-format for the ML Algorithm

(Chuẩn hoá dữ liệu để đưa vào mô hình)

- **Tokenization (Tách từ)**:
    - Tách câu thành các đơn vị từ hoặc subword.
    - Trong tiếng Anh thường dễ dàng hơn (tách theo dấu cách và ký tự đặc biệt), còn tiếng Việt cần sử dụng mô hình hoặc thư viện tách từ chuyên dụng (như VnCoreNLP, PyVi, v.v.).

- **Stemming / Lemmatization (Giảm biến thể từ vựng)**:
    - **Stemming**: cắt bỏ phần “đuôi” của từ để đưa về “gốc” (có thể không phải là từ đúng trong từ điển).
        ```text
        connecting  -->  connect
        connected  -->  connect
        connectivity  -->  connect
        connect  -->  connect
        connects  -->  connect
        ```
    - **Lemmatization**: đưa từ về dạng “gốc từ điển” (chính tắc) dựa vào từ loại, ngữ cảnh. **Lemmatization** về cơ bản là giống với **stemming** khi nó loại bỏ phần đuôi của từ để thu được gốc từ, tuy nhiên các gốc từ ở đây đều thực sự tốn tại chứ không như **stemming** (như ví dụ trên thì từ `moved` sau khi lemmatize sẽ thu được `move`). Trong thư viện NLTK sẽ sử dụng từ điển **Wordnet** để map theo các quy tắc (theo tính chất của từ, từ là danh từ, động từ, trạng từ hay tính từ). Sử dụng part-of-speech tagging (nltk.pos_tag) để thu được các tính chất của từ.
  
    -> Hai kỹ thuật này giúp giảm sự trùng lặp khi cùng một từ xuất hiện ở các dạng biến thể khác nhau.

- **Chuyển dữ liệu sang định dạng mô hình yêu cầu**:
    - Bag-of-Words (đếm tần suất từ)
    - TF-IDF (xem xét tần suất và mức độ phân biệt của từ)
    - Word Embeddings (word2vec, GloVe)
    - Mã hoá subword (BPE, SentencePiece)

    ->    Tuỳ thuật toán và mô hình mà chọn cách biểu diễn phù hợp.

- **Xử lý nhãn (nếu là bài toán giám sát)**:
    - Kiểm tra và chuẩn hoá dữ liệu nhãn (label).
Ví dụ: chuyển từ “positive” / “negative” / “neutral” sang 0 / 1 / 2 hoặc tương tự.

## N-grams

An n-gram is simply a sequence of neighbouring n words (or tokens), where n can be any number.

## Practice

In [1]:
import nltk
import re
import pandas as pd
import numpy as np
import string


In [8]:
nltk.download("stopwords")
nltk.download("punkt_tab")
nltk.download("wordnet")

data = pd.read_csv(
    r"contents/theory/aiml_algorithms/dl_nlp/data/90 - tripadvisor-hotel-reviews.csv"
)


[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/datkhong/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     /Users/datkhong/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/datkhong/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [None]:
# lowercase
data["review_preprocessed"] = data["Review"].str.lower()

# replace * by star
data["review_preprocessed"] = data["review_preprocessed"].str.replace(
    r"[*]", "star"
)

# remove punctuation
data["review_preprocessed"] = data["review_preprocessed"].str.replace(
    r"[^\w\s]", ""
)
data["review_preprocessed"] = data["review_preprocessed"].apply(
    lambda x: x.translate(str.maketrans("", "", string.punctuation))
)

# remove stopwords
from nltk.corpus import stopwords

en_stopwords = stopwords.words("english")
en_stopwords.remove("not")
data["review_preprocessed"] = data["review_preprocessed"].apply(
    lambda x: " ".join(
        [word for word in x.split() if word not in en_stopwords]
    )
)

# tokenize
data["review_preprocessed"] = data["review_preprocessed"].apply(
    lambda x: nltk.word_tokenize(x)
)

# lemmatization
from nltk.stem import WordNetLemmatizer

lmtz = WordNetLemmatizer()
data["review_preprocessed"] = data["review_preprocessed"].apply(
    lambda x: [lmtz.lemmatize(word) for word in x]
)

# stemming
from nltk.stem import PorterStemmer

ps = PorterStemmer()
data["review_preprocessed"] = data["review_preprocessed"].apply(
    lambda x: [ps.stem(word) for word in x]
)

# 3-gram
from nltk.util import ngrams

tokens_clean = sum(data["review_preprocessed"], [])
ngrams_3 = pd.Series(ngrams(tokens_clean, 3)).value_counts()
ngrams_3


(pike, place, market)         8
(stay, crown, plaza)          5
(stay, hotel, monaco)         5
(hotel, great, locat)         5
(view, space, needl)          5
                             ..
(agenc, unfortun, warwick)    1
(travel, agenc, unfortun)     1
(stay, travel, agenc)         1
(arrang, stay, travel)        1
(hotel, right, street)        1
Name: count, Length: 9265, dtype: int64

: 