## Data Pre-processing

**Tiền xử lí dữ liệu (data pre-processing)** là quá trình chuyển đổi (biến đổi) dữ liệu thô thành dữ liệu có định dạng mới giúp việc huấn luyện mô hình hiệu quả hơn.

### Các bước tiền xử lí dữ liệu

 **1. Data Cleaning:** Dữ liệu có thể thừa các thông tin không cần thiết, thiếu dữ liệu. Chúng ta cần loại bỏ thông tin dư thừa và thêm đầy đủ các thông tin bị thiếu.
 
 **2. Data Transformation:** Dữ liệu sẽ được chuyển sang định dạng khác phù hợp hơn cho việc huấn luyện 
 
 **3. Data Reduction:** Huấn luyện các mô hình học máy hay học sâu cần số lượng dữ liệu lớn, và sẽ tăng theo thời gian khi chúng ta huấn luyện các mô hình với các version khác nhau. Nên sử dụng kĩ thuật giảm dữ liệu nhằm tối đa hóa sức mạnh tính toán, giảm chi phí lưu trữ và phân tích dữ liệu.


### Tokenization 

**Tách từ (Tokenization)** là một kĩ thuật trong Xử lí ngôn ngữ tự nhiên (Natrual Language Processing), nhiệm vụ là chia các câu văn thành các từ riêng lẻ (words hoặc tokens).

In [90]:
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
# nltk.download('punkt')
# nltk.download('brown')
# nltk.download('stopwords')
# nltk.download('names')
# nltk.download('wordnet')
# nltk.download('averaged_perceptron_tagger')
# nltk.download('universal_tagset')

In [67]:
# Dữ liệu test
example_text = """Text preprocessing is the process of getting the raw text into 
                  a form which can be vectorized and subsequently consumed by machine learning 
                  algorithms for natural language processing (NLP) tasks such as text classification, 
                  topic modeling, name entity recognition"""

In [68]:
# Tách từ và hiển thị các từ 
nltk_words = word_tokenize(example_text)
display(f"Tokenized words: {nltk_words}")

"Tokenized words: ['Text', 'preprocessing', 'is', 'the', 'process', 'of', 'getting', 'the', 'raw', 'text', 'into', 'a', 'form', 'which', 'can', 'be', 'vectorized', 'and', 'subsequently', 'consumed', 'by', 'machine', 'learning', 'algorithms', 'for', 'natural', 'language', 'processing', '(', 'NLP', ')', 'tasks', 'such', 'as', 'text', 'classification', ',', 'topic', 'modeling', ',', 'name', 'entity', 'recognition']"

### Cleaning: Loại bỏ các nội dung không mong muốn 

* **Stop word:** Là những từ thường xuất hiện trong câu không bổ sung thêm ý nghĩa cho câu, nhưng lại xuất hiện rất phổ biến.
* **Punctuation removal**: Loại bỏ dấu câu, dấu câu đôi khi không mang nhiều ý nghĩa trong việc mã hóa các đoạn văn. Nhưng nên sử dụng bước này sau khi tokenization.


In [69]:
import string
print(f"Punctuation symbols: {string.punctuation}")

nltk_words = list(t for t in nltk_words if t not in string.punctuation)
print(nltk_words)

Punctuation symbols: !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
['Text', 'preprocessing', 'is', 'the', 'process', 'of', 'getting', 'the', 'raw', 'text', 'into', 'a', 'form', 'which', 'can', 'be', 'vectorized', 'and', 'subsequently', 'consumed', 'by', 'machine', 'learning', 'algorithms', 'for', 'natural', 'language', 'processing', 'NLP', 'tasks', 'such', 'as', 'text', 'classification', 'topic', 'modeling', 'name', 'entity', 'recognition']


In [70]:
# Chúng ta hãy kiểm tra xem trong Tiếng Anh có những Stop word nào
from nltk.corpus import stopwords
print(stopwords.words('english'))
print(f"ntlk stop words count: {len(stopwords.words('english'))}")

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [71]:
# Loại bỏ các stop word trên các câu 
stop_words = stopwords.words('english')
filtered_sentence = [w for w in nltk_words if not w in stop_words] 
filtered_sentence = list(filter(lambda x: x not in stop_words, nltk_words))
print(nltk_words)
print('----------------------------------------------------------------------------------')
print(filtered_sentence)

['Text', 'preprocessing', 'is', 'the', 'process', 'of', 'getting', 'the', 'raw', 'text', 'into', 'a', 'form', 'which', 'can', 'be', 'vectorized', 'and', 'subsequently', 'consumed', 'by', 'machine', 'learning', 'algorithms', 'for', 'natural', 'language', 'processing', 'NLP', 'tasks', 'such', 'as', 'text', 'classification', 'topic', 'modeling', 'name', 'entity', 'recognition']
----------------------------------------------------------------------------------
['Text', 'preprocessing', 'process', 'getting', 'raw', 'text', 'form', 'vectorized', 'subsequently', 'consumed', 'machine', 'learning', 'algorithms', 'natural', 'language', 'processing', 'NLP', 'tasks', 'text', 'classification', 'topic', 'modeling', 'name', 'entity', 'recognition']


### Normalization

* **Normalization:** Là quá trình chuyển đổi thông tin không phải là văn bản thành văn bản tương đương
* **Ví dụ**
    + Chuyển đổi ngày tháng (số) thành chữ 
    + Chuyển đổi số sang chữ 
    + Kí hiệu tiền tệ, phần trăm sang chữ 
    + Từ viết tắt -> Thành từ không viết tắt 
    + Lỗi chính tả (teencode)

In [89]:
from normalise import normalise

text = """
On the 13 Feb. 2007, Theresa May announced on MTV news that the rate of childhod obesity had 
risen from 7.3-9.6% in just 3 years , costing the N.A.T.O £20m
"""

user_abbr = {
    "N.A.T.O": "North Atlantic Treaty Organization"
}

normalized_tokens = normalise(word_tokenize(text), user_abbrevs=user_abbr, verbose=False)
print(f"Normalized text: {' '.join(normalized_tokens)}")

Normalized text: On the thirteenth of February two thousand and seven , Theresa May announced on M T V news that the rate of childhood obesity had risen from seven point three to nine point six % in just three years , costing the North Atlantic Treaty Organization twenty million pounds


### Lemmatization and Stemming

Trong quá trình xử lí ngôn ngữ tự nhiên, việc so sánh hai từ (token) với nhau là điều cần thiết. Không sử dụng toán tử **==** là có thể kiếm tra đầy đủ. Ví dụ các từ “walks“, “walking“, “walked” đều là các biến thể của từ “walk” và đều mang ý nghĩa là “đi bộ”. Có hai kỹ thuật chính để giải quyết vấn đề này.

* **Stemming:** là kỹ thuật biến đổi 1 từ về dạng gốc (gọi là stem hoặc root form), bằng cách loại bỏ các kí tự ở cuối mà nó nghĩ đó là biến thể của từ gốc (vd -ed, -ing, -s...)
* **Lemmatization:** là kĩ thuật bằng cách so sánh trong 1 bộ dictionary nào đó, và chắc chắn nó sẽ cho kết quả chính xác cao hơn, nhưng nhược điểm là tốc độ vì nó phải kiểm tra hết trong dữ liệu.  

In [93]:
from nltk.stem import PorterStemmer
import numpy as np

text = ' '.join(normalized_tokens)
tokens = word_tokenize(text)
porter=PorterStemmer()

stem_words = np.vectorize(porter.stem) # vector
stemed_text = ' '.join(stem_words(tokens))
print(f"Stemed text: {stemed_text}")

<numpy.vectorize object at 0x7f183d61bba8>


'Stemed text: On the thirteenth of februari two thousand and seven , theresa may announc on M T V news that the rate of childhood obes had risen from seven point three to nine point six % in just three year , cost the north atlant treati organ twenti million pound'

In [95]:
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()
lemmatize_words = np.vectorize(wordnet_lemmatizer.lemmatize)
lemmatized_text = ' '.join(lemmatize_words(tokens))
print(f"nltk lemmatized text: {lemmatized_text}")

nltk lemmatized text: On the thirteenth of February two thousand and seven , Theresa May announced on M T V news that the rate of childhood obesity had risen from seven point three to nine point six % in just three year , costing the North Atlantic Treaty Organization twenty million pound


### Một bài tập nho nhỏ, các bạn sẽ xây dựng một class tự động hóa xử lí dữ liệu theo các bước như sau:
    1. Text normalization
    2. Punctuation removal
    3. Stop words removal
    4. Lemmatization
    5. Tokenization
    
#### Dữ liệu cần xử lí: data/30569_38997_compressed_bbc-text.csv.zip

### Nguồn tham khảo

* **Data Preprocessing in Data Mining:** https://www.geeksforgeeks.org/data-preprocessing-in-data-mining/ 