## Giới thiệu
Tiền xử lý văn bản là một bước thiết yếu trong **xử lý ngôn ngữ tự nhiên** (NLP) bao gồm việc làm sạch và chuyển đổi dữ liệu văn bản phi cấu trúc để chuẩn bị cho việc phân tích. Nó bao gồm **tokenization , stemming , lemmatization, stop-word removal và part-of-speech tagging**. Trong bài viết này, chúng tôi sẽ giới thiệu những điều cơ bản về tiền xử lý văn bản và cung cấp các ví dụ mã **Python** để minh họa cách triển khai các tác vụ này bằng **thư viện NLTK** .

### Kết quả học tập

- Tìm hiểu về các bước thiết yếu trong quá trình xử lý văn bản trước bằng Python, bao gồm phân tách từ, tách gốc, tách từ nguyên và loại bỏ từ dừng.
- Khám phá tầm quan trọng của việc xử lý trước văn bản trong việc cải thiện chất lượng dữ liệu và giảm nhiễu để phân tích NLP hiệu quả.
- Với các ví dụ mã thực tế, bạn có thể học cách dọn dẹp và chuẩn bị dữ liệu văn bản bằng Python và thư viện NLTK.
- Khám phá sự khác biệt giữa phương pháp rút gọn và phương pháp từ nguyên và tác động của chúng đến nghĩa của từ và ngữ cảnh.
- Hiểu được ứng dụng của các kỹ thuật xử lý trước trên dữ liệu thư rác SMS để chuẩn bị cho việc xây dựng mô hình.

### Mục lục
1. Giới thiệu
2. Tiền xử lý văn bản trong NLP là gì?
3. Tại sao xử lý văn bản trước lại quan trọng?
4. Dữ liệu thư rác SMS để xử lý trước văn bản
5. Các bước để làm sạch dữ liệu
- Xóa bỏ dấu câu(Punctuation removal)
- Hạ thấp văn bản(lowering the text)
- Mã hóa(Tokenization)
- Loại bỏ từ dừng(Stopword removal)
- Nhét đầy(Stemming)
- Lemmat hóa(Lemmatization)

### So sánh Stemming và Lemmatization
- Độ chính xác: Lemmatization thường chính xác hơn vì nó xem xét ngữ cảnh và sử dụng từ điển, trong khi stemming chỉ cắt bỏ các phần cuối của từ.
- Hiệu suất: Stemming nhanh hơn vì nó áp dụng các quy tắc đơn giản và không yêu cầu tra cứu từ điển.
- Kết quả: Lemmatization tạo ra các từ có nghĩa và đúng ngữ cảnh, trong khi stemming có thể tạo ra các từ không có nghĩa.

6. Phần kết luận
7. Những câu hỏi thường gặp

## Tiền xử lý văn bản trong NLP là gì?
Xử lý ngôn ngữ tự nhiên (NLP) là một nhánh của **Khoa học dữ liệu** xử lý **dữ liệu văn bản** . Ngoài dữ liệu số, dữ liệu văn bản có sẵn ở mức độ lớn và được sử dụng để phân tích và giải quyết các vấn đề kinh doanh. Tuy nhiên, trước khi sử dụng dữ liệu để phân tích hoặc dự đoán, việc xử lý dữ liệu là rất quan trọng.

Chúng tôi thực hiện tiền xử lý văn bản để chuẩn bị dữ liệu văn bản cho việc xây dựng mô hình. Đây là bước đầu tiên của các dự án NLP. Một số bước tiền xử lý là:

- Xóa các dấu câu như . , ! $( ) * % @
- Xóa URL
- Removing Stop words
- Lower casing
- Mã hóa(Tokenization)
- Stemming
- Lemmatization

## Tại sao xử lý văn bản trước lại quan trọng?
Tiền xử lý văn bản rất quan trọng trong xử lý ngôn ngữ tự nhiên (NLP) vì một số lý do:

| Preprocessing Task  | Reasons                                                                                                                |
|---------------------|------------------------------------------------------------------------------------------------------------------------|
| Noise Reduction     | Dữ liệu văn bản thường chứa nhiễu như dấu câu, ký tự đặc biệt và các ký hiệu không liên quan. Tiền xử lý giúp loại bỏ các yếu tố này, làm cho văn bản sạch hơn và dễ phân tích hơn. |
| Normalization       | Các hình thức khác nhau của từ (ví dụ: “run,” “running,” “ran”) có thể truyền tải cùng một ý nghĩa nhưng xuất hiện dưới các dạng khác nhau. Các kỹ thuật tiền xử lý như stemming và lemmatization giúp chuẩn hóa các biến thể này. |
| Tokenization        | Dữ liệu văn bản cần được chia nhỏ thành các đơn vị nhỏ hơn, chẳng hạn như từ hoặc cụm từ, để phân tích. Tokenization chia văn bản thành các đơn vị có ý nghĩa, tạo điều kiện thuận lợi cho các bước xử lý tiếp theo như trích xuất đặc trưng. |
| Stopword Removal    | Stopwords là các từ phổ biến như “the,” “is,” và “and” thường xuất hiện thường xuyên nhưng mang ít ý nghĩa ngữ nghĩa. Loại bỏ stopwords có thể cải thiện hiệu quả phân tích văn bản bằng cách giảm nhiễu. |
| Feature Extraction  | Tiền xử lý có thể bao gồm trích xuất các đặc trưng từ văn bản, chẳng hạn như tần suất từ, n-grams, hoặc word embeddings, điều này rất cần thiết để xây dựng các mô hình học máy. |
| Dimensionality Reduction | Dữ liệu văn bản thường có độ chiều cao do sự hiện diện của từ vựng lớn. Các kỹ thuật tiền xử lý như tần suất từ nghịch đảo tài liệu (TF-IDF) hoặc các phương pháp giảm chiều có thể giúp giải quyết vấn đề này. |

Tiền xử lý văn bản rất quan trọng trong việc chuẩn bị dữ liệu văn bản cho các tác vụ NLP. Nó cải thiện chất lượng dữ liệu, giảm nhiễu và tạo điều kiện cho việc phân tích và mô hình hóa hiệu quả.

## Dữ liệu thư rác SMS để xử lý trước văn bản
Chúng ta cần sử dụng các bước bắt buộc dựa trên tập dữ liệu của mình. Bài viết này sẽ sử dụng dữ liệu thư rác SMS để hiểu các bước trong quá trình xử lý trước văn bản trong NLP bằng thư viện Pandas của Python .

Dưới đây là một số thông tin thêm về encoding:

- UTF-8: Đây là mã hóa phổ biến nhất và hỗ trợ hầu hết các ký tự trên thế giới. Đây thường là lựa chọn mặc định.

- ISO-8859-1: Còn được gọi là Latin-1, mã hóa này hỗ trợ các ký tự Tây Âu. Nó chỉ sử dụng một byte (8 bit) cho mỗi ký tự, tổng cộng 256 ký tự khác nhau.

- UTF-16: Sử dụng 2 bytes (16 bit) cho mỗi ký tự. Đây là mã hóa phổ biến cho các văn bản chứa nhiều ký tự Unicode.

In [2]:
import pandas as pd
data = pd.read_csv("spam.csv",encoding="ISO-8859-1")
print(data.head())

     v1                                                 v2 Unnamed: 2  \
0   ham  Go until jurong point, crazy.. Available only ...        NaN   
1   ham                      Ok lar... Joking wif u oni...        NaN   
2  spam  Free entry in 2 a wkly comp to win FA Cup fina...        NaN   
3   ham  U dun say so early hor... U c already then say...        NaN   
4   ham  Nah I don't think he goes to usf, he lives aro...        NaN   

  Unnamed: 3 Unnamed: 4  
0        NaN        NaN  
1        NaN        NaN  
2        NaN        NaN  
3        NaN        NaN  
4        NaN        NaN  


```pd.set_option(option, value)```
- option: Tên của tùy chọn bạn muốn thay đổi. Đây là một chuỗi (string).
- value: Giá trị mới mà bạn muốn đặt cho tùy chọn đó.


In [5]:
# Mở rộng hiển thị độ dài của cột văn bản
pd.set_option('display.max_colwidth', None) # hiển thị toàn bộ nội dung của các cột văn bản mà k bị cắt 

# Chỉ sử dụng cột 'v1' và 'v2'
data = data[['v1', 'v2']]

# In ra 5 dòng đầu tiên của dữ liệu
print(data.head())


     v1  \
0   ham   
1   ham   
2  spam   
3   ham   
4   ham   

                                                                                                                                                            v2  
0                                              Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...  
1                                                                                                                                Ok lar... Joking wif u oni...  
2  Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's  
3                                                                                                            U dun say so early hor... U c already then say...  
4                                                                                                Nah I don't think he goes to us

Kiểm tra phân phối biến phụ thuộc giữa spam và ham

In [6]:
data['v1'].value_counts()

v1
ham     4825
spam     747
Name: count, dtype: int64

## Các bước làm sạch dữ liệu 
1. Xóa bỏ dấu câu

Bước này trong xử lý văn bản trong NLP liên quan đến việc xóa tất cả các dấu câu khỏi văn bản. Thư viện chuỗi của Python chứa một số danh sách các dấu câu được xác định trước như  '!”#$%&'()*+,-./:;?@[\]^_`{|}~'

In [7]:
import string
string.punctuation


'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [8]:
def remove_punctuation(text):
    punctuation_free = "".join([i for i in text if i not in string.punctuation])
    return punctuation_free

data['clean_msg']= data['v2'].apply(lambda x:remove_punctuation(x))
data.head()

Unnamed: 0,v1,v2,clean_msg
0,ham,"Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...",Go until jurong point crazy Available only in bugis n great world la e buffet Cine there got amore wat
1,ham,Ok lar... Joking wif u oni...,Ok lar Joking wif u oni
2,spam,Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's,Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005 Text FA to 87121 to receive entry questionstd txt rateTCs apply 08452810075over18s
3,ham,U dun say so early hor... U c already then say...,U dun say so early hor U c already then say
4,ham,"Nah I don't think he goes to usf, he lives around here though",Nah I dont think he goes to usf he lives around here though


2. Lowering the Text

Chuyển đổi văn bản thành cùng một trường hợp, tốt nhất là chữ thường, là một trong những bước tiền xử lý văn bản phổ biến nhất của Python. Tuy nhiên, thực hiện bước này để xử lý văn bản mỗi khi bạn làm việc trên một vấn đề NLP là không cần thiết, vì chữ thường có thể dẫn đến mất thông tin cho một số vấn đề.

Ví dụ, khi xử lý cảm xúc của một người trong bất kỳ dự án nào, những từ viết hoa có thể biểu thị sự thất vọng hoặc phấn khích.

In [9]:
data['msg_lower']= data['clean_msg'].apply(lambda x: x.lower())
data.head()

Unnamed: 0,v1,v2,clean_msg,msg_lower
0,ham,"Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...",Go until jurong point crazy Available only in bugis n great world la e buffet Cine there got amore wat,go until jurong point crazy available only in bugis n great world la e buffet cine there got amore wat
1,ham,Ok lar... Joking wif u oni...,Ok lar Joking wif u oni,ok lar joking wif u oni
2,spam,Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's,Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005 Text FA to 87121 to receive entry questionstd txt rateTCs apply 08452810075over18s,free entry in 2 a wkly comp to win fa cup final tkts 21st may 2005 text fa to 87121 to receive entry questionstd txt ratetcs apply 08452810075over18s
3,ham,U dun say so early hor... U c already then say...,U dun say so early hor U c already then say,u dun say so early hor u c already then say
4,ham,"Nah I don't think he goes to usf, he lives around here though",Nah I dont think he goes to usf he lives around here though,nah i dont think he goes to usf he lives around here though


3. Tokenization

Trong bước này, văn bản được chia thành các đơn vị nhỏ hơn. Dựa trên phát biểu vấn đề của chúng ta, chúng ta có thể sử dụng phân chia câu hoặc từ .

Giải thích chi tiết về \w+ và \W+
\w:

Ký tự đặc biệt \w đại diện cho bất kỳ ký tự chữ cái, chữ số hoặc dấu gạch dưới. Nói cách khác, nó tương ứng với bộ ký tự [a-zA-Z0-9_].
\w+ sẽ khớp với một hoặc nhiều ký tự thuộc loại này. Dấu + có nghĩa là "một hoặc nhiều".

\W:

Ký tự đặc biệt \W đại diện cho bất kỳ ký tự nào không phải là chữ cái, chữ số hoặc dấu gạch dưới. Nói cách khác, nó tương ứng với bộ ký tự [^a-zA-Z0-9_] (dấu ^ đại diện cho phủ định trong một lớp ký tự).
\W+ sẽ khớp với một hoặc nhiều ký tự thuộc loại này.

In [10]:
#defining function for tokenization
import re
def tokenization(text):
    tokens = re.split('\W+',text)
    return tokens
#applying function to the column
data['msg_tokenied']= data['msg_lower'].apply(lambda x: tokenization(x))
data.head()

Unnamed: 0,v1,v2,clean_msg,msg_lower,msg_tokenied
0,ham,"Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...",Go until jurong point crazy Available only in bugis n great world la e buffet Cine there got amore wat,go until jurong point crazy available only in bugis n great world la e buffet cine there got amore wat,"[go, until, jurong, point, crazy, available, only, in, bugis, n, great, world, la, e, buffet, cine, there, got, amore, wat]"
1,ham,Ok lar... Joking wif u oni...,Ok lar Joking wif u oni,ok lar joking wif u oni,"[ok, lar, joking, wif, u, oni]"
2,spam,Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's,Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005 Text FA to 87121 to receive entry questionstd txt rateTCs apply 08452810075over18s,free entry in 2 a wkly comp to win fa cup final tkts 21st may 2005 text fa to 87121 to receive entry questionstd txt ratetcs apply 08452810075over18s,"[free, entry, in, 2, a, wkly, comp, to, win, fa, cup, final, tkts, 21st, may, 2005, text, fa, to, 87121, to, receive, entry, questionstd, txt, ratetcs, apply, 08452810075over18s]"
3,ham,U dun say so early hor... U c already then say...,U dun say so early hor U c already then say,u dun say so early hor u c already then say,"[u, dun, say, so, early, hor, u, c, already, then, say]"
4,ham,"Nah I don't think he goes to usf, he lives around here though",Nah I dont think he goes to usf he lives around here though,nah i dont think he goes to usf he lives around here though,"[nah, i, dont, think, he, goes, to, usf, he, lives, around, here, though]"


4. Stopping word removal

Thư viện NLTK bao gồm danh sách các từ dừng được coi là từ dừng trong tiếng Anh. Một số trong số chúng là: [ i, me, my, myself, we, our, ours, themselves, you, you're, you've, you'll, you'd, your, yours, yourself, themselves, he, most, other, some, such, no, nor, not, only, own, same, so, then, too, very, s, t, can, will, just, don, don't, should, should've, now, d, ll, m, o, re, ve, y, ain, aren't, could, couldn't, didn't, didn't]

Tuy nhiên, việc sử dụng danh sách các từ dừng được cung cấp là không cần thiết, vì chúng nên được lựa chọn một cách khôn ngoan dựa trên dự án. Ví dụ, 'How' có thể là từ dừng cho một mô hình nhưng có thể quan trọng đối với một số vấn đề khác mà chúng ta đang xử lý các truy vấn của khách hàng. Chúng ta có thể tạo danh sách các từ dừng tùy chỉnh cho các vấn đề khác nhau.

In [13]:
#importing nlp library
import nltk
nltk.download('stopwords')
#Stop words present in the library
stopwords = nltk.corpus.stopwords.words('english')
stopwords[0:10]


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [16]:
#defining the function to remove stopwords from tokenized text
def remove_stopwords(text):
    output= [i for i in text if i not in stopwords]
    return output



In [17]:
#applying the function
data['no_stopwords']= data['msg_tokenied'].apply(lambda x:remove_stopwords(x))
data.head()

Unnamed: 0,v1,v2,clean_msg,msg_lower,msg_tokenied,no_stopwords
0,ham,"Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...",Go until jurong point crazy Available only in bugis n great world la e buffet Cine there got amore wat,go until jurong point crazy available only in bugis n great world la e buffet cine there got amore wat,"[go, until, jurong, point, crazy, available, only, in, bugis, n, great, world, la, e, buffet, cine, there, got, amore, wat]","[go, jurong, point, crazy, available, bugis, n, great, world, la, e, buffet, cine, got, amore, wat]"
1,ham,Ok lar... Joking wif u oni...,Ok lar Joking wif u oni,ok lar joking wif u oni,"[ok, lar, joking, wif, u, oni]","[ok, lar, joking, wif, u, oni]"
2,spam,Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's,Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005 Text FA to 87121 to receive entry questionstd txt rateTCs apply 08452810075over18s,free entry in 2 a wkly comp to win fa cup final tkts 21st may 2005 text fa to 87121 to receive entry questionstd txt ratetcs apply 08452810075over18s,"[free, entry, in, 2, a, wkly, comp, to, win, fa, cup, final, tkts, 21st, may, 2005, text, fa, to, 87121, to, receive, entry, questionstd, txt, ratetcs, apply, 08452810075over18s]","[free, entry, 2, wkly, comp, win, fa, cup, final, tkts, 21st, may, 2005, text, fa, 87121, receive, entry, questionstd, txt, ratetcs, apply, 08452810075over18s]"
3,ham,U dun say so early hor... U c already then say...,U dun say so early hor U c already then say,u dun say so early hor u c already then say,"[u, dun, say, so, early, hor, u, c, already, then, say]","[u, dun, say, early, hor, u, c, already, say]"
4,ham,"Nah I don't think he goes to usf, he lives around here though",Nah I dont think he goes to usf he lives around here though,nah i dont think he goes to usf he lives around here though,"[nah, i, dont, think, he, goes, to, usf, he, lives, around, here, though]","[nah, dont, think, goes, usf, lives, around, though]"


5. Stemming

Bước này, được gọi là chuẩn hóa văn bản, bắt nguồn hoặc rút gọn các từ thành dạng gốc hoặc dạng cơ sở của chúng. Ví dụ, chúng tôi bắt nguồn các từ như ‘programmer,’ ‘programming,’ and ‘program’ to ‘program.’

Tuy nhiên, việc **stemming** có thể khiến dạng gốc mất đi ý nghĩa hoặc không được rút gọn thành một từ tiếng Anh đúng. Chúng ta sẽ thấy điều này trong các bước dưới đây.

In [18]:
#importing the Stemming function from nltk library
from nltk.stem.porter import PorterStemmer
#defining the object for stemming
porter_stemmer = PorterStemmer()

In [20]:
#defining a function for stemming
def stemming(text):
    stem_text = [porter_stemmer.stem(word) for word in text]
    return stem_text
data['msg_stemmed']=data['no_stopwords'].apply(lambda x: stemming(x))
data.head()

Unnamed: 0,v1,v2,clean_msg,msg_lower,msg_tokenied,no_stopwords,msg_stemmed
0,ham,"Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...",Go until jurong point crazy Available only in bugis n great world la e buffet Cine there got amore wat,go until jurong point crazy available only in bugis n great world la e buffet cine there got amore wat,"[go, until, jurong, point, crazy, available, only, in, bugis, n, great, world, la, e, buffet, cine, there, got, amore, wat]","[go, jurong, point, crazy, available, bugis, n, great, world, la, e, buffet, cine, got, amore, wat]","[go, jurong, point, crazi, avail, bugi, n, great, world, la, e, buffet, cine, got, amor, wat]"
1,ham,Ok lar... Joking wif u oni...,Ok lar Joking wif u oni,ok lar joking wif u oni,"[ok, lar, joking, wif, u, oni]","[ok, lar, joking, wif, u, oni]","[ok, lar, joke, wif, u, oni]"
2,spam,Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's,Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005 Text FA to 87121 to receive entry questionstd txt rateTCs apply 08452810075over18s,free entry in 2 a wkly comp to win fa cup final tkts 21st may 2005 text fa to 87121 to receive entry questionstd txt ratetcs apply 08452810075over18s,"[free, entry, in, 2, a, wkly, comp, to, win, fa, cup, final, tkts, 21st, may, 2005, text, fa, to, 87121, to, receive, entry, questionstd, txt, ratetcs, apply, 08452810075over18s]","[free, entry, 2, wkly, comp, win, fa, cup, final, tkts, 21st, may, 2005, text, fa, 87121, receive, entry, questionstd, txt, ratetcs, apply, 08452810075over18s]","[free, entri, 2, wkli, comp, win, fa, cup, final, tkt, 21st, may, 2005, text, fa, 87121, receiv, entri, questionstd, txt, ratetc, appli, 08452810075over18]"
3,ham,U dun say so early hor... U c already then say...,U dun say so early hor U c already then say,u dun say so early hor u c already then say,"[u, dun, say, so, early, hor, u, c, already, then, say]","[u, dun, say, early, hor, u, c, already, say]","[u, dun, say, earli, hor, u, c, alreadi, say]"
4,ham,"Nah I don't think he goes to usf, he lives around here though",Nah I dont think he goes to usf he lives around here though,nah i dont think he goes to usf he lives around here though,"[nah, i, dont, think, he, goes, to, usf, he, lives, around, here, though]","[nah, dont, think, goes, usf, lives, around, though]","[nah, dont, think, goe, usf, live, around, though]"


Output: In the below image, we can see how some words stem from their base.

crazy-> crazi

available-> avail

entry-> entri

early-> earli

Now, let’s see how Lemmatization is different from Stemming.

6. Lemmatization

Nó bắt nguồn từ từ lemmatize, có nghĩa là rút gọn các dạng khác nhau của một từ thành một dạng duy nhất. Tuy nhiên, người ta phải đảm bảo rằng nó không mất đi ý nghĩa. Lemmatization có một từ điển được xác định trước lưu trữ ngữ cảnh của các từ và kiểm tra từ trong từ điển trong khi giảm dần.

Bây giờ chúng ta hãy tìm hiểu sự khác biệt giữa sau khi tách gốc và sau khi tách từ:

| Original Word | After Stemming | After Lemmatization |
|---------------|----------------|---------------------|
| goose         | goos           | goose               |
| geese         | gees           | goose               |


In [21]:
from nltk.stem import WordNetLemmatizer
#defining the object for Lemmatization
wordnet_lemmatizer = WordNetLemmatizer()

In [22]:
#defining the function for lemmatization
def lemmatizer(text):
    lemm_text = [wordnet_lemmatizer.lemmatize(word) for word in text]
    return lemm_text
data['msg_lemmatized']=data['no_stopwords'].apply(lambda x:lemmatizer(x))
data.head()

Unnamed: 0,v1,v2,clean_msg,msg_lower,msg_tokenied,no_stopwords,msg_stemmed,msg_lemmatized
0,ham,"Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...",Go until jurong point crazy Available only in bugis n great world la e buffet Cine there got amore wat,go until jurong point crazy available only in bugis n great world la e buffet cine there got amore wat,"[go, until, jurong, point, crazy, available, only, in, bugis, n, great, world, la, e, buffet, cine, there, got, amore, wat]","[go, jurong, point, crazy, available, bugis, n, great, world, la, e, buffet, cine, got, amore, wat]","[go, jurong, point, crazi, avail, bugi, n, great, world, la, e, buffet, cine, got, amor, wat]","[go, jurong, point, crazy, available, bugis, n, great, world, la, e, buffet, cine, got, amore, wat]"
1,ham,Ok lar... Joking wif u oni...,Ok lar Joking wif u oni,ok lar joking wif u oni,"[ok, lar, joking, wif, u, oni]","[ok, lar, joking, wif, u, oni]","[ok, lar, joke, wif, u, oni]","[ok, lar, joking, wif, u, oni]"
2,spam,Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's,Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005 Text FA to 87121 to receive entry questionstd txt rateTCs apply 08452810075over18s,free entry in 2 a wkly comp to win fa cup final tkts 21st may 2005 text fa to 87121 to receive entry questionstd txt ratetcs apply 08452810075over18s,"[free, entry, in, 2, a, wkly, comp, to, win, fa, cup, final, tkts, 21st, may, 2005, text, fa, to, 87121, to, receive, entry, questionstd, txt, ratetcs, apply, 08452810075over18s]","[free, entry, 2, wkly, comp, win, fa, cup, final, tkts, 21st, may, 2005, text, fa, 87121, receive, entry, questionstd, txt, ratetcs, apply, 08452810075over18s]","[free, entri, 2, wkli, comp, win, fa, cup, final, tkt, 21st, may, 2005, text, fa, 87121, receiv, entri, questionstd, txt, ratetc, appli, 08452810075over18]","[free, entry, 2, wkly, comp, win, fa, cup, final, tkts, 21st, may, 2005, text, fa, 87121, receive, entry, questionstd, txt, ratetcs, apply, 08452810075over18s]"
3,ham,U dun say so early hor... U c already then say...,U dun say so early hor U c already then say,u dun say so early hor u c already then say,"[u, dun, say, so, early, hor, u, c, already, then, say]","[u, dun, say, early, hor, u, c, already, say]","[u, dun, say, earli, hor, u, c, alreadi, say]","[u, dun, say, early, hor, u, c, already, say]"
4,ham,"Nah I don't think he goes to usf, he lives around here though",Nah I dont think he goes to usf he lives around here though,nah i dont think he goes to usf he lives around here though,"[nah, i, dont, think, he, goes, to, usf, he, lives, around, here, though]","[nah, dont, think, goes, usf, lives, around, though]","[nah, dont, think, goe, usf, live, around, though]","[nah, dont, think, go, usf, life, around, though]"


**Output**: Sự khác biệt giữa phương pháp stemming và lemmatization có thể được thấy trong đầu ra bên dưới.

Ở hàng đầu tiên - crazy đã được đổi thành crazi, từ này không có nghĩa gì cả, nhưng đối với quá trình lemmat hóa, nó vẫn giữ nguyên, tức là crazy.

Ở hàng cuối cùng - goes đã đổi thành goe khi bắt nguồn, nhưng khi chuyển đổi thành lemmatization, nó đã chuyển thành go, có ý nghĩa.

Sau khi thực hiện tất cả các bước xử lý văn bản, chúng tôi chuyển đổi dữ liệu thu được cuối cùng thành dạng số bằng Bag of Words hoặc TF-IDF .