## Multinomial Naive Bayes cho Text Classification

In [3]:
%%capture
!pip install underthesea

In [46]:
from underthesea import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

In [76]:
documents = [
    "Hôm nay là một ngày tuyệt vời, tôi rất vui, hào hứng",
    "Tôi cảm thấy rất buồn và cô đơn",
    "Cuộc sống thật tươi đẹp, tuyệt vời",
    "Tôi rất thất vọng với kết quả này, tôi cảm thấy không vui",
    "Mọi thứ đang diễn ra rất tốt đẹp",
    "Tôi không muốn làm gì cả, tôi chán nản",
    "Anh ấy hạnh phúc vì có những người bạn tốt",
    "Cậu ấy rất tức giận và khó chịu",
    "Cậu ấy rất tức giận và khó chịu"
    
]

# 0 là buồn, 1 là vui
labels = [1,0,1,0,1,0,1,0]

test_data = [
    "Hôm nay trời đẹp và tôi rất vui",
    "Tôi cảm thấy buồn và không muốn nói chuyện với ai",
    "Tôi rất không hào hứng về dự án mới chút nào",
    "Mọi thứ đang rất tệ và tôi cảm thấy thất vọng",
    "Vậy là ngày mai lại được đi học rồi, thật là không vui"
    
]

## Tiền xử lý
Loại bỏ stop_words và các dấu thừa như .,';

In [12]:
'''
    CREATE YOUR OWN PATH
'''

import os
absolute_path = "/kaggle/input/stop-word-vn/vietnamese-stopwords-dash.txt"
current_directory = os.getcwd() 
path = os.path.relpath(absolute_path, current_directory)


/kaggle/working
../input/stop-word-vn/vietnamese-stopwords-dash.txt


In [15]:
'''   
    Stop-word removal using stopword-vn dataset:
    https://www.kaggle.com/datasets/caophankhnhduy/stop-word-vn
    To use: add this dataset into your kaggle input
'''

with open(new_path, "r", encoding="utf-8") as f:
    stop_words = f.read().splitlines()
stop_words = set(stop_words)


In [42]:
import string 

tokenized_documents = []
for doc in documents:
    tokens = word_tokenize(doc.lower(), format='text')
    filtered_tokens = [word for word in tokens.split() if word not in stop_words and word not in string.punctuation]
    tokenized_documents.append(" ".join(filtered_tokens))

In [56]:
def pre_processing(doc):
    tokens = word_tokenize(doc.lower(), format='text')
    filtered_tokens = [word for word in tokens.split() if word not in stop_words and word not in string.punctuation]
    return " ".join(filtered_tokens)
    

In [44]:
tokenized_tests = []
for doc in test_data:
    tokens = word_tokenize(doc.lower(), format='text')
    filtered_tokens = [word for word in tokens.split() if word not in stop_words and word not in string.punctuation]
    tokenized_tests.append(" ".join(filtered_tokens))

In [45]:
tokenized_tests

['hôm_nay trời đẹp vui',
 'buồn nói_chuyện',
 'hào_hứng dự_án chút',
 'tệ thất_vọng',
 'ngày_mai đi học vui']

In [43]:
tokenized_documents

['hôm_nay tuyệt_vời vui hào_hứng',
 'buồn cô_đơn',
 'cuộc_sống tươi_đẹp tuyệt_vời',
 'thất_vọng kết_quả vui',
 'diễn tốt_đẹp',
 'chán_nản',
 'hạnh_phúc',
 'tức_giận khó_chịu']

## Chuyển văn bản về dạng tần suất

In [67]:
'''
    TF-IDF can be used to convert text into TF-IDF score format.
    Similar to term frequency, can be used for Multinomial Naive Bayes (MNB).
'''

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(lowercase=False, use_idf=False, norm=None)
X = vectorizer.fit_transform(tokenized_documents)
y = labels
X_test = vectorizer.transform(tokenized_tests)

In [80]:
print(X)

  (0, 6)	1.0
  (0, 11)	1.0
  (0, 15)	1.0
  (0, 5)	1.0
  (1, 0)	1.0
  (1, 3)	1.0
  (2, 11)	1.0
  (2, 2)	1.0
  (2, 12)	1.0
  (3, 15)	1.0
  (3, 10)	1.0
  (3, 9)	1.0
  (4, 4)	1.0
  (4, 13)	1.0
  (5, 1)	1.0
  (6, 7)	1.0
  (7, 14)	1.0
  (7, 8)	1.0


## Fit model và dự đoán

In [68]:
model = MultinomialNB()
model.fit(X, y)

In [71]:
predictions = model.predict(X_test)

In [72]:
predictions

array([1, 0, 1, 0, 0])

In [75]:
print("Dự đoán trên dữ liệu mới:")
for i, text in enumerate(test_data):
    print(f'"{text}" - cảm xúc: {"Vui" if predictions[i] == 1 else "Buồn"}')

Dự đoán trên dữ liệu mới:
"Hôm nay trời đẹp và tôi rất vui" - cảm xúc: Vui
"Tôi cảm thấy buồn và không muốn nói chuyện với ai" - cảm xúc: Buồn
"Tôi rất không hào hứng về dự án mới chút nào" - cảm xúc: Vui
"Mọi thứ đang rất tệ và tôi cảm thấy thất vọng" - cảm xúc: Buồn
"Vậy là ngày mai lại được đi học rồi, thật là không vui" - cảm xúc: Buồn
