# naive bayes

## 1. Import important packages

In [2]:
import numpy as np
import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

from sklearn.datasets import fetch_20newsgroups
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline
from imblearn.under_sampling import RandomUnderSampler
from imblearn.pipeline import make_pipeline as make_pipeline_imb
from imblearn.metrics import classification_report_imbalanced

## 2. Load raw data

In [3]:
# train data
train_data = pd.read_csv('input/train_data.csv', sep=',')
train_data

Unnamed: 0,text,sentiment
0,Trời mưa khiến lòng mình buồn theo,negative
1,Dịch bệnh hoành hành là nguyên nhân khiến cửa ...,negative
2,Vì đau chân nên mình phải từ bỏ sân cỏ,negative
3,Thật là một bộ phim xuất sắc,positive
4,Vô cùng vinh hạnh khi được tham dự lớp học này,positive


In [4]:
# test data
test_data = pd.read_csv('input/test_data.csv', sep=',')
test_data

Unnamed: 0,text,sentiment
0,Vì dịch bệnh mà rạp phim phải đóng cửa,negative
1,Lớp học thật xuất sắc,positive


In [5]:
X_train = train_data["text"]
y_train = train_data["sentiment"]
X_test = test_data["text"]
y_test = test_data["sentiment"]

## 3. Apply Multinomial Naive Bayes without balancing data

In [7]:
imbalanced_pipeline = make_pipeline(TfidfVectorizer(), MultinomialNB())
imbalanced_pipeline.fit(X_train, y_train)
y_imbalanced_pred = imbalanced_pipeline.predict(X_test)

In [8]:
for i in range(len(X_test)):
  print(f"{X_test[i]} : {y_imbalanced_pred[i]}")

Vì dịch bệnh mà rạp phim phải đóng cửa : negative
Lớp học thật xuất sắc : positive


## 4. Apply Multinomial Naive Bayes with balancing data

In [9]:
balanced_pipeline = make_pipeline_imb(TfidfVectorizer(), RandomUnderSampler(), MultinomialNB())
balanced_pipeline.fit(X_train, y_train)
y_balanced_pred = balanced_pipeline.predict(X_test)

In [10]:
for i in range(len(X_test)):
  print(f"{X_test[i]} : {y_balanced_pred[i]}")

Vì dịch bệnh mà rạp phim phải đóng cửa : negative
Lớp học thật xuất sắc : positive
