# naive bayes

## 1. Import important packages

In [8]:
import numpy as np
import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

from sklearn.datasets import fetch_20newsgroups
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline
from imblearn.under_sampling import RandomUnderSampler
from imblearn.pipeline import make_pipeline as make_pipeline_imb
from imblearn.metrics import classification_report_imbalanced

## 2. Load raw data

In [9]:
# train data
train_data = pd.read_csv('input/train_data.csv', sep=',')
train_data

Unnamed: 0,text,classification
0,Danh sách ứng cử viên đại biểu quốc hội khoá XV,thời sự
1,Số ca nhiễm trong nước vượt 2000,thời sự
2,Hà Nội cách ly tòa Park 9 khu đô thị Times City,thời sự
3,Điều kiện nào cho phép F1 có thể cách ly tại nhà,thời sự
4,Tiêu hủy gần 1.000 con lợn nhập khẩu,thời sự
5,Hai anh em tử vong dưới hố công trình,thời sự
6,Hà Nội lập chốt kiểm soát Covid-19,thời sự
7,Hải Dương lấy mẫu xét nghiệm cho hơn 39.000 người,thời sự
8,Ngày đầu quán ăn nhỏ ở Sài Gòn chỉ bán mang đi,thời sự
9,Bệnh gout nặng có thể thuyên giảm nhờ cách sau,thời sự


In [10]:
# test data
test_data = pd.read_csv('input/test_data.csv', sep=',')
test_data

Unnamed: 0,text,classification
0,40 km quy hoạch phân khu đô thị sông Hồng,thời sự
1,Hiện trạng khu vực quy hoạch đô thị sông Hồng,thời sự
2,Klopp: 'Liverpool đang ở đỉnh phong độ',thể thao
3,Haaland đổi áo với trọng tài,thể thao
4,Đại học Y dược TP HCM không tăng học phí,giáo dục
5,Học phí các trường quốc tế ở Hà Nội năm học 20...,giáo dục


In [11]:
X_train = train_data["text"]
y_train = train_data["classification"]
X_test = test_data["text"]
y_test = test_data["classification"]

## 3. Apply Multinomial Naive Bayes without balancing data

In [12]:
imbalanced_pipeline = make_pipeline(TfidfVectorizer(), MultinomialNB())
imbalanced_pipeline.fit(X_train, y_train)
y_imbalanced_pred = imbalanced_pipeline.predict(X_test)

In [13]:
for i in range(len(X_test)):
  print(f"{X_test[i]} : {y_imbalanced_pred[i]}")

40 km quy hoạch phân khu đô thị sông Hồng : thời sự
Hiện trạng khu vực quy hoạch đô thị sông Hồng : thời sự
Klopp: 'Liverpool đang ở đỉnh phong độ' : thể thao
Haaland đổi áo với trọng tài : thể thao
Đại học Y dược TP HCM không tăng học phí : giáo dục
Học phí các trường quốc tế ở Hà Nội năm học 2021-2022 : giáo dục


## 4. Apply Multinomial Naive Bayes with balancing data

In [14]:
balanced_pipeline = make_pipeline_imb(TfidfVectorizer(), RandomUnderSampler(), MultinomialNB())
balanced_pipeline.fit(X_train, y_train)
y_balanced_pred = balanced_pipeline.predict(X_test)

In [15]:
for i in range(len(X_test)):
  print(f"{X_test[i]} : {y_balanced_pred[i]}")

40 km quy hoạch phân khu đô thị sông Hồng : thời sự
Hiện trạng khu vực quy hoạch đô thị sông Hồng : thời sự
Klopp: 'Liverpool đang ở đỉnh phong độ' : thể thao
Haaland đổi áo với trọng tài : thể thao
Đại học Y dược TP HCM không tăng học phí : giáo dục
Học phí các trường quốc tế ở Hà Nội năm học 2021-2022 : giáo dục
