# kNN and Naive Bayes

## 1. Import important packages

In [24]:
import numpy as np
import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

from sklearn.neighbors import KNeighborsClassifier

from sklearn.datasets import fetch_20newsgroups
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline
from imblearn.under_sampling import RandomUnderSampler
from imblearn.pipeline import make_pipeline as make_pipeline_imb
from imblearn.metrics import classification_report_imbalanced

from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import average_precision_score
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import plot_precision_recall_curve

## 2. Load raw data

In [25]:
# train data
train_data = pd.read_csv('input/train_data.csv', sep=',')

In [26]:
train_data.sample(frac=1)
# train_data['classification']

Unnamed: 0,text,classification
18,Yêu cầu thu hồi tiền thuê đất tại dự án ngàn t...,thời sự
57,Nữ sinh giành học bổng 7 tỷ đồng từ đại học hà...,giáo dục
26,Cao su Phước Hòa chia cổ tức kỷ lục,thời sự
5,Hai anh em tử vong dưới hố công trình,thời sự
15,Xoài chín đầy cây vẫn không hái vì có hái cũng...,thời sự
33,PGA Championship cắt loại như thế nào?,thể thao
27,Griezmann lập siêu phẩm ở vòng cuối,thể thao
31,Real bất lực dù thắng vòng cuối,thể thao
28,Lewandowski lập kỷ lục ghi bàn trong một mùa B...,thể thao
39,HLV Nishino tiếc khi học trò bỏ rơi tuyển Thái...,thể thao


In [27]:
# test data
test_data = pd.read_csv('input/test_data.csv', sep=',')

In [28]:
# test_data['classification']
test_data.sample(frac=1)

Unnamed: 0,text,classification
10,Klopp: 'Liverpool đang ở đỉnh phong độ',thể thao
5,Tháo gỡ 'nút thắt' hơn 2.800 tỷ đồng vốn bảo t...,thời sự
6,Cao tốc TP HCM - Mộc Bài tăng vốn gần 2.300 tỷ...,thời sự
1,Hiện trạng khu vực quy hoạch đô thị sông Hồng,thời sự
7,Trạm BOT Đông Hưng thu phí từ 1/6,thời sự
0,40 km quy hoạch phân khu đô thị sông Hồng,thời sự
2,Thủ tướng: Tập trung xây cao tốc cho những vùn...,thời sự
3,5 dự án cao tốc Bắc Nam sắp khởi công,thời sự
21,Học phí các trường quốc tế ở Hà Nội năm học 20...,giáo dục
17,Tuyển futsal Việt Nam làm quen sân thi đấu trư...,thể thao


In [29]:
X_train = train_data["text"]
y_train = train_data["classification"]
X_test = test_data["text"]
y_test = test_data["classification"]
y_test_actual = y_test.to_numpy()

In [30]:
y_test_actual

array(['thời sự', 'thời sự', 'thời sự', 'thời sự', 'thời sự', 'thời sự',
       'thời sự', 'thời sự', 'thời sự', 'thời sự', 'thể thao', 'thể thao',
       'thể thao', 'thể thao', 'thể thao', 'thể thao', 'thể thao',
       'thể thao', 'thể thao', 'thể thao', 'giáo dục', 'giáo dục',
       'giáo dục', 'giáo dục', 'giáo dục', 'giáo dục', 'giáo dục',
       'giáo dục', 'giáo dục', 'giáo dục'], dtype=object)

## 3. Apply Multinomial Naive Bayes without balancing data

In [31]:
imbalanced_pipeline = make_pipeline(TfidfVectorizer(), MultinomialNB())
imbalanced_pipeline.fit(X_train, y_train)
y_imbalanced_pred = imbalanced_pipeline.predict(X_test)

In [32]:
for i in range(len(X_test)):
  print(f"{X_test[i]} : {y_imbalanced_pred[i]}")

40 km quy hoạch phân khu đô thị sông Hồng : thời sự
Hiện trạng khu vực quy hoạch đô thị sông Hồng : thời sự
Thủ tướng: Tập trung xây cao tốc cho những vùng động lực : thời sự
5 dự án cao tốc Bắc Nam sắp khởi công : thời sự
Gần 3.800 tỷ đồng xây đường kết nối Thái Nguyên Bắc Giang Vĩnh Phúc : thời sự
Tháo gỡ 'nút thắt' hơn 2.800 tỷ đồng vốn bảo trì đường sắt : giáo dục
Cao tốc TP HCM - Mộc Bài tăng vốn gần 2.300 tỷ đồng : thời sự
Trạm BOT Đông Hưng thu phí từ 1/6 : thời sự
Khách đi xe ôm xe buýt ở TP HCM phải khai báo y tế : thời sự
Làm cao tốc từ Đồng Tháp đi TP HCM còn 2 tiếng : thời sự
Klopp: 'Liverpool đang ở đỉnh phong độ' : thời sự
BĐTV trực tiếp trận tranh vé dự World Cup futsal 2021 Việt Nam - Lebanon : thời sự
Lời thỉnh nguyện của Harry Kane : thời sự
Liverpool vào top 4 tranh vé dự Champions League tận giờ chót : thời sự
Ngược dòng trước Man Utd tại Old Trafford Liverpool tiến sát top 4 : thời sự
Chờ Liverpool tung nước rút : thời sự
Juventus PSG đoạt cúp quốc gia : thời 

In [34]:
# accuracy
print('accuracy = ',accuracy_score(y_test_actual, y_imbalanced_pred))

accuracy =  0.5333333333333333


In [35]:
# confusion matrix
cnf_matrix = confusion_matrix(y_test_actual, y_imbalanced_pred)
cnf_matrix

array([[ 7,  0,  3],
       [ 0,  0, 10],
       [ 1,  0,  9]])

## 4. Apply Multinomial Naive Bayes with balancing data

In [36]:
balanced_pipeline = make_pipeline_imb(TfidfVectorizer(), RandomUnderSampler(), MultinomialNB())
balanced_pipeline.fit(X_train, y_train)
y_balanced_pred = balanced_pipeline.predict(X_test)

In [37]:
for i in range(len(X_test)):
  print(f"{X_test[i]} : {y_balanced_pred[i]}")

40 km quy hoạch phân khu đô thị sông Hồng : thời sự
Hiện trạng khu vực quy hoạch đô thị sông Hồng : thời sự
Thủ tướng: Tập trung xây cao tốc cho những vùng động lực : thời sự
5 dự án cao tốc Bắc Nam sắp khởi công : thời sự
Gần 3.800 tỷ đồng xây đường kết nối Thái Nguyên Bắc Giang Vĩnh Phúc : giáo dục
Tháo gỡ 'nút thắt' hơn 2.800 tỷ đồng vốn bảo trì đường sắt : giáo dục
Cao tốc TP HCM - Mộc Bài tăng vốn gần 2.300 tỷ đồng : giáo dục
Trạm BOT Đông Hưng thu phí từ 1/6 : giáo dục
Khách đi xe ôm xe buýt ở TP HCM phải khai báo y tế : thời sự
Làm cao tốc từ Đồng Tháp đi TP HCM còn 2 tiếng : giáo dục
Klopp: 'Liverpool đang ở đỉnh phong độ' : thể thao
BĐTV trực tiếp trận tranh vé dự World Cup futsal 2021 Việt Nam - Lebanon : thời sự
Lời thỉnh nguyện của Harry Kane : giáo dục
Liverpool vào top 4 tranh vé dự Champions League tận giờ chót : thể thao
Ngược dòng trước Man Utd tại Old Trafford Liverpool tiến sát top 4 : thể thao
Chờ Liverpool tung nước rút : thời sự
Juventus PSG đoạt cúp quốc gia

In [40]:
# accuracy
print('accuracy = ',accuracy_score(y_test_actual, y_balanced_pred))

accuracy =  0.6333333333333333


In [41]:
# confusion matrix
cnf_matrix = confusion_matrix(y_test_actual, y_balanced_pred)
cnf_matrix

array([[10,  0,  0],
       [ 2,  4,  4],
       [ 5,  0,  5]])

## 5. Apply kNN

In [42]:
# vectorize X train data
vectorizer = TfidfVectorizer()
X_train_knn = vectorizer.fit_transform(X_train).toarray()
vocab = vectorizer.get_feature_names()

In [43]:
# encode y train data
label_encoder = LabelEncoder()
integer_encoded = label_encoder.fit_transform(y_train)
integer_encoded = integer_encoded.reshape(len(integer_encoded), 1)

onehot_encoder = OneHotEncoder(sparse=False)
y_train_knn = onehot_encoder.fit_transform(integer_encoded)

In [44]:
y_train_knn

array([[0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0

In [45]:
# vectorize X test data
X_test_knn = vectorizer.transform(X_test).toarray()

In [46]:
# apply kNN
kNN = KNeighborsClassifier(n_neighbors=5)
kNN.fit(X_train_knn, y_train_knn)

KNeighborsClassifier()

In [47]:
# predict
y_pred = kNN.predict(X_test_knn)

In [48]:
y_pred

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 1.],
       [0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [1., 0., 0.],
       [0., 0., 0.],
       [0., 0., 1.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [0., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.]])

In [49]:
# print classification
classification_pred = []
for pred in y_pred:
  inverted = label_encoder.inverse_transform([np.argmax(pred)])
  label = str(inverted[0])
  classification_pred.append(label)

for i in range(len(y_test)):
  print(f"'{y_test[i]}' : {classification_pred[i]}")

'thời sự' : giáo dục
'thời sự' : giáo dục
'thời sự' : giáo dục
'thời sự' : thời sự
'thời sự' : thời sự
'thời sự' : giáo dục
'thời sự' : thời sự
'thời sự' : giáo dục
'thời sự' : thời sự
'thời sự' : giáo dục
'thể thao' : thể thao
'thể thao' : thời sự
'thể thao' : giáo dục
'thể thao' : giáo dục
'thể thao' : giáo dục
'thể thao' : thời sự
'thể thao' : giáo dục
'thể thao' : giáo dục
'thể thao' : thể thao
'thể thao' : thời sự
'giáo dục' : giáo dục
'giáo dục' : giáo dục
'giáo dục' : giáo dục
'giáo dục' : giáo dục
'giáo dục' : giáo dục
'giáo dục' : giáo dục
'giáo dục' : giáo dục
'giáo dục' : giáo dục
'giáo dục' : giáo dục
'giáo dục' : giáo dục


In [50]:
# accuracy
print('accuracy = ',accuracy_score(y_test_actual, classification_pred))

accuracy =  0.5333333333333333


In [51]:
# confusion matrix
cnf_matrix = confusion_matrix(y_test_actual, classification_pred)
cnf_matrix

array([[10,  0,  0],
       [ 5,  2,  3],
       [ 6,  0,  4]])