# knn

## 1. Import important packages

In [1]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.neighbors import KNeighborsClassifier

## 2. Load raw data

In [2]:
FILE_PATH = "input/data.csv"

raw_data = pd.read_csv(FILE_PATH, sep=',')
raw_data

Unnamed: 0,text,sentiment
0,Trời mưa khiến lòng mình buồn theo,negative
1,Dịch bệnh hoành hành là nguyên nhân khiến cửa ...,negative
2,Vì đau chân nên mình phải từ bỏ sân cỏ,negative
3,Thật là một bộ phim xuất sắc,positive
4,Vô cùng vinh hạnh khi được tham dự lớp học này,positive


## 3. Apply tfidf on text

In [4]:
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(raw_data['text']).toarray()
vocab = vectorizer.get_feature_names()

## 4. Transform label of sentiment to one-hot vector

In [7]:
label_encoder = LabelEncoder()
integer_encoded = label_encoder.fit_transform(raw_data['sentiment'])
integer_encoded = integer_encoded.reshape(len(integer_encoded), 1)

onehot_encoder = OneHotEncoder(sparse=False)
y = onehot_encoder.fit_transform(integer_encoded)

In [8]:
y

array([[1., 0.],
       [1., 0.],
       [1., 0.],
       [0., 1.],
       [0., 1.]])

## 5. Apply kNN

In [9]:
kNN = KNeighborsClassifier(n_neighbors=2)
kNN.fit(X, y)

KNeighborsClassifier(n_neighbors=2)

## 6. Test kNN model

In [10]:
test_data = ["Vì dịch bệnh mà rạp phim phải đóng cửa", "Lớp học thật xuất sắc"]
X_test = vectorizer.transform(test_data).toarray()
X_test

array([[0.        , 0.38775666, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.38775666, 0.38775666, 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.38775666, 0.31283963, 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.38775666, 0.        , 0.        ,
        0.        , 0.38775666, 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.4472136 ,
        0.        , 0.        , 0.        , 0.        , 0.4472136 ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
   

In [11]:
y_pred = kNN.predict(X_test)
y_pred

array([[1., 0.],
       [0., 1.]])

In [12]:
sentiment_pred = []
for pred in y_pred:
  inverted = label_encoder.inverse_transform([np.argmax(pred)])
  label = str(inverted[0])
  print(f"vector prediction:{pred} is label {label}")
  sentiment_pred.append(label)

vector prediction:[1. 0.] is label negative
vector prediction:[0. 1.] is label positive


In [13]:
# print prediction result\
for i in range(len(test_data)):
  print(f"'{test_data[i]}' : {sentiment_pred[i]}")

'Vì dịch bệnh mà rạp phim phải đóng cửa' : negative
'Lớp học thật xuất sắc' : positive
