In [1]:
import pandas as pd
import src.processing.data_processing as dp
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
import os

In [2]:
# Loading data
df = pd.read_excel(os.path.join("data", "Dry_Bean_Dataset.xlsx"))

# Processamento diferentes visto que nao temos eval
X, y, size_pack, _ = dp.df_category_split(df)
X = dp.normalize_df(X)
test_size = 0.05
X_train, X_test, y_train, y_test = train_test_split(
        X, y, stratify=y, test_size=test_size, random_state=12)

In [3]:
# n_neighbors é auto-explicativo
# p é para a métrica, 1 é manhattan, 2 é euclidiana
# weights uniform essencialmente faz uma media aritimética dos elementos da vizinhaça para a decisão
# weights distance essencialmente faz uma media ponderada dos elementos da vizinhaça para a decisão utilizando o inverso da distância
# dá pra selecionar o tipo do algoritmo também por 
#                          'algorithm' :['ball_tree', 'kd_tree', 'brute']
# no momento está como 'auto', isto é, o classificador escolhe o qual ele acha que será o melhor dado o input
clf = GridSearchCV(KNeighborsClassifier(), {
    'n_neighbors' : range(5,205,5),
    'weights' : ['uniform', 'distance'],
    'p' : [1,2]
}, cv=5, return_train_score=False,)

In [4]:
clf.fit(X_train,y_train)
df_results = pd.DataFrame(clf.cv_results_)

In [5]:
# testing
prediction = clf.predict(X_test)
y_test_np = y_test.to_numpy(dtype=int)
corrects = np.count_nonzero(prediction==y_test_np)
acc = corrects/len(y_test_np)
print(f"count: {corrects}")
acc = corrects/len(y_test)
print (f"final test accuracy: {acc}")

count: 627
final test accuracy: 0.920704845814978
