In [1]:
from sklearn.neighbors import (NeighborhoodComponentsAnalysis, KNeighborsClassifier)
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline

import pandas as pd
import numpy as np

from sklearn.experimental import enable_halving_search_cv
from sklearn.model_selection import HalvingGridSearchCV

import graphviz 
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

from sklearn.metrics import top_k_accuracy_score
from sklearn.preprocessing import StandardScaler, MinMaxScaler

from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

from sklearn.metrics import f1_score
import warnings

In [2]:
warnings.filterwarnings('ignore')

### Carregamento do conjunto de dados de todos os anos

In [3]:
ano = 2021
enade_ano = pd.read_csv(f"../../concept_drift/tabela_final_{ano}_treinamento.csv")

### Cross-validation (k = 5)

In [4]:
k = 5

In [5]:
array_folds = np.array_split(enade_ano, k)

In [6]:
for i_fold in range(k):
    
    # Separação dos folds
    
    folds_treinamento = array_folds.copy()
    fold_teste = array_folds[i_fold]
    
    del folds_treinamento[i_fold]
    
    folds_treinamento = pd.concat(folds_treinamento, sort=False)
    
    # Separação em X e y
    
    numero_caracteristicas = enade_ano.shape[1] - 1
    
    X_folds_treinamento = folds_treinamento.iloc[:, 0:numero_caracteristicas]
    y_folds_treinamento = folds_treinamento.iloc[:, -1]
    
    X_fold_teste = fold_teste.iloc[:, 0:numero_caracteristicas]
    y_fold_teste = fold_teste.iloc[:, -1]
    
    # Normalização de treino e teste
    
    normalizador_treinamento = StandardScaler()
    
    normalizador_treinamento.fit(X_folds_treinamento)
    treinamento_normalizado = normalizador_treinamento.transform(X_folds_treinamento)
    
    normalizador_teste = StandardScaler()
    
    normalizador_teste.fit(X_fold_teste)
    teste_normalizado = normalizador_teste.transform(X_fold_teste)
    
    # Busca por hyperparâmetros
    
    parametros_para_busca = {"n_neighbors": [3, 5, 10], 
                              "weights": ["uniform", "distance"],
                              "metric": ["euclidean", "manhattan", "nan_euclidean"]}
    
    classificador = KNeighborsClassifier()
    
    busca = HalvingGridSearchCV(classificador, parametros_para_busca, scoring="f1_weighted").fit(treinamento_normalizado, y_folds_treinamento)
    
    busca.best_estimator_.fit(treinamento_normalizado, y_folds_treinamento)
    y_predito = busca.best_estimator_.predict(teste_normalizado)
    
    melhor_classificador = str(busca.best_estimator_)
    resultado = f1_score(y_fold_teste, y_predito, average='weighted')
    
    print(f"Teste: fold {i_fold}")
    print(f"Classificador: \n\n{melhor_classificador}\n")
    print(f"Resultado: {resultado}\n")

Teste: fold 0
Classificador: 

KNeighborsClassifier(metric='manhattan', n_neighbors=10, weights='distance')

Resultado: 0.4758245646977258

Teste: fold 1
Classificador: 

KNeighborsClassifier(metric='euclidean', n_neighbors=10, weights='distance')

Resultado: 0.44899458211946

Teste: fold 2
Classificador: 

KNeighborsClassifier(metric='euclidean', weights='distance')

Resultado: 0.419559297837378

Teste: fold 3
Classificador: 

KNeighborsClassifier(metric='euclidean', n_neighbors=10, weights='distance')

Resultado: 0.47359977299320716

Teste: fold 4
Classificador: 

KNeighborsClassifier(metric='nan_euclidean', n_neighbors=10, weights='distance')

Resultado: 0.48471198121899384



### Matriz de Confusão

In [31]:
y_pred_HGS = search.predict(X_test)

In [None]:
cm_HGS = confusion_matrix(y_test, y_pred_HGS, labels=search.classes_)
disp_HGS = ConfusionMatrixDisplay(confusion_matrix=cm_HGS,
                              display_labels=search.classes_)
disp_HGS.plot()
plt.show()