In [1]:
import pandas as pd
import numpy as np

from sklearn.svm import SVC
from sklearn.model_selection import train_test_split

from sklearn.experimental import enable_halving_search_cv
from sklearn.model_selection import HalvingGridSearchCV

import graphviz 
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

from sklearn.metrics import top_k_accuracy_score
from sklearn.preprocessing import StandardScaler, MinMaxScaler

from sklearn.decomposition import PCA

from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

from sklearn.metrics import f1_score

### Carregamento do conjunto de dados de um curso

In [26]:
curso = "SI"

enade_curso = pd.read_csv(f"../../tabelas_cursos/tabela_final_{curso}_treinamento.csv")
enade_curso = enade_curso.sample(frac = 1)
enade_curso.reset_index(drop=True, inplace = True)

### Carregamento do conjunto de dados de um ano

In [2]:
ano = 2021

enade_curso = pd.read_csv(f"../../concept_drift/tabela_final_{ano}_tres_anos_treinamento.csv")

### Carregamento do conjunto de dados de IESes públicas/privadas

In [6]:
cat_adm = "Privada"

enade_curso = pd.read_csv(f"../../tabelas_catADM/tabela_final_{cat_adm}_treinamento.csv")

### Cross-validation (k = 5)

In [3]:
k = 5

In [4]:
array_folds = np.array_split(enade_curso, k)

In [5]:
for i_fold in range(k):
    
    # Separação dos folds
    
    folds_treinamento = array_folds.copy()
    fold_teste = array_folds[i_fold]
    
    del folds_treinamento[i_fold]
    
    folds_treinamento = pd.concat(folds_treinamento, sort=False)
    
    # Separação em X e y
    
    numero_caracteristicas = enade_curso.shape[1] - 1
    
    X_folds_treinamento = folds_treinamento.iloc[:, 0:numero_caracteristicas]
    y_folds_treinamento = folds_treinamento.iloc[:, -1]
    
    X_fold_teste = fold_teste.iloc[:, 0:numero_caracteristicas]
    y_fold_teste = fold_teste.iloc[:, -1]
    
    # Normalização de treino e teste
    
    normalizador_treinamento = StandardScaler()
    
    normalizador_treinamento.fit(X_folds_treinamento)
    treinamento_normalizado = normalizador_treinamento.transform(X_folds_treinamento)
    
    normalizador_teste = StandardScaler()
    
    normalizador_teste.fit(X_fold_teste)
    teste_normalizado = normalizador_teste.transform(X_fold_teste)
    
    # Busca por hyperparâmetros
    
    parametros_para_busca = {"C": [0.01, 0.1, 1, 10, 100], 
              "kernel": ["linear", "poly", "rbf"],
              "gamma": [0.1, 1, 10],
              "tol": [0.1, 0.001, 0.00001]
             }
    
    classificador = SVC(probability=True)
    
    busca = HalvingGridSearchCV(classificador, parametros_para_busca, scoring="f1_weighted").fit(treinamento_normalizado, y_folds_treinamento)
    
    busca.best_estimator_.fit(treinamento_normalizado, y_folds_treinamento)
    y_predito = busca.best_estimator_.predict(teste_normalizado)
    
    melhor_classificador = str(busca.best_estimator_)
    resultado = f1_score(y_fold_teste, y_predito, average='weighted')
    
    # print(f"Teste: fold {i_fold}")
    # print(f"Classificador: \n\n{melhor_classificador}\n")
    print(f"{resultado} ", end="")

0.5031040348218918 0.4285623509265841 0.47196910750275833 0.45604038345661024 0.4321619196624026 

### Matriz de Confusão

In [None]:
y_pred_HGS = search.predict(X_test)

In [None]:
cm_HGS = confusion_matrix(y_test, y_pred_HGS, labels=search.classes_)
disp_HGS = ConfusionMatrixDisplay(confusion_matrix=cm_HGS,
                              display_labels=search.classes_)
disp_HGS.plot()
plt.show()