In [None]:
import pandas as pd

# Dados de treino
X_treino = pd.read_csv('../Dados/dados_tratados/X_treino.csv').values
y_treino = pd.read_csv('../Dados/dados_tratados/y_treino.csv').values.ravel()

In [None]:
from sklearn.metrics import fbeta_score, make_scorer

# Parâmetros
f2_score = make_scorer(fbeta_score, beta=2) # Métrica de avaliação de desempenho
SEMENTE_ALEATORIA = 9 # Random state

In [None]:
from sklearn.neighbors import KNeighborsClassifier # algoritmo de aprendizado de máquina
from sklearn.preprocessing import StandardScaler, MinMaxScaler # normalização
from sklearn.feature_selection import SequentialFeatureSelector # seleção de atributos
from sklearn.decomposition import PCA # redução de dimensionalidade
from sklearn.pipeline import make_pipeline

def cria_instancia_modelo(trial):
    """Cria uma instância do modelo.

    Args:
      trial: objeto tipo Trial do optuna.

    Returns:
      Uma instância do modelo desejado.

    """
    parametros = {
        "penalty": "elasticnet",
        "l1_ratio": trial.suggest_float("razão_regularização", 0, 1), # 0 -> l2, 1 -> l1
        "class_weight": trial.suggest_categorical("balanceamento", ["balanced", "balanced_subsamples"] # Dados desbalanceados
        "n_jobs": -1,
        "random_state": SEMENTE_ALEATORIA,
    }

    normalizar = trial.suggest_categorical("normalizar", [True, False])
    normalizador = trial.suggest_categorical("normalizador", [StandardScaler(), MinMaxScaler()])
    usar_pca = trial.suggest_categorical("PCA", [True, False])
    usar_sfs = trial.suggest_categorical("SFS", [True, False])

    num_atributos = trial.suggest_int("num_atributos", 2, len(df.columns) - 1) # para SFS
    num_dimensoes = trial.suggest_int("num_dimensoes", 2, num_atributos) # para PCA
        
    
    steps = []

    if normalizar:
        steps.append(("normalizador", normalizador))

    if usar_sfs:
        steps.append(("sfs", SequentialFeatureSelector(
            KNeighborsClassifier(**parametros), 
            n_features_to_select=num_atributos,
            direction="backward",
            scoring=f2_score,
            cv=5,
            n_jobs=-1,
        )))

    if usar_pca:
        steps.append(("pca", PCA(n_components=num_dimensoes, random_state=SEMENTE_ALEATORIA)))

    steps.append(("modelo", KNeighborsClassifier(**parametros)))

    modelo = make_pipeline(*[s[1] for s in steps])

    return modelo

In [None]:
from sklearn.model_selection import cross_val_score

def funcao_objetivo(trial, X, y, num_folds):
    """Função objetivo do optuna.

    Faz validação cruzada estratificada com métrica F2.

    """
    modelo = cria_instancia_modelo(trial)

    metricas = cross_val_score(
        modelo,
        X,
        y,
        scoring=f2_score,
        cv=num_folds,
    )

    return np.mean(metricas)

In [None]:
from optuna import create_study

NOME_DO_ESTUDO = "knn_classifier_optuna"

objeto_de_estudo = create_study(
    direction="maximize",
    study_name=NOME_DO_ESTUDO,
    storage=f"sqlite:///{NOME_DO_ESTUDO}.db",
    load_if_exists=True,
)

In [None]:
NUM_FOLDS = 10 # Número de folds da validação cruzada
NUM_TENTATIVAS = 200 # Quantidade de trials

def funcao_objetivo_parcial(trial):
    return funcao_objetivo(trial, X_treino, y_treino, NUM_FOLDS)

# Faz a otimização
#objeto_de_estudo.optimize(funcao_objetivo_parcial, n_trials=NUM_TENTATIVAS)

In [None]:
df_analysis = objeto_de_estudo.trials_dataframe()

df_analysis

In [None]:
melhor_trial = objeto_de_estudo.best_trial

print(f"Número do melhor trial: {melhor_trial.number}")
print(f"Parâmetros do melhor trial: {melhor_trial.params}")