In [12]:
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import train_test_split
from xgboost import XGBClassifier
import pandas as pd
import os

# Carregar base de dados
diretorio_atual = os.getcwd()

caminho_dataset = os.path.join(diretorio_atual, 'datasets', 'parkinsons.data')

df = pd.read_csv(caminho_dataset)

X = df.drop(['status', 'name', 'APQ', 'D2',
            'Fhi(Hz)', 'Flo(Hz)', 'Fo(Hz)',
             'PPQ', 'RAP', 'spread1', 'spread2'], axis=1)

y = df['status']

X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.2)

# Definir os classificadores e os seus parâmetros obs: poderia também ser usado uma Pipeline
classificadores = [XGBClassifier()]
parametros = [# Parâmetros para GradientBoostingClassifier
    {'n_estimators': [50, 100, 200], 'learning_rate': [0.01, 0.1, 0.5], 'max_depth': [2, 3, 4, 5]},
]
# Listas para armazenar os melhores resultados para cada classificador
melhores_parametros = []
melhor_pontuacao = []
teste_precisao = []

# Loop sobre os classificadores
for classificador, parametro in zip(classificadores, parametros):
    # Criar o objeto GridSearchCV
    grid_search = GridSearchCV(classificador, parametro, cv=5)

    # Ajustar o objeto GridSearchCV aos dados de treinamento
    grid_search.fit(X_treino, y_treino)

    # Melhores parâmetros encontrados
    melhores_parametros.append(grid_search.best_params_)

    # Melhor pontuação no conjunto de validação cruzada
    melhor_pontuacao.append(grid_search.best_score_)

    # Avaliar o desempenho no conjunto de teste
    teste_precisao.append(grid_search.score(X_teste, y_teste))


# Imprimir resultados para cada classificador
for i, classificador in enumerate(classificadores):
    print(f"\n  Classificador: {classificador.__class__.__name__}")
    print(f"Melhores parâmetros: {melhores_parametros[i]}")
    print(f"Melhor pontuação: {melhor_pontuacao[i]}")
    print(f"Acurácia no conjunto de teste: {teste_precisao[i]}")

print(f"\n  O melhor estimator foi: {grid_search.best_estimator_}")


'''
após diversos testes, 
é possível concluir que:
GradientBoostingClassifier(learning_rate=0.1, n_estimators=50)
foi o que obteve maior pontuação e acurácia nos testes.
 '''



  Classificador: XGBClassifier
Melhores parâmetros: {'learning_rate': 0.1, 'n_estimators': 50}
Melhor pontuação: 0.910483870967742
Acurácia no conjunto de teste: 0.8974358974358975

  O melhor estimator foi: XGBClassifier(base_score=None, booster=None, callbacks=None,
              colsample_bylevel=None, colsample_bynode=None,
              colsample_bytree=None, device=None, early_stopping_rounds=None,
              enable_categorical=False, eval_metric=None, feature_types=None,
              gamma=None, grow_policy=None, importance_type=None,
              interaction_constraints=None, learning_rate=0.1, max_bin=None,
              max_cat_threshold=None, max_cat_to_onehot=None,
              max_delta_step=None, max_depth=None, max_leaves=None,
              min_child_weight=None, missing=nan, monotone_constraints=None,
              multi_strategy=None, n_estimators=50, n_jobs=None,
              num_parallel_tree=None, random_state=None, ...)


'\napós diversos testes, \né possível concluir que:\nGradientBoostingClassifier(learning_rate=0.1, n_estimators=50)\nfoi o que obteve maior pontuação e acurácia nos testes.\n '