In [1]:
#Import de bibliotecas
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.preprocessing import StandardScaler

In [2]:
# Carregamento dos dados
X_train_df = pd.read_csv('../dataset/X_training.csv')
y_train_df = pd.read_csv('../dataset/y_training.csv')

# Separaração das features (X) e os labels (y)
X = X_train_df
y = y_train_df.iloc[:, 0]  

In [56]:
# Separação dos dados Treinamento, Validação e Teste

# Separaração dos dados de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Separaração dos dados de treinamento em: treinamento e validação
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.25, random_state=42)

In [58]:
scaler = StandardScaler()

# Ajustar o scaler aos dados de treinamento e transformá-los
X_train = scaler.fit_transform(X_train)
X_val = scaler.transform(X_val)
X_test = scaler.transform(X_test)

In [59]:
# Definição da função para calcular as métricas
def calcular_metricas(y_true, y_pred):
    accuracy = accuracy_score(y_true, y_pred)
    precision = precision_score(y_true, y_pred)
    recall = recall_score(y_true, y_pred)
    f1 = f1_score(y_true, y_pred)
    return accuracy, precision, recall, f1

In [60]:
# Definição do modelo
knn = KNeighborsClassifier()

# Definição dos valores possíveis de n_neighbors
param_grid_knn = {'n_neighbors': [3, 5, 7, 9, 11, 13, 15]}

# Configuração o GridSearchCV com validação cruzada
grid_search_knn = GridSearchCV(knn, param_grid_knn, cv=5, scoring='accuracy')

# Ajuste do modelo aos dados de treinamento
grid_search_knn.fit(X_train, y_train)

# Obter o melhor valor de n_neighbors
best_n_neighbors = grid_search_knn.best_params_['n_neighbors']
print(f"Melhor valor para n_neighbors: {best_n_neighbors}")

# Obter o melhor modelo ajustado
best_knn = grid_search_knn.best_estimator_

# Previsões
y_pred_train = best_knn.predict(X_train)
y_pred_val = best_knn.predict(X_val)
y_pred_test = best_knn.predict(X_test)

# Cálculo das métricas
metricas_treinamento_knn = calcular_metricas(y_train, y_pred_train)
metricas_validacao_knn = calcular_metricas(y_val, y_pred_val)
metricas_teste_knn = calcular_metricas(y_test, y_pred_test)

Melhor valor para n_neighbors: 5


In [61]:
# Definição do modelo 
rf = RandomForestClassifier()

# Definição dos valores possíveis dos parâmetros
param_grid_rf = {
    'n_estimators': [10, 50, 100],
    'max_depth': [None, 10, 20, 30]
}

# Configurar o GridSearchCV com validação cruzada
grid_search_rf = GridSearchCV(rf, param_grid_rf, cv=5, scoring='accuracy')

# Ajuste do modelo aos dados de treinamento
grid_search_rf.fit(X_train, y_train)

# Obter os melhores parâmetros
best_params_rf = grid_search_rf.best_params_
print(f"Melhores parâmetros para Random Forest: {best_params_rf}")

# Obter o melhor modelo ajustado
best_rf = grid_search_rf.best_estimator_

# Previsões
y_pred_train_rf = best_rf.predict(X_train)
y_pred_val_rf = best_rf.predict(X_val)
y_pred_test_rf = best_rf.predict(X_test)

# Cálculo das métricas
metricas_treinamento_rf = calcular_metricas(y_train, y_pred_train_rf)
metricas_validacao_rf = calcular_metricas(y_val, y_pred_val_rf)
metricas_teste_rf = calcular_metricas(y_test, y_pred_test_rf)


Melhores parâmetros para Random Forest: {'max_depth': 20, 'n_estimators': 100}


In [62]:
# Definição do modelo
lr = LogisticRegression(max_iter=1000)

# Definição dos melhores valores para os parâmetros
param_grid_lr = {
    'C': [0.1, 1, 10],
    'solver': ['lbfgs', 'liblinear']
}

# Configurar o GridSearchCV com validação cruzada
grid_search_lr = GridSearchCV(lr, param_grid_lr, cv=5, scoring='accuracy')

# Ajuste do modelo aos dados de treinamento
grid_search_lr.fit(X_train, y_train)

# Busca dos melhores parâmetros
best_params_lr = grid_search_lr.best_params_
print(f"Melhores parâmetros para Logistic Regression: {best_params_lr}")

# Busca pelo melhor modelo ajustado
best_lr = grid_search_lr.best_estimator_

# Previsões
y_pred_train_lr = best_lr.predict(X_train)
y_pred_val_lr = best_lr.predict(X_val)
y_pred_test_lr = best_lr.predict(X_test)

# Cálculo das métricas
metricas_treinamento_lr = calcular_metricas(y_train, y_pred_train_lr)
metricas_validacao_lr = calcular_metricas(y_val, y_pred_val_lr)
metricas_teste_lr = calcular_metricas(y_test, y_pred_test_lr)

Melhores parâmetros para Logistic Regression: {'C': 1, 'solver': 'liblinear'}


In [63]:
# Definir o modelo
dt = DecisionTreeClassifier()

# Definir os valores possíveis dos parâmetros
param_grid_dt = {
    'max_depth': [None, 10, 20, 30]
}

# Configurar o GridSearchCV com validação cruzada
grid_search_dt = GridSearchCV(dt, param_grid_dt, cv=5, scoring='accuracy')

# Ajuste do modelo aos dados de treinamento
grid_search_dt.fit(X_train, y_train)

# Busca para os melhores parâmetros
best_params_dt = grid_search_dt.best_params_
print(f"Melhores parâmetros para Decision Tree: {best_params_dt}")

# Busca para o melhor modelo ajustado
best_dt = grid_search_dt.best_estimator_

# Previsões
y_pred_train_dt = best_dt.predict(X_train)
y_pred_val_dt = best_dt.predict(X_val)
y_pred_test_dt = best_dt.predict(X_test)

# Cálculo das métricas
metricas_treinamento_dt = calcular_metricas(y_train, y_pred_train_dt)
metricas_validacao_dt = calcular_metricas(y_val, y_pred_val_dt)
metricas_teste_dt = calcular_metricas(y_test, y_pred_test_dt)

Melhores parâmetros para Decision Tree: {'max_depth': 10}


In [73]:
# Organização da tabela de Treinamento dos algoritmos
# Está função armazena os resultados de treinamento em um DataFrame, depois expoe os dados em uma tabela
results_train = {
    "Algoritmo": ["K-Neighbors Classifier", "Random Forest Classifier", "Logistic Regression", "Decision Tree Classifier"],
    "Accuracy": [metricas_treinamento_knn[0], metricas_treinamento_rf[0], metricas_treinamento_lr[0], metricas_treinamento_dt[0]],
    "Precision": [metricas_treinamento_knn[1], metricas_treinamento_rf[1], metricas_treinamento_lr[1], metricas_treinamento_dt[1]],
    "Recall": [metricas_treinamento_knn[2], metricas_treinamento_rf[2], metricas_treinamento_lr[2], metricas_treinamento_dt[2]],
    "F1-Score": [metricas_treinamento_knn[3], metricas_treinamento_rf[3], metricas_treinamento_lr[3], metricas_treinamento_dt[3]]
}

df_train = pd.DataFrame(results_train)

# Exibição da tabela de treinamento dos algoritmos com suas respectivas métricas
df_train.head()

Unnamed: 0,Algoritmo,Accuracy,Precision,Recall,F1-Score
0,K-Neighbors Classifier,0.945,0.963657,0.906733,0.934329
1,Random Forest Classifier,0.998092,0.999679,0.995899,0.997785
2,Logistic Regression,0.877566,0.87239,0.838979,0.855359
3,Decision Tree Classifier,0.957848,0.959427,0.942154,0.950712


In [74]:
# Organização da tabela de Validação dos algoritmos
results_validation = {
    "Algoritmo": ["K-Neighbors Classifier", "Random Forest Classifier", "Logistic Regression", "Decision Tree Classifier"],
    "Accuracy": [metricas_validacao_knn[0], metricas_validacao_rf[0], metricas_validacao_lr[0], metricas_validacao_dt[0]],
    "Precision": [metricas_validacao_knn[1], metricas_validacao_rf[1], metricas_validacao_lr[1], metricas_validacao_dt[1]],
    "Recall": [metricas_validacao_knn[2], metricas_validacao_rf[2], metricas_validacao_lr[2], metricas_validacao_dt[2]],
    "F1-Score": [metricas_validacao_knn[3], metricas_validacao_rf[3], metricas_validacao_lr[3], metricas_validacao_dt[3]]
}

df_validation = pd.DataFrame(results_validation)

# Exibição da tabela de treinamento dos algoritmos com suas respectivas métricas
df_validation.head()

Unnamed: 0,Algoritmo,Accuracy,Precision,Recall,F1-Score
0,K-Neighbors Classifier,0.923188,0.948705,0.871552,0.908494
1,Random Forest Classifier,0.96118,0.971615,0.938692,0.95487
2,Logistic Regression,0.872854,0.872414,0.83089,0.851146
3,Decision Tree Classifier,0.947597,0.952667,0.926241,0.939268


In [75]:
# Organização da tabela de Teste dos algoritmos
results_test = {
    "Algoritmo": ["K-Neighbors Classifier", "Random Forest Classifier", "Logistic Regression", "Decision Tree Classifier"],
    "Accuracy": [metricas_teste_knn[0], metricas_teste_rf[0], metricas_teste_lr[0], metricas_teste_dt[0]],
    "Precision": [metricas_teste_knn[1], metricas_teste_rf[1], metricas_teste_lr[1], metricas_teste_dt[1]],
    "Recall": [metricas_teste_knn[2], metricas_teste_rf[2], metricas_teste_lr[2], metricas_teste_dt[2]],
    "F1-Score": [metricas_teste_knn[3], metricas_teste_rf[3], metricas_teste_lr[3], metricas_teste_dt[3]]
}

df_test = pd.DataFrame(results_test)

# Exibição da tabela de treinamento dos algoritmos com suas respectivas métricas
df_test.head()

Unnamed: 0,Algoritmo,Accuracy,Precision,Recall,F1-Score
0,K-Neighbors Classifier,0.924636,0.94919,0.873514,0.909781
1,Random Forest Classifier,0.960974,0.970661,0.938659,0.954392
2,Logistic Regression,0.874647,0.873938,0.831828,0.852363
3,Decision Tree Classifier,0.94608,0.949277,0.925503,0.937239
