# Modelagem Parte 1: Árvore de Decisão e KNN 

Objetivo: Nesta etapa, realizamos o treinamento dos algoritmos Decision Tree e K-Nearest Neighbors (KNN) utilizando o dataset pré-processado de saúde fetal.

Metodologia: * Validação: 10-fold Stratified Cross-Validation. * Otimização: GridSearch para encontrar os melhores hiperparâmetros (testando no mínimo 3 combinações).


Métricas: Acurácia, Precisão, Recall e F1-Score (weighted).

In [1]:
import sys
import os
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier

sys.path.append(os.path.abspath(os.path.join('..', 'src')))

from modeling import run_classification_experiment


In [2]:
data_path = os.path.join('..', 'data', 'processed', 'fetal_health_processed.csv')
df = pd.read_csv(data_path)

X = df.drop('fetal_health', axis=1)
y = df['fetal_health']

print("Dados carregados com sucesso!")

Dados carregados com sucesso!


## 1. Árvore de Decisão (Decision Tree)

A árvore de decisão é um modelo interpretável que divide os dados com base em regras de decisão. Para evitar overfitting e encontrar a melhor generalização, testaremos os seguintes hiperparâmetros via GridSearch:

Criterion: Gini vs Entropia (qual métrica de pureza funciona melhor).

Max Depth: None (sem limite), 10, 20, 30 (para controlar a profundidade e complexidade da árvore).

Min Samples Split: Para controlar o número mínimo de amostras necessárias para dividir um nó.

In [3]:
dt_model = DecisionTreeClassifier(random_state=42)

dt_params = {
    'criterion': ['gini', 'entropy'],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 10, 20]
}

# Chama a função que está no arquivo .py
dt_grid = run_classification_experiment(dt_model, dt_params, X, y, 'DecisionTree')

print(f"Melhores parâmetros DT: {dt_grid.best_params_}")

--- Iniciando o GridSearch para DecisionTree ---
Fitting 10 folds for each of 24 candidates, totalling 240 fits
Melhor F1 para DecisionTree: 0.9340
Resultados salvos em: c:\Users\USUARIO-PC\Documents\GitHub\MachineLearnig-Classifiacacao\results\metrics\DecisionTree_results.csv
Melhores parâmetros DT: {'criterion': 'entropy', 'max_depth': None, 'min_samples_split': 20}


## 2. K-Nearest Neighbors (KNN)

O KNN classifica instâncias com base na proximidade com exemplos vizinhos. É sensível à escala dos dados (já tratada na etapa de pré-processamento). Testaremos:

N Neighbors (k): 3, 5, 7, 9, 11 (número de vizinhos).

Weights: Uniforme (todos têm peso igual) vs Distance (vizinhos mais próximos têm maior influência).

Metric: Euclidiana vs Manhattan.

In [4]:
knn_model = KNeighborsClassifier()

knn_params = {
    'n_neighbors': [3, 5, 7, 9, 11, 15],
    'weights': ['uniform', 'distance'],
    'metric': ['euclidean', 'manhattan']
}

knn_grid = run_classification_experiment(knn_model, knn_params, X, y, 'KNN')

print(f"Melhores parâmetros KNN: {knn_grid.best_params_}")

--- Iniciando o GridSearch para KNN ---
Fitting 10 folds for each of 24 candidates, totalling 240 fits
Melhor F1 para KNN: 0.9077
Resultados salvos em: c:\Users\USUARIO-PC\Documents\GitHub\MachineLearnig-Classifiacacao\results\metrics\KNN_results.csv
Melhores parâmetros KNN: {'metric': 'manhattan', 'n_neighbors': 7, 'weights': 'distance'}
