In [2]:
# ---------------------------------------
# CLASSIFICAÇÃO AUTOMÁTICA DE DOENÇA CARDÍACA COM AUTO-ML (MLJAR)
# ---------------------------------------

# Importação de bibliotecas
import pandas as pd
from supervised.automl import AutoML  # Biblioteca principal do MLJAR

# ---------------------------------------
# 1. Carregar a base de dados
# ---------------------------------------
# Caminho da base (ajustado para ambiente Windows)
base = pd.read_csv('..\\Bases\\Originais\\pns2019.csv')

# ---------------------------------------
# 2. Pré-processamento inicial
# ---------------------------------------

# Remover linhas com valores ausentes
base = base.dropna()

# Remover duplicatas, se houver
base = base.drop_duplicates()

# Converter a coluna-alvo (Q03001) para binário (0 = não, 1 = sim)
# Importante: o MLJAR funciona melhor com alvos numéricos binários
base['Q03001'] = base['Q03001'].replace({2: 0, 1: 1})

# Separar a variável alvo (target) e os preditores (features)
X = base.drop(columns=['Q03001'])  # Todas as colunas menos a de doença
y = base['Q03001']  # Coluna-alvo

# ---------------------------------------
# 3. Configurar o AutoML
# ---------------------------------------

# Criar o objeto AutoML com configurações ideais para classificação
automl = AutoML(
    mode='Compete',                # Testa vários modelos e configurações
    algorithms=['Xgboost', 'LightGBM', 'CatBoost', 'Linear', 'RandomForest', 'ExtraTrees'],
    eval_metric='logloss',         # Métrica de avaliação para classificação binária
    train_ensemble=True,           # Cria um modelo final de ensemble
    explain_level=2,               # Gera explicações visuais dos modelos
    golden_features=True,          # Cria novas features automaticamente
    feature_selection=True,        # Seleciona as melhores features
    hill_climbing_steps=5,         # Ajuste de hiperparâmetros com busca local
    stack_models=True,             # Combina modelos empilhando-os
    results_path='AutoML_PNS2019', # Pasta onde serão salvos os relatórios
    verbose=True                   # Exibe o progresso no terminal
)

# ---------------------------------------
# 4. Treinar o modelo
# ---------------------------------------

automl.fit(X, y)  # Inicia todo o processo AutoML

# ---------------------------------------
# 5. Após rodar:
# ---------------------------------------
# A pasta "AutoML_PNS2019" terá:
# - O melhor modelo salvo
# - Relatórios de performance
# - Gráficos de importância de variáveis
# - Comparação entre modelos


ModuleNotFoundError: No module named 'supervised'