# Análise Comparativa: Algoritmos Tradicionais vs MLP (Redes Neurais)

## Predição de Diabetes com Machine Learning e Deep Learning

**Dataset:** Dataset_of_Diabetes.csv (1000 registros, 14 atributos)  
**Objetivo:** Classificar pacientes em 3 categorias: Normal (N), Pré-diabético (P), Diabético (Y)  
**Metodologia:** Comparação de 6 algoritmos tradicionais + 5 arquiteturas de Redes Neurais MLP

---

### Algoritmos Testados:

**Algoritmos Tradicionais:**
1. K-Nearest Neighbors (K-NN)
2. Naive Bayes
3. Support Vector Machine (SVM)
4. Decision Tree
5. Random Forest
6. Logistic Regression

**Arquiteturas MLP (Redes Neurais):**
1. MLP Simples (1 camada: 50 neurônios)
2. MLP Média (2 camadas: 100→50)
3. MLP Profunda (3 camadas: 150→100→50)
4. MLP Grande (2 camadas largas: 200→100)
5. MLP Otimizada (Grid Search)

**Total:** 11 modelos comparados!

---
## 1. Imports e Configuração

In [None]:
# Imports básicos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import warnings
from sqlalchemy import create_engine
import io
from datetime import datetime

# Machine Learning - Algoritmos Tradicionais
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import (
    accuracy_score, 
    confusion_matrix, 
    classification_report,
    precision_recall_fscore_support
)

from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

# Deep Learning - Redes Neurais
from sklearn.neural_network import MLPClassifier

# MLflow e MinIO
import mlflow
import mlflow.sklearn
from minio import Minio
from minio.error import S3Error

print("✓ Todos os pacotes importados com sucesso!")

In [None]:
# Configuração do ambiente
warnings.filterwarnings('ignore')
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (14, 8)
plt.rcParams['font.size'] = 11

# Diretório de saída
OUTPUT_DIR = "./outputs"
if not os.path.exists(OUTPUT_DIR):
    os.makedirs(OUTPUT_DIR)
    print(f"✓ Diretório criado: {OUTPUT_DIR}")
else:
    print(f"✓ Diretório já existe: {OUTPUT_DIR}")

print("\n✓ Ambiente configurado!")

---
## 2. Configuração MinIO e MLflow

In [None]:
# Configuração MinIO
MINIO_ENDPOINT = "localhost:9000"
MINIO_ACCESS_KEY = "minioadmin"
MINIO_SECRET_KEY = "minioadmin"
MINIO_BUCKET = "diabetes-analysis"

try:
    minio_client = Minio(
        MINIO_ENDPOINT,
        access_key=MINIO_ACCESS_KEY,
        secret_key=MINIO_SECRET_KEY,
        secure=False
    )
    
    # Criar bucket se não existir
    if not minio_client.bucket_exists(MINIO_BUCKET):
        minio_client.make_bucket(MINIO_BUCKET)
        print(f"✓ Bucket '{MINIO_BUCKET}' criado no MinIO")
    else:
        print(f"✓ Conectado ao bucket '{MINIO_BUCKET}' no MinIO")
    
    MINIO_CONNECTED = True
except Exception as e:
    print(f"  Erro ao conectar com MinIO: {e}")
    print("   Continuando sem MinIO...")
    MINIO_CONNECTED = False

In [None]:
# Configuração MLflow
MLFLOW_TRACKING_URI = "http://localhost:5000"
EXPERIMENT_NAME = "Diabetes-Analysis-Traditional-vs-MLP"

try:
    mlflow.set_tracking_uri(MLFLOW_TRACKING_URI)
    mlflow.set_experiment(EXPERIMENT_NAME)
    print(f"✓ MLflow configurado")
    print(f"  • Tracking URI: {MLFLOW_TRACKING_URI}")
    print(f"  • Experiment: {EXPERIMENT_NAME}")
    MLFLOW_CONNECTED = True
except Exception as e:
    print(f"  Erro ao configurar MLflow: {e}")
    print("   Continuando sem MLflow...")
    MLFLOW_CONNECTED = False

---
## 3. Carregamento dos Dados

### Opção 1: PostgreSQL (se disponível)
### Opção 2: CSV (fallback)

In [None]:
# Tentar carregar do PostgreSQL
POSTGRES_URL = "postgresql+psycopg2://user:password@127.0.0.1:5432/diabetes_db"

try:
    engine = create_engine(POSTGRES_URL)
    raw_conn = engine.raw_connection()
    
    df = pd.read_sql("SELECT * FROM diabetes_tb", raw_conn)
    df.columns = [c.upper() for c in df.columns]
    
    print(f"✓ Dados carregados do PostgreSQL: {df.shape[0]} registros")
    
    raw_conn.close()
    DATA_SOURCE = "PostgreSQL"
    
except Exception as e:
    print(f"  PostgreSQL não disponível: {e}")
    print("   Tentando carregar do CSV...")
    
    # Fallback para CSV
    try:
        df = pd.read_csv('Dataset_of_Diabetes.csv')
        print(f"✓ Dados carregados do CSV: {df.shape[0]} registros")
        DATA_SOURCE = "CSV"
    except:
        print("   Erro: Arquivo CSV não encontrado!")
        print("   Coloque o arquivo 'Dataset_of_Diabetes.csv' no mesmo diretório do notebook.")
        raise FileNotFoundError("Dataset não encontrado")

# Mostrar informações do dataset
print(f"\nInformações do Dataset:")
print(f"  • Fonte: {DATA_SOURCE}")
print(f"  • Dimensões: {df.shape[0]} registros × {df.shape[1]} atributos")
print(f"  • Colunas: {df.columns.tolist()}")

# Mostrar primeiras linhas
print(f"\nPrimeiras 5 linhas:")
display(df.head())

---
##  4. Análise Exploratória Inicial

In [None]:
# Informações básicas
print("INFORMAÇÕES DO DATASET:\n")
print(df.info())

print("\n" + "="*80)
print("ESTATÍSTICAS DESCRITIVAS:\n")
display(df.describe())

# Distribuição das classes
print("\n" + "="*80)
print("DISTRIBUIÇÃO DAS CLASSES:\n")
df['CLASS'] = df['CLASS'].str.strip()
class_dist = df['CLASS'].value_counts()
print(class_dist)
print()
for classe, count in class_dist.items():
    percentage = (count / len(df)) * 100
    print(f"  • Classe '{classe}': {count} registros ({percentage:.1f}%)")

In [None]:
# Visualização da distribuição das classes
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

# Gráfico de barras
class_dist.plot(kind='bar', ax=ax1, color=['green', 'orange', 'red'], edgecolor='black')
ax1.set_title('Distribuição das Classes', fontsize=14, fontweight='bold')
ax1.set_xlabel('Classe', fontweight='bold')
ax1.set_ylabel('Quantidade', fontweight='bold')
ax1.set_xticklabels(['Diabético (Y)', 'Normal (N)', 'Pré-diabético (P)'], rotation=0)
ax1.grid(True, alpha=0.3)

# Adicionar valores nas barras
for i, v in enumerate(class_dist.values):
    ax1.text(i, v + 10, str(v), ha='center', fontweight='bold')

# Gráfico de pizza
colors = ['red', 'green', 'orange']
ax2.pie(class_dist.values, labels=['Diabético (Y)', 'Normal (N)', 'Pré-diabético (P)'], 
        autopct='%1.1f%%', colors=colors, startangle=90, textprops={'fontweight': 'bold'})
ax2.set_title('Proporção das Classes', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.savefig(f'{OUTPUT_DIR}/00_distribuicao_classes.png', dpi=300, bbox_inches='tight')
plt.show()

print("✓ Gráfico salvo: 00_distribuicao_classes.png")

---
## 5. Pré-processamento dos Dados

In [None]:
print("INICIANDO PRÉ-PROCESSAMENTO DOS DADOS...\n")

# Identificar valores zeros (biologicamente impossíveis)
cols_to_clean = ['Urea', 'Cr', 'HbA1c', 'Chol', 'TG', 'HDL', 'LDL', 'VLDL', 'BMI']

print("Valores zeros encontrados (antes da limpeza):")
for col in cols_to_clean:
    zero_count = (df[col] == 0).sum()
    if zero_count > 0:
        percentage = (zero_count / len(df)) * 100
        print(f"  • {col}: {zero_count} valores ({percentage:.2f}%)")

# Substituir zeros por NaN
df[cols_to_clean] = df[cols_to_clean].replace(0, np.nan)

# Estratégia de imputação
print("\nAplicando estratégia de imputação:")
print("  • Mean: Urea, Cr, Chol, HDL (distribuições aprox. normais)")
print("  • Median: HbA1c, TG, LDL, VLDL, BMI (distribuições assimétricas)")

mean_cols = ['Urea', 'Cr', 'Chol', 'HDL']
for col in mean_cols:
    if df[col].isnull().sum() > 0:
        df[col].fillna(df[col].mean(), inplace=True)

median_cols = ['HbA1c', 'TG', 'LDL', 'VLDL', 'BMI']
for col in median_cols:
    if df[col].isnull().sum() > 0:
        df[col].fillna(df[col].median(), inplace=True)

print("\n✓ Valores ausentes tratados com sucesso!")
print(f"  • Total de NaN após tratamento: {df.isnull().sum().sum()}")

In [None]:
# Preparar dados para modelagem
print("\nPREPARANDO DADOS PARA MODELAGEM...\n")

# Remover colunas irrelevantes
df_model = df.drop(['ID', 'No_Pation'], axis=1)
print(f"✓ Colunas ID e No_Pation removidas")

# Encoding de Gender
label_encoder = LabelEncoder()
df_model['Gender'] = label_encoder.fit_transform(df_model['Gender'])
print(f"✓ Gender codificado (F=0, M=1)")

# Separar features e target
X = df_model.drop('CLASS', axis=1)
y = df_model['CLASS']

print(f"\nDimensões finais:")
print(f"  • Features (X): {X.shape}")
print(f"  • Target (y): {y.shape}")
print(f"  • Features: {X.columns.tolist()}")

In [None]:
# Divisão treino/teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print("   DIVISÃO DOS DADOS (80/20):\n")
print(f"  • Treino: {X_train.shape[0]} registros")
print(f"  • Teste: {X_test.shape[0]} registros")
print(f"\n  • Distribuição treino: {y_train.value_counts().to_dict()}")
print(f"  • Distribuição teste: {y_test.value_counts().to_dict()}")

In [None]:
# Normalização (ESSENCIAL para MLP, KNN e SVM!)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("   NORMALIZAÇÃO CONCLUÍDA (StandardScaler)\n")
print(f"  • Mean ≈ 0, Std ≈ 1 para todas as features")
print(f"\n✓ Dados prontos para treinamento!")

---
## 6. Treinamento - Algoritmos Tradicionais

Testando 6 algoritmos clássicos de Machine Learning

In [None]:
print("="*100)
print("TREINAMENTO DOS ALGORITMOS TRADICIONAIS")
print("="*100)

# Definir algoritmos
traditional_algorithms = {
    'K-Nearest Neighbors (K-NN)': KNeighborsClassifier(),
    'Naive Bayes': GaussianNB(),
    'Support Vector Machine (SVM)': SVC(kernel='linear', C=1.0, random_state=42, probability=True),
    'Decision Tree': DecisionTreeClassifier(random_state=42),
    'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42),
    'Logistic Regression': LogisticRegression(max_iter=1000, random_state=42)
}

# Armazenar resultados
results = {}

print(f"\n Treinando {len(traditional_algorithms)} algoritmos...\n")

for idx, (name, model) in enumerate(traditional_algorithms.items(), 1):
    print(f"[{idx}/{len(traditional_algorithms)}] {name}...", end=" ")
    
    # Iniciar run do MLflow
    if MLFLOW_CONNECTED:
        with mlflow.start_run(run_name=f"Traditional-{name}"):
            # Treinar modelo
            model.fit(X_train_scaled, y_train)
            y_pred = model.predict(X_test_scaled)
            accuracy = accuracy_score(y_test, y_pred)
            
            # Log no MLflow
            mlflow.log_param("algorithm_type", "Traditional")
            mlflow.log_param("algorithm_name", name)
            mlflow.log_metric("accuracy", accuracy)
            mlflow.sklearn.log_model(model, "model")
    else:
        model.fit(X_train_scaled, y_train)
        y_pred = model.predict(X_test_scaled)
        accuracy = accuracy_score(y_test, y_pred)
    
    # Calcular métricas
    report = classification_report(y_test, y_pred, output_dict=True, zero_division=0)
    cm = confusion_matrix(y_test, y_pred)
    
    # Armazenar resultados
    results[name] = {
        'type': 'Tradicional',
        'model': model,
        'accuracy': accuracy,
        'predictions': y_pred,
        'confusion_matrix': cm,
        'report': report
    }
    
    print(f"Acurácia: {accuracy*100:.2f}%")

print("\nAlgoritmos tradicionais treinados com sucesso!")

---
##  7. Treinamento - Redes Neurais MLP

Testando 4 arquiteturas diferentes de MLP (Multi-Layer Perceptron)

In [None]:
print("="*100)
print("TREINAMENTO DAS REDES NEURAIS MLP")
print("="*100)

# Definir arquiteturas MLP
mlp_configs = {
    'MLP Simples (1 camada)': {
        'hidden_layer_sizes': (50,),
        'activation': 'relu',
        'solver': 'adam',
        'max_iter': 1000,
        'random_state': 42
    },
    'MLP Média (2 camadas)': {
        'hidden_layer_sizes': (100, 50),
        'activation': 'relu',
        'solver': 'adam',
        'max_iter': 1000,
        'random_state': 42
    },
    'MLP Profunda (3 camadas)': {
        'hidden_layer_sizes': (150, 100, 50),
        'activation': 'relu',
        'solver': 'adam',
        'max_iter': 1000,
        'random_state': 42
    },
    'MLP Grande (2 camadas largas)': {
        'hidden_layer_sizes': (200, 100),
        'activation': 'relu',
        'solver': 'adam',
        'max_iter': 1000,
        'random_state': 42
    }
}

print(f"\nTreinando {len(mlp_configs)} arquiteturas MLP...\n")

for idx, (name, config) in enumerate(mlp_configs.items(), 1):
    print(f"[{idx}/{len(mlp_configs)}] {name}...", end=" ")
    
    # Criar modelo
    mlp = MLPClassifier(**config, verbose=False)
    
    # Iniciar run do MLflow
    if MLFLOW_CONNECTED:
        with mlflow.start_run(run_name=f"MLP-{name}"):
            # Treinar modelo
            mlp.fit(X_train_scaled, y_train)
            y_pred = mlp.predict(X_test_scaled)
            accuracy = accuracy_score(y_test, y_pred)
            
            # Log no MLflow
            mlflow.log_param("algorithm_type", "MLP")
            mlflow.log_param("algorithm_name", name)
            mlflow.log_param("hidden_layers", str(config['hidden_layer_sizes']))
            mlflow.log_param("activation", config['activation'])
            mlflow.log_metric("accuracy", accuracy)
            mlflow.log_metric("iterations", mlp.n_iter_)
            mlflow.log_metric("final_loss", mlp.loss_)
            mlflow.sklearn.log_model(mlp, "model")
    else:
        mlp.fit(X_train_scaled, y_train)
        y_pred = mlp.predict(X_test_scaled)
        accuracy = accuracy_score(y_test, y_pred)
    
    # Calcular métricas
    report = classification_report(y_test, y_pred, output_dict=True, zero_division=0)
    cm = confusion_matrix(y_test, y_pred)
    
    # Armazenar resultados
    results[name] = {
        'type': 'MLP',
        'model': mlp,
        'accuracy': accuracy,
        'predictions': y_pred,
        'confusion_matrix': cm,
        'report': report,
        'iterations': mlp.n_iter_,
        'loss': mlp.loss_
    }
    
    print(f"Acurácia: {accuracy*100:.2f}% ({mlp.n_iter_} iterações)")

print("\nRedes neurais treinadas com sucesso!")

---
## 8. Otimização com Grid Search (MLP)

In [None]:
print("="*100)
print(" OTIMIZAÇÃO DE HIPERPARÂMETROS (GRID SEARCH)")
print("="*100)

print(f"\n⏳ Executando Grid Search...")
print(f"   (Isso pode levar alguns minutos)\n")

# Definir grade de hiperparâmetros
param_grid = {
    'hidden_layer_sizes': [(100, 50), (150, 100, 50)],
    'activation': ['relu', 'tanh'],
    'alpha': [0.0001, 0.001],
    'learning_rate_init': [0.001, 0.01]
}

print(f"   Configurações a testar: {len(param_grid['hidden_layer_sizes']) * len(param_grid['activation']) * len(param_grid['alpha']) * len(param_grid['learning_rate_init'])}")
print(f"   • Hidden layers: {param_grid['hidden_layer_sizes']}")
print(f"   • Activations: {param_grid['activation']}")
print(f"   • Alpha (L2): {param_grid['alpha']}")
print(f"   • Learning rate: {param_grid['learning_rate_init']}")

# Grid Search
mlp_grid = MLPClassifier(max_iter=1000, random_state=42)
grid_search = GridSearchCV(
    mlp_grid, 
    param_grid, 
    cv=3,
    scoring='accuracy',
    n_jobs=-1,
    verbose=0
)

grid_search.fit(X_train_scaled, y_train)

print(f"\n Grid Search concluído!")
print(f"\n  MELHORES HIPERPARÂMETROS:")
for param, value in grid_search.best_params_.items():
    print(f"  • {param}: {value}")

print(f"\n Melhor score (cross-validation): {grid_search.best_score_:.4f}")

# Avaliar no teste
best_mlp = grid_search.best_estimator_
y_pred_best = best_mlp.predict(X_test_scaled)
accuracy_best = accuracy_score(y_test, y_pred_best)

print(f"  Acurácia no teste: {accuracy_best*100:.2f}%")

# Log no MLflow
if MLFLOW_CONNECTED:
    with mlflow.start_run(run_name="MLP-Optimized-GridSearch"):
        mlflow.log_param("algorithm_type", "MLP")
        mlflow.log_param("algorithm_name", "MLP Otimizada (Grid Search)")
        for param, value in grid_search.best_params_.items():
            mlflow.log_param(param, value)
        mlflow.log_metric("accuracy", accuracy_best)
        mlflow.log_metric("cv_score", grid_search.best_score_)
        mlflow.sklearn.log_model(best_mlp, "model")

# Adicionar aos resultados
results['MLP Otimizada (Grid Search)'] = {
    'type': 'MLP',
    'model': best_mlp,
    'accuracy': accuracy_best,
    'predictions': y_pred_best,
    'confusion_matrix': confusion_matrix(y_test, y_pred_best),
    'report': classification_report(y_test, y_pred_best, output_dict=True, zero_division=0),
    'best_params': grid_search.best_params_
}

print("\n Modelo otimizado salvo!")

---
##  9. Análise Comparativa Geral

In [None]:
print("="*100)
print(" RANKING GERAL DE TODOS OS ALGORITMOS")
print("="*100)

# Criar tabela comparativa
comparison_data = []
for name, res in results.items():
    comparison_data.append({
        'Algoritmo': name,
        'Tipo': res['type'],
        'Acurácia': res['accuracy'],
        'Percentual': f"{res['accuracy']*100:.2f}%"
    })

comparison_df = pd.DataFrame(comparison_data).sort_values('Acurácia', ascending=False)
comparison_df.index = range(1, len(comparison_df) + 1)

print(f"\n{comparison_df[['Algoritmo', 'Tipo', 'Percentual']].to_string()}")

# Identificar melhores
best_traditional = max([r for r in results.items() if r[1]['type'] == 'Tradicional'], 
                      key=lambda x: x[1]['accuracy'])
best_mlp = max([r for r in results.items() if r[1]['type'] == 'MLP'], 
              key=lambda x: x[1]['accuracy'])
best_overall = max(results.items(), key=lambda x: x[1]['accuracy'])

print(f"\n" + "="*100)
print(f"  MELHORES MODELOS POR CATEGORIA:")
print(f"="*100)
print(f"\n    Melhor Tradicional: {best_traditional[0]}")
print(f"     Acurácia: {best_traditional[1]['accuracy']*100:.2f}%")

print(f"\n    Melhor MLP: {best_mlp[0]}")
print(f"     Acurácia: {best_mlp[1]['accuracy']*100:.2f}%")
if 'iterations' in best_mlp[1]:
    print(f"     Iterações: {best_mlp[1]['iterations']}")
    print(f"     Loss final: {best_mlp[1]['loss']:.6f}")

print(f"\n" + "="*100)
print(f"   CAMPEÃO GERAL: {best_overall[0]}")
print(f"   Acurácia: {best_overall[1]['accuracy']*100:.2f}%")
print(f"="*100)

In [None]:
# Salvar tabela comparativa
comparison_df.to_csv(f'{OUTPUT_DIR}/comparacao_completa_todos_algoritmos.csv', index=False)
print(f"\n✓ Tabela comparativa salva: comparacao_completa_todos_algoritmos.csv")

---
## 10. Visualizações Comparativas

In [None]:
# Visualização 1: Comparação Geral
print("  Gerando visualizações...\n")

fig, ax = plt.subplots(figsize=(14, 10))

# Cores diferentes por tipo
colors = []
for tipo in comparison_df['Tipo']:
    if tipo == 'Tradicional':
        colors.append('steelblue')
    else:
        colors.append('darkorange')

y_pos = range(len(comparison_df))
bars = ax.barh(y_pos, comparison_df['Acurácia'], color=colors, edgecolor='black', linewidth=1.5)

ax.set_yticks(y_pos)
ax.set_yticklabels(comparison_df['Algoritmo'])
ax.set_xlabel('Acurácia', fontsize=13, fontweight='bold')
ax.set_title('Comparação Geral: Algoritmos Tradicionais vs MLP (Redes Neurais)', 
             fontsize=15, fontweight='bold', pad=20)
ax.set_xlim([0.9, 1.0])
ax.grid(True, alpha=0.3, axis='x')

# Adicionar valores
for i, (idx, row) in enumerate(comparison_df.iterrows()):
    ax.text(row['Acurácia'] + 0.002, i, f"{row['Acurácia']:.2%}", 
            va='center', fontsize=10, fontweight='bold')

# Legenda
from matplotlib.patches import Patch
legend_elements = [
    Patch(facecolor='steelblue', edgecolor='black', label='Algoritmos Tradicionais'),
    Patch(facecolor='darkorange', edgecolor='black', label='MLP (Redes Neurais)')
]
ax.legend(handles=legend_elements, loc='lower right', fontsize=11)

plt.tight_layout()
plt.savefig(f'{OUTPUT_DIR}/01_comparacao_geral_todos_algoritmos.png', dpi=300, bbox_inches='tight')
plt.show()

print("✓ Gráfico salvo: 01_comparacao_geral_todos_algoritmos.png")

In [None]:
# Visualização 2: Matrizes de Confusão - Top 6
top_6 = comparison_df.head(6)

fig, axes = plt.subplots(2, 3, figsize=(18, 12))
fig.suptitle('Matrizes de Confusão - Top 6 Modelos', fontsize=16, fontweight='bold')

for idx, (_, row) in enumerate(top_6.iterrows()):
    r = idx // 3
    c = idx % 3
    
    name = row['Algoritmo']
    result = results[name]
    cm = result['confusion_matrix']
    classes = sorted(y_test.unique())
    
    # Cor baseada no tipo
    cmap = 'Blues' if result['type'] == 'Tradicional' else 'Oranges'
    
    sns.heatmap(cm, annot=True, fmt='d', cmap=cmap,
                xticklabels=classes, yticklabels=classes,
                ax=axes[r, c], cbar_kws={'label': 'Contagem'})
    
    axes[r, c].set_title(f"{name}\n(Acc: {result['accuracy']:.2%})", 
                        fontweight='bold', fontsize=10)
    axes[r, c].set_xlabel('Predito', fontweight='bold')
    axes[r, c].set_ylabel('Real', fontweight='bold')

plt.tight_layout()
plt.savefig(f'{OUTPUT_DIR}/02_matrizes_confusao_top6.png', dpi=300, bbox_inches='tight')
plt.show()

print("✓ Gráfico salvo: 02_matrizes_confusao_top6.png")

In [None]:
# Visualização 3: Convergência das MLPs
mlp_models = [(name, res) for name, res in results.items() 
              if res['type'] == 'MLP' and 'best_params' not in res]

if len(mlp_models) > 0:
    fig, axes = plt.subplots(2, 2, figsize=(14, 10))
    fig.suptitle('Convergência dos Modelos MLP', fontsize=16, fontweight='bold')
    
    for idx, (name, result) in enumerate(mlp_models[:4]):
        r = idx // 2
        c = idx % 2
        
        model = result['model']
        if hasattr(model, 'loss_curve_'):
            axes[r, c].plot(model.loss_curve_, 'darkorange', linewidth=2)
            axes[r, c].set_xlabel('Épocas', fontweight='bold')
            axes[r, c].set_ylabel('Loss', fontweight='bold')
            axes[r, c].set_title(f'{name}\n({result["iterations"]} iterações, Loss final: {result["loss"]:.6f})', 
                               fontsize=10, fontweight='bold')
            axes[r, c].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.savefig(f'{OUTPUT_DIR}/03_convergencia_mlps.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    print("✓ Gráfico salvo: 03_convergencia_mlps.png")

---
## 11. Upload para MinIO (se disponível)

In [None]:
if MINIO_CONNECTED:
    print("UPLOAD DE ARQUIVOS PARA MINIO\n")
    
    # Listar arquivos no diretório de outputs
    files = [f for f in os.listdir(OUTPUT_DIR) if os.path.isfile(os.path.join(OUTPUT_DIR, f))]
    
    print(f"Enviando {len(files)} arquivos para MinIO...\n")
    
    for file in files:
        file_path = os.path.join(OUTPUT_DIR, file)
        object_name = f"analysis/{datetime.now().strftime('%Y%m%d')}/{file}"
        
        try:
            minio_client.fput_object(
                MINIO_BUCKET,
                object_name,
                file_path
            )
            print(f"  ✓ {file} → {object_name}")
        except S3Error as e:
            print(f"  ✗ Erro ao enviar {file}: {e}")
    
    print(f"\n✓ Upload concluído! Arquivos disponíveis no bucket '{MINIO_BUCKET}'")
else:
    print("MinIO não conectado. Arquivos salvos apenas localmente.")

---
## 12. Relatório Final Detalhado

In [None]:
print("="*100)
print("RELATÓRIO FINAL DETALHADO")
print("="*100)

print(f"\nMELHOR MODELO TRADICIONAL: {best_traditional[0]}")
print(f"   Acurácia: {best_traditional[1]['accuracy']*100:.2f}%\n")
print("Relatório de Classificação:")
print(classification_report(y_test, best_traditional[1]['predictions'], zero_division=0))

print("\n" + "="*100)
print(f"MELHOR MODELO MLP: {best_mlp[0]}")
print(f"   Acurácia: {best_mlp[1]['accuracy']*100:.2f}%")
if 'iterations' in best_mlp[1]:
    print(f"   Iterações: {best_mlp[1]['iterations']}")
    print(f"   Loss final: {best_mlp[1]['loss']:.6f}")
print("\nRelatório de Classificação:")
print(classification_report(y_test, best_mlp[1]['predictions'], zero_division=0))

print("\n" + "="*100)
print("COMPARAÇÃO: MELHOR TRADICIONAL vs MELHOR MLP")
print("="*100)

diff_pct = abs((best_traditional[1]['accuracy'] - best_mlp[1]['accuracy']) * 100)
if best_traditional[1]['accuracy'] > best_mlp[1]['accuracy']:
    print(f"\n✓ Algoritmo tradicional ({best_traditional[0]}) foi {diff_pct:.2f}% superior")
    print(f"  Para este dataset tabular, algoritmos tradicionais são mais eficientes.")
else:
    print(f"\n✓ MLP ({best_mlp[0]}) foi {diff_pct:.2f}% superior")
    print(f"  Redes neurais capturaram padrões complexos eficientemente.")

print("\n" + "="*100)
print("RECOMENDAÇÕES")
print("="*100)
print(f"\n1. Use {best_overall[0]} para máxima acurácia ({best_overall[1]['accuracy']*100:.2f}%)")
print(f"2. Algoritmos tradicionais são mais simples e rápidos de treinar")
print(f"3. MLPs são úteis para dados complexos ou não estruturados (imagens, texto)")
print(f"4. Para datasets tabulares pequenos/médios, algoritmos tradicionais são suficientes")

print("\n" + "="*100)

---
## 13. Salvar Resumo em Arquivo

In [None]:
# Salvar resumo completo
with open(f'{OUTPUT_DIR}/resumo_completo_analise.txt', 'w', encoding='utf-8') as f:
    f.write("="*100 + "\n")
    f.write("ANÁLISE COMPARATIVA: ALGORITMOS TRADICIONAIS vs MLP (REDES NEURAIS)\n")
    f.write("="*100 + "\n\n")
    
    f.write(f"Dataset: {df.shape[0]} registros, {X.shape[1]} features\n")
    f.write(f"Data Source: {DATA_SOURCE}\n")
    f.write(f"Treino: {X_train.shape[0]} | Teste: {X_test.shape[0]}\n\n")
    
    f.write("RANKING GERAL:\n")
    f.write("-" * 100 + "\n")
    for idx, (_, row) in enumerate(comparison_df.iterrows(), 1):
        f.write(f"{idx}. {row['Algoritmo']:40s} ({row['Tipo']:12s}) - {row['Percentual']}\n")
    
    f.write("\n" + "="*100 + "\n")
    f.write(f"CAMPEÃO GERAL: {best_overall[0]}\n")
    f.write(f"ACURÁCIA: {best_overall[1]['accuracy']*100:.2f}%\n")
    f.write("="*100 + "\n")
    
    f.write("\n" + "="*100 + "\n")
    f.write("COMPARAÇÃO: MELHOR TRADICIONAL vs MELHOR MLP\n")
    f.write("="*100 + "\n")
    f.write(f"\nMelhor Tradicional: {best_traditional[0]}\n")
    f.write(f"Acurácia: {best_traditional[1]['accuracy']*100:.2f}%\n")
    f.write(f"\nMelhor MLP: {best_mlp[0]}\n")
    f.write(f"Acurácia: {best_mlp[1]['accuracy']*100:.2f}%\n")
    
    diff = (best_traditional[1]['accuracy'] - best_mlp[1]['accuracy']) * 100
    if diff > 0:
        f.write(f"\nDiferença: Tradicional é {diff:.2f}% melhor\n")
    else:
        f.write(f"\nDiferença: MLP é {-diff:.2f}% melhor\n")
    
    f.write("\n" + "="*100 + "\n")
    f.write("CONEXÕES:\n")
    f.write("="*100 + "\n")
    f.write(f"\nMLflow: {'Conectado ✓' if MLFLOW_CONNECTED else 'Não conectado ✗'}\n")
    f.write(f"MinIO: {'Conectado ✓' if MINIO_CONNECTED else 'Não conectado ✗'}\n")
    f.write(f"PostgreSQL: {'Conectado ✓' if DATA_SOURCE == 'PostgreSQL' else 'Não conectado ✗'}\n")

print("✓ Resumo salvo: resumo_completo_analise.txt")

---
## ✅ 14. Conclusão

### Análise completa concluída com sucesso!

**Foram testados:**
- 6 algoritmos tradicionais de Machine Learning
- 5 arquiteturas de Redes Neurais MLP
- Otimização com Grid Search
- Total: 11 modelos comparados

**Integrações:**
- MLflow para tracking de experimentos
- MinIO para armazenamento de artefatos
- PostgreSQL para dados (com fallback CSV)

**Arquivos gerados:**
- Gráficos comparativos
- Matrizes de confusão
- Tabelas de métricas
- Relatórios detalhados

---

### Próximos passos sugeridos:
1. Testar com validação cruzada k-fold
2. Aplicar SMOTE para balancear classes minoritárias
3. Testar ensemble de modelos
4. Implementar feature engineering
5. Deploy do melhor modelo em produção