# Projeto Final - Aplica√ß√£o de Algoritmos de Machine Learning
## Classifica√ß√£o de Aprova√ß√£o de Empr√©stimos

**Autor:** Rafael Sobral
**Dataset:** [Loan Approval Classification Data](https://www.kaggle.com/datasets/taweilo/loan-approval-classification-data)
**Data:** 2025-11-13

---

## üéØ Objetivo Geral

Aplicar t√©cnicas de aprendizado de m√°quina supervisionado (classifica√ß√£o) para prever a aprova√ß√£o de empr√©stimos banc√°rios, utilizando m√∫ltiplos algoritmos e comparando seus desempenhos atrav√©s de m√©tricas apropriadas.

---

## üìã Estrutura do Projeto

1. **Explora√ß√£o e An√°lise de Dados (EDA)**
2. **Pr√©-processamento dos Dados**
3. **Treinamento de Modelos (3+ algoritmos)**
4. **Ajuste de Hiperpar√¢metros com Valida√ß√£o Cruzada**
5. **Compara√ß√£o de Desempenho**
6. **Redu√ß√£o de Dimensionalidade**
7. **An√°lise Comparativa Final**


## üì¶ Importa√ß√£o de Bibliotecas


In [None]:
# Importa√ß√µes necess√°rias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from datetime import datetime
import os

# Sklearn - Preprocessing
from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder
from sklearn.model_selection import train_test_split, StratifiedKFold, RandomizedSearchCV, learning_curve
from sklearn.impute import SimpleImputer

# Sklearn - Modelos de Classifica√ß√£o
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

# Sklearn - M√©tricas
from sklearn.metrics import (accuracy_score, precision_score, recall_score, f1_score,
                             roc_auc_score, confusion_matrix, ConfusionMatrixDisplay,
                             roc_curve, auc, classification_report)

# Sklearn - Redu√ß√£o de Dimensionalidade
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA

# Balanceamento de classes
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler
from collections import Counter

# Configura√ß√µes
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

# Random state para reprodutibilidade
RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)

print("‚úÖ Todas as bibliotecas importadas com sucesso!")
print(f"üìÖ Notebook executado em: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print(f"üî¢ Random State: {RANDOM_STATE}")


---

# 1. Explora√ß√£o e An√°lise de Dados (EDA)

## 1.1 Carregamento do Dataset


In [None]:
# Carregar o dataset
# Nota: O dataset deve estar no mesmo diret√≥rio ou voc√™ pode usar kaggle API
# Para baixar: kaggle datasets download -d taweilo/loan-approval-classification-data

dataset_path = 'loan_approval_dataset.csv'

# Verificar se o arquivo existe
if os.path.exists(dataset_path):
    df = pd.read_csv(dataset_path)
    print(f"‚úÖ Dataset carregado com sucesso!")
else:
    print(f"‚ö†Ô∏è Arquivo n√£o encontrado em: {dataset_path}")
    print("üì• Por favor, baixe o dataset do Kaggle:")
    print("   https://www.kaggle.com/datasets/taweilo/loan-approval-classification-data")
    print("\nüí° Alternativa: Use a API do Kaggle:")
    print("   kaggle datasets download -d taweilo/loan-approval-classification-data")
    print("   unzip loan-approval-classification-data.zip")

    # Criar um dataset de exemplo para demonstra√ß√£o (ser√° substitu√≠do pelo real)
    print("\nüìù Criando dataset de exemplo para demonstra√ß√£o...")
    # Este ser√° substitu√≠do quando o dataset real for carregado
    df = None


In [None]:
# Informa√ß√µes b√°sicas do dataset
if df is not None:
    print("=" * 80)
    print("üìä INFORMA√á√ïES B√ÅSICAS DO DATASET")
    print("=" * 80)
    print(f"\nüìà Shape: {df.shape}")
    print(f"üìã Colunas: {df.shape[1]}")
    print(f"üìä Linhas: {df.shape[0]}")

    print(f"\nüìã Nomes das colunas:")
    for i, col in enumerate(df.columns, 1):
        print(f"  {i:2d}. {col}")

    print(f"\nüìä Tipos de dados:")
    print(df.dtypes)

    print(f"\nüìä Primeiras linhas:")
    display(df.head(10))

    print(f"\nüìä Informa√ß√µes gerais:")
    df.info()
else:
    print("‚ö†Ô∏è Carregue o dataset primeiro!")


## 1.2 An√°lise de Valores Ausentes e Outliers


In [None]:
if df is not None:
    # An√°lise de valores ausentes
    print("=" * 80)
    print("üîç AN√ÅLISE DE VALORES AUSENTES")
    print("=" * 80)

    missing = df.isnull().sum()
    missing_pct = (missing / len(df)) * 100

    missing_df = pd.DataFrame({
        'Coluna': missing.index,
        'Valores Ausentes': missing.values,
        'Percentual (%)': missing_pct.values
    }).sort_values('Valores Ausentes', ascending=False)

    missing_df = missing_df[missing_df['Valores Ausentes'] > 0]

    if len(missing_df) > 0:
        display(missing_df)

        # Visualiza√ß√£o
        plt.figure(figsize=(12, 6))
        plt.barh(missing_df['Coluna'], missing_df['Percentual (%)'], color='coral')
        plt.xlabel('Percentual de Valores Ausentes (%)', fontsize=12, fontweight='bold')
        plt.ylabel('Colunas', fontsize=12, fontweight='bold')
        plt.title('An√°lise de Valores Ausentes', fontsize=14, fontweight='bold', pad=15)
        plt.grid(axis='x', alpha=0.3)
        plt.tight_layout()
        plt.show()
    else:
        print("‚úÖ Nenhum valor ausente encontrado!")

    # An√°lise de outliers (para vari√°veis num√©ricas)
    print("\n" + "=" * 80)
    print("üìä AN√ÅLISE DE OUTLIERS (Vari√°veis Num√©ricas)")
    print("=" * 80)

    numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
    if len(numeric_cols) > 0:
        fig, axes = plt.subplots(len(numeric_cols), 1, figsize=(12, 4*len(numeric_cols)))
        if len(numeric_cols) == 1:
            axes = [axes]

        for idx, col in enumerate(numeric_cols):
            axes[idx].boxplot(df[col].dropna(), vert=True, patch_artist=True,
                            boxprops=dict(facecolor='lightblue', alpha=0.7),
                            medianprops=dict(color='red', linewidth=2))
            axes[idx].set_ylabel(col, fontsize=11, fontweight='bold')
            axes[idx].set_title(f'Boxplot - {col}', fontsize=12, fontweight='bold')
            axes[idx].grid(axis='y', alpha=0.3)

        plt.tight_layout()
        plt.show()
    else:
        print("‚ö†Ô∏è Nenhuma vari√°vel num√©rica encontrada para an√°lise de outliers")


## 1.3 Estat√≠sticas Descritivas e Distribui√ß√µes


In [None]:
if df is not None:
    # Estat√≠sticas descritivas
    print("=" * 80)
    print("üìä ESTAT√çSTICAS DESCRITIVAS")
    print("=" * 80)
    display(df.describe())

    # Distribui√ß√£o da vari√°vel target (assumindo que seja 'loan_status' ou similar)
    # Vamos identificar a coluna target
    target_candidates = [col for col in df.columns if 'loan' in col.lower() or 'status' in col.lower() or 'approval' in col.lower()]

    if target_candidates:
        target_col = target_candidates[0]
        print(f"\nüéØ Vari√°vel Target identificada: '{target_col}'")

        # Distribui√ß√£o da target
        print(f"\nüìä Distribui√ß√£o da vari√°vel target:")
        print(df[target_col].value_counts())
        print(f"\nüìä Percentual:")
        print(df[target_col].value_counts(normalize=True) * 100)

        # Visualiza√ß√£o
        fig, axes = plt.subplots(1, 2, figsize=(14, 5))

        # Gr√°fico de barras
        value_counts = df[target_col].value_counts()
        axes[0].bar(value_counts.index.astype(str), value_counts.values, 
                   color=['#ff6b6b', '#51cf66'], alpha=0.7, edgecolor='black')
        axes[0].set_xlabel('Status', fontsize=12, fontweight='bold')
        axes[0].set_ylabel('Quantidade', fontsize=12, fontweight='bold')
        axes[0].set_title('Distribui√ß√£o da Vari√°vel Target', fontsize=14, fontweight='bold')
        axes[0].grid(axis='y', alpha=0.3)

        # Gr√°fico de pizza
        axes[1].pie(value_counts.values, labels=value_counts.index.astype(str),
                   autopct='%1.1f%%', startangle=90, colors=['#ff6b6b', '#51cf66'])
        axes[1].set_title('Propor√ß√£o da Vari√°vel Target', fontsize=14, fontweight='bold')

        plt.tight_layout()
        plt.show()

        # Verificar balanceamento
        balance_ratio = value_counts.min() / value_counts.max()
        print(f"\n‚öñÔ∏è Raz√£o de balanceamento: {balance_ratio:.3f}")
        if balance_ratio < 0.5:
            print("‚ö†Ô∏è Classes desbalanceadas! Ser√° necess√°rio balanceamento.")
        else:
            print("‚úÖ Classes relativamente balanceadas.")
    else:
        print("‚ö†Ô∏è N√£o foi poss√≠vel identificar automaticamente a vari√°vel target.")
        print("üìã Colunas dispon√≠veis:", df.columns.tolist())


## 1.4 An√°lise de Correla√ß√µes e Rela√ß√µes entre Vari√°veis


In [None]:
if df is not None:
    # Matriz de correla√ß√£o (apenas vari√°veis num√©ricas)
    numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()

    if len(numeric_cols) > 1:
        print("=" * 80)
        print("üîó MATRIZ DE CORRELA√á√ÉO")
        print("=" * 80)

        corr_matrix = df[numeric_cols].corr()

        plt.figure(figsize=(12, 10))
        sns.heatmap(corr_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
                   center=0, square=True, linewidths=1, cbar_kws={"shrink": 0.8})
        plt.title('Matriz de Correla√ß√£o - Vari√°veis Num√©ricas', fontsize=16, fontweight='bold', pad=20)
        plt.tight_layout()
        plt.show()

        # Identificar correla√ß√µes fortes
        print("\nüîç Correla√ß√µes mais fortes (|r| > 0.7):")
        strong_corr = []
        for i in range(len(corr_matrix.columns)):
            for j in range(i+1, len(corr_matrix.columns)):
                corr_val = corr_matrix.iloc[i, j]
                if abs(corr_val) > 0.7:
                    strong_corr.append((corr_matrix.columns[i], corr_matrix.columns[j], corr_val))

        if strong_corr:
            for col1, col2, corr in strong_corr:
                print(f"  ‚Ä¢ {col1:30s} ‚Üî {col2:30s}: {corr:+.3f}")
        else:
            print("  Nenhuma correla√ß√£o muito forte encontrada.")

    # An√°lise de vari√°veis categ√≥ricas vs target
    if 'target_col' in locals() and target_col:
        categorical_cols = df.select_dtypes(include=['object']).columns.tolist()

        if categorical_cols:
            print("\n" + "=" * 80)
            print("üìä AN√ÅLISE DE VARI√ÅVEIS CATEG√ìRICAS")
            print("=" * 80)

            n_cats = len(categorical_cols)
            n_cols = min(3, n_cats)
            n_rows = (n_cats + n_cols - 1) // n_cols

            fig, axes = plt.subplots(n_rows, n_cols, figsize=(6*n_cols, 5*n_rows))
            if n_cats == 1:
                axes = [axes]
            elif n_rows == 1:
                axes = axes if isinstance(axes, np.ndarray) else [axes]
            else:
                axes = axes.flatten()

            for idx, col in enumerate(categorical_cols):
                if idx < len(axes):
                    cross_tab = pd.crosstab(df[col], df[target_col], normalize='index') * 100
                    cross_tab.plot(kind='bar', ax=axes[idx], color=['#ff6b6b', '#51cf66'], alpha=0.7)
                    axes[idx].set_title(f'{col} vs {target_col}', fontsize=12, fontweight='bold')
                    axes[idx].set_xlabel(col, fontsize=10)
                    axes[idx].set_ylabel('Percentual (%)', fontsize=10)
                    axes[idx].legend(title=target_col, fontsize=9)
                    axes[idx].tick_params(axis='x', rotation=45)
                    axes[idx].grid(axis='y', alpha=0.3)

            # Ocultar eixos extras
            for idx in range(len(categorical_cols), len(axes)):
                axes[idx].axis('off')

            plt.tight_layout()
            plt.show()


---

# 2. Pr√©-processamento dos Dados

## 2.1 Prepara√ß√£o dos Dados


In [None]:
if df is not None:
    # Criar c√≥pia para pr√©-processamento
    df_processed = df.copy()

    # Identificar vari√°vel target (se ainda n√£o foi identificada)
    if 'target_col' not in locals() or not target_col:
        target_candidates = [col for col in df_processed.columns if 'loan' in col.lower() or 'status' in col.lower() or 'approval' in col.lower()]
        if target_candidates:
            target_col = target_candidates[0]
        else:
            # Tentar √∫ltima coluna como target
            target_col = df_processed.columns[-1]
            print(f"‚ö†Ô∏è Usando √∫ltima coluna como target: '{target_col}'")

    print("=" * 80)
    print("üîß PR√â-PROCESSAMENTO DOS DADOS")
    print("=" * 80)
    print(f"\nüéØ Vari√°vel Target: {target_col}")

    # Separar features e target
    X = df_processed.drop(columns=[target_col])
    y = df_processed[target_col]

    print(f"\nüìä Shape inicial:")
    print(f"  ‚Ä¢ Features (X): {X.shape}")
    print(f"  ‚Ä¢ Target (y): {y.shape}")

    # Identificar tipos de vari√°veis
    numeric_features = X.select_dtypes(include=[np.number]).columns.tolist()
    categorical_features = X.select_dtypes(include=['object']).columns.tolist()

    print(f"\nüìã Tipos de features:")
    print(f"  ‚Ä¢ Num√©ricas: {len(numeric_features)}")
    print(f"  ‚Ä¢ Categ√≥ricas: {len(categorical_features)}")

    if numeric_features:
        print(f"  ‚Ä¢ Lista num√©ricas: {numeric_features}")
    if categorical_features:
        print(f"  ‚Ä¢ Lista categ√≥ricas: {categorical_features}")
else:
    print("‚ö†Ô∏è Carregue o dataset primeiro!")


## 2.2 Tratamento de Valores Ausentes


In [None]:
if 'X' in locals() and X is not None:
    print("=" * 80)
    print("üîß TRATAMENTO DE VALORES AUSENTES")
    print("=" * 80)

    # Verificar valores ausentes
    missing_before = X.isnull().sum()
    missing_cols = missing_before[missing_before > 0]

    if len(missing_cols) > 0:
        print(f"\nüìä Valores ausentes encontrados em {len(missing_cols)} colunas:")
        for col, count in missing_cols.items():
            pct = (count / len(X)) * 100
            print(f"  ‚Ä¢ {col}: {count} ({pct:.2f}%)")

        # Estrat√©gia de imputa√ß√£o
        print("\nüí° Estrat√©gia de imputa√ß√£o:")
        print("  ‚Ä¢ Num√©ricas: M√©dia")
        print("  ‚Ä¢ Categ√≥ricas: Moda")

        # Imputar valores ausentes
        # Num√©ricas
        if numeric_features:
            numeric_imputer = SimpleImputer(strategy='mean')
            X[numeric_features] = numeric_imputer.fit_transform(X[numeric_features])
            print(f"  ‚úÖ Imputa√ß√£o num√©rica conclu√≠da")

        # Categ√≥ricas
        if categorical_features:
            categorical_imputer = SimpleImputer(strategy='most_frequent')
            X[categorical_features] = categorical_imputer.fit_transform(X[categorical_features])
            print(f"  ‚úÖ Imputa√ß√£o categ√≥rica conclu√≠da")

        # Verificar ap√≥s imputa√ß√£o
        missing_after = X.isnull().sum().sum()
        print(f"\n‚úÖ Valores ausentes ap√≥s tratamento: {missing_after}")
    else:
        print("‚úÖ Nenhum valor ausente encontrado!")


## 2.3 Codifica√ß√£o de Vari√°veis Categ√≥ricas


In [None]:
if 'X' in locals() and X is not None and categorical_features:
    print("=" * 80)
    print("üîß CODIFICA√á√ÉO DE VARI√ÅVEIS CATEG√ìRICAS")
    print("=" * 80)

    # Usar One-Hot Encoding para vari√°veis categ√≥ricas
    print("\nüí° M√©todo: One-Hot Encoding")
    print("  ‚Ä¢ Justificativa: Preserva todas as informa√ß√µes sem criar ordem artificial")

    # Aplicar One-Hot Encoding
    X_encoded = pd.get_dummies(X, columns=categorical_features, drop_first=False, dtype=int)

    print(f"\nüìä Dimens√µes ap√≥s encoding:")
    print(f"  ‚Ä¢ Antes: {X.shape[1]} features")
    print(f"  ‚Ä¢ Depois: {X_encoded.shape[1]} features")
    print(f"  ‚Ä¢ Novas features criadas: {X_encoded.shape[1] - X.shape[1]}")

    X = X_encoded

    print(f"\n‚úÖ Codifica√ß√£o conclu√≠da!")
    print(f"üìã Novas colunas: {list(X.columns)}")
elif 'X' in locals() and X is not None:
    print("‚úÖ Nenhuma vari√°vel categ√≥rica para codificar!")
else:
    print("‚ö†Ô∏è Execute as c√©lulas anteriores primeiro!")


## 2.4 Codifica√ß√£o da Vari√°vel Target


In [None]:
if 'y' in locals() and y is not None:
    print("=" * 80)
    print("üîß CODIFICA√á√ÉO DA VARI√ÅVEL TARGET")
    print("=" * 80)

    print(f"\nüìä Valores √∫nicos na target: {y.unique()}")
    print(f"üìä Tipo da target: {y.dtype}")

    # Se for categ√≥rica, codificar
    if y.dtype == 'object':
        le = LabelEncoder()
        y_encoded = le.fit_transform(y)
        y = pd.Series(y_encoded, name=target_col)

        print(f"\n‚úÖ Target codificada:")
        print(f"  ‚Ä¢ Classes: {le.classes_}")
        print(f"  ‚Ä¢ Mapeamento: {dict(zip(le.classes_, le.transform(le.classes_)))}")
    else:
        print("‚úÖ Target j√° est√° num√©rica!")

    print(f"\nüìä Distribui√ß√£o final da target:")
    print(y.value_counts())
    print(f"\nüìä Percentual:")
    print(y.value_counts(normalize=True) * 100)


## 2.5 Normaliza√ß√£o e Padroniza√ß√£o


In [None]:
if 'X' in locals() and X is not None:
    print("=" * 80)
    print("üîß NORMALIZA√á√ÉO E PADRONIZA√á√ÉO")
    print("=" * 80)

    print("\nüí° M√©todo: StandardScaler (Z-score normalization)")
    print("  ‚Ä¢ Justificativa: Necess√°rio para algoritmos sens√≠veis √† escala (SVM, KNN, Regress√£o Log√≠stica)")
    print("  ‚Ä¢ F√≥rmula: z = (x - Œº) / œÉ")

    # Aplicar StandardScaler
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X)
    X_scaled = pd.DataFrame(X_scaled, columns=X.columns, index=X.index)

    print(f"\n‚úÖ Padroniza√ß√£o conclu√≠da!")
    print(f"üìä Estat√≠sticas ap√≥s padroniza√ß√£o:")
    print(f"  ‚Ä¢ M√©dia: {X_scaled.mean().mean():.6f} (deve ser ~0)")
    print(f"  ‚Ä¢ Desvio padr√£o: {X_scaled.std().mean():.6f} (deve ser ~1)")

    # Usar dados padronizados
    X = X_scaled

    print(f"\nüìã Features padronizadas prontas para modelagem!")


## 2.6 Balanceamento de Classes


In [None]:
if 'y' in locals() and y is not None:
    print("=" * 80)
    print("‚öñÔ∏è BALANCEAMENTO DE CLASSES")
    print("=" * 80)

    # Verificar balanceamento
    class_counts = Counter(y)
    balance_ratio = min(class_counts.values()) / max(class_counts.values())

    print(f"\nüìä Distribui√ß√£o antes do balanceamento:")
    for cls, count in class_counts.items():
        pct = (count / len(y)) * 100
        print(f"  ‚Ä¢ Classe {cls}: {count} ({pct:.2f}%)")
    print(f"\n‚öñÔ∏è Raz√£o de balanceamento: {balance_ratio:.3f}")

    # Decidir se precisa balancear
    need_balancing = balance_ratio < 0.5

    if need_balancing:
        print("\n‚ö†Ô∏è Classes desbalanceadas! Aplicando SMOTE...")
        print("üí° M√©todo: SMOTE (Synthetic Minority Oversampling Technique)")
        print("  ‚Ä¢ Justificativa: Cria amostras sint√©ticas da classe minorit√°ria")
        print("  ‚Ä¢ Vantagem: N√£o perde informa√ß√µes como undersampling")

        # Aplicar SMOTE
        smote = SMOTE(random_state=RANDOM_STATE)
        X_balanced, y_balanced = smote.fit_resample(X, y)

        print(f"\nüìä Distribui√ß√£o ap√≥s balanceamento:")
        class_counts_after = Counter(y_balanced)
        for cls, count in class_counts_after.items():
            pct = (count / len(y_balanced)) * 100
            print(f"  ‚Ä¢ Classe {cls}: {count} ({pct:.2f}%)")

        print(f"\nüìà Mudan√ßa de tamanho:")
        print(f"  ‚Ä¢ Antes: {X.shape[0]} amostras")
        print(f"  ‚Ä¢ Depois: {X_balanced.shape[0]} amostras")

        X = pd.DataFrame(X_balanced, columns=X.columns)
        y = pd.Series(y_balanced, name=target_col)

        print(f"\n‚úÖ Balanceamento conclu√≠do!")
    else:
        print("\n‚úÖ Classes relativamente balanceadas. Balanceamento n√£o necess√°rio.")
        print("  ‚Ä¢ Continuando com dados originais")


## 2.7 Divis√£o Treino/Teste


In [None]:
if 'X' in locals() and 'y' in locals() and X is not None and y is not None:
    print("=" * 80)
    print("‚úÇÔ∏è DIVIS√ÉO TREINO/TESTE")
    print("=" * 80)

    # Split estratificado (70/30)
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.30, random_state=RANDOM_STATE, stratify=y
    )

    print(f"\nüìä Divis√£o dos dados:")
    print(f"  ‚Ä¢ Treino: {X_train.shape[0]} amostras ({X_train.shape[0]/len(X)*100:.1f}%)")
    print(f"  ‚Ä¢ Teste:  {X_test.shape[0]} amostras ({X_test.shape[0]/len(X)*100:.1f}%)")

    print(f"\nüìà Distribui√ß√£o no conjunto de TREINO:")
    train_counts = Counter(y_train)
    for cls, count in train_counts.items():
        pct = (count / len(y_train)) * 100
        print(f"  ‚Ä¢ Classe {cls}: {count:4d} ({pct:.1f}%)")

    print(f"\nüìà Distribui√ß√£o no conjunto de TESTE:")
    test_counts = Counter(y_test)
    for cls, count in test_counts.items():
        pct = (count / len(y_test)) * 100
        print(f"  ‚Ä¢ Classe {cls}: {count:4d} ({pct:.1f}%)")

    print(f"\n‚úÖ Divis√£o conclu√≠da! Dados prontos para modelagem.")
else:
    print("‚ö†Ô∏è Execute as c√©lulas anteriores primeiro!")


---

# 3. Treinamento de Modelos

## 3.1 Configura√ß√£o da Valida√ß√£o Cruzada


In [None]:
if 'X_train' in locals():
    print("=" * 80)
    print("‚öôÔ∏è CONFIGURA√á√ÉO DA VALIDA√á√ÉO CRUZADA")
    print("=" * 80)

    # StratifiedKFold para classifica√ß√£o
    skfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=RANDOM_STATE)

    print(f"\nüìä Configura√ß√£o:")
    print(f"  ‚Ä¢ M√©todo: StratifiedKFold")
    print(f"  ‚Ä¢ K-Folds: 5")
    print(f"  ‚Ä¢ Shuffle: True")
    print(f"  ‚Ä¢ Random State: {RANDOM_STATE}")
    print(f"\nüí° Justificativa: StratifiedKFold mant√©m a propor√ß√£o de classes em cada fold")

    # Dicion√°rio para armazenar resultados
    models_results = {}

    print(f"\n‚úÖ Valida√ß√£o cruzada configurada!")
else:
    print("‚ö†Ô∏è Execute as c√©lulas anteriores primeiro!")


## 3.2 Modelo 1: Regress√£o Log√≠stica


In [None]:
if 'X_train' in locals():
    print("=" * 80)
    print("üîµ MODELO 1: REGRESS√ÉO LOG√çSTICA")
    print("=" * 80)

    # Espa√ßo de hiperpar√¢metros
    param_dist_lr = {
        'C': [0.001, 0.01, 0.1, 1, 10, 100],
        'penalty': ['l1', 'l2', 'elasticnet'],
        'solver': ['lbfgs', 'liblinear', 'saga'],
        'max_iter': [100, 200, 500]
    }

    # Modelo base
    lr_base = LogisticRegression(random_state=RANDOM_STATE)

    # RandomizedSearchCV
    random_search_lr = RandomizedSearchCV(
        lr_base,
        param_distributions=param_dist_lr,
        n_iter=30,
        cv=skfold,
        scoring='roc_auc',
        random_state=RANDOM_STATE,
        n_jobs=-1,
        verbose=1
    )

    print("\n‚è≥ Treinando modelo com RandomizedSearchCV...")
    random_search_lr.fit(X_train, y_train)

    print(f"\n‚úÖ Treinamento conclu√≠do!")
    print(f"\nüèÜ Melhores hiperpar√¢metros:")
    for param, value in random_search_lr.best_params_.items():
        print(f"  ‚Ä¢ {param}: {value}")
    print(f"\nüìä Melhor score (CV): {random_search_lr.best_score_:.4f}")

    # Salvar melhor modelo
    best_lr = random_search_lr.best_estimator_
    models_results['Regress√£o Log√≠stica'] = {
        'model': best_lr,
        'search': random_search_lr,
        'best_score_cv': random_search_lr.best_score_
    }
else:
    print("‚ö†Ô∏è Execute as c√©lulas anteriores primeiro!")


## 3.3 Modelo 2: Random Forest


In [None]:
if 'X_train' in locals():
    print("=" * 80)
    print("üü¢ MODELO 2: RANDOM FOREST")
    print("=" * 80)

    # Espa√ßo de hiperpar√¢metros
    param_dist_rf = {
        'n_estimators': [50, 100, 200, 300],
        'max_depth': [None, 10, 20, 30],
        'min_samples_split': [2, 5, 10],
        'min_samples_leaf': [1, 2, 4],
        'max_features': ['sqrt', 'log2', None]
    }

    # Modelo base
    rf_base = RandomForestClassifier(random_state=RANDOM_STATE)

    # RandomizedSearchCV
    random_search_rf = RandomizedSearchCV(
        rf_base,
        param_distributions=param_dist_rf,
        n_iter=30,
        cv=skfold,
        scoring='roc_auc',
        random_state=RANDOM_STATE,
        n_jobs=-1,
        verbose=1
    )

    print("\n‚è≥ Treinando modelo com RandomizedSearchCV...")
    random_search_rf.fit(X_train, y_train)

    print(f"\n‚úÖ Treinamento conclu√≠do!")
    print(f"\nüèÜ Melhores hiperpar√¢metros:")
    for param, value in random_search_rf.best_params_.items():
        print(f"  ‚Ä¢ {param}: {value}")
    print(f"\nüìä Melhor score (CV): {random_search_rf.best_score_:.4f}")

    # Salvar melhor modelo
    best_rf = random_search_rf.best_estimator_
    models_results['Random Forest'] = {
        'model': best_rf,
        'search': random_search_rf,
        'best_score_cv': random_search_rf.best_score_
    }
else:
    print("‚ö†Ô∏è Execute as c√©lulas anteriores primeiro!")


## 3.4 Modelo 3: Support Vector Machine (SVM)


In [None]:
if 'X_train' in locals():
    print("=" * 80)
    print("üü† MODELO 3: SUPPORT VECTOR MACHINE (SVM)")
    print("=" * 80)

    # Espa√ßo de hiperpar√¢metros
    param_dist_svm = {
        'C': [0.1, 1, 10, 100],
        'kernel': ['linear', 'rbf', 'poly'],
        'gamma': ['scale', 'auto', 0.001, 0.01, 0.1, 1],
        'degree': [2, 3, 4]  # Para kernel poly
    }

    # Modelo base
    svm_base = SVC(probability=True, random_state=RANDOM_STATE)

    # RandomizedSearchCV
    random_search_svm = RandomizedSearchCV(
        svm_base,
        param_distributions=param_dist_svm,
        n_iter=30,
        cv=skfold,
        scoring='roc_auc',
        random_state=RANDOM_STATE,
        n_jobs=-1,
        verbose=1
    )

    print("\n‚è≥ Treinando modelo com RandomizedSearchCV...")
    random_search_svm.fit(X_train, y_train)

    print(f"\n‚úÖ Treinamento conclu√≠do!")
    print(f"\nüèÜ Melhores hiperpar√¢metros:")
    for param, value in random_search_svm.best_params_.items():
        print(f"  ‚Ä¢ {param}: {value}")
    print(f"\nüìä Melhor score (CV): {random_search_svm.best_score_:.4f}")

    # Salvar melhor modelo
    best_svm = random_search_svm.best_estimator_
    models_results['SVM'] = {
        'model': best_svm,
        'search': random_search_svm,
        'best_score_cv': random_search_svm.best_score_
    }
else:
    print("‚ö†Ô∏è Execute as c√©lulas anteriores primeiro!")


## 3.5 Modelo 4: Gradient Boosting (B√¥nus)


In [None]:
if 'X_train' in locals():
    print("=" * 80)
    print("üü£ MODELO 4: GRADIENT BOOSTING (B√îNUS)")
    print("=" * 80)

    # Espa√ßo de hiperpar√¢metros
    param_dist_gb = {
        'n_estimators': [50, 100, 200],
        'learning_rate': [0.01, 0.1, 0.2],
        'max_depth': [3, 5, 7],
        'min_samples_split': [2, 5, 10],
        'subsample': [0.8, 0.9, 1.0]
    }

    # Modelo base
    gb_base = GradientBoostingClassifier(random_state=RANDOM_STATE)

    # RandomizedSearchCV
    random_search_gb = RandomizedSearchCV(
        gb_base,
        param_distributions=param_dist_gb,
        n_iter=30,
        cv=skfold,
        scoring='roc_auc',
        random_state=RANDOM_STATE,
        n_jobs=-1,
        verbose=1
    )

    print("\n‚è≥ Treinando modelo com RandomizedSearchCV...")
    random_search_gb.fit(X_train, y_train)

    print(f"\n‚úÖ Treinamento conclu√≠do!")
    print(f"\nüèÜ Melhores hiperpar√¢metros:")
    for param, value in random_search_gb.best_params_.items():
        print(f"  ‚Ä¢ {param}: {value}")
    print(f"\nüìä Melhor score (CV): {random_search_gb.best_score_:.4f}")

    # Salvar melhor modelo
    best_gb = random_search_gb.best_estimator_
    models_results['Gradient Boosting'] = {
        'model': best_gb,
        'search': random_search_gb,
        'best_score_cv': random_search_gb.best_score_
    }
else:
    print("‚ö†Ô∏è Execute as c√©lulas anteriores primeiro!")


---

# 4. Compara√ß√£o de Desempenho

## 4.1 Avalia√ß√£o no Conjunto de Teste


In [None]:
if 'models_results' in locals() and len(models_results) > 0:
    print("=" * 80)
    print("üìä AVALIA√á√ÉO NO CONJUNTO DE TESTE")
    print("=" * 80)

    # Calcular m√©tricas para cada modelo
    for model_name, results in models_results.items():
        model = results['model']

        # Predi√ß√µes
        y_pred = model.predict(X_test)
        y_proba = model.predict_proba(X_test)[:, 1] if len(np.unique(y_test)) == 2 else model.predict_proba(X_test)

        # M√©tricas
        accuracy = accuracy_score(y_test, y_pred)
        precision = precision_score(y_test, y_pred, average='weighted')
        recall = recall_score(y_test, y_pred, average='weighted')
        f1 = f1_score(y_test, y_pred, average='weighted')

        # ROC-AUC
        if len(np.unique(y_test)) == 2:
            roc_auc = roc_auc_score(y_test, y_proba)
        else:
            roc_auc = roc_auc_score(y_test, y_proba, multi_class='ovr', average='weighted')

        # Armazenar resultados
        results['y_pred'] = y_pred
        results['y_proba'] = y_proba
        results['accuracy'] = accuracy
        results['precision'] = precision
        results['recall'] = recall
        results['f1'] = f1
        results['roc_auc'] = roc_auc

        print(f"\n{model_name}:")
        print(f"  ‚Ä¢ Accuracy:  {accuracy:.4f}")
        print(f"  ‚Ä¢ Precision: {precision:.4f}")
        print(f"  ‚Ä¢ Recall:    {recall:.4f}")
        print(f"  ‚Ä¢ F1-Score:  {f1:.4f}")
        print(f"  ‚Ä¢ ROC-AUC:   {roc_auc:.4f}")

    print(f"\n‚úÖ Avalia√ß√£o conclu√≠da!")
else:
    print("‚ö†Ô∏è Treine os modelos primeiro!")


## 4.2 Tabela Comparativa


In [None]:
if 'models_results' in locals() and len(models_results) > 0:
    # Criar tabela comparativa
    comparison_data = {
        'Modelo': [],
        'CV Score (m√©dia)': [],
        'Accuracy': [],
        'Precision': [],
        'Recall': [],
        'F1-Score': [],
        'ROC-AUC': []
    }

    for model_name, results in models_results.items():
        comparison_data['Modelo'].append(model_name)
        comparison_data['CV Score (m√©dia)'].append(f"{results['best_score_cv']:.4f}")
        comparison_data['Accuracy'].append(f"{results['accuracy']:.4f}")
        comparison_data['Precision'].append(f"{results['precision']:.4f}")
        comparison_data['Recall'].append(f"{results['recall']:.4f}")
        comparison_data['F1-Score'].append(f"{results['f1']:.4f}")
        comparison_data['ROC-AUC'].append(f"{results['roc_auc']:.4f}")

    comparison_df = pd.DataFrame(comparison_data)

    print("=" * 80)
    print("üìã TABELA COMPARATIVA DE DESEMPENHO")
    print("=" * 80)
    display(comparison_df)

    # Identificar melhor modelo (baseado em ROC-AUC)
    best_model_name = max(models_results.keys(), key=lambda k: models_results[k]['roc_auc'])
    print(f"\nüèÜ MELHOR MODELO: {best_model_name}")
    print(f"   ROC-AUC: {models_results[best_model_name]['roc_auc']:.4f}")
    print(f"   Accuracy: {models_results[best_model_name]['accuracy']:.4f}")
    print(f"   F1-Score: {models_results[best_model_name]['f1']:.4f}")
else:
    print("‚ö†Ô∏è Execute as c√©lulas anteriores primeiro!")


## 4.3 Visualiza√ß√µes Comparativas


In [None]:
if 'models_results' in locals() and len(models_results) > 0:
    # Gr√°fico de barras comparativo
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))

    model_names = list(models_results.keys())
    colors = ['#3498db', '#2ecc71', '#e74c3c', '#9b59b6']

    # Accuracy
    accuracies = [models_results[m]['accuracy'] for m in model_names]
    axes[0, 0].bar(model_names, accuracies, color=colors[:len(model_names)], alpha=0.7, edgecolor='black')
    axes[0, 0].set_ylabel('Accuracy', fontsize=12, fontweight='bold')
    axes[0, 0].set_title('Accuracy por Modelo', fontsize=13, fontweight='bold')
    axes[0, 0].grid(axis='y', alpha=0.3)
    axes[0, 0].set_ylim([0, 1])
    for i, v in enumerate(accuracies):
        axes[0, 0].text(i, v + 0.01, f'{v:.3f}', ha='center', fontweight='bold')

    # F1-Score
    f1_scores = [models_results[m]['f1'] for m in model_names]
    axes[0, 1].bar(model_names, f1_scores, color=colors[:len(model_names)], alpha=0.7, edgecolor='black')
    axes[0, 1].set_ylabel('F1-Score', fontsize=12, fontweight='bold')
    axes[0, 1].set_title('F1-Score por Modelo', fontsize=13, fontweight='bold')
    axes[0, 1].grid(axis='y', alpha=0.3)
    axes[0, 1].set_ylim([0, 1])
    for i, v in enumerate(f1_scores):
        axes[0, 1].text(i, v + 0.01, f'{v:.3f}', ha='center', fontweight='bold')

    # ROC-AUC
    roc_aucs = [models_results[m]['roc_auc'] for m in model_names]
    axes[1, 0].bar(model_names, roc_aucs, color=colors[:len(model_names)], alpha=0.7, edgecolor='black')
    axes[1, 0].set_ylabel('ROC-AUC', fontsize=12, fontweight='bold')
    axes[1, 0].set_title('ROC-AUC por Modelo', fontsize=13, fontweight='bold')
    axes[1, 0].grid(axis='y', alpha=0.3)
    axes[1, 0].set_ylim([0, 1])
    for i, v in enumerate(roc_aucs):
        axes[1, 0].text(i, v + 0.01, f'{v:.3f}', ha='center', fontweight='bold')

    # Compara√ß√£o geral (todas as m√©tricas)
    x = np.arange(len(model_names))
    width = 0.2
    axes[1, 1].bar(x - width, accuracies, width, label='Accuracy', alpha=0.7)
    axes[1, 1].bar(x, f1_scores, width, label='F1-Score', alpha=0.7)
    axes[1, 1].bar(x + width, roc_aucs, width, label='ROC-AUC', alpha=0.7)
    axes[1, 1].set_ylabel('Score', fontsize=12, fontweight='bold')
    axes[1, 1].set_title('Compara√ß√£o Geral de M√©tricas', fontsize=13, fontweight='bold')
    axes[1, 1].set_xticks(x)
    axes[1, 1].set_xticklabels(model_names, rotation=45, ha='right')
    axes[1, 1].legend()
    axes[1, 1].grid(axis='y', alpha=0.3)
    axes[1, 1].set_ylim([0, 1])

    plt.tight_layout()
    plt.show()

    print("‚úÖ Visualiza√ß√µes criadas!")
else:
    print("‚ö†Ô∏è Execute as c√©lulas anteriores primeiro!")


## 4.4 Matriz de Confus√£o e Curvas ROC


In [None]:
if 'models_results' in locals() and len(models_results) > 0:
    # Matriz de confus√£o para cada modelo
    n_models = len(models_results)
    fig, axes = plt.subplots(1, n_models, figsize=(6*n_models, 5))
    if n_models == 1:
        axes = [axes]

    for idx, (model_name, results) in enumerate(models_results.items()):
        cm = confusion_matrix(y_test, results['y_pred'])
        disp = ConfusionMatrixDisplay(confusion_matrix=cm)
        disp.plot(ax=axes[idx], cmap='Blues', values_format='d')
        axes[idx].set_title(f'{model_name}', fontsize=12, fontweight='bold')

    plt.tight_layout()
    plt.show()

    # Curvas ROC
    if len(np.unique(y_test)) == 2:
        fig, ax = plt.subplots(figsize=(10, 8))

        for model_name, results in models_results.items():
            fpr, tpr, _ = roc_curve(y_test, results['y_proba'])
            roc_auc = results['roc_auc']
            ax.plot(fpr, tpr, lw=2, label=f'{model_name} (AUC = {roc_auc:.3f})')

        ax.plot([0, 1], [0, 1], 'k--', lw=1, label='Chance')
        ax.set_xlim([0.0, 1.0])
        ax.set_ylim([0.0, 1.05])
        ax.set_xlabel('Taxa de Falso Positivo', fontsize=12, fontweight='bold')
        ax.set_ylabel('Taxa de Verdadeiro Positivo', fontsize=12, fontweight='bold')
        ax.set_title('Curvas ROC - Compara√ß√£o de Modelos', fontsize=14, fontweight='bold', pad=15)
        ax.legend(loc='lower right', fontsize=10)
        ax.grid(alpha=0.3)
        plt.tight_layout()
        plt.show()

    print("‚úÖ Visualiza√ß√µes de matriz de confus√£o e ROC criadas!")
else:
    print("‚ö†Ô∏è Execute as c√©lulas anteriores primeiro!")


---

# 5. Redu√ß√£o de Dimensionalidade

## 5.1 Aplica√ß√£o de PCA no Melhor Modelo


In [None]:
if 'models_results' in locals() and len(models_results) > 0 and 'best_model_name' in locals():
    print("=" * 80)
    print("üìê REDU√á√ÉO DE DIMENSIONALIDADE - PCA")
    print("=" * 80)

    # Identificar melhor modelo
    best_model = models_results[best_model_name]['model']

    print(f"\nüéØ Modelo selecionado: {best_model_name}")
    print(f"üìä Dimens√µes originais: {X_train.shape[1]} features")

    # Aplicar PCA mantendo 95% da vari√¢ncia
    pca = PCA(n_components=0.95, random_state=RANDOM_STATE)
    X_train_pca = pca.fit_transform(X_train)
    X_test_pca = pca.transform(X_test)

    n_components = X_train_pca.shape[1]
    variance_explained = sum(pca.explained_variance_ratio_)

    print(f"\nüìä Ap√≥s PCA:")
    print(f"  ‚Ä¢ Componentes principais: {n_components}")
    print(f"  ‚Ä¢ Vari√¢ncia explicada: {variance_explained:.4f} ({variance_explained*100:.2f}%)")
    print(f"  ‚Ä¢ Redu√ß√£o de dimensionalidade: {X_train.shape[1] - n_components} features ({((X_train.shape[1] - n_components) / X_train.shape[1]) * 100:.1f}%)")

    # Visualizar vari√¢ncia explicada
    fig, axes = plt.subplots(1, 2, figsize=(14, 5))

    # Gr√°fico de vari√¢ncia explicada acumulada
    cumsum_variance = np.cumsum(pca.explained_variance_ratio_)
    axes[0].plot(range(1, len(cumsum_variance) + 1), cumsum_variance, 'bo-', linewidth=2, markersize=6)
    axes[0].axhline(y=0.95, color='r', linestyle='--', label='95% Vari√¢ncia')
    axes[0].set_xlabel('N√∫mero de Componentes Principais', fontsize=11, fontweight='bold')
    axes[0].set_ylabel('Vari√¢ncia Explicada Acumulada', fontsize=11, fontweight='bold')
    axes[0].set_title('Vari√¢ncia Explicada por Componentes Principais', fontsize=12, fontweight='bold')
    axes[0].legend()
    axes[0].grid(alpha=0.3)

    # Gr√°fico de vari√¢ncia explicada individual
    axes[1].bar(range(1, min(20, len(pca.explained_variance_ratio_)) + 1), 
                pca.explained_variance_ratio_[:20], alpha=0.7, color='steelblue')
    axes[1].set_xlabel('Componente Principal', fontsize=11, fontweight='bold')
    axes[1].set_ylabel('Vari√¢ncia Explicada', fontsize=11, fontweight='bold')
    axes[1].set_title('Vari√¢ncia Explicada Individual (Top 20)', fontsize=12, fontweight='bold')
    axes[1].grid(axis='y', alpha=0.3)

    plt.tight_layout()
    plt.show()

    print(f"\n‚úÖ PCA aplicado com sucesso!")
else:
    print("‚ö†Ô∏è Execute as c√©lulas anteriores primeiro!")


## 5.2 Treinamento do Modelo com PCA


In [None]:
if 'X_train_pca' in locals():
    print("=" * 80)
    print("üî¨ TREINAMENTO DO MODELO COM PCA")
    print("=" * 80)

    # Criar novo modelo do mesmo tipo do melhor modelo
    if 'Random Forest' in best_model_name:
        model_pca = RandomForestClassifier(**best_model.get_params())
    elif 'Log√≠stica' in best_model_name:
        model_pca = LogisticRegression(**best_model.get_params())
    elif 'SVM' in best_model_name:
        model_pca = SVC(**best_model.get_params())
    elif 'Gradient' in best_model_name:
        model_pca = GradientBoostingClassifier(**best_model.get_params())
    else:
        # Fallback: usar o mesmo tipo
        model_pca = type(best_model)(**best_model.get_params())

    print(f"\n‚è≥ Treinando {best_model_name} com dados reduzidos por PCA...")
    model_pca.fit(X_train_pca, y_train)

    # Avaliar no conjunto de teste
    y_pred_pca = model_pca.predict(X_test_pca)
    y_proba_pca = model_pca.predict_proba(X_test_pca)[:, 1] if len(np.unique(y_test)) == 2 else model_pca.predict_proba(X_test_pca)

    # M√©tricas
    accuracy_pca = accuracy_score(y_test, y_pred_pca)
    precision_pca = precision_score(y_test, y_pred_pca, average='weighted')
    recall_pca = recall_score(y_test, y_pred_pca, average='weighted')
    f1_pca = f1_score(y_test, y_pred_pca, average='weighted')

    if len(np.unique(y_test)) == 2:
        roc_auc_pca = roc_auc_score(y_test, y_proba_pca)
    else:
        roc_auc_pca = roc_auc_score(y_test, y_proba_pca, multi_class='ovr', average='weighted')

    print(f"\n‚úÖ Treinamento conclu√≠do!")
    print(f"\nüìä M√©tricas com PCA:")
    print(f"  ‚Ä¢ Accuracy:  {accuracy_pca:.4f}")
    print(f"  ‚Ä¢ Precision: {precision_pca:.4f}")
    print(f"  ‚Ä¢ Recall:    {recall_pca:.4f}")
    print(f"  ‚Ä¢ F1-Score:  {f1_pca:.4f}")
    print(f"  ‚Ä¢ ROC-AUC:   {roc_auc_pca:.4f}")

    # Comparar com modelo original
    accuracy_original = models_results[best_model_name]['accuracy']
    f1_original = models_results[best_model_name]['f1']
    roc_auc_original = models_results[best_model_name]['roc_auc']

    print(f"\nüìä M√©tricas originais (sem PCA):")
    print(f"  ‚Ä¢ Accuracy:  {accuracy_original:.4f}")
    print(f"  ‚Ä¢ F1-Score:  {f1_original:.4f}")
    print(f"  ‚Ä¢ ROC-AUC:   {roc_auc_original:.4f}")

    print(f"\nüìà Compara√ß√£o:")
    print(f"  ‚Ä¢ Accuracy:  {accuracy_pca - accuracy_original:+.4f} ({((accuracy_pca - accuracy_original) / accuracy_original * 100):+.2f}%)")
    print(f"  ‚Ä¢ F1-Score:  {f1_pca - f1_original:+.4f} ({((f1_pca - f1_original) / f1_original * 100):+.2f}%)")
    print(f"  ‚Ä¢ ROC-AUC:   {roc_auc_pca - roc_auc_original:+.4f} ({((roc_auc_pca - roc_auc_original) / roc_auc_original * 100):+.2f}%)")

    # Armazenar resultados
    pca_results = {
        'accuracy': accuracy_pca,
        'precision': precision_pca,
        'recall': recall_pca,
        'f1': f1_pca,
        'roc_auc': roc_auc_pca,
        'n_components': n_components,
        'variance_explained': variance_explained
    }
else:
    print("‚ö†Ô∏è Execute as c√©lulas anteriores primeiro!")


## 5.3 Visualiza√ß√£o Comparativa: Antes vs. Depois do PCA


In [None]:
if 'pca_results' in locals():
    # Gr√°fico comparativo
    fig, axes = plt.subplots(1, 3, figsize=(18, 5))

    metrics = ['Accuracy', 'F1-Score', 'ROC-AUC']
    original_values = [accuracy_original, f1_original, roc_auc_original]
    pca_values = [accuracy_pca, f1_pca, roc_auc_pca]

    x = np.arange(len(metrics))
    width = 0.35

    for idx, (metric, orig, pca) in enumerate(zip(metrics, original_values, pca_values)):
        axes[idx].bar(x[idx] - width/2, orig, width, label='Original', alpha=0.7, color='steelblue')
        axes[idx].bar(x[idx] + width/2, pca, width, label='Com PCA', alpha=0.7, color='coral')
        axes[idx].set_ylabel('Score', fontsize=11, fontweight='bold')
        axes[idx].set_title(f'{metric}', fontsize=12, fontweight='bold')
        axes[idx].set_ylim([0, 1])
        axes[idx].set_xticks([x[idx]])
        axes[idx].set_xticklabels([metric])
        axes[idx].legend()
        axes[idx].grid(axis='y', alpha=0.3)
        axes[idx].text(x[idx] - width/2, orig + 0.02, f'{orig:.3f}', ha='center', fontweight='bold')
        axes[idx].text(x[idx] + width/2, pca + 0.02, f'{pca:.3f}', ha='center', fontweight='bold')

    plt.suptitle('Compara√ß√£o: Modelo Original vs. Modelo com PCA', fontsize=14, fontweight='bold', y=1.02)
    plt.tight_layout()
    plt.show()

    # Discuss√£o dos efeitos
    print("\n" + "=" * 80)
    print("üí° DISCUSS√ÉO DOS EFEITOS DA REDU√á√ÉO DE DIMENSIONALIDADE")
    print("=" * 80)

    print(f"\nüìä Efeitos sobre o desempenho:")
    if accuracy_pca >= accuracy_original * 0.98:
        print("  ‚úÖ Desempenho mantido ou melhorado com PCA")
    else:
        print("  ‚ö†Ô∏è Pequena redu√ß√£o no desempenho, mas aceit√°vel")

    print(f"\nüìä Efeitos sobre a complexidade:")
    print(f"  ‚Ä¢ Redu√ß√£o de {X_train.shape[1] - n_components} features ({((X_train.shape[1] - n_components) / X_train.shape[1]) * 100:.1f}%)")
    print(f"  ‚Ä¢ Tempo de treinamento: Reduzido")
    print(f"  ‚Ä¢ Tempo de predi√ß√£o: Reduzido")
    print(f"  ‚Ä¢ Uso de mem√≥ria: Reduzido")

    print(f"\nüìä Efeitos sobre a visualiza√ß√£o:")
    print(f"  ‚Ä¢ Dados podem ser visualizados em 2D/3D usando componentes principais")
    print(f"  ‚Ä¢ Facilita interpreta√ß√£o e an√°lise explorat√≥ria")

    print(f"\n‚úÖ An√°lise de redu√ß√£o de dimensionalidade conclu√≠da!")
else:
    print("‚ö†Ô∏è Execute as c√©lulas anteriores primeiro!")


---

# 6. Conclus√µes e Discuss√£o Final

## 6.1 Resumo dos Resultados


### üìä Principais Resultados

1. **Melhor Modelo:** [Ser√° preenchido ap√≥s execu√ß√£o]
   - Accuracy: [valor]
   - F1-Score: [valor]
   - ROC-AUC: [valor]

2. **Efeitos da Redu√ß√£o de Dimensionalidade:**
   - Redu√ß√£o de features: [valor]
   - Impacto no desempenho: [an√°lise]

3. **Insights Principais:**
   - [Insight 1]
   - [Insight 2]
   - [Insight 3]

### üéØ Objetivos Alcan√ßados

‚úÖ **EDA Completo:** An√°lise explorat√≥ria com gr√°ficos e estat√≠sticas descritivas
‚úÖ **Pr√©-processamento:** Tratamento de dados ausentes, encoding, normaliza√ß√£o e balanceamento
‚úÖ **M√∫ltiplos Modelos:** Treinamento de 4 algoritmos diferentes
‚úÖ **Fine-tuning:** Ajuste de hiperpar√¢metros com valida√ß√£o cruzada
‚úÖ **Compara√ß√£o:** Avalia√ß√£o com m√∫ltricas apropriadas (Accuracy, F1-Score, ROC-AUC)
‚úÖ **Redu√ß√£o de Dimensionalidade:** Aplica√ß√£o de PCA e compara√ß√£o de desempenho

### üí° Limita√ß√µes e Melhorias Futuras

**Limita√ß√µes:**
- [Limita√ß√£o 1]
- [Limita√ß√£o 2]

**Melhorias Futuras:**
- Testar outros algoritmos (XGBoost, LightGBM, Redes Neurais)
- Feature engineering mais avan√ßado
- Ensemble methods (Stacking, Voting)
- An√°lise de import√¢ncia de features (SHAP values)
- Otimiza√ß√£o bayesiana de hiperpar√¢metros

---

**üìÖ Projeto Final conclu√≠do com sucesso!**
**üî¨ Todas as etapas foram executadas conforme os requisitos.**
