In [9]:
# Célula 1 - Importar bibliotecas
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score
import joblib
import warnings
warnings.filterwarnings('ignore')

print("✅ Bibliotecas importadas!")

# Célula 2 - Carregar dados (USE MESMO CAMINHO DO NOTEBOOK 1)
try:
    # Use o mesmo caminho que funcionou no Notebook 1
    caminho_absoluto = r'C:\Users\cesar\OneDrive\Área de Trabalho\projeto-xhealth\_data\dataset_2021-5-26-10-14.csv'
    df = pd.read_csv(caminho_absoluto, sep='\t', encoding='utf-8')
    df = df.replace('missing', np.nan)
    print("✅ Dados carregados!")
except Exception as e:
    print("❌ Erro ao carregar dados:", e)
    print("❌ Use o mesmo caminho do Notebook 1!")

# Célula 3 - Separar features e target
X = df.drop('default', axis=1)
y = df['default']

print("📊 Shape de X:", X.shape)
print("📊 Shape de y:", y.shape)

# Célula 4 - Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print("✅ Dados divididos!")
print("📊 X_train shape:", X_train.shape)
print("📊 X_test shape:", X_test.shape)

# Célula 5 - Identificar tipos de colunas
numeric_features = X.select_dtypes(include=['int64', 'float64']).columns.tolist()
categorical_features = X.select_dtypes(include=['object']).columns.tolist()

print("🔢 Numéricas:", numeric_features)
print("🔤 Categóricas:", categorical_features)

# Célula 6 - Pré-processamento
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Célula 7 - Criar modelo
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(
        n_estimators=100,
        random_state=42,
        class_weight='balanced'
    ))
])

# Célula 8 - Treinar modelo
print("🤖 Treinando modelo...")
model.fit(X_train, y_train)
print("✅ Modelo treinado!")

# Célula 9 - Fazer previsões
y_pred = model.predict(X_test)
y_pred_proba = model.predict_proba(X_test)[:, 1]

# Célula 10 - Avaliar modelo
print("\n📊 RELATÓRIO DE CLASSIFICAÇÃO:")
print(classification_report(y_test, y_pred))

print("\n📈 MATRIZ DE CONFUSÃO:")
print(confusion_matrix(y_test, y_pred))

print("\n🎯 AUC-ROC SCORE:", roc_auc_score(y_test, y_pred_proba))

# Célula 11 - Salvar modelo
joblib.dump(model, 'modelo_default.pkl')
print("\n💾 Modelo salvo como 'modelo_default.pkl'")

# Célula 12 - Verificar se arquivo foi criado
import os
if os.path.exists('modelo_default.pkl'):
    print("✅ Arquivo modelo_default.pkl criado com sucesso!")
    print("📏 Tamanho:", os.path.getsize('modelo_default.pkl'), "bytes")
else:
    print("❌ Erro ao salvar o modelo!")

print("\n🎉 NOTEBOOK 2 CONCLUÍDO! Agora execute o Notebook 3.")

✅ Bibliotecas importadas!
✅ Dados carregados!
📊 Shape de X: (117273, 21)
📊 Shape de y: (117273,)
✅ Dados divididos!
📊 X_train shape: (93818, 21)
📊 X_test shape: (23455, 21)
🔢 Numéricas: ['default_3months', 'ioi_36months', 'ioi_3months', 'valor_por_vencer', 'valor_vencido', 'valor_quitado', 'quant_protestos', 'valor_protestos', 'quant_acao_judicial', 'acao_judicial_valor', 'participacao_falencia_valor', 'dividas_vencidas_valor', 'dividas_vencidas_qtd', 'falencia_concordata_qtd', 'valor_total_pedido', 'month', 'year']
🔤 Categóricas: ['tipo_sociedade', 'opcao_tributaria', 'atividade_principal', 'forma_pagamento']
🤖 Treinando modelo...
✅ Modelo treinado!

📊 RELATÓRIO DE CLASSIFICAÇÃO:
              precision    recall  f1-score   support

           0       0.91      0.99      0.95     19546
           1       0.91      0.50      0.65      3909

    accuracy                           0.91     23455
   macro avg       0.91      0.75      0.80     23455
weighted avg       0.91      0.91     