# ü§ñ MODELAGEM DE MACHINE LEARNING PARA SCORE DE CR√âDITO

**Objetivo:** Desenvolver, avaliar e selecionar modelos de Machine Learning para prever a inadimpl√™ncia de clientes.

### üìå Etapas
- Reparar dados para Machine Learning
- Codificar vari√°veis categ√≥ricas
- Dividir em treino e teste
- Treinar m√∫ltiplos modelos de classifica√ß√£o
- Avaliar performance com m√©tricas adequadas
- Selecionar melhor modelo
- Analisar feature importance
- Salvar modelo para produ√ß√£o

### üèÜ Modelo que vamos testar
- Random Forest (Ensemble)
- KNN (K-Nearest Neighbors)
- Logistic Regression (Linear)
- Decision-Tree (Base do Random Forest)

In [33]:
import sqlite3
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import joblib  # Para salvar modelos
from datetime import datetime
import warnings
import os
warnings.filterwarnings('ignore')

# ML
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier

# M√©tricas
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,
    confusion_matrix, classification_report, roc_auc_score,
    roc_curve, ConfusionMatrixDisplay
)

# Configs de visualiza√ß√£o
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("Set2")
%matplotlib inline

In [34]:
# Carregando dados do SQLite
DB_PATH = 'data/database.db'
print(f"\nüìÇ Carregando dados: {DB_PATH}")

conn = sqlite3.connect(DB_PATH)
df = pd.read_sql("SELECT * FROM clientes", conn)
conn.close()


üìÇ Carregando dados: data/database.db


In [35]:
# Codificando vari√°veis categ√≥ricas
print("üîÑ CODIFICANDO VARI√ÅVEIS CATEG√ìRICAS")

# Identifica
cat_cols = df.select_dtypes(include=['object']).columns.tolist()
if 'inadimplente' in cat_cols:
  cat_cols.remove('inadimplente')

print(f"\nüìù Vari√°veis categ√≥ricas: {cat_cols}")

# Codifica e salva encoders
encoders = {}

os.makedirs('../models', exist_ok=True)

for col in cat_cols:
  encoder = LabelEncoder()
  df[col] = encoder.fit_transform(df[col])
  encoders[col] = encoder
    
  joblib.dump(encoder, f'../models/encoder_{col}.pkl')
  print(f"   ‚úÖ {col}: {list(encoder.classes_)}")

print(f"\nüíæ {len(encoders)} encoders salvos em ../models/")

üîÑ CODIFICANDO VARI√ÅVEIS CATEG√ìRICAS

üìù Vari√°veis categ√≥ricas: ['genero', 'estado_civil', 'escolaridade', 'estado', 'ocupacao']
   ‚úÖ genero: ['F', 'M']
   ‚úÖ estado_civil: ['Casado', 'Divorciado', 'Solteiro', 'Vi√∫vo']
   ‚úÖ escolaridade: ['Fundamental', 'M√©dio', 'P√≥s-gradua√ß√£o', 'Superior']
   ‚úÖ estado: ['BA', 'CE', 'GO', 'MG', 'PE', 'PR', 'RJ', 'RS', 'SC', 'SP']
   ‚úÖ ocupacao: ['Aut√¥nomo', 'CLT', 'Desempregado', 'Empres√°rio']

üíæ 5 encoders salvos em ../models/


In [36]:
# Prepara X e Y
print("‚úÇÔ∏è SEPARANDO FEATURES (X) E TARGET (y)")

# Remove ID (coluna desnecess√°ria) e Target (Principal)
X = df.drop(columns=['id_cliente', 'inadimplente'])
y = df['inadimplente']

print(f"\nüìä X: {X.shape} - {X.shape[1]} features")
print(f"üìä y: {y.shape}")
print(f"\nFeatures: {list(X.columns)}")

‚úÇÔ∏è SEPARANDO FEATURES (X) E TARGET (y)

üìä X: (100000, 15) - 15 features
üìä y: (100000,)

Features: ['idade', 'genero', 'estado_civil', 'escolaridade', 'estado', 'renda_anual', 'valor_patrimonio', 'possui_imovel_proprio', 'possui_carro', 'ocupacao', 'numero_dependentes', 'tempo_emprego_atual', 'score_serasa_externo', 'utilizacao_limite_cartao', 'historico_atraso_90_dias']


In [37]:
# Dividir Treino/Teste
print("üîÄ TREINO/TESTE (70/30)")

X_train, X_test, y_train, y_test = train_test_split(
  X, y,
  test_size=0.3,
  random_state=42,
  stratify=y
)

print(f"\n‚úÖ Treino: {len(X_train):,} ({len(X_train)/len(X)*100:.0f}%)")
print(f"‚úÖ Teste:  {len(X_test):,} ({len(X_test)/len(X)*100:.0f}%)")
print(f"\nTaxa inadimpl√™ncia treino: {y_train.mean()*100:.2f}%")
print(f"Taxa inadimpl√™ncia teste:  {y_test.mean()*100:.2f}%")

üîÄ TREINO/TESTE (70/30)

‚úÖ Treino: 70,000 (70%)
‚úÖ Teste:  30,000 (30%)

Taxa inadimpl√™ncia treino: 19.20%
Taxa inadimpl√™ncia teste:  19.20%


In [38]:
# Normaliza√ß√£o (Para KNN e LR)
print("‚öñÔ∏è NORMALIZA√á√ÉO (StandardScaler)")

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Converte de volta para DataFrame
X_train_scaled = pd.DataFrame(
  X_train_scaled,
  columns=X.columns,
  index=X_train.index
)

X_test_scaled = pd.DataFrame(
  X_test_scaled,
  columns=X.columns,
  index=X_test.index
)

print("‚úÖ Dados normalizados (m√©dia=0, std=1)")
joblib.dump(scaler, '../models/scaler.pkl')
print("üíæ Scaler salvo em ../models/scaler.pkl")

‚öñÔ∏è NORMALIZA√á√ÉO (StandardScaler)
‚úÖ Dados normalizados (m√©dia=0, std=1)
üíæ Scaler salvo em ../models/scaler.pkl


In [39]:
# Treinar Modelos
print("ü§ñ TREINANDO MODELOS")

modelos = {}

# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# RANDOM FOREST
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
print("\n1Ô∏è‚É£ Random Forest...")
modelo_rf = RandomForestClassifier(
    n_estimators=100,
    max_depth=20,
    min_samples_split=10,
    random_state=42,
    n_jobs=-1,
    class_weight='balanced'  # IMPORTANTE: lida com desbalanceamento
)
modelo_rf.fit(X_train, y_train)
modelos['Random Forest'] = modelo_rf
print("‚úÖ Treinado (SEM normaliza√ß√£o)")


# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# LOGISTIC REGRESSION
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
print("\n2Ô∏è‚É£ Logistic Regression...")
modelo_lr = LogisticRegression(
    max_iter=1000,
    random_state=42,
    class_weight='balanced',
    n_jobs=-1
)
modelo_lr.fit(X_train, y_train)
modelos['Logistic Regression'] = modelo_lr
print("‚úÖ Treinado (COM normaliza√ß√£o)")


# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
# KNN (K-Nearest Neighbors)
# ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
print("\n3Ô∏è‚É£ KNN...")
modelo_knn = KNeighborsClassifier(
    n_neighbors=5,
    weights='distance',
    n_jobs=-1
)
modelo_knn.fit(X_train_scaled, y_train)
modelos['KNN'] = modelo_knn
print("‚úÖ Treinado (COM normaliza√ß√£o)")


ü§ñ TREINANDO MODELOS

1Ô∏è‚É£ Random Forest...
‚úÖ Treinado (SEM normaliza√ß√£o)

2Ô∏è‚É£ Logistic Regression...
‚úÖ Treinado (COM normaliza√ß√£o)

3Ô∏è‚É£ KNN...
‚úÖ Treinado (COM normaliza√ß√£o)


In [None]:
# Previs√µes
print("üîÆ FAZENDO PREVIS√ïES")

previsoes = {}
probabilidades = {}

# RF (sem normaliza√ß√£o)
previsoes['Random Forest'] = modelo_rf.predict(X_test)
probabilidades['Random Forest'] = modelo_rf.predict_proba(X_test)[:, 1]

# LR (com normaliza√ß√£o)
previsoes['Logistic Regression'] = modelo_lr.predict(X_test_scaled)
probabilidades['Logistic Regression'] = modelo_lr.predict_proba(X_test_scaled)[:, 1]

# KNN (com normaliza√ß√£o)
previsoes['KNN'] = modelo_knn.predict(X_test_scaled)
probabilidades['KNN'] = modelo_knn.predict_proba(X_test_scaled)[:, 1]

üîÆ FAZENDO PREVIS√ïES


In [None]:
# Avaliar Modelos - M√âTRICAS COMPLETAS
print("üìä AVALIA√á√ÉO DOS MODELOS")

"""
IMPORTANTE: Em cr√©dito, RECALL √© mais importante que ACCURACY!

Por qu√™?
- Accuracy alta pode ser enganosa (prev√™ tudo como adimplente)
- RECALL mede: "dos inadimplentes reais, quantos detectamos?"
- Em cr√©dito, N√ÉO detectar inadimplente √© mais caro!

M√©tricas priorizadas:
1. Recall (classe inadimplente)
2. AUC-ROC (performance geral)
3. F1-Score (balan√ßo)
"""

resultados = {}

for nome in modelos.keys():
      y_pred = previsoes[nome]
      y_prob = probabilidades[nome]
    
      # Calcula m√©tricas
      acc = accuracy_score(y_test, y_pred)
      prec = precision_score(y_test, y_pred)
      rec = recall_score(y_test, y_pred)  # ‚Üê M√âTRICA PRINCIPAL
      f1 = f1_score(y_test, y_pred)
      auc = roc_auc_score(y_test, y_prob)
    
      resultados[nome] = {
          'Accuracy': acc,
          'Precision': prec,
          'Recall': rec,        # ‚Üê PRIORIDADE
          'F1-Score': f1,
          'AUC-ROC': auc        # ‚Üê MUITO IMPORTANTE EM CR√âDITO
      }
    
      print(f"\n{'‚ïê'*80}")
      print(f"üìå {nome}")
      print(f"{'‚ïê'*80}")
      print(f"   Accuracy:  {acc:.4f} ({acc*100:.2f}%)")
      print(f"   Precision: {prec:.4f} ({prec*100:.2f}%)")
      print(f"   Recall:    {rec:.4f} ({rec*100:.2f}%) ‚≠ê PRINCIPAL")
      print(f"   F1-Score:  {f1:.4f} ({f1*100:.2f}%)")
      print(f"   AUC-ROC:   {auc:.4f} ({auc*100:.2f}%) ‚≠ê IMPORTANTE")
    
      print(f"\nüí° Interpreta√ß√£o:")
      print(f"‚Ä¢ Detecta {rec*100:.0f}% dos inadimplentes reais")
      print(f"‚Ä¢ Quando aprova, {prec*100:.0f}% s√£o confi√°veis")


üìä AVALIA√á√ÉO DOS MODELOS

‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
üìå Random Forest
‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê
   Accuracy:  0.8130 (81.30%)
   Precision: 0.5114 (51.14%)
   Recall:    0.5843 (58.43%) ‚≠ê PRINCIPAL
   F1-Score:  0.5454 (54.54%)
   AUC-ROC:   0.8524 (85.24%) ‚≠ê IMPORTANTE

üí° Interpreta√ß√£o:
‚Ä¢ Detecta 58% dos inadimplentes reais

‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚

KeyError: 'KNN'