In [None]:
# notebook: modelagem_predictiva_dau.ipynb

In [None]:
# 1. IMPORTAÇÕES E CONEXÃO
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, RocCurveDisplay
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import GradientBoostingClassifier

import sqlalchemy

# Conecte ao seu banco - ajuste para seu ambiente
engine = sqlalchemy.create_engine("postgresql://usuario:senha@host:porta/database")

query = """
SELECT
 cpf_cnpj_x
,tipo_pessoa
,tipo_devedor
,numero_inscricao
,tipo_situacao_inscricao
,situacao_inscricao
,data_inscricao
,indicador_ajuizado
,valor_consolidado
,origem
,ttl_divida_1
,ttl_inscricoes_1
,perc_inscricao_1
,idade_divida_dias
,target
,valor_consolidado_4
,ttl_divida_4
,ttl_inscricoes_4
,cd_cnpj
,nm_tipo_estabelecimento
,dt_abertura
,nm_empresarial
,nm_fantasia
,nm_porte
,vl_capital_social
,cd_natureza_juridica
,nm_natureza_juridica
,nm_situacao_cadastral
,nm_regiao_politica
,cd_nivel1_secao
,nm_nivel1_secao
from  spd_grcl.dau
"""

df = pd.read_sql(query, engine)
df.head()


In [None]:
# 2. ANÁLISE EXPLORATÓRIA

print(df.info())
print(df['target'].value_counts())

# Visualização
sns.countplot(x='target', data=df)
plt.title('Distribuição da variável alvo')
plt.show()

# Verificar valores faltantes
missing = df.isnull().mean().sort_values(ascending=False)
print(missing[missing > 0])

# Correlação
num_cols = df.select_dtypes(include=[np.number]).columns
corr = df[num_cols].corr()
plt.figure(figsize=(10,8))
sns.heatmap(corr[['target']].sort_values(by='target', ascending=False), annot=True, cmap='coolwarm')
plt.title('Correlação com target')
plt.show()


In [None]:
# 3. PRÉ-PROCESSAMENTO

# Separar variáveis
X = df.drop(columns=['target', 'cpf_cnpj_x', 'numero_inscricao', 'cd_cnpj', 'nm_empresarial', 'nm_fantasia'])
y = df['target']

# Tipos de variáveis
num_vars = X.select_dtypes(include=np.number).columns.tolist()
cat_vars = X.select_dtypes(include='object').columns.tolist()

# Pré-processador
num_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

cat_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('encoder',  OneHotEncoder(handle_unknown='ignore'))
])

from sklearn.preprocessing import OneHotEncoder

preprocessor = ColumnTransformer([
    ('num', num_pipeline, num_vars),
    ('cat', cat_pipeline, cat_vars)
])


In [None]:
# 4. SPLIT E DEFINIÇÃO DE MODELOS

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.3, random_state=42)

models = {
    'LogisticRegression': LogisticRegression(max_iter=500),
    'RandomForest': RandomForestClassifier(),
    'GradientBoosting': GradientBoostingClassifier()
}

params = {
    'LogisticRegression': {
        'model__C': [0.1, 1, 10]
    },
    'RandomForest': {
        'model__n_estimators': [100, 200],
        'model__max_depth': [5, 10]
    },
    'GradientBoosting': {
        'model__n_estimators': [100, 200],
        'model__learning_rate': [0.01, 0.1],
        'model__max_depth': [3, 5]
    }
}


In [None]:
# 5. GRIDSEARCH E AVALIAÇÃO

best_models = {}
scores = {}

for name, model in models.items():
    print(f"Treinando {name}...")
    pipe = Pipeline(steps=[
        ('preprocessor', preprocessor),
        ('model', model)
    ])
    
    grid = GridSearchCV(pipe, params[name], cv=3, scoring='roc_auc', n_jobs=-1)
    grid.fit(X_train, y_train)
    
    best_models[name] = grid.best_estimator_
    y_pred = grid.predict(X_test)
    y_proba = grid.predict_proba(X_test)[:, 1]
    auc = roc_auc_score(y_test, y_proba)
    scores[name] = auc
    
    print(f"\nModelo: {name}")
    print("Melhores parâmetros:", grid.best_params_)
    print("AUC ROC:", auc)
    print(classification_report(y_test, y_pred))

    # Salvar Matriz de Confusão
    cm = confusion_matrix(y_test, y_pred)
    sns.heatmap(cm, annot=True, fmt="d", cmap='Blues')
    plt.title(f'Matriz de Confusão - {name}')
    plt.savefig(f'confusion_matrix_{name}.png')
    plt.close()

    # Salvar curva ROC
    RocCurveDisplay.from_estimator(grid, X_test, y_test)
    plt.title(f'Curva ROC - {name}')
    plt.savefig(f'roc_curve_{name}.png')
    plt.close()


In [None]:
# 6. MELHOR MODELO
melhor_modelo = max(scores, key=scores.get)
print(f"Melhor modelo: {melhor_modelo} com AUC = {scores[melhor_modelo]}")
