# Previsão de Inadimplência de Crédito 📉
Este notebook realiza análise exploratória, modelagem e avaliação de modelos para prever inadimplência.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score
from sklearn.datasets import make_classification


## 1. Carregamento dos Dados

In [None]:
import pandas as pd

# Ler CSV e ajustar colunas (mesmo esquema)
with open('/content/drive/MyDrive/UCI_Credit_Card.csv', 'r') as f:
    header = f.readline().strip().replace('"', '')
colunas = header.split(',')

df = pd.read_csv('/content/drive/MyDrive/UCI_Credit_Card.csv', sep=',', header=None, skiprows=1)
df.columns = colunas
df = df.rename(columns={'default.payment.next.month': 'default'})

# Selecionar as colunas que você quer:
# idade, saldo bancário, histórico de crédito (ex: PAY_0, PAY_2, PAY_3...), default
colunas_interesse = ['IDADE', 'LIMIT_BAL', 'PAY_0', 'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'default']

tabela_principal = df[colunas_interesse]

# Mostrar as primeiras linhas
print("Tabela com idade, saldo, histórico de crédito e default:")
display(tabela_principal.head(10))

PREPARAÇAO DE DADOS

## 4. Análise Exploratória

In [None]:
sns.pairplot(df, hue='default')
plt.show()

plt.figure(figsize=(10, 8))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.title("Mapa de Correlação")
plt.show()


## 5. Pré-processamento

In [None]:
X = df.drop("default", axis=1)
y = df["default"]

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)


## 6. Modelagem e Avaliação dos Modelos

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, classification_report, roc_auc_score, accuracy_score

log_model = LogisticRegression(C=10, max_iter=500, random_state=42)
log_model.fit(X_train, y_train)

rf_model = RandomForestClassifier(n_estimators=200, random_state=42)
rf_model.fit(X_train, y_train)

def avaliar_modelo(nome, modelo):
    pred = modelo.predict(X_test)
    auc = roc_auc_score(y_test, pred)
    acc = accuracy_score(y_test, pred)

    print(f"\n📌 Modelo: {nome}")
    print(confusion_matrix(y_test, pred))
    print(classification_report(y_test, pred))
    print(f"Acurácia: {acc * 100:.2f}%")
    print(f"AUC: {auc * 100:.2f}%")

avaliar_modelo("Regressão Logística", log_model)
avaliar_modelo("Random Forest", rf_model)