In [None]:
# # An√°lise de Inadimpl√™ncia em Cart√£o de Cr√©dito
# ## 1. Informa√ß√µes B√°sicas
# 
# ‚Ä¢ Nome do dataset: Default of Credit Card Clients  
# ‚Ä¢ Fonte: [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients)  
# ‚Ä¢ Dimens√µes: 30.000 linhas √ó 25 colunas  
# ‚Ä¢ Tamanho em MB: ~3.7 MB  

# %%
# Importa√ß√£o de bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score, roc_auc_score
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√£o de estilo
plt.style.use('default')
sns.set_palette("husl")
%matplotlib inline

# %%
# Carregar os dados
df = pd.read_excel('../data/default_of_credit_card_clients.xls', header=1)

# Verificar dimens√µes iniciais
print("=== INFORMA√á√ïES INICIAIS ===")
print(f"Dimens√µes do dataset: {df.shape}")
print(f"Tamanho aproximado em MB: {round(df.memory_usage(deep=True).sum() / (1024**2), 2)}")

# %%
# Visualizar as primeiras linhas
print("\nPrimeiras 5 linhas do dataset:")
df.head()

# %%
# Informa√ß√µes sobre colunas e tipos de dados
print("\nInforma√ß√µes sobre colunas e tipos de dados:")
df.info()

# ## üéØ VALIDA√á√ÉO DAS INFORMA√á√ïES

# %%
# =============================================================================
# VALIDA√á√ÉO COMPLETA DOS DADOS
# =============================================================================

print("=== VALIDA√á√ÉO DOS DADOS ===\n")

# 1. Dimens√µes confirmadas
print(f"1. Dimens√µes confirmadas: {df.shape}")

# 2. Tamanho em MB
size_mb = round(df.memory_usage(deep=True).sum() / (1024**2), 2)
print(f"2. Tamanho em MB: {size_mb} MB")

# 3. Renomear coluna target
df.rename(columns={'default payment next month': 'inadimplente'}, inplace=True)
print("3. Coluna target renomeada para 'inadimplente'")

# 4. Distribui√ß√£o do target
target_dist = df['inadimplente'].value_counts()
print(f"4. Distribui√ß√£o do target:")
print(f"   - Classe 0 (N√£o inadimplente): {target_dist[0]} ({target_dist[0]/len(df)*100:.2f}%)")
print(f"   - Classe 1 (Inadimplente): {target_dist[1]} ({target_dist[1]/len(df)*100:.2f}%)")

# 5. Valores nulos
null_count = df.isnull().sum().sum()
print(f"5. Valores nulos totais: {null_count}")
print(f"   - Dataset completo: {null_count == 0}")

# 6. Tipos de dados
print("6. Tipos de dados presentes:")
print(df.dtypes.value_counts())

# 7. Duplicatas
duplicatas = df.duplicated().sum()
print(f"7. Linhas duplicadas: {duplicatas}")

# 8. Estat√≠sticas b√°sicas
print("\n8. Estat√≠sticas descritivas b√°sicas:")
print(df.describe())

# ## 2. Problema de Machine Learning
# 
# ‚Ä¢ Tipo: [X] Classifica√ß√£o [ ] Regress√£o  
# ‚Ä¢ Vari√°vel alvo (target): `inadimplente`  
# ‚Ä¢ N√∫mero de classes: 2 (0 = N√£o inadimplente, 1 = Inadimplente)  
# ‚Ä¢ Distribui√ß√£o do target:  
#   - Classe 0: 23.364 casos (77,88%)  
#   - Classe 1: 6.636 casos (22,12%)  
#   - Dataset apresenta desbalanceamento moderado

# ## 3. Qualidade dos Dados
# 
# ‚Ä¢ % valores faltantes: 0% (dataset completo)  
# ‚Ä¢ Tipos de vari√°veis: 
#   - Num√©ricas cont√≠nuas: LIMIT_BAL, BILL_AMT1 at√© BILL_AMT6, PAY_AMT1 at√© PAY_AMT6  
#   - Categ√≥ricas: SEX, EDUCATION, MARRIAGE, PAY_0 at√© PAY_6  
#   - Datas: Nenhuma  
#   - Texto: Nenhuma  
# ‚Ä¢ Qualidade geral: Excelente - dados completos e estruturados

# ## 4. Justificativa
# 
# ‚Ä¢ Por que escolhemos este dataset? 
#   Dataset cl√°ssico e bem-estruturado para aprendizado de classifica√ß√£o bin√°ria, com aplica√ß√£o pr√°tica real no setor financeiro. Ideal para aprendizado dos fundamentos de ML.
# 
# ‚Ä¢ Qual problema real queremos resolver?
#   Prever a inadimpl√™ncia de clientes com anteced√™ncia, permitindo que institui√ß√µes financeiras reduzam perdas, otimizem a gest√£o de risco de cr√©dito e criem estrat√©gias de reten√ß√£o proativas.
# 
# ‚Ä¢ Que insights esperamos encontrar?
#   Identificar os principais fatores preditivos de inadimpl√™ncia (hist√≥rico de pagamentos, limite de cr√©dito, demografia), entender padr√µes de comportamento e construir um modelo com boa capacidade preditiva.

# %%
# =============================================================================
# AN√ÅLISE EXPLORAT√ìRIA DE DADOS (EDA)
# =============================================================================

# ## 5. An√°lise Explorat√≥ria (EDA)

# %%
# Distribui√ß√£o da vari√°vel target
plt.figure(figsize=(10, 6))
plt.subplot(1, 2, 1)
sns.countplot(x='inadimplente', data=df)
plt.title('Distribui√ß√£o de Inadimplentes')
plt.xlabel('Inadimplente (0 = N√£o, 1 = Sim)')
plt.ylabel('Contagem')

plt.subplot(1, 2, 2)
plt.pie(target_dist.values, labels=['N√£o Inadimplente', 'Inadimplente'], 
        autopct='%1.1f%%', colors=['lightblue', 'lightcoral'])
plt.title('Propor√ß√£o de Inadimpl√™ncia')
plt.show()

# %%
# An√°lise de correla√ß√µes (apenas com algumas vari√°veis para performance)
print("Correla√ß√£o com a vari√°vel target (inadimplente):")
correlation_with_target = df.corr()['inadimplente'].sort_values(ascending=False)
print(correlation_with_target.head(10))

# Heatmap de correla√ß√£o das vari√°veis mais relevantes
plt.figure(figsize=(12, 8))
top_features = correlation_with_target.abs().sort_values(ascending=False).head(10).index
sns.heatmap(df[top_features].corr(), annot=True, cmap='coolwarm', center=0, fmt='.2f')
plt.title('Matriz de Correla√ß√£o - Top 10 Features')
plt.show()

# %%
# An√°lise de algumas vari√°veis importantes
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# LIMIT_BAL por inadimpl√™ncia
sns.boxplot(x='inadimplente', y='LIMIT_BAL', data=df, ax=axes[0,0])
axes[0,0].set_title('Limite de Cr√©dito vs Inadimpl√™ncia')
axes[0,0].set_xlabel('Inadimplente')
axes[0,0].set_ylabel('Limite de Cr√©dito')

# SEX (G√™nero) por inadimpl√™ncia
sex_counts = pd.crosstab(df['SEX'], df['inadimplente'])
sex_counts.plot(kind='bar', ax=axes[0,1])
axes[0,1].set_title('Inadimpl√™ncia por G√™nero')
axes[0,1].set_xlabel('G√™nero (1=M, 2=F)')
axes[0,1].set_ylabel('Contagem')

# EDUCATION por inadimpl√™ncia
edu_counts = pd.crosstab(df['EDUCATION'], df['inadimplente'])
edu_counts.plot(kind='bar', ax=axes[1,0])
axes[1,0].set_title('Inadimpl√™ncia por Educa√ß√£o')
axes[1,0].set_xlabel('N√≠vel Educacional')
axes[1,0].set_ylabel('Contagem')

# AGE por inadimpl√™ncia
sns.histplot(data=df, x='AGE', hue='inadimplente', bins=30, ax=axes[1,1])
axes[1,1].set_title('Distribui√ß√£o de Idade por Inadimpl√™ncia')
axes[1,1].set_xlabel('Idade')

plt.tight_layout()
plt.show()

# ## 6. Prepara√ß√£o para Machine Learning

# %%
# Separar features e target
X = df.drop('inadimplente', axis=1)
y = df['inadimplente']

# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"Shape do X_train: {X_train.shape}")
print(f"Shape do X_test: {X_test.shape}")
print(f"Propor√ß√£o no treino: {y_train.value_counts(normalize=True).values}")
print(f"Propor√ß√£o no teste: {y_test.value_counts(normalize=True).values}")

# %%
# Modelo 1: Random Forest
print("=== RANDOM FOREST ===")
rf_model = RandomForestClassifier(n_estimators=100, random_state=42, class_weight='balanced')
rf_model.fit(X_train, y_train)
y_pred_rf = rf_model.predict(X_test)

print("Relat√≥rio de Classifica√ß√£o:")
print(classification_report(y_test, y_pred_rf))
print(f"Acur√°cia: {accuracy_score(y_test, y_pred_rf):.4f}")
print(f"ROC AUC: {roc_auc_score(y_test, rf_model.predict_proba(X_test)[:, 1]):.4f}")

# %%
# Modelo 2: Regress√£o Log√≠stica
print("=== REGRESS√ÉO LOG√çSTICA ===")
lr_model = LogisticRegression(random_state=42, class_weight='balanced', max_iter=1000)
lr_model.fit(X_train, y_train)
y_pred_lr = lr_model.predict(X_test)

print("Relat√≥rio de Classifica√ß√£o:")
print(classification_report(y_test, y_pred_lr))
print(f"Acur√°cia: {accuracy_score(y_test, y_pred_lr):.4f}")
print(f"ROC AUC: {roc_auc_score(y_test, lr_model.predict_proba(X_test)[:, 1]):.4f}")

# %%
# Matriz de Confus√£o - Random Forest
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
cm_rf = confusion_matrix(y_test, y_pred_rf)
sns.heatmap(cm_rf, annot=True, fmt='d', cmap='Blues')
plt.title('Matriz de Confus√£o - Random Forest')
plt.ylabel('Verdadeiro')
plt.xlabel('Previsto')

plt.subplot(1, 2, 2)
cm_lr = confusion_matrix(y_test, y_pred_lr)
sns.heatmap(cm_lr, annot=True, fmt='d', cmap='Reds')
plt.title('Matriz de Confus√£o - Regress√£o Log√≠stica')
plt.ylabel('Verdadeiro')
plt.xlabel('Previsto')

plt.tight_layout()
plt.show()

# %%
# Import√¢ncia das features - Random Forest
feature_importance = pd.DataFrame({
    'feature': X.columns,
    'importance': rf_model.feature_importances_
}).sort_values('importance', ascending=False)

plt.figure(figsize=(12, 8))
sns.barplot(x='importance', y='feature', data=feature_importance.head(15))
plt.title('Top 15 Features Mais Importantes - Random Forest')
plt.show()

print("Top 10 features mais importantes:")
print(feature_importance.head(10))

# ## 7. Conclus√µes e Pr√≥ximos Passos
# 
# Principais Insights:
# - Dataset bem balanceado para um problema de cr√©dito (22% inadimpl√™ncia)
# - Vari√°veis de hist√≥rico de pagamento (PAY_0 a PAY_6) s√£o as mais importantes
# - Random Forest performou melhor que Regress√£o Log√≠stica
# - Modelo conseguiu capturar padr√µes preditivos relevantes
# 
# Pr√≥ximos Passos Sugeridos:
# 1. Tratamento de desbalanceamento (SMOTE, undersampling)
# 2. Engenharia de features mais avan√ßada
# 3. Otimiza√ß√£o de hiperpar√¢metros
# 4. Teste com outros modelos (XGBoost, LightGBM)
# 5. Valida√ß√£o cruzada mais robusta

# %%
# Salvar resultados finais
results = {
    'modelo': ['Random Forest', 'Regress√£o Log√≠stica'],
    'acuracia': [
        accuracy_score(y_test, y_pred_rf),
        accuracy_score(y_test, y_pred_lr)
    ],
    'roc_auc': [
        roc_auc_score(y_test, rf_model.predict_proba(X_test)[:, 1]),
        roc_auc_score(y_test, lr_model.predict_proba(X_test)[:, 1])
    ]
}

results_df = pd.DataFrame(results)
print("=== RESULTADOS FINAIS ===")
print(results_df)