In [5]:
import pandas as pd
import numpy as np

In [14]:
# Carregar dataset criado
df = pd.read_csv('../data/raw/credit_default_dataset.csv')

In [15]:
# 1. Análise da Distribuição da Variável Target
print("\nANÁLISE DA VARIÁVEL TARGET")
print("-" * 40)
default_counts = df['default'].value_counts()
default_props = df['default'].value_counts(normalize=True)

print("Distribuição de Inadimplência:")
print(f"  Adimplentes (0): {default_counts[0]:,} ({default_props[0]:.1%})")
print(f"  Inadimplentes (1): {default_counts[1]:,} ({default_props[1]:.1%})")
print(f"  Razão Inadimplentes/Adimplentes: 1:{default_counts[0]/default_counts[1]:.1f}")


ANÁLISE DA VARIÁVEL TARGET
----------------------------------------
Distribuição de Inadimplência:
  Adimplentes (0): 4,580 (91.6%)
  Inadimplentes (1): 420 (8.4%)
  Razão Inadimplentes/Adimplentes: 1:10.9


In [18]:
print("\nANÁLISE DEMOGRÁFICA")
print("-" * 40)

print("📊 Distribuição por Gênero:")
sex_analysis = df.groupby('SEX')['default'].agg(['count', 'sum', 'mean']).round(3)
sex_analysis.index = ['Masculino (1)', 'Feminino (2)']
sex_analysis.columns = ['Total', 'Inadimplentes', 'Taxa_Inadimplência']
print(sex_analysis)

print("\n📊 Distribuição por Educação:")
edu_analysis = df.groupby('EDUCATION')['default'].agg(['count', 'sum', 'mean']).round(3)
edu_analysis.index = ['Pós-graduação (1)', 'Universidade (2)', 'Ensino Médio (3)', 'Outros (4)']
edu_analysis.columns = ['Total', 'Inadimplentes', 'Taxa_Inadimplência']
print(edu_analysis)

print("\n📊 Distribuição por Estado Civil:")
marriage_analysis = df.groupby('MARRIAGE')['default'].agg(['count', 'sum', 'mean']).round(3)
marriage_analysis.index = ['Casado (1)', 'Solteiro (2)', 'Outros (3)']
marriage_analysis.columns = ['Total', 'Inadimplentes', 'Taxa_Inadimplência']
print(marriage_analysis)


ANÁLISE DEMOGRÁFICA
----------------------------------------
📊 Distribuição por Gênero:
               Total  Inadimplentes  Taxa_Inadimplência
Masculino (1)   2039            172               0.084
Feminino (2)    2961            248               0.084

📊 Distribuição por Educação:
                   Total  Inadimplentes  Taxa_Inadimplência
Pós-graduação (1)    752             59               0.078
Universidade (2)    2283            191               0.084
Ensino Médio (3)    1738            151               0.087
Outros (4)           227             19               0.084

📊 Distribuição por Estado Civil:
              Total  Inadimplentes  Taxa_Inadimplência
Casado (1)     2468            217               0.088
Solteiro (2)   2031            158               0.078
Outros (3)      501             45               0.090


In [20]:
print("\nANÁLISE ETÁRIA")
print("-" * 40)
print("📊 Estatísticas de Idade por Status:")
age_stats = df.groupby('default')['AGE'].describe().round(1)
age_stats.index = ['Adimplentes', 'Inadimplentes']
print(age_stats[['count', 'mean', 'std', 'min', '25%', '50%', '75%', 'max']])

df['age_group'] = pd.cut(df['AGE'], 
                        bins=[0, 25, 35, 45, 55, 100], 
                        labels=['18-25', '26-35', '36-45', '46-55', '56+'])

print("\n📊 Taxa de Inadimplência por Faixa Etária:")
age_group_analysis = df.groupby('age_group')['default'].agg(['count', 'sum', 'mean']).round(3)
age_group_analysis.columns = ['Total', 'Inadimplentes', 'Taxa_Inadimplência']
print(age_group_analysis)


ANÁLISE ETÁRIA
----------------------------------------
📊 Estatísticas de Idade por Status:
                count  mean   std   min   25%   50%   75%   max
Adimplentes    4580.0  35.3  11.1  18.0  27.0  35.0  43.0  80.0
Inadimplentes   420.0  33.6  11.9  18.0  22.0  33.0  43.0  65.0

📊 Taxa de Inadimplência por Faixa Etária:
           Total  Inadimplentes  Taxa_Inadimplência
age_group                                          
18-25       1118            140               0.125
26-35       1539            102               0.066
36-45       1410            102               0.072
46-55        714             57               0.080
56+          219             19               0.087


In [21]:
print("\nANÁLISE DO LIMITE DE CRÉDITO")
print("-" * 40)
print("📊 Estatísticas do Limite de Crédito por Status:")
limit_stats = df.groupby('default')['LIMIT_BAL'].describe().round(0)
limit_stats.index = ['Adimplentes', 'Inadimplentes']
print(limit_stats[['count', 'mean', 'std', 'min', '25%', '50%', '75%', 'max']])

df['limit_group'] = pd.cut(df['LIMIT_BAL'], 
                          bins=[0, 50000, 150000, 300000, 500000, float('inf')], 
                          labels=['Baixo (<50k)', 'Médio-Baixo (50k-150k)', 'Médio (150k-300k)', 'Alto (300k-500k)', 'Muito Alto (>500k)'])

print("\n📊 Taxa de Inadimplência por Faixa de Limite:")
limit_group_analysis = df.groupby('limit_group')['default'].agg(['count', 'sum', 'mean']).round(3)
limit_group_analysis.columns = ['Total', 'Inadimplentes', 'Taxa_Inadimplência']
print(limit_group_analysis)


ANÁLISE DO LIMITE DE CRÉDITO
----------------------------------------
📊 Estatísticas do Limite de Crédito por Status:
                count      mean       std      min       25%       50%  \
Adimplentes    4580.0  509092.0  284897.0  10126.0  256526.0  516522.0   
Inadimplentes   420.0  471050.0  296815.0  13631.0  205529.0  450778.0   

                    75%       max  
Adimplentes    752461.0  999964.0  
Inadimplentes  741652.0  999913.0  

📊 Taxa de Inadimplência por Faixa de Limite:
                        Total  Inadimplentes  Taxa_Inadimplência
limit_group                                                     
Baixo (<50k)              196             24               0.122
Médio-Baixo (50k-150k)    504             53               0.105
Médio (150k-300k)         808             72               0.089
Alto (300k-500k)          933             77               0.083
Muito Alto (>500k)       2559            194               0.076


In [22]:
print("\nANÁLISE DO HISTÓRICO DE PAGAMENTOS")
print("-" * 40)

pay_cols = ['PAY_0', 'PAY_1', 'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5']
df['avg_payment_delay'] = df[pay_cols].apply(lambda x: x[x > 0].mean() if any(x > 0) else 0, axis=1)
df['total_delayed_months'] = df[pay_cols].apply(lambda x: sum(x > 0), axis=1)
df['max_delay'] = df[pay_cols].max(axis=1)

print("📊 Análise de Atrasos:")
print("Atraso Médio por Status:")
delay_stats = df.groupby('default')[['avg_payment_delay', 'total_delayed_months', 'max_delay']].mean().round(2)
delay_stats.index = ['Adimplentes', 'Inadimplentes']
print(delay_stats)

print("\n📊 Taxa de Inadimplência por Meses com Atraso:")
delayed_months_analysis = df.groupby('total_delayed_months')['default'].agg(['count', 'sum', 'mean']).round(3)
delayed_months_analysis.columns = ['Total', 'Inadimplentes', 'Taxa_Inadimplência']
print(delayed_months_analysis)


ANÁLISE DO HISTÓRICO DE PAGAMENTOS
----------------------------------------
📊 Análise de Atrasos:
Atraso Médio por Status:
               avg_payment_delay  total_delayed_months  max_delay
Adimplentes                 1.20                  0.80       1.29
Inadimplentes               1.95                  1.89       2.56

📊 Taxa de Inadimplência por Meses com Atraso:
                      Total  Inadimplentes  Taxa_Inadimplência
total_delayed_months                                          
0                      1887              2               0.001
1                      2007            144               0.072
2                       888            191               0.215
3                       188             65               0.346
4                        29             17               0.586
5                         1              1               1.000


In [23]:
print("\nANÁLISE FINANCEIRA")
print("-" * 40)

df['avg_bill'] = df[['BILL_AMT1', 'BILL_AMT2', 'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6']].mean(axis=1)
df['avg_payment'] = df[['PAY_AMT1', 'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6']].mean(axis=1)
df['utilization_rate'] = (df['avg_bill'] / df['LIMIT_BAL']).clip(0, 2)

print("📊 Estatísticas Financeiras por Status:")
financial_stats = df.groupby('default')[['avg_bill', 'avg_payment', 'utilization_rate']].mean().round(2)
financial_stats.index = ['Adimplentes', 'Inadimplentes']
financial_stats.columns = ['Fatura_Média', 'Pagamento_Médio', 'Taxa_Utilização']
print(financial_stats)


ANÁLISE FINANCEIRA
----------------------------------------
📊 Estatísticas Financeiras por Status:
               Fatura_Média  Pagamento_Médio  Taxa_Utilização
Adimplentes        50070.94          9921.60             0.21
Inadimplentes      50285.38          9934.03             0.26


In [24]:
print("\nPRINCIPAIS INSIGHTS")
print("-" * 40)
print(" ➥ Taxa geral de inadimplência: 8.4%")
print(" ➥ Clientes com histórico de atrasos têm maior risco")
print(" ➥ Limites de crédito mais baixos correlacionam com maior inadimplência")  
print(" ➥ Idade não parece ser um fator determinante forte")
print(" ➥ Taxa de utilização do cartão pode ser um indicador importante")


PRINCIPAIS INSIGHTS
----------------------------------------
 ➥ Taxa geral de inadimplência: 8.4%
 ➥ Clientes com histórico de atrasos têm maior risco
 ➥ Limites de crédito mais baixos correlacionam com maior inadimplência
 ➥ Idade não parece ser um fator determinante forte
 ➥ Taxa de utilização do cartão pode ser um indicador importante
