# 0.0 Setup

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 1.0 Tratamento de dados faltantes

In [2]:
df_raw = pd.read_csv('../data/raw_data/df_raw.csv')
target_col = 'inadipl_90dias_ult2anos'

print("=" * 80)
print("üîç ESTRAT√âGIA DE TRATAMENTO DE DADOS FALTANTES")
print("=" * 80)

missing_analysis = pd.DataFrame({
    'Feature': df_raw.columns,
    'Missing_Count': df_raw.isnull().sum(),
    'Missing_Pct': (df_raw.isnull().sum() / len(df_raw) * 100).round(2),
    'Dtype': df_raw.dtypes
})

missing_analysis = missing_analysis[missing_analysis['Missing_Count'] > 0]
missing_analysis = missing_analysis.sort_values('Missing_Pct', ascending=False)

print(missing_analysis.to_string())

# Decis√£o de tratamento
print("\nüìã ESTRAT√âGIA POR COLUNA:")
for idx, row in missing_analysis.iterrows():
    col = row['Feature']
    pct = row['Missing_Pct']
    
    if pct > 50:
        strategy = "‚ùå REMOVER coluna (>50% missing)"
    elif pct > 20:
        strategy = "‚ö†Ô∏è Criar flag + imputar ou remover"
    elif pct > 5:
        strategy = "üìä Imputar pela mediana/moda"
    else:
        strategy = "‚úÖ Imputar pela mediana/moda"
    
    print(f"  {col:30s} ({pct:5.2f}%) -> {strategy}")

üîç ESTRAT√âGIA DE TRATAMENTO DE DADOS FALTANTES
                                     Feature  Missing_Count  Missing_Pct    Dtype
comprometimento_renda  comprometimento_renda          29749        19.83  float64
renda_mensal                    renda_mensal          29731        19.82  float64
faixa_etaria                    faixa_etaria            688         0.46      str
utilizacao_credito        utilizacao_credito            114         0.08  float64
divida_ratio                    divida_ratio             18         0.01  float64

üìã ESTRAT√âGIA POR COLUNA:
  comprometimento_renda          (19.83%) -> üìä Imputar pela mediana/moda
  renda_mensal                   (19.82%) -> üìä Imputar pela mediana/moda
  faixa_etaria                   ( 0.46%) -> ‚úÖ Imputar pela mediana/moda
  utilizacao_credito             ( 0.08%) -> ‚úÖ Imputar pela mediana/moda
  divida_ratio                   ( 0.01%) -> ‚úÖ Imputar pela mediana/moda


## 1.1 Imputa√ß√£o de valores segmentada por faixa et√°ria (mediana dentro de cada grupo et√°rio)

In [3]:
df_clean = df_raw.copy()

# Flags de missing (vari√°veis cr√≠ticas)
df_clean['renda_mensal_missing'] = df_clean['renda_mensal'].isna().astype(int)
df_clean['comprometimento_renda_missing'] = df_clean['comprometimento_renda'].isna().astype(int)

# Imputa√ß√£o segmentada por faixa et√°ria
for col in ['renda_mensal', 'comprometimento_renda']:
    df_clean[col] = df_clean.groupby('faixa_etaria')[col].transform(
        lambda x: x.fillna(x.median())
    )
    # Se ainda restarem NaN (grupos sem mediana), imputar com a mediana geral
    df_clean[col] = df_clean[col].fillna(df_clean[col].median())

# Faixa et√°ria: imputar como "n√£o informado"
df_clean['faixa_etaria'] = df_clean['faixa_etaria'].fillna('n√£o informado')

# Vari√°veis com baixo missing ‚Üí imputa√ß√£o simples
df_clean['utilizacao_credito'] = df_clean['utilizacao_credito'].fillna(df_clean['utilizacao_credito'].median())
df_clean['divida_ratio'] = df_clean['divida_ratio'].fillna(df_clean['divida_ratio'].median())
df_clean.isnull().sum()

id                               0
inadipl_90dias_ult2anos          0
utilizacao_credito               0
idade                            0
atrasos_30dias                   0
divida_ratio                     0
renda_mensal                     0
linhas_credito_abertas           0
atrasos_90dias                   0
emprestimos_imobiliarioss        0
dependentes                      0
comprometimento_renda            0
faixa_etaria                     0
renda_mensal_missing             0
comprometimento_renda_missing    0
dtype: int64

## 1.2 Tratamento de outliers

In [4]:
print("="*80)
print("üîß TRATAMENTO DE OUTLIERS ORIENTADO AO NEG√ìCIO DE CR√âDITO")
print("="*80)

# Idade fora de faixa (regras de elegibilidade)
df_clean.loc[df_clean['idade'] < 18, 'idade'] = 18
df_clean.loc[df_clean['idade'] > 90, 'idade'] = 90
print("‚úÖ Idade truncada para [18, 90]")

# Comprometimento de renda (limite de aceita√ß√£o orientado ao neg√≥cio)
# At√© 30% = saud√°vel, 30‚Äì50% = alerta, >50% = alto risco, >100% = cr√≠tico
df_clean.loc[df_clean['comprometimento_renda'] > 100, 'comprometimento_renda'] = 100
print("‚úÖ Comprometimento de renda truncado em 100% (inadimpl√™ncia cr√≠tica)")

# Winsorization para renda mensal (evitar valores absurdos)
# Regras de neg√≥cio: m√≠nimo ~ sal√°rio m√≠nimo, m√°ximo ~ R$ 50 mil
renda_min = 1412   # sal√°rio m√≠nimo 2026
renda_max = 50000  # limite plaus√≠vel para PF em cr√©dito massificado
df_clean['renda_mensal'] = np.clip(df_clean['renda_mensal'], renda_min, renda_max)
print(f"‚úÖ Renda mensal truncada entre {renda_min:.2f} e {renda_max:.2f}")

# Opcional: sinalizar registros alterados
df_clean['idade_outlier_flag'] = ((df_raw['idade'] < 18) | (df_raw['idade'] > 90)).astype(int)
df_clean['comprometimento_outlier_flag'] = (df_raw['comprometimento_renda'] > 100).astype(int)
df_clean['renda_outlier_flag'] = ((df_raw['renda_mensal'] < renda_min) | (df_raw['renda_mensal'] > renda_max)).astype(int)

print("\n‚úÖ Flags de outliers criadas para auditoria/modelagem")


üîß TRATAMENTO DE OUTLIERS ORIENTADO AO NEG√ìCIO DE CR√âDITO
‚úÖ Idade truncada para [18, 90]
‚úÖ Comprometimento de renda truncado em 100% (inadimpl√™ncia cr√≠tica)
‚úÖ Renda mensal truncada entre 1412.00 e 50000.00

‚úÖ Flags de outliers criadas para auditoria/modelagem


In [5]:
df_clean.describe()

Unnamed: 0,id,utilizacao_credito,idade,atrasos_30dias,divida_ratio,renda_mensal,linhas_credito_abertas,atrasos_90dias,emprestimos_imobiliarioss,dependentes,comprometimento_renda,renda_mensal_missing,comprometimento_renda_missing,idade_outlier_flag,comprometimento_outlier_flag,renda_outlier_flag
count,150000.0,150000.0,150000.0,150000.0,150000.0,150000.0,150000.0,150000.0,150000.0,150000.0,150000.0,150000.0,150000.0,150000.0,150000.0,150000.0
mean,75000.5,6.048555,52.285007,0.421033,353.005119,6308.14222,8.45276,0.265973,1.01824,2.95006,93.094719,0.198207,0.198327,0.003267,0.70788,0.04706
std,43301.414527,249.755368,14.743264,4.192781,2037.818516,4551.263218,5.145951,4.169304,1.129771,39.129022,23.155866,0.39865,0.398741,0.057062,0.454739,0.211768
min,1.0,0.0,18.0,0.0,0.0,1412.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,37500.75,0.03,41.0,0.0,0.1752,3876.0,5.0,0.0,0.0,0.0,100.0,0.0,0.0,0.0,0.0,0.0
50%,75000.5,0.1546,52.0,0.0,0.3665,5366.0,8.0,0.0,1.0,0.0,100.0,0.0,0.0,0.0,1.0,0.0
75%,112500.25,0.559025,63.0,0.0,0.8683,7382.0,11.0,0.0,2.0,2.0,100.0,0.0,0.0,0.0,1.0,0.0
max,150000.0,50708.0,90.0,98.0,329664.0,50000.0,58.0,98.0,54.0,985.0,100.0,1.0,1.0,1.0,1.0,1.0


In [13]:
# Salvando em excel .csv
import os

caminho_dir = r"C:\Users\wesle\anaconda3\envs\Credit_Score_Project\data\processed_data"
os.makedirs(caminho_dir, exist_ok=True)

df_clean.to_csv(os.path.join(caminho_dir, "df_cleaned.csv"), index=False, encoding="utf-8-sig")
print(f"   Shape original: {df_raw.shape}")
print(f"   Shape limpo: {df_clean.shape}")

   Shape original: (150000, 13)
   Shape limpo: (150000, 18)
