# 02_EXPLORE_LOANS.ipynb
======================

Objetivo: Explorar y entender el dataset de pr√©stamos
- ¬øCu√°ntos pr√©stamos hay?
- ¬øPor qu√© hay m√∫ltiples filas por pr√©stamo? (snapshots)
- ¬øQu√© informaci√≥n de estado del pr√©stamo tenemos?
- ¬øC√≥mo identificar el estado m√°s reciente de cada pr√©stamo?

In [None]:
import pandas as pd
import numpy as np
from pathlib import Path

In [None]:

base_path = Path.cwd().parent if 'analisis_adhoc' in str(Path.cwd()) else Path.cwd()
data_path = base_path / 'data' / 'raw'

loans = pd.read_csv(data_path / 'AE_challenge_loans.csv')

In [None]:

print("="*80)
print("üìä DATASET: LOANS")
print("="*80)

# 1. ¬øCu√°ntas filas hay?
print(f"\n1Ô∏è‚É£ Total de filas en el CSV: {len(loans):,}")

# 2. ¬øQu√© columnas tengo?
print(f"\n2Ô∏è‚É£ Columnas disponibles:")
for col in loans.columns:
    print(f"   - {col}")

# 3. Ver primeros registros
print(f"\n3Ô∏è‚É£ Primeras 10 filas:")
display(loans.head(10))

# 4. ¬øHay datos faltantes?
print(f"\n4Ô∏è‚É£ Valores nulos por columna:")
print(loans.isnull().sum())


In [None]:

# 5. üîç PROBLEMA: ¬øCu√°ntos pr√©stamos √öNICOS hay?
print(f"\n5Ô∏è‚É£ AN√ÅLISIS DE DUPLICADOS:")
unique_loans = loans['loan_id'].nunique()
total_rows = len(loans)
print(f"   - Pr√©stamos √∫nicos (loan_id): {unique_loans:,}")
print(f"   - Total de filas: {total_rows:,}")
print(f"   - Diferencia: {total_rows - unique_loans:,} filas adicionales")
print(f"   - Promedio de filas por pr√©stamo: {total_rows / unique_loans:.1f}")


In [None]:

# 6. ¬øPor qu√© hay m√∫ltiples filas? Ver ejemplo
ejemplo_loan = loans['loan_id'].iloc[0]
ejemplo_df = loans[loans['loan_id'] == ejemplo_loan].sort_values('limit_month')

print(f"\n6Ô∏è‚É£ EJEMPLO: loan_id = {ejemplo_loan}")
print(f"   Este pr√©stamo aparece {len(ejemplo_df)} veces en el CSV")
print("\n   Filas de este pr√©stamo (ordenadas por limit_month):")
display(ejemplo_df[['loan_id', 'limit_month', 'disbursed_date', 'days_past_due', 'outstanding_balance', 'status']])

print(f"\nüí° INTERPRETACI√ìN:")
print(f"   - Cada fila = 1 SNAPSHOT mensual del estado del pr√©stamo")
print(f"   - 'limit_month' = mes en que se tom√≥ la foto del pr√©stamo")
print(f"   - Los valores de 'days_past_due' y 'outstanding_balance' cambian mes a mes")

# 7. ¬øCu√°ntos snapshots hay por mes?
loans['limit_month'] = pd.to_datetime(loans['limit_month'])
print(f"\n7Ô∏è‚É£ SNAPSHOTS por mes:")
print(loans['limit_month'].value_counts().sort_index())


In [None]:

# 8. ¬øCu√°ndo se desembolsaron los pr√©stamos? (vintage)
loans['disbursed_date'] = pd.to_datetime(loans['disbursed_date'])
loans['vintage_month'] = loans['disbursed_date'].dt.to_period('M')

print(f"\n8Ô∏è‚É£ VINTAGES (mes de desembolso):")
print(loans.groupby('vintage_month')['loan_id'].nunique().sort_index())

# 9. ¬øQu√© estados de pr√©stamo existen?
print(f"\n9Ô∏è‚É£ ESTADOS del pr√©stamo:")
print(loans['status'].value_counts())

# 10. ¬øDistribuci√≥n de d√≠as de atraso (DPD)?
print(f"\nüîü D√çAS DE ATRASO (days_past_due):")
print(f"   - Promedio: {loans['days_past_due'].mean():.1f} d√≠as")
print(f"   - Mediana: {loans['days_past_due'].median():.1f} d√≠as")
print(f"   - M√°ximo: {loans['days_past_due'].max():.0f} d√≠as")

print(f"\n   Distribuci√≥n por rangos:")
print(f"   - 0 d√≠as (al d√≠a): {(loans['days_past_due'] == 0).sum():,} registros")
print(f"   - 1-30 d√≠as: {((loans['days_past_due'] > 0) & (loans['days_past_due'] <= 30)).sum():,} registros")
print(f"   - 31-60 d√≠as: {((loans['days_past_due'] > 30) & (loans['days_past_due'] <= 60)).sum():,} registros")
print(f"   - 61-90 d√≠as: {((loans['days_past_due'] > 60) & (loans['days_past_due'] <= 90)).sum():,} registros")
print(f"   - 90+ d√≠as: {(loans['days_past_due'] > 90).sum():,} registros")


In [None]:

print("\n" + "="*80)
print("‚úÖ CONCLUSIONES")
print("="*80)
print(f"""
Total filas: {len(loans):,}
Pr√©stamos √∫nicos: {unique_loans:,}
Snapshots por pr√©stamo: ~{total_rows / unique_loans:.0f}

- PROBLEMA IDENTIFICADO:
Cada pr√©stamo tiene m√∫ltiples filas (snapshots mensuales).
Para an√°lisis financiero necesitamos SOLO 1 fila por pr√©stamo.

- SOLUCI√ìN (modelado c. dbt):
Tomar el snapshot m√°s reciente de cada pr√©stamo (max limit_month).
""")