In [6]:
import pandas as pd
import numpy as np
from pathlib import Path

# Paths
EXCEL_PATH = Path("./data/BDD_COACTULCAN.xlsx")
OUT_CSV = Path("./data/dataset_clientes_agregado.csv")

# Load
df = pd.read_excel(EXCEL_PATH)
df.columns = df.columns.astype(str).str.strip().str.replace("\n", " ", regex=False)

def pick_col(cols, candidates):
    for c in candidates:
        if c in cols:
            return c
    return None

cols = df.columns.tolist()
col_cliente = pick_col(cols, ["cliente", "Cliente", "CLIENTE"])
col_oficina = pick_col(cols, ["oficina", "Oficina", "OFICINA"])
col_estado = pick_col(cols, ["estado", "Estado", "ESTADO"])
col_fecha_conc = pick_col(cols, ["fecha_concesión", "fecha_concesion"])
col_fecha_venc = pick_col(cols, ["fechavencimiento", "fecha_vencimiento", "fecha vencimiento"])
col_fecha_corte = pick_col(cols, ["fecha_corte_base", "fecha corte base", "Fecha corte base"])
col_monto = pick_col(cols, ["monto_otorgado", "monto otorgado", "Monto otorgado"])
col_saldo = pick_col(cols, ["Saldo total", "saldo total", "SALDO TOTAL", "saldo"])
col_tipo = pick_col(cols, ["Tipo de Crédito", "tipo de crédito", "Tipo de credito", "tipo"])
col_plazo = pick_col(cols, ["Plazo del Crédito", "plazo del crédito", "plazo"])
col_tasa = pick_col(cols, ["tasa_de_interes", "tasa de interes", "tasa", "tasa_de_interés"])
col_garantia = pick_col(cols, ["GARANTIA", "garantia", "Garantia"])
col_calif = pick_col(cols, ["calificacion_riesgo", "calificación_riesgo", "calificacion riesgo"])
col_dias_mora = pick_col(cols, ["dias mora", "días mora", "dias_mora", "dias de mora"])
col_patrimonio = pick_col(cols, ["patrimonio_tec", "patrimonio tec", "patrimonio"])
col_sexo = pick_col(cols, ["qy_sexo", "sexo", "Sexo"])

# Parse dates
for c in [col_fecha_conc, col_fecha_venc, col_fecha_corte]:
    if c and c in df.columns:
        df[c] = pd.to_datetime(df[c], errors="coerce")

# Numeric coercion
for c in [col_monto, col_saldo, col_plazo, col_tasa, col_dias_mora, col_patrimonio]:
    if c and c in df.columns:
        df[c] = pd.to_numeric(df[c], errors="coerce")

grp = df.groupby(col_cliente, dropna=False)

def mode_or_nan(s):
    s = s.dropna()
    if len(s) == 0:
        return np.nan
    return s.astype(str).mode().iloc[0]

def count_vigentes(s):
    s = s.dropna().astype(str).str.upper()
    return (s == "VIGENTE").sum()

# Build aggregated dataset
cust = pd.DataFrame({
    "cliente": grp.size().index,
    "n_operaciones": grp.size().values,
    "n_vigentes": grp[col_estado].apply(count_vigentes).values if col_estado else np.nan,
    "monto_total": grp[col_monto].sum(min_count=1).values if col_monto else np.nan,
    "saldo_total": grp[col_saldo].sum(min_count=1).values if col_saldo else np.nan,
    "plazo_prom": grp[col_plazo].mean().values if col_plazo else np.nan,
    "tasa_prom": grp[col_tasa].mean().values if col_tasa else np.nan,
    "patrimonio_tec": grp[col_patrimonio].max().values if col_patrimonio else np.nan,
    "max_dias_mora": grp[col_dias_mora].max().values if col_dias_mora else np.nan,
})

if col_oficina:
    cust["oficina"] = grp[col_oficina].apply(mode_or_nan).values
if col_tipo:
    cust["tipo_credito"] = grp[col_tipo].apply(mode_or_nan).values
if col_garantia:
    cust["garantia"] = grp[col_garantia].apply(mode_or_nan).values
if col_sexo:
    cust["sexo"] = grp[col_sexo].apply(mode_or_nan).values
if col_calif:
    cust["calificacion_riesgo"] = grp[col_calif].apply(mode_or_nan).values

if col_fecha_corte and col_fecha_conc:
    cust["antiguedad_max_dias"] = (grp[col_fecha_corte].max() - grp[col_fecha_conc].min()).dt.days.values
if col_fecha_corte and col_fecha_venc:
    cust["dias_hasta_ultimo_venc"] = (grp[col_fecha_venc].max() - grp[col_fecha_corte].max()).dt.days.values

# Target (para referencia en Django, no para entrenar allí)
cust["riesgo_actual"] = (cust["max_dias_mora"].fillna(0) > 0).astype(int)

# Save CSV
cust.to_csv(OUT_CSV, index=False)

OUT_CSV


WindowsPath('data/dataset_clientes_agregado.csv')