# üí≥ Finanzas y Banca: riesgo, fraude, rentabilidad
KPIs: NPL, PD/LGD/EAD, NIM, churn, CAC, fraude por canal.

## Casos de uso
- Scoring de cr√©dito y l√≠mites din√°micos
- AML/KYC, detecci√≥n de anomal√≠as transaccionales
- Segmentaci√≥n RFM y propensi√≥n a compra
- Monitoreo de liquidez y escenarios regulatorios (IFRS9/Basilea)

In [None]:
# Mini ejemplo PD con features simples (toy)
def prob_default(score: float) -> float:
    import math
    z = -2.0 + 0.03 * score
    return 1/(1+math.exp(-z))

[round(prob_default(s),3) for s in [300,500,700]]

## Arquitectura
- Flujos transaccionales en streaming
- Feature store para variables de riesgo
- Modelos gobernados, explainability y trazabilidad
- Data contracts y auditor√≠a regulatoria

## üìå Valor y cumplimiento
- Or√≠genes consolidados y trazables ‚Üí auditor√≠as y reporting regulatorio.
- Modelos de riesgo consistentes (features versionadas) ‚Üí decisiones r√°pidas.
- Prevenci√≥n de fraude y AML ‚Üí p√©rdidas evitadas y reputaci√≥n.
- Costos optimizados en nube con pol√≠ticas de datos fr√≠os/calientes.


In [None]:
# Pr√°ctica: PD y P√©rdida Esperada (ECL) en toy data
import pandas as pd

clientes = pd.DataFrame({
    'score': [300, 450, 600, 700, 800],
    'EAD': [1000, 2000, 5000, 8000, 12000],  # exposici√≥n
    'LGD': [0.6, 0.5, 0.45, 0.4, 0.35],      # p√©rdida dado default
})

import math
pd_func = lambda s: 1/(1+math.exp(-(-2.0 + 0.003*s)))
clientes['PD'] = clientes['score'].apply(pd_func)
clientes['ECL'] = clientes['PD'] * clientes['LGD'] * clientes['EAD']
print(clientes[['score','PD','EAD','LGD','ECL']])
print('ECL total:', round(clientes['ECL'].sum(), 2))


## üèóÔ∏è Arquitectura y gobierno
- Ingesta transaccional + streaming; particionado por fecha y cliente.
- Feature store para riesgo (ventanas, agregaciones, drifts monitorizados).
- Lineage, versionado de modelos y explainability; alertas de sesgo.
- Controles de acceso por dominio y tokenizaci√≥n de PII.


In [None]:
# Visual: distribuci√≥n ECL (toy)
import plotly.express as px
fig = px.bar(clientes, x='score', y='ECL', title='P√©rdida Esperada (ECL) por score')
fig.show()


## ‚úÖ Checklist de estrategia de negocio y datos
- Objetivo financiero (riesgo, NIM, crecimiento cartera): ‚Ä¶
- KPIs: PD/LGD/EAD, NPL, fraude, churn.
- Palancas: feature store riesgo, modelos gobernados, AML/KYC.
- Datos: transaccionales, bureaus, se√±ales alternas; calidad/lineage.
- Gobierno: acceso por dominio, tokenizaci√≥n PII, auditor√≠a.
- SLOs: latencia scoring, costo/consulta, disponibilidad.
- ROI/supuestos: ‚Ä¶
- Riesgos: sesgos, drift, cumplimiento regulatorio.


## üîó Puente Estrategia ‚Üî Ingenier√≠a de Datos
- OKR: Fraude ‚â§ 0.1% y NPL estable ‚Üí KPI negocio: p√©rdidas por fraude, NPL ‚Üí KPI datos: latencia scoring <200ms, cobertura features ‚â•99% ‚Üí Capacidades: streaming + feature store + explainability ‚Üí Decisi√≥n: bloqueo/aprobaci√≥n en tiempo real ‚Üí Impacto: p√©rdidas evitadas.

```
[Transacciones]‚Üí[Streaming]‚Üí[Features riesgo]‚Üí[Score]‚Üí[Umbral]‚Üí[Bloqueo/Aprobaci√≥n]‚Üí[Œî p√©rdidas]
```


In [None]:
# contrato_de_datos (finanzas)
contrato_datos = {
    "objetivo_negocio": "Fraude ‚â§ 0.1%",
    "kpi_negocio": "P√©rdidas por fraude",
    "kpi_datos": {"latencia_ms": "<200", "cobertura_features": ">=99%"},
    "dataset": ["transacciones", "clientes", "dispositivos"],
    "propietario": "Dominio Riesgo",
    "slo": {"drift_alertas_dia": "<=1"},
    "decision": "Bloqueo/aprobaci√≥n real time",
    "impacto_economico_usd": 300000,
}
print(contrato_datos)


## üìã Caso de uso: Detecci√≥n de fraude en tiempo real

**Contexto de negocio:** Un banco pierde $4M/a√±o en fraude transaccional. El √°rea de Riesgo necesita bloquear transacciones sospechosas en <200ms sin afectar leg√≠timas (tasa de rechazo falso <0.5%).

**Problema sin ingenier√≠a de datos:**
- Scoring batch: detecta fraudes 24h despu√©s (dinero ya transferido).
- Features calculadas manualmente en Excel, sin versionado.
- Modelo entrenado con datos desactualizados (6 meses atr√°s).

**Soluci√≥n con ingenier√≠a de datos:**
1. Pipeline streaming: Kafka ingesta transacciones en tiempo real.
2. Feature store: 50+ features pre-calculadas (ventanas m√≥viles, ubicaci√≥n, device fingerprint) con <10ms de latencia.
3. Modelo ML servido v√≠a API con SLA <200ms.
4. Feedback loop: transacciones confirmadas como fraude re-entrenan el modelo semanalmente.
5. Lineage completo: se puede auditar qu√© features produjeron cada decisi√≥n.

**Resultado:**
- Detecci√≥n: 24h ‚Üí <200ms.
- Tasa de detecci√≥n: 65% ‚Üí 89%.
- Falsos positivos: 2.1% ‚Üí 0.4%.
- Ahorro anual estimado: $3.2M + mejora en NPS por menos rechazos leg√≠timos.


In [None]:
# Ejercicio: feature engineering para riesgo de cr√©dito
import pandas as pd
import numpy as np

# Simular transacciones con features
np.random.seed(42)
transacciones = pd.DataFrame({
    'cliente_id': range(1, 11),
    'monto': [100, 5000, 200, 15000, 50, 8000, 300, 12000, 150, 20000],
    'hora': [14, 3, 10, 23, 12, 2, 15, 22, 11, 1],
    'device_nuevo': [False, True, False, True, False, True, False, True, False, True],
})

# Feature engineering (clave en ingenier√≠a de datos)
transacciones['es_horario_nocturno'] = (transacciones['hora'] < 6) | (transacciones['hora'] > 22)
transacciones['monto_alto'] = transacciones['monto'] > 10000
transacciones['score_riesgo'] = (
    transacciones['es_horario_nocturno'].astype(int) * 30 +
    transacciones['monto_alto'].astype(int) * 50 +
    transacciones['device_nuevo'].astype(int) * 20
)

print("Features de riesgo calculadas:")
print(transacciones[['cliente_id', 'monto', 'hora', 'score_riesgo']].head())
print(f"\nTransacciones de alto riesgo (score>50): {(transacciones['score_riesgo'] > 50).sum()}")
print("üí° Feature store permite pre-calcular estas features con <10ms de latencia")
