In [None]:
# 04_business_insights.ipynb

# ---------------------------------------------
# Recomendaciones de Negocio - Open Banking Challenge
# Autor: Pablo Flores
# ---------------------------------------------


In [None]:
# 1. Librer√≠as necesarias
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import joblib


In [None]:
# 2. Cargar datos y modelo
df = pd.read_csv("data/processed/final_dataset.csv")
model = joblib.load("outputs/models/xgboost_model.pkl")  # Cambiar seg√∫n el mejor modelo guardado


In [None]:
# 3. Predecir probabilidades sobre todo el dataset
X = df.drop(columns=["has_insurance"])
df["pred_proba"] = model.predict_proba(X)[:, 1]


In [None]:
# 4. Distribuci√≥n de probabilidades
sns.histplot(df["pred_proba"], bins=20, kde=True)
plt.title("Distribuci√≥n de probabilidad de contratar seguro")
plt.xlabel("Probabilidad estimada")
plt.ylabel("N√∫mero de clientes")
plt.show()

In [None]:
# 5. Top clientes para campa√±a
top_clients = df.sort_values("pred_proba", ascending=False).head(10)
top_clients[["pred_proba"] + [col for col in df.columns if col.startswith("income_range") or col.startswith("risk_profile")]]


In [None]:
# 6. Segmentaci√≥n de clientes
df["segment"] = pd.cut(
    df["pred_proba"],
    bins=[0, 0.3, 0.6, 1],
    labels=["Bajo inter√©s", "Inter√©s medio", "Alto inter√©s"]
)

segment_counts = df["segment"].value_counts().sort_index()
sns.barplot(x=segment_counts.index, y=segment_counts.values)
plt.title("Segmentaci√≥n de clientes por propensi√≥n")
plt.ylabel("N√∫mero de clientes")
plt.xlabel("Segmento")
plt.show()

In [None]:
# 7. An√°lisis cruzado con perfil de riesgo
seg_cross = pd.crosstab(df["segment"], df.filter(like="risk_profile_").idxmax(axis=1))
seg_cross.plot(kind="bar", stacked=True, colormap="Set2")
plt.title("Distribuci√≥n del perfil de riesgo dentro de cada segmento")
plt.ylabel("Clientes")
plt.xlabel("Segmento de Propensi√≥n")
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()

In [None]:


# üìå 8. Conclusiones y recomendaciones
from IPython.display import Markdown
Markdown("""
## Recomendaciones de Negocio

- **Segmento de alto inter√©s (60-100%)**: Representa el X% de la base. Este grupo debe ser **prioridad 1** para campa√±as dirigidas, especialmente si ya tienen productos de inversi√≥n o ahorro.
- **Perfiles 'moderate' con ingresos medios-altos** dominan en el segmento alto de probabilidad.
- La categor√≠a de gasto m√°s frecuente puede ser un excelente disparador para personalizar ofertas (por ejemplo, viajes ‚Üí seguro de viaje).
- Sugerencia: ofrecer un seguro empaquetado o con descuento a quienes ya tengan 2+ productos financieros.

## Pr√≥ximos pasos

- Integrar el modelo en una API o dashboard para uso del equipo comercial.
- Hacer seguimiento de la efectividad de las campa√±as y reentrenar el modelo peri√≥dicamente.
""")
