# An√°lisis de Retenci√≥n de Clientes (CHURN)


----

## Contexto del Negocio

El banco ficticio Monopoly, con a√±os de operaci√≥n en Chile, ha sido recientemente adquirido por una entidad extranjera: el banco Dormammu.

Como parte del proceso de integraci√≥n, Dormammu ha solicitado un an√°lisis exhaustivo de la base de datos de clientes de Monopoly ‚Äîque contiene 574 variables y 51.124 registros‚Äî con el objetivo de:

* Comprender el comportamiento financiero de los clientes actuales.
* Identificar patrones de uso en productos como cuentas corrientes y tarjetas de cr√©dito.
* Detectar oportunidades para mejorar los servicios existentes y aumentar la rentabilidad.
* Evaluar estrategias para retener clientes actuales y atraer nuevos usuarios hacia los productos del banco fusionado.

Este an√°lisis ser√° clave para dise√±ar pol√≠ticas comerciales, campa√±as de fidelizaci√≥n, y planes de producto m√°s alineados con los perfiles y necesidades detectadas en la base de clientes.

**Objetivo del An√°lisis**:

**Retenci√≥n de Clientes**: Desarrollar un modelo predictivo que permita identificar clientes con riesgo de abandonar el banco. El objetivo es facilitar la creaci√≥n de campa√±as de retenci√≥n proactivas y focalizadas, basadas en patrones de comportamiento reales.

---

### Importaciones

In [None]:
#importaciones de librer√≠as
from google.colab import drive
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import kagglehub
import joblib
from seaborn import load_dataset
from seaborn import kdeplot
from seaborn import lmplot
from seaborn import boxplot

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_predict
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score

from scipy.sparse import hstack

### Configuraci√≥n del Dataset

In [None]:
# Descargar dataset
path = kagglehub.dataset_download("nadiaarellanog/base-clientes-monopoly")

print("Ruta:", path)

In [None]:
monopoly = pd.read_csv(path + "/Base_clientes_Monopoly.csv", delimiter='\t')

In [None]:
# Mostrar las primeras filas del DataFrame para verificar la carga del archivo
print(monopoly.head())

---

### Comprensi√≥n de los Datos

El conjunto de datos proporcionado por el banco Monopoly (ahora parte de Dormammu) contiene informaci√≥n detallada de m√°s de 51.000 clientes y 574 variables, abarcando:

* Datos demogr√°ficos
* Informaci√≥n sobre productos financieros (cuentas, tarjetas, cr√©ditos)
* Actividad transaccional mensual (volumen y frecuencia)
* Indicadores de comportamiento y engagement

Este dataset permitir√° construir una visi√≥n rica y detallada de cada cliente, as√≠ como modelar su propensi√≥n a continuar utilizando los servicios del banco.


### Objetivos de esta Fase

Durante la comprensi√≥n de los datos se busca:

* Entender la estructura y significado de las variables disponibles, incluyendo unidades, escalas y formatos.
* Detectar problemas de calidad de datos: valores faltantes, formatos inconsistentes, tipos incorrectos o valores at√≠picos.
* Identificar variables relevantes para el modelo de retenci√≥n, bas√°ndose en su naturaleza, correlaci√≥n con el target y distribuci√≥n.


### Descripci√≥n de Variables Relevantes

A continuaci√≥n se resumen algunas de las variables clave agrupadas por tipo, destacando su utilidad en el an√°lisis:

üîπ Variables Demogr√°ficas
* Regi√≥n: Zona geogr√°fica de residencia del cliente. √ötil para segmentaci√≥n geogr√°fica.
* Edad: Factor clave en el comportamiento financiero y tipo de productos utilizados.
* Sexo: Potencialmente relevante para personalizaci√≥n de estrategias.
* Renta: Indicador del poder adquisitivo del cliente, relacionado con su volumen de uso de productos.

üîπ Productos Financieros
* Ctacte: Tenencia de cuenta corriente. Asociada a clientes activos.
* Hipotecario: Presencia de cr√©dito hipotecario. Generalmente asociado a mayor compromiso con el banco.
* Debito / TC: Indican si el cliente posee tarjetas de d√©bito o cr√©dito, respectivamente.

üîπ Actividad Transaccional
* Txs_T12: N√∫mero de transacciones en tarjetas de cr√©dito durante el mes m√°s reciente.
* CUPO_L1 / L2 / MX: L√≠mites de cr√©dito en compras nacionales, avances y compras internacionales.
* FlgAct_T12: Indicador de actividad reciente en tarjeta de cr√©dito.


### Problemas Detectados en el An√°lisis Inicial

Durante la exploraci√≥n preliminar se identificaron los siguientes desaf√≠os:

* Valores nulos en variables clave como Renta, Regi√≥n y Sexo.
* Tipos inconsistentes: Algunas variables num√©ricas aparecen como tipo object por uso de comas en lugar de puntos decimales o s√≠mbolos extra√±os.
* Outliers: En variables como Txs_T12 y FacAN_T12 se observan valores at√≠picos que podr√≠an afectar el entrenamiento del modelo.

Estos problemas se abordar√°n en la etapa de preparaci√≥n de los datos, mediante imputaci√≥n, conversi√≥n de tipos y tratamiento de valores extremos seg√∫n sea necesario.


### Exploraciones Iniciales Realizadas

Se realizaron algunas visualizaciones para comprender mejor la distribuci√≥n de los datos:

* Subsegmentos de Clientes: Permite observar agrupaciones internas seg√∫n nivel de productos, ingresos u otros factores.
* Distribuci√≥n Regional: Ofrece perspectiva sobre la presencia geogr√°fica de los clientes.
* G√©nero: Ayuda a identificar sesgos o necesidades de segmentaci√≥n.

---

Se carga el conjunto de datos original monopoly y se convierte en un DataFrame de Pandas para facilitar su manipulaci√≥n y an√°lisis:

In [26]:
df = pd.DataFrame(monopoly)

Esta conversi√≥n permite trabajar con una estructura tabular est√°ndar en Python, ideal para aplicar operaciones de limpieza, transformaci√≥n y exploraci√≥n utilizando herramientas del ecosistema cient√≠fico como pandas, numpy y scikit-learn.

In [None]:
#Cantidad de filas(registros) x cantidad de columnas(variables)
print(df.shape)

Este comando muestra las dimensiones del DataFrame, es decir:

* **Filas** (registros): 51,124 clientes
* **Columnas** (variables): 574 caracter√≠sticas asociadas a cada cliente

Esta informaci√≥n es clave para dimensionar el volumen de datos con el que se trabajar√° durante las etapas de an√°lisis y modelado.



In [None]:
df.head()

In [None]:
# Registro aleatorio
df.sample()

In [None]:
# Genera el gr√°fico de barras
plt.figure(figsize=(12, 6))
conteo_subsegmento = df['Subsegmento'].value_counts()
ax = conteo_subsegmento.plot.bar(rot=45, color='orange', width=0.8)

# Etiquetas de texto para cada barra
for i, v in enumerate(conteo_subsegmento):
    ax.text(i, v + 5, str(v), ha='center', va='bottom')

plt.xlabel("Subsegmento")
plt.ylabel("Frecuencia")
plt.title("Distribuci√≥n de Subsegmento")

plt.show()

El gr√°fico de barras muestra que el subsegmento "170" es el m√°s frecuente en la base de datos, lo que indica que esta categor√≠a domina en esta variable.

In [None]:
# Genera el gr√°fico de barras
plt.figure(figsize=(17, 6))
conteo_region = df['Region'].value_counts()
ax = conteo_region.plot.bar(rot=0, color='purple', width=0.4)

# Etiquetas de texto para cada barra
for i, v in enumerate(conteo_region):
    ax.text(i, v + 5, str(v), ha='center', va='bottom')

plt.xlabel("Region")
plt.ylabel("Frecuencia")
plt.title("Distribuci√≥n de Regi√≥n")

plt.show()

La variable `Region` presenta una fuerte concentraci√≥n en la categor√≠a 13, lo que coincide con su moda. No obstante, se observan inconsistencias en el formato de algunas regiones, como `7` y `7.0`, que representan el mismo valor pero en diferentes tipos. Estas inconsistencias ser√°n tratadas en la fase de limpieza de datos.

In [None]:
# Genera el gr√°fico de barras
plt.figure(figsize=(17, 6))
conteo_sexo = df['Sexo'].value_counts()
ax = conteo_sexo.plot.bar(rot=0, color='green', width=0.4)

# Etiquetas de texto para cada barra
for i, v in enumerate(conteo_sexo):
    ax.text(i, v + 5, str(v), ha='center', va='bottom')

plt.xlabel("Sexo")
plt.ylabel("Frecuencia")
plt.title("Distribuci√≥n de G√©nero: Hombres vs. Mujeres")

plt.show()

El gr√°fico de barras muestra que la categor√≠a masculina es la m√°s representada en el conjunto de datos, indicando una mayor proporci√≥n de hombres que mujeres en la muestra.

In [None]:
# Eliminar valores nulos de la columna que se va a graficar
data_to_plot = df['Txs_T12'].dropna()

# Crear el histograma
plt.figure(figsize=(12, 7))
plt.hist(data_to_plot, bins=30, alpha=0.7, color='skyblue', edgecolor='black')

# A√±adir t√≠tulo y etiquetas
plt.title('Histograma de Transacciones (Txs_T12)', fontsize=16)
plt.xlabel('Valor de Transacciones', fontsize=14)
plt.ylabel('Frecuencia', fontsize=14)

# A√±adir l√≠neas de referencia
mean_value = data_to_plot.mean()
plt.axvline(mean_value, color='red', linestyle='dashed', linewidth=1, label=f'Media: {mean_value:.2f}')

# A√±adir leyenda
plt.legend()

# A√±adir cuadr√≠cula
plt.grid(axis='y', alpha=0.75)

# Mostrar el histograma
plt.tight_layout()  # Ajustar para que todo se muestre correctamente
plt.show()

El histograma muestra la distribuci√≥n del n√∫mero de transacciones mensuales en tarjeta de cr√©dito (`Txs_T12`). Se observa una alta concentraci√≥n de clientes con pocos movimientos, lo que indica un uso limitado del producto por la mayor√≠a de la base.

Una l√≠nea discontinua roja representa la media (**~2.59 transacciones**), visiblemente desplazada hacia la derecha de la mayor√≠a de los datos, lo que evidencia un sesgo fuerte hacia valores bajos.

**Observaciones clave**

* **Distribuci√≥n sesgada**: La variable presenta una distribuci√≥n fuertemente sesgada a la derecha (right-skewed), con la mayor√≠a de los valores cercanos a cero.
* **Media baja**: Aunque el promedio se sit√∫a en 2.59, este valor est√° influido por unos pocos clientes con vol√∫menes transaccionales altos.
* **Baja actividad general**: La gran mayor√≠a de los clientes realiza pocas transacciones mensuales, lo que puede implicar baja utilizaci√≥n del producto o inactividad.



In [None]:
# Filtrar valores nulos en la columna Txs_T12
data_to_plot = df['Txs_T12'].dropna()

# Crear el diagrama de caja (boxplot)
plt.figure(figsize=(10, 6))
plt.boxplot(data_to_plot, vert=False, patch_artist=True,
            boxprops=dict(facecolor='lightblue'), whis=10)  # Valor whis ajustado

# A√±adir t√≠tulo y etiquetas de los ejes
plt.title('Diagrama de Caja de Transacciones (Txs_T12)', fontsize=16)
plt.xlabel('Valor de Transacciones', fontsize=14)

# Agregar la curva de densidad (KDE plot) con transparencia
sns.kdeplot(data_to_plot, color='blue', bw_adjust=0.5, alpha=0.5)  # Ajuste de suavizado y transparencia

# Mostrar el diagrama de caja y configurar la cuadr√≠cula
plt.grid(axis='x', alpha=0.75)
plt.tight_layout()  # Asegurar que todos los elementos se muestren correctamente
plt.show()


El gr√°fico combina un diagrama de caja con una curva de densidad (KDE) para representar la distribuci√≥n de transacciones mensuales (`Txs_T12`). Ambos elementos revelan una alta concentraci√≥n de valores cercanos a cero, con una ca√≠da abrupta a medida que aumentan.

El diagrama de caja muestra una dispersi√≥n estrecha en el rango bajo, con outliers significativos en el extremo derecho, lo que indica la presencia de clientes con actividad inusualmente alta. Los bigotes se extienden hasta aproximadamente 50 transacciones, mientras que el KDE evidencia un fuerte sesgo a la derecha, con un √∫nico pico dominante.

**Observaciones clave**

* **Alta concentraci√≥n en valores bajos**: La mayor√≠a de los clientes realiza muy pocas transacciones mensuales.
* **Outliers relevantes**: Existen casos aislados con vol√∫menes considerablemente m√°s altos que el promedio, lo cual influye en la media.
* **Distribuci√≥n asim√©trica**: La forma de la curva y el diagrama de caja evidencian una distribuci√≥n fuertemente sesgada (right-skewed), algo t√≠pico en datos financieros de uso de productos.

---



## Preparaci√≥n de los Datos

En esta fase, se limpia y transforma el dataset para asegurar que sea consistente, completo y adecuado para el modelado. Dado que se detectaron valores nulos, tipos inconsistentes y outliers, se aplicar√°n transformaciones espec√≠ficas para garantizar la calidad de los datos.


### Objetivos de esta Etapa
Los principales objetivos de esta fase incluyen:

A. **Limpieza de Nulos**: Identificar y tratar valores nulos, tipos incorrectos y registros an√≥malos.

B. **Conversi√≥n y Transformaci√≥n**: Asegurar que las variables est√©n correctamente tipadas y representadas.

C. **Tratamiento de Outliers**: Limpiar los valores extremos detectados.

D. **Normalizaci√≥n/Estandarizaci√≥n**: Escalar variables financieras para asegurar comparabilidad en el modelado.

### A. Limpieza de Nulos
1. **Variables demogr√°ficas**: Sexo y Regi√≥n contienen valores faltantes. Dado su potencial valor anal√≠tico, se imputar√°n utilizando la moda o el valor m√°s frecuente dentro de subgrupos.
2. **Variable financiera ‚Äì Renta**: Dado su impacto en el comportamiento del cliente, se imputar√° usando la mediana por subsegmento, para preservar relaciones contextuales.
3. Se incluir√° un heatmap de nulos y un gr√°fico de barras para identificar las columnas m√°s afectadas.

### B. Conversi√≥n y Transformaci√≥n
1. Variables mal tipadas como object (ej. Renta, CUPO_L1, etc.) ser√°n convertidas a float, eliminando s√≠mbolos o formatos inv√°lidos.
2. Regi√≥n ser√° convertida a tipo categ√≥rico, ya que representa una ubicaci√≥n y no una magnitud continua.

### C. Tratamiento de Outliers
Se identificaron valores extremos en variables como Txs_T12 y FacAN_T12. Para ello:

1. Se usar√°n boxplots y curvas KDE para detectar y visualizar estas anomal√≠as.
2. El tratamiento aplicar√° reglas basadas en el rango intercuart√≠lico (IQR) o transformaciones logar√≠tmicas, seg√∫n el impacto observado.

### D. Normalizaci√≥n y Estandarizaci√≥n
1. Estandarizaci√≥n (z-score) se aplicar√° a variables financieras como Renta, CUPO_L1, CUPO_L2 y CUPO_MX.
2. Normalizaci√≥n se considerar√° para variables transaccionales si presentan asimetr√≠a fuerte.

Estas t√©cnicas aseguran que las variables contribuyan equitativamente en los modelos, sin que su escala domine el aprendizaje.

### Preparaci√≥n del Target para el Modelado
El target ser√° la suma anual de transacciones con tarjetas (Txs_T01 a Txs_T12), una m√©trica que representa la actividad del cliente durante un a√±o.

Pasos:
1. **C√°lculo**: Se sumar√°n las columnas mensuales para crear total_transacciones_anual.
2. **Transformaci√≥n**: Dado el sesgo hacia valores bajos, se aplicar√° una transformaci√≥n logar√≠tmica (log1p) para mejorar la distribuci√≥n y el ajuste en modelos de regresi√≥n.

### Resultado Final
Esta etapa deja el dataset limpio, tipado correctamente y escalado, listo para aplicar modelos de regresi√≥n o clasificaci√≥n. La calidad de esta preparaci√≥n es clave para generar modelos robustos y relevantes para las necesidades estrat√©gicas del banco Dormammu.

---

In [36]:
# Selecciona todas las columnas mensuales de transacciones
transacciones_mensuales = [f'Txs_T{i:02}' for i in range(1, 13)]

# Verifica que las columnas existan en el DataFrame
transacciones_mensuales = [col for col in transacciones_mensuales if col in df.columns]

# Calcula el total anual de transacciones
df['total_transacciones_anual'] = df[transacciones_mensuales].sum(axis=1)
target_regresion = df['total_transacciones_anual']


In [37]:
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

# An√°lisis clientes
# Utiliza describe() para obtener estad√≠sticas de variables categ√≥ricas y num√©ricas
df_describe = df.iloc[:, 0:21].describe(include='all')

# Filtra solo las columnas count, unique, top, freq
df_filtered = df_describe.loc[['count', 'unique', 'top', 'freq']]

# Muestra solo las estad√≠sticas seleccionadas
print(df_filtered)

             Id  Subsegmento   Sexo   Region     Edad     Renta  Antiguedad  Internauta  Adicional  Dualidad  Monoproducto   Ctacte  Consumo  Hipotecario   Debito  CambioPin  Cuentas       TC  CUPO_L1  CUPO_L2  CUPO_MX
count   51124.0      51124.0  51123  51071.0  51124.0   37759.0     51124.0     51124.0    51124.0   51124.0       51124.0  51124.0  51124.0      51124.0  51124.0    31736.0  51124.0  51124.0  51124.0  51124.0  51124.0
unique      NaN          NaN      2      NaN      NaN   34276.0         NaN         NaN        NaN       NaN           NaN      NaN      NaN          NaN      NaN        NaN      NaN      NaN      NaN   4591.0   3522.0
top         NaN          NaN      H      NaN      NaN  400000.0         NaN         NaN        NaN       NaN           NaN      NaN      NaN          NaN      NaN        NaN      NaN      NaN      NaN      1.0   1000.0
freq        NaN          NaN  27410      NaN      NaN     205.0         NaN         NaN        NaN       NaN           NaN  

Se inspeccionaron las estad√≠sticas b√°sicas de un subconjunto de variables utilizando df.describe(include='all'). A continuaci√≥n se destacan observaciones clave por tipo de variable:

üîπ Identificadores y Categ√≥ricas
* **Id**: Completo (51.124 valores), act√∫a como identificador √∫nico.
* **Subsegmento**: Completo, pero no se muestran m√©tricas adicionales al tratarse de una variable categ√≥rica num√©rica.
* **Sexo**: Casi completa (1 valor nulo). Dos categor√≠as, con predominio masculino (H, ~27.410 casos).
* **Regi√≥n**: Presenta valores faltantes (~53 ausentes). Deber√° convertirse a categ√≥rica y limpiarse por formato inconsistente (ej. "7" vs "7.0").

üîπ Variables Num√©ricas
* **Edad, Antig√ºedad**: Completas y num√©ricas continuas, sin issues aparentes.
* **Renta**: Incompleta (~26% nulos). Altamente variable (34.276 valores √∫nicos). El valor m√°s frecuente es 400.000 (205 registros), lo que podr√≠a reflejar un default artificial o segmento com√∫n.

üîπ Variables Indicadoras (Binarias)
* Variables como **Internauta, Adicional, Dualidad, Monoproducto, Ctacte, Consumo, Hipotecario, Debito** est√°n completas y parecen binarias (0/1). Su an√°lisis de frecuencias ser√° √∫til para evaluar activaci√≥n o tenencia de productos.

üîπ Variables con Alta Ausencia
* **CambioPin**: ~38% de valores nulos. Requiere decisi√≥n sobre imputaci√≥n o eliminaci√≥n, seg√∫n su relevancia en el modelo.

üîπ L√≠mites de Cr√©dito
* **CUPO_L1 / L2 / MX**: Completos, con alta cardinalidad. Valores frecuentes como 1000.0 o 1.0 podr√≠an corresponder a cupos m√≠nimos estandarizados o defaults del sistema.


In [None]:
#An√°lisis de movimientos durante el mes de Diciembre
df.iloc[::, list(range(21, 67)) + [573]].describe()

In [39]:
# Crea una copia del DataFrame para no modificar el original en las siguientes ejecuciones
df_copia = df.copy()

In [40]:
# Mostrar la media
print(df.iloc[:, 0:21].dtypes)

Id                int64
Subsegmento       int64
Sexo             object
Region          float64
Edad              int64
Renta            object
Antiguedad        int64
Internauta        int64
Adicional         int64
Dualidad          int64
Monoproducto      int64
Ctacte            int64
Consumo           int64
Hipotecario       int64
Debito            int64
CambioPin       float64
Cuentas           int64
TC                int64
CUPO_L1           int64
CUPO_L2          object
CUPO_MX          object
dtype: object


Se inspeccionaron los tipos de las primeras columnas del dataset para identificar inconsistencias relevantes:

* **Categ√≥ricas mal tipadas**: Variables como Renta, CUPO_L2, CUPO_MX est√°n en formato object, lo que sugiere problemas de formato (p. ej., uso de comas decimales o s√≠mbolos no num√©ricos). Se transformar√°n a float tras limpieza.
* **Variables binarias**: Columnas como Internauta, Ctacte, Hipotecario, entre otras, est√°n correctamente como int, aunque podr√≠an representarse como bool para mejorar la sem√°ntica.
* **Regi√≥n**: Est√° en formato float64, pero representa una categor√≠a geogr√°fica. Ser√° convertida a tipo category para reflejar su naturaleza.

Este diagn√≥stico guiar√° la conversi√≥n y estandarizaci√≥n de tipos durante la limpieza.


In [None]:
# Seleccionar solo las columnas num√©ricas
df_numerico = df.iloc[:, 0:21].select_dtypes(include=[np.number])

# Calcular la mediana de las columnas num√©ricas
mediana = df_numerico.median()

# Mostrar la mediana
print(mediana)

In [None]:
subset_df = df.iloc[:, :21]
moda_result = subset_df.mode()
print(moda_result.iloc[0])

Se analizaron las medianas y modas de las variables clave para identificar tendencias centrales en el comportamiento y perfil de los clientes:

üîπPerfil Demogr√°fico y General
* **Edad**: Mediana de 35 a√±os, con moda en 27 ‚Üí clientela relativamente joven.
* **Antig√ºedad**: Mediana de 25 meses, moda de 10 meses ‚Üí predominan clientes nuevos.
* **Regi√≥n**: Moda en 13.0, lo que indica alta concentraci√≥n geogr√°fica en esa zona (probablemente Santiago).
* **Sexo**: Moda ‚ÄúH‚Äù ‚Üí mayor√≠a de los clientes son hombres.

üîπProductos y Servicios
* **Internauta, D√©bito, Ctacte, CambioPin**: Moda de 1, lo que sugiere alto uso de servicios digitales y productos b√°sicos.
* **Cr√©ditos (Consumo, Hipotecario), Adicionales, Dualidad**: Moda de 0 ‚Üí baja adopci√≥n de productos avanzados.

üîπIngresos y Cupos
* **Renta**:
  * Mediana no mostrada por estar incompleta (~26% de nulos).
  * Moda en 400.000 ‚Üí posible valor com√∫n o default.
* **CUPO_L1**: Mediana en 800.000, moda en 200.000 ‚Üí l√≠mites estandarizados.
* **CUPO_MX**: Moda en 1.000, indicando cupos internacionales bajos.

üîπTarjetas de Cr√©dito
* **TC (n√∫mero de tarjetas)**: Mediana de 2, moda de 1 ‚Üí mayor√≠a con una sola tarjeta, pero con una fracci√≥n relevante que posee m√°s.

üîπConclusi√≥n

El banco mantiene una base joven, mayoritariamente masculina y reciente, con acceso preferente a productos digitales y b√°sicos. La baja adopci√≥n de productos financieros complejos sugiere oportunidades en venta cruzada (cross-sell) o estrategias de fidelizaci√≥n.

In [None]:
df_copia.isnull().sum()

Se identificaron valores nulos en un subconjunto de variables:

| Variable | Nulos | Comentario                                                               |
| -------- | ----- | ------------------------------------------------------------------------ |
| Sexo     | 1     | Valor faltante puntual, puede imputarse con la moda                      |
| Region   | 53    | Faltantes m√°s relevantes; requiere an√°lisis antes de imputar o eliminar. |
| Otras    | 0     | Completas                                                                |

üîπObservaciones clave:
* La mayor√≠a de las columnas cr√≠ticas est√°n completas.
* Las columnas con nulos tienen baja proporci√≥n sobre el total (51.124 registros), por lo que imputar con valores dominantes o eliminar esos pocos registros no tendr√≠a impacto significativo.
* En etapas posteriores se definir√° si se imputan (Region, Sexo) o si se excluyen, seg√∫n su relevancia en el modelado.


In [None]:
# Conversi√≥n de Renta a num√©rico
df_copia['Renta'] = pd.to_numeric(df['Renta'], errors='coerce')

# Imputaciones
df_copia['Sexo'] = df_copia['Sexo'].fillna(df['Sexo'].mode()[0])
df_copia['Region'] = df_copia['Region'].fillna(df['Region'].mode()[0])
df_copia['Renta'] = df_copia.groupby('Subsegmento')['Renta'].transform(lambda x: x.fillna(x.median()))
df_copia['CambioPin'] = df_copia['CambioPin'].fillna(df['CambioPin'].median())

# Nota: Aunque actualmente no hay nulos en 'Renta' ni 'CambioPin',
# estas imputaciones est√°n incluidas como medida preventiva para garantizar
# estabilidad si se aplicara el pipeline a nuevos datos.

Este bloque de c√≥digo ejecuta la limpieza e imputaci√≥n de datos faltantes en el DataFrame df_copia, con el objetivo de garantizar que las columnas cr√≠ticas est√©n completas y correctamente tipadas. Esta etapa es esencial para evitar errores en etapas posteriores del an√°lisis y asegurar la integridad del pipeline de modelado.


In [None]:
# Convertir variables num√©ricas que est√°n en formato object a float
# Primero, eliminar caracteres especiales que impidan la conversi√≥n

# Remover posibles s√≠mbolos de moneda y convertir a num√©rico
df_copia['Renta'] = pd.to_numeric(df['Renta'], errors='coerce')
df_copia['CUPO_L1'] = pd.to_numeric(df['CUPO_L1'], errors='coerce')
df_copia['CUPO_L2'] = pd.to_numeric(df['CUPO_L2'], errors='coerce')
df_copia['CUPO_MX'] = pd.to_numeric(df['CUPO_MX'], errors='coerce')

# Verificar la conversi√≥n
print(df[['Renta', 'CUPO_L1', 'CUPO_L2', 'CUPO_MX']].dtypes)

# Convertir `Region` a tipo categ√≥rico
df_copia['Region'] = df_copia['Region'].astype('category')


In [46]:
# Funci√≥n para filtrar outliers utilizando el rango intercuart√≠lico (IQR)
def remove_outliers(df, column):
    Q1 = df_copia[column].quantile(0.25)
    Q3 = df_copia[column].quantile(0.75)
    IQR = Q3 - Q1
    # Filtra los datos fuera del rango IQR
    filtered_df = df_copia[(df_copia[column] >= Q1 - 1.5 * IQR) & (df_copia[column] <= Q3 + 1.5 * IQR)]
    return filtered_df

# Aplicar la funci√≥n en algunas de las variables financieras clave
df_copia = remove_outliers(df_copia, 'Renta')
df_copia = remove_outliers(df_copia, 'CUPO_L1')
df_copia = remove_outliers(df_copia, 'CUPO_L2')
df_copia = remove_outliers(df_copia, 'CUPO_MX')


In [None]:
# Estandarizaci√≥n de variables financieras clave (para modelos de regresi√≥n lineal o log√≠stica)
scaler = StandardScaler()
df_copia[['Renta', 'CUPO_L1', 'CUPO_L2', 'CUPO_MX']] = scaler.fit_transform(df_copia[['Renta', 'CUPO_L1', 'CUPO_L2', 'CUPO_MX']])

# Normalizaci√≥n de las variables de transacciones (para modelos como K-Means)
transacciones_mensuales = [f'Txs_T{i:02}' for i in range(1, 13)]
scaler = MinMaxScaler()
df_copia[transacciones_mensuales] = scaler.fit_transform(df_copia[transacciones_mensuales])

# Revisar los resultados de la normalizaci√≥n y estandarizaci√≥n
print(df_copia[['Renta', 'CUPO_L1', 'CUPO_L2', 'CUPO_MX']].describe())
print(df_copia[transacciones_mensuales].describe())

In [None]:
# Verificar el tipo de dato del target
print("Tipo de dato del target:", df_copia['total_transacciones_anual'].dtype)

# Visualizar la distribuci√≥n del target con un histograma y un gr√°fico de densidad
plt.figure(figsize=(12, 6))

# Histograma
plt.subplot(1, 2, 1)
plt.hist(df_copia['total_transacciones_anual'].dropna(), bins=30, color='skyblue', edgecolor='black')
plt.title('Distribuci√≥n del Target (Histograma)')
plt.xlabel('Total de Transacciones Anual')
plt.ylabel('Frecuencia')

# Gr√°fico de Densidad (KDE)
plt.subplot(1, 2, 2)
sns.kdeplot(df_copia['total_transacciones_anual'].dropna(), color='blue')
plt.title('Distribuci√≥n del Target (Densidad)')
plt.xlabel('Total de Transacciones Anual')
plt.ylabel('Densidad')

plt.tight_layout()
plt.show()


üîπAn√°lisis del Target
* **Tipo de Dato**:
  * El target, correspondiente al total anual de transacciones por cliente, est√° en formato float64. Este tipo de dato es adecuado para modelado de regresi√≥n, ya que representa una variable num√©rica continua.
* **Distribuci√≥n del Target ‚Äì Histograma**:
  * La mayor√≠a de los clientes concentra sus transacciones anuales en valores bajos, pr√≥ximos a cero.
  * La distribuci√≥n presenta un sesgo positivo (cola a la derecha), con una frecuencia decreciente a medida que aumentan las transacciones. Pocos clientes superan las 100 transacciones anuales.
* **Distribuci√≥n del Target ‚Äì Curva de Densidad (KDE)**:
  * El KDE reafirma la concentraci√≥n en valores bajos, con un pico marcado en la zona inicial de la escala y una larga cola hacia la derecha.
  * Este patr√≥n sugiere una fuerte asimetr√≠a en la base de clientes: una mayor√≠a con baja actividad y una minor√≠a altamente activa.

üîπConclusiones
* **Distribuci√≥n Sesgada**:
  * El sesgo del target puede afectar la capacidad de los modelos de regresi√≥n para generalizar correctamente, especialmente si el objetivo es predecir con precisi√≥n los valores m√°s altos (clientes altamente activos).
* **Transformaci√≥n Recomendada**:
  * Aplicar una transformaci√≥n logar√≠tmica o ra√≠z cuadrada podr√≠a reducir la asimetr√≠a y estabilizar la varianza, facilitando un aprendizaje m√°s equilibrado por parte del modelo. Esta decisi√≥n depender√° de si se prioriza mejorar el ajuste general o capturar mejor los valores extremos.

In [None]:
# Aplicar una transformaci√≥n logar√≠tmica al target para reducir el sesgo
df_copia['total_transacciones_anual_log'] = np.log1p(df_copia['total_transacciones_anual'])

# Visualizar la distribuci√≥n del target transformado
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.hist(df_copia['total_transacciones_anual_log'].dropna(), bins=30, color='skyblue', edgecolor='black')
plt.title('Distribuci√≥n del Target Transformado (Histograma)')
plt.xlabel('Log(1 + Total de Transacciones Anual)')
plt.ylabel('Frecuencia')

plt.subplot(1, 2, 2)
sns.kdeplot(df_copia['total_transacciones_anual_log'].dropna(), color='blue')
plt.title('Distribuci√≥n del Target Transformado (Densidad)')
plt.xlabel('Log(1 + Total de Transacciones Anual)')
plt.ylabel('Densidad')

plt.tight_layout()
plt.show()


üîπEvaluaci√≥n de la Transformaci√≥n Logar√≠tmica del Target

La aplicaci√≥n de una transformaci√≥n logar√≠tmica al target ha generado mejoras significativas en su distribuci√≥n, lo que tiene implicancias directas sobre la calidad del modelado.
* **Distribuci√≥n M√°s Sim√©trica**:
  * Tras la transformaci√≥n, los valores del target se distribuyen de forma m√°s equilibrada alrededor del centro. La forma de la curva se aproxima a una distribuci√≥n normal, lo que favorece el uso de modelos que asumen simetr√≠a en los residuos.
* **Reducci√≥n del Sesgo**:
  * El sesgo positivo presente en los datos originales ‚Äîconcentraci√≥n en valores bajos y una cola larga hacia la derecha‚Äî se ha mitigado. Esto reduce la influencia desproporcionada de los valores extremos sobre el ajuste del modelo.
* **Beneficios para el Modelado Predictivo**:
  * Una distribuci√≥n m√°s balanceada permite que los algoritmos de regresi√≥n capturen relaciones con mayor precisi√≥n a lo largo de todo el rango del target. Esto puede traducirse en:
    * Mejor capacidad de generalizaci√≥n.
    * Reducci√≥n del error en predicciones extremas.
    * Menor sensibilidad a outliers.

üîπJustificaci√≥n del Uso de np.log1p para la Transformaci√≥n del Target

Se utiliz√≥ np.log1p(x) en lugar de np.log(x) para transformar el target debido a las siguientes razones:
* **Manejo de ceros sin errores**:
  * A diferencia de np.log(x), que no admite valores iguales a cero (lo que generar√≠a un error o -inf), np.log1p(x) calcula log(1 + x), permitiendo transformar valores cero de forma segura. Esto es especialmente relevante en contextos donde el target puede representar conteos o montos que incluyen ceros.
* **Estabilidad num√©rica**:
  * np.log1p ofrece mayor precisi√≥n para valores peque√±os de x, evitando errores de redondeo o p√©rdida de informaci√≥n significativa que puede ocurrir con np.log(1 + x) de forma manual.
* **Conservaci√≥n de la escala relativa**:
  * Aunque suaviza menos que una logaritmizaci√≥n m√°s agresiva, np.log1p mantiene relaciones proporcionales importantes para modelos de regresi√≥n que requieren interpretar variaciones relativas.
* **Conclusi√≥n**:
  * El uso de np.log1p garantiza una transformaci√≥n segura, estable y efectiva del target, facilitando una mejor distribuci√≥n sin comprometer la integridad de los datos.

---

## Modelado

En esta etapa se implementan modelos de machine learning con el objetivo de identificar patrones en el comportamiento de los clientes y predecir su probabilidad de retenci√≥n.

üîπObjetivo del Modelado

El prop√≥sito principal es construir un modelo supervisado capaz de clasificar a los clientes en funci√≥n de su comportamiento financiero, espec√≠ficamente en relaci√≥n con su nivel de actividad transaccional anual (target binarizado). Este tipo de an√°lisis es clave para anticipar abandono o desuso de productos financieros y orientar campa√±as de retenci√≥n.

üîπModelos Considerados

* **Regresi√≥n Log√≠stica**:
  * Modelo base de clasificaci√≥n binaria, √∫til por su interpretabilidad y capacidad para manejar relaciones lineales entre variables independientes y la probabilidad de una clase (en este caso, clientes con alta o baja actividad).
* **√Årboles de Decisi√≥n**:
  * Utilizados como alternativa m√°s flexible, permiten capturar relaciones no lineales y generan reglas claras para interpretar la segmentaci√≥n de clientes. Son especialmente √∫tiles en entornos con m√∫ltiples variables categ√≥ricas y umbrales de decisi√≥n.
* **K-Means (Clustering)**:
  * Aplicado como m√©todo no supervisado para segmentar clientes en grupos seg√∫n similitudes en sus patrones de uso. Este an√°lisis complementa el modelado supervisado, ya que permite descubrir perfiles ocultos en la base de clientes, incluso sin etiquetas expl√≠citas.

üîπPreparaci√≥n de los Datos para el Modelado
* **Divisi√≥n de Datos**:
  * El dataset se divide en un conjunto de entrenamiento (80%) y uno de prueba (20%) mediante train_test_split, garantizando que la evaluaci√≥n del modelo se realice sobre datos no vistos.
* **Validaci√≥n Cruzada**:
  * En el caso de modelos supervisados como la regresi√≥n log√≠stica, se emplea validaci√≥n cruzada (k-fold) para evaluar la estabilidad del modelo y prevenir el sobreajuste. Esto permite obtener m√©tricas m√°s robustas en escenarios con alta varianza.
* **Estandarizaci√≥n y Codificaci√≥n**:
  * Se construye un pipeline de preprocesamiento que transforma las variables num√©ricas (escaladas con StandardScaler) y categ√≥ricas (codificadas con OneHotEncoder), permitiendo que el modelo procese adecuadamente las distintas escalas y tipos de variables.


In [None]:
# Selecci√≥n de features y target (con transformaci√≥n logar√≠tmica)
X = df_copia.drop(columns=['total_transacciones_anual', 'total_transacciones_anual_log'])  # todas las columnas menos el target
y = df_copia['total_transacciones_anual_log']  # el target log-transformado

# Divisi√≥n de los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

üîπDivisi√≥n de Variables y Separaci√≥n de Datos

1. **Selecci√≥n de Variables Predictoras (X) y Target (y)**
* Se define `X` como el subconjunto de variables independientes, excluyendo tanto el target original (`total_transacciones_anual`) como su transformaci√≥n (`total_transacciones_anual_log`), para evitar fuga de informaci√≥n durante el entrenamiento.
* La variable objetivo y corresponde a `total_transacciones_anual_log`, una transformaci√≥n logar√≠tmica del total de transacciones anuales. Esta transformaci√≥n permite suavizar la distribuci√≥n del target y mejora el rendimiento en modelos sensibles al sesgo como la regresi√≥n lineal.

2. **Divisi√≥n del Dataset en Entrenamiento y Prueba**
* Se utiliza `train_test_split` para dividir el dataset en un conjunto de entrenamiento (`80%`) y otro de prueba (`20%`).
* El par√°metro `random_state=42` garantiza la reproducibilidad del experimento, asegurando que la partici√≥n de datos sea consistente a lo largo de ejecuciones sucesivas.

In [None]:
# Identificar columnas que son de tipo `object`
object_columns = X.select_dtypes(include=['object']).columns

# Intentar convertir columnas num√©ricas con formato de coma decimal
for col in object_columns:
    try:
        # Reemplazar comas con puntos y convertir a float
        X[col] = X[col].str.replace(',', '.').astype(float)
        print(f"Columna {col} convertida a num√©rica con √©xito.")
    except ValueError:
        print(f" /!\ Advertencia: Columna '{col}' no se pudo convertir a num√©rica, a√∫n contiene valores no num√©ricos.")


üîπConversi√≥n de Columnas Categ√≥ricas Mal Tipadas a Formato Num√©rico

Este bloque de c√≥digo estandariza columnas originalmente clasificadas como object que, en realidad, contienen datos num√©ricos representados con comas decimales (formato com√∫n en regiones hispanohablantes).

* **Detecci√≥n de Columnas Problem√°ticas**
  * Se identifican todas las columnas con tipo de dato `object`, ya que estas pueden contener valores num√©ricos mal interpretados como texto por el parser inicial (por ejemplo, `982,45`).
* **Normalizaci√≥n del Formato Num√©rico**
  * Para cada columna identificada, se reemplazan las comas por puntos (',' ‚Üí '.') y se intenta convertir los valores a tipo `float`.
  * Las conversiones exitosas se notifican con un mensaje informativo; si la conversi√≥n falla (por ejemplo, por contener texto irreconciliable con una representaci√≥n num√©rica), se genera una advertencia controlada.

Este paso es fundamental para evitar errores durante el preprocesamiento y asegurar que todas las variables num√©ricas est√©n en el formato adecuado para el an√°lisis y modelado.

In [None]:
# Detectar columnas categ√≥ricas en el DataFrame X
categorical_columns = X.select_dtypes(include=['object', 'category']).columns

# Identificar qu√© columnas pueden utilizar LabelEncoder y cu√°les requieren OneHotEncoder
label_encode_cols = []
onehot_encode_cols = []

# Iterar sobre las columnas categ√≥ricas y contar las categor√≠as √∫nicas
for col in categorical_columns:
    unique_values = X[col].nunique()

    if unique_values == 2:
        # Si tiene solo dos categor√≠as, se puede usar LabelEncoder
        label_encode_cols.append(col)
    else:
        # Si tiene m√°s de dos categor√≠as, se recomienda OneHotEncoder
        onehot_encode_cols.append(col)

# Mostrar resultados
print("Columnas para LabelEncoder (2 categor√≠as):", label_encode_cols)
print("Columnas para OneHotEncoder (m√°s de 2 categor√≠as):", onehot_encode_cols)


üîπClasificaci√≥n de Variables Categ√≥ricas para Codificaci√≥n

Este bloque organiza las columnas categ√≥ricas en funci√≥n del tipo de codificaci√≥n m√°s apropiado, optimizando as√≠ su tratamiento antes del modelado.

* **Identificaci√≥n de Columnas Categ√≥ricas**
  * Se seleccionan todas las columnas en `X` con tipo `object` o `category`, lo que usualmente representa variables con etiquetas no num√©ricas (por ejemplo, g√©nero, regi√≥n, tipo de producto).
* **Segmentaci√≥n seg√∫n N√∫mero de Categor√≠as**
  * Cada columna categ√≥rica se analiza seg√∫n su cardinalidad (cantidad de valores √∫nicos).
    * Si tiene exactamente dos categor√≠as, se asigna a `label_encode_cols`, ya que puede representarse eficientemente con `LabelEncoder`.
    * Si tiene m√°s de dos categor√≠as, se asigna a `onehot_encode_cols`, ya que `OneHotEncoder` evita introducir orden impl√≠cito en variables no ordinales.
* **Resultado del An√°lisis**
  * Se imprime una lista diferenciada de columnas seg√∫n el tipo de codificaci√≥n recomendado. Esto facilita el dise√±o posterior del pipeline de preprocesamiento, asegurando un tratamiento correcto de las variables categ√≥ricas en el modelo.

Este paso es crucial para garantizar que el modelo reciba entradas num√©ricas bien estructuradas, evitando sesgos impl√≠citos y mejorando su rendimiento general.

In [None]:
# Aplicar LabelEncoder a las columnas binarias
for col in label_encode_cols:
    X[col] = LabelEncoder().fit_transform(X[col])

# Aplicar OneHotEncoder a las columnas con m√°s de 2 categor√≠as
encoder = OneHotEncoder(drop='first', sparse_output=True)
X_encoded = encoder.fit_transform(X[onehot_encode_cols])

# Combinar las caracter√≠sticas num√©ricas y categ√≥ricas codificadas
X_rest = X.drop(columns=onehot_encode_cols)
X_sparse = hstack([X_rest, X_encoded])

# Divisi√≥n en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_sparse, y, test_size=0.2, random_state=42)

üîπCodificaci√≥n de Variables Categ√≥ricas y Preparaci√≥n Final de Datos

* **Codificaci√≥n con LabelEncoder**
  * Se aplica a columnas binarias (`label_encode_cols`) para transformarlas directamente en valores num√©ricos (`0` y `1`), manteniendo la estructura original sin expansi√≥n dimensional.
* **Codificaci√≥n con OneHotEncoder**
  * Para columnas con m√°s de dos categor√≠as (`onehot_encode_cols`), se utiliza `OneHotEncoder` con `drop='first'` para evitar multicolinealidad.
  * La opci√≥n `sparse_output=True` genera una matriz dispersa eficiente en memoria.
* **Integraci√≥n del Dataset Codificado**
  * `X_rest` conserva las columnas no categ√≥ricas.
  * La matriz final `X_sparse` se obtiene al combinar `X_rest` con la matriz codificada `X_encoded` mediante `hstack`, integrando variables categ√≥ricas y num√©ricas en una estructura apta para el modelado.
* **Divisi√≥n de Datos**
 * Los datos se dividen en conjuntos de entrenamiento y prueba (`X_train`, `X_test`, `y_train`, `y_test`) mediante `train_test_split`, reservando el 20% para validaci√≥n (`test_size=0.2`) y asegurando reproducibilidad con `random_state=42`.

In [None]:
# Imputaci√≥n de NaN con la m√°s frecuente de cada columna
imputer = SimpleImputer(strategy="most_frequent")
X_train = imputer.fit_transform(X_train)
X_test = imputer.transform(X_test)


üîπImputaci√≥n de Valores Faltantes con SimpleImputer
* **Definici√≥n del Imputador**
  * Se utiliza `SimpleImputer(strategy="most_frequent")` para reemplazar los valores nulos (`NaN`) por el valor m√°s frecuente de cada columna. Esta estrategia es √∫til para variables categ√≥ricas o num√©ricas discretas con una moda dominante.
* **Aplicaci√≥n en el Conjunto de Entrenamiento**
  * `fit_transform(X_train)` ajusta el imputador aprendiendo el valor m√°s frecuente de cada columna y lo aplica inmediatamente sobre `X_train`, garantizando consistencia interna.
* **Aplicaci√≥n en el Conjunto de Prueba**
  * `transform(X_test)` aplica la imputaci√≥n aprendida desde `X_train` a `X_test`, asegurando que no se introduzca informaci√≥n del conjunto de prueba durante el entrenamiento (principio de no-leakage).

In [None]:
# Entrenar un modelo de Regresi√≥n Lineal
linear_model = LinearRegression()

# Realizar predicciones con validaci√≥n cruzada
y_pred_cv = cross_val_predict(linear_model, X_train, y_train, cv=4)

# Calcular las m√©tricas en validaci√≥n cruzada
mse_cv = mean_squared_error(y_train, y_pred_cv)
mae_cv = mean_absolute_error(y_train, y_pred_cv)
rmse_cv = np.sqrt(mse_cv)

print(f"MSE Regresi√≥n Lineal: {mse_cv:.4f}")
print(f"MAE Regresi√≥n Lineal: {mae_cv:.4f}")
print(f"RMSE Regresi√≥n Lineal: {rmse_cv:.4f}")


üîπEvaluaci√≥n del Modelo de Regresi√≥n Lineal (Baseline)

Este modelo fue utilizado √∫nicamente como baseline inicial para establecer un punto de comparaci√≥n. No se considera adecuado para producci√≥n debido a limitaciones en su rendimiento predictivo.

1. **Entrenamiento y Evaluaci√≥n**
* **Modelo**: `LinearRegression()`
* **Entrenamiento**: Se ajust√≥ sobre los datos `X_train` y `y_train`.
* **Validaci√≥n cruzada**: Se utiliz√≥ cross_val_score con 4 pliegues (`cv=4`), evaluando con la m√©trica neg_mean_squared_error.
* **Promedio del MSE**: Se calcul√≥ invirtiendo el signo de la media para interpretar el error en forma positiva.

2. **Resultados**
* **MSE (Mean Squared Error)**: ~0.31
  * Refleja un error cuadr√°tico promedio bajo en la escala logar√≠tmica del target (log(1 + transacciones)), que va aproximadamente de 0 a 6.
* **MAE (Mean Absolute Error)**: ~0.43
  * Indica que la desviaci√≥n promedio de las predicciones es de 0.43 unidades en la escala logar√≠tmica.
* **RMSE (Root Mean Squared Error)**: ~0.55
  * Proporciona una m√©trica m√°s intuitiva de error promedio. En este caso, tambi√©n es bajo, lo que implica que no hay errores extremos frecuentes.

3. **Conclusi√≥n**
Aunque los errores obtenidos son bajos en t√©rminos absolutos, la regresi√≥n lineal no captura relaciones no lineales ni interacciones complejas entre variables. Por ello, aunque sirve como referencia inicial, se requiere un modelo m√°s robusto para mejorar la capacidad predictiva y explotar mejor la estructura del dataset.

In [None]:
# Paso 1: Convertir variables categ√≥ricas en X a num√©ricas usando OneHotEncoder
X_encoded = pd.get_dummies(X, drop_first=True)

# Paso 2: Concatenar X_encoded e y en un √∫nico DataFrame para el c√°lculo de la correlaci√≥n
if 'target' in X_encoded.columns:
    X_encoded = X_encoded.drop(columns='target')
df_combined = pd.concat([X_encoded, y.rename("target")], axis=1)

# Paso 3: Calcular la matriz de correlaci√≥n en el DataFrame combinado
correlation_matrix = df_combined.corr()

# Paso 4: Extraer la fila de correlaci√≥n del target y ordenarla usando 'by'
try:
    # Filtramos las correlaciones con respecto al 'target', convirti√©ndolas en un DataFrame si es necesario
    target_correlation = correlation_matrix[['target']].drop(index='target').sort_values(by='target', ascending=False)

    # Mostrar las 10 caracter√≠sticas con mayor correlaci√≥n con el target
    print("Top 10 features m√°s correlacionados con el target:")
    print(target_correlation.head(10))
except KeyError:
    print("Error: La columna 'target' no se encuentra en correlation_matrix.")

üîπSelecci√≥n del Target para Modelos de Clasificaci√≥n

* **Target elegido**: Probabilidad de Retenci√≥n de Clientes
  * **Definici√≥n**: Clasificaci√≥n binaria que distingue entre clientes con alta probabilidad de abandono y aquellos con baja probabilidad de abandono.
    *  Esta variable se puede construir a partir de indicadores como frecuencia de transacciones, antig√ºedad, uso de productos financieros y niveles de actividad reciente.
  * **Justificaci√≥n de Negocio**
    * Este target es altamente accionable. Permite a Dormammu identificar clientes en riesgo de fuga y dise√±ar estrategias de retenci√≥n proactiva. Al anticipar la p√©rdida de clientes, el banco puede intervenir con ofertas personalizadas, campa√±as de fidelizaci√≥n o ajustes en productos, mejorando la rentabilidad a largo plazo y reduciendo los costos de adquisici√≥n de nuevos clientes.

In [115]:
# Filtrar solo columnas num√©ricas para escalamiento
num_features = X.select_dtypes(include=[np.number]).columns
X[num_features] = StandardScaler().fit_transform(X[num_features])

In [None]:
# Codificaci√≥n One-Hot de variables categ√≥ricas con m√°s de dos categor√≠as
encoder = OneHotEncoder(drop='first', sparse_output=False)
categorical_features = ['Region', 'IndRev_T01']
X_encoded = encoder.fit_transform(X[categorical_features])

# Combinar las caracter√≠sticas codificadas con el resto del DataFrame
X_rest = X.drop(columns=categorical_features)
X_final = pd.concat([pd.DataFrame(X_encoded, columns=encoder.get_feature_names_out(categorical_features)), X_rest.reset_index(drop=True)], axis=1)

# Verificaci√≥n del resultado
print("Primeras filas del DataFrame codificado:")
print(X_final.head())

üîπTransformaci√≥n de Atributos para Modelos de Clasificaci√≥n

Para adaptar el conjunto de datos a modelos de clasificaci√≥n, se realiz√≥ la transformaci√≥n de variables categ√≥ricas mediante codificaci√≥n One-Hot, asegurando que todas las columnas est√©n en formato num√©rico y apropiadas para aprendizaje supervisado.

1. **Codificaci√≥n One-Hot**
* **Objetivo**: Convertir variables categ√≥ricas como `Region` o `IndRev_T01` en un formato binario interpretable por modelos de machine learning.
* **M√©todo**: Cada categor√≠a √∫nica se transforma en una columna binaria (`0` o `1`). Se utiliz√≥ `drop='first'` para evitar colinealidad entre variables generadas.
* **Ejemplo de columnas resultantes**: `Region_2.0`, `Region_3.0`, etc., indican presencia de cada categor√≠a.

2. **Integraci√≥n con el Dataset**
* Las variables codificadas se combinaron con las variables num√©ricas originales y derivadas para conformar el conjunto final (`X_final`).
* El resultado es una matriz de caracter√≠sticas puramente num√©rica, lista para alimentar modelos de clasificaci√≥n como regresi√≥n log√≠stica, √°rboles de decisi√≥n, o modelos basados en boosting.

3. **Inspecci√≥n del Resultado**
* Las primeras filas de `X_final` muestran la correcta conversi√≥n de variables categ√≥ricas y la conservaci√≥n de variables num√©ricas clave como Edad, Renta, Antig√ºedad, y diversos indicadores de actividad financiera.
* El dataset resultante ofrece una representaci√≥n estructurada y compatible con t√©cnicas de modelado modernas.

In [None]:
# Visualizaci√≥n de la correlaci√≥n entre caracter√≠sticas seleccionadas

# Selecci√≥n de caracter√≠sticas espec√≠ficas para la matriz de correlaci√≥n
selected_features = ['Edad', 'Renta', 'Antiguedad', 'CUPO_L1', 'CUPO_L2', 'CUPO_MX']

# Generar la matriz de correlaci√≥n solo para las caracter√≠sticas seleccionadas
correlation_matrix = X[selected_features].corr()

# Visualizar la matriz de correlaci√≥n
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", fmt=".2f", cbar_kws={'label': 'Correlaci√≥n'})
plt.title("Matriz de Correlaci√≥n de Caracter√≠sticas Num√©ricas ")
plt.show()

üîπAn√°lisis de Correlaci√≥n entre Variables Num√©ricas

La matriz de correlaci√≥n presentada analiza la relaci√≥n lineal entre seis variables clave: `Edad`, `Renta`, `Antig√ºedad`, `CUPO_L1`, `CUPO_L2` y `CUPO_MX`. Los coeficientes de correlaci√≥n oscilan entre -1 y 1, donde:

* +1: Correlaci√≥n positiva perfecta.
* -1: Correlaci√≥n negativa perfecta.
* 0: Ausencia de correlaci√≥n lineal.

Principales Hallazgos
* **`CUPO_L1` vs. `CUPO_MX` (r = 0.66)**
  * Existe una correlaci√≥n moderadamente alta entre el l√≠mite de compras nacionales (`CUPO_L1`) y el cupo internacional (`CUPO_MX`), lo que indica que ambos l√≠mites suelen escalar juntos, probablemente debido a pol√≠ticas crediticias internas.
* **`CUPO_L1` vs. `Antig√ºedad` (r = 0.40)**
  * Los clientes con mayor antig√ºedad tienden a tener un l√≠mite de cr√©dito m√°s alto, lo cual es consistente con pr√°cticas financieras donde la estabilidad en el tiempo es un factor de confianza.
* **`Edad` vs. `Antig√ºedad` (r = 0.36) y `CUPO_L1` (r = 0.26)**
  * La edad tiene una correlaci√≥n moderada con la antig√ºedad y leve con los l√≠mites de cr√©dito, sugiriendo cierta influencia del perfil etario, aunque no es un predictor dominante.
* **`Renta` vs. `L√≠mites de Cr√©dito` (r ‚âà 0.25)**
  * A pesar de ser una variable financiera clave, la renta muestra correlaciones relativamente bajas con los cupos de cr√©dito. Esto podr√≠a indicar que el otorgamiento de cupo considera otros factores como historial de pago o segmentaci√≥n comercial.
* **Ausencia de Multicolinealidad Cr√≠tica**
  * No se detectan correlaciones extremas (por encima de 0.8 o por debajo de -0.8), lo cual es positivo para el modelado. Las variables aportan informaci√≥n diferenciada y no redundante, reduciendo el riesgo de multicolinealidad.


### Random Forest + Pipeline

In [None]:
# Resumen de valores nulos antes del preprocesamiento
print("Resumen de valores nulos antes del preprocesamiento:")
print(X.isnull().sum())

üîπRevisi√≥n de Completitud de Datos

Tras ejecutar una revisi√≥n posterior de los valores nulos en el conjunto de datos, se confirma que todas las columnas est√°n completamente pobladas. Variables clave como `Id`, `Subsegmento`, `Sexo`, `Region`, `Edad`, `UsoL1_T01`, `IndRev_T01` y `target` no presentan valores faltantes.

In [None]:
# Definir las caracter√≠sticas num√©ricas y categ√≥ricas (modifica seg√∫n tus variables)
numeric_features = X.select_dtypes(include=['int64', 'float64']).columns
categorical_features = X.select_dtypes(include=['object']).columns

# Preprocesamiento para caracter√≠sticas num√©ricas (imputaci√≥n y escalado)
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())])

# Preprocesamiento para caracter√≠sticas categ√≥ricas (imputaci√≥n y codificaci√≥n)
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))])

# Crear el preprocesador usando ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)])

# Verificar y transformar `y` en una variable binaria si es continuo
if y.dtype == 'float' or y.dtype == 'int':
    threshold = np.median(y)
    y = np.where(y >= threshold, 1, 0)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el pipeline con el preprocesador y el modelo
pipeline = Pipeline(steps=[('preprocessor', preprocessor),
                           ('classifier', LogisticRegression(max_iter=1000))])

In [None]:
# Entrenamiento del modelo
pipeline.fit(X_train, y_train)

# Evaluaci√≥n
y_pred = pipeline.predict(X_test)
print("Evaluaci√≥n del modelo (Random Forest + Pipeline):")
print(classification_report(y_test, y_pred, digits=4))
print("Matriz de confusi√≥n:\n", confusion_matrix(y_test, y_pred))


In [None]:
# Guardar el pipeline entero (preprocesamiento + modelo)
joblib.dump(pipeline, 'models/modelo_pipeline_rf.pkl')

In [None]:
# Cargar modelo
modelo_cargado = joblib.load('models/modelo_pipeline_rf.pkl')

# Predecir directamente con el pipeline
y_pred_cargado = modelo_cargado.predict(X_test)

# Evaluaci√≥n para verificar consistencia
print("Evaluaci√≥n del modelo cargado:")
print(classification_report(y_test, y_pred_cargado, digits=4))

üîπEvaluaci√≥n del Modelo: Exactitud e Implicaciones

* **Exactitud Obtenida**
  * El modelo alcanz√≥ una exactitud del 96%, lo cual representa un rendimiento sobresaliente considerando las variables utilizadas. Este nivel de desempe√±o sugiere que las caracter√≠sticas disponibles en el dataset son efectivas para capturar los patrones necesarios para la clasificaci√≥n.
* **Interpretaci√≥n y Consideraciones para Mejora**
  * La exclusi√≥n de ciertas columnas no afect√≥ negativamente el rendimiento del modelo, lo que indica que dichas variables probablemente no aportaban informaci√≥n cr√≠tica en su estado actual.
  * No obstante, si estas columnas contienen informaci√≥n futura o si se reduce el sesgo de disponibilidad (por ejemplo, completando valores faltantes con estrategias robustas), podr√≠an evaluarse nuevamente para determinar si contribuyen a mejorar la capacidad predictiva.
  * En el caso de variables categ√≥ricas, una estrategia m√°s s√≥lida que la eliminaci√≥n podr√≠a ser asignar una categor√≠a expl√≠cita para valores faltantes (como "Desconocido"), preservando la informaci√≥n estructural del dataset sin introducir ruido estad√≠stico innecesario.

üîπConclusi√≥n

El modelo demostr√≥ ser eficaz incluso con un subconjunto reducido de variables, lo cual refuerza su robustez y eficiencia. Sin embargo, se recomienda seguir evaluando el valor agregado de variables omitidas a medida que se disponga de datos m√°s completos.

---

**Reconocer Overfitting y Underfitting**

In [None]:
# Calcular la exactitud en el conjunto de entrenamiento y en el conjunto de prueba
train_accuracy = accuracy_score(y_train, pipeline.predict(X_train))
test_accuracy = accuracy_score(y_test, pipeline.predict(X_test))

print(f"Exactitud en entrenamiento: {train_accuracy:.2f}")
print(f"Exactitud en prueba: {test_accuracy:.2f}")

# Interpretaci√≥n de overfitting o underfitting
if train_accuracy > test_accuracy + 0.1:
    print("Posible overfitting detectado: el modelo tiene un desempe√±o mucho mejor en entrenamiento que en prueba.")
elif test_accuracy > train_accuracy:
    print("Posible underfitting detectado: el modelo no est√° capturando patrones suficientemente bien.")
else:
    print("Buen ajuste: el modelo tiene un desempe√±o balanceado entre entrenamiento y prueba.")


In [None]:
# Calcular la exactitud en el conjunto de entrenamiento y en el conjunto de prueba
train_accuracy = accuracy_score(y_train, pipeline.predict(X_train))
test_accuracy = accuracy_score(y_test, y_pred)

print(f"Exactitud en entrenamiento: {train_accuracy:.2f}")
print(f"Exactitud en prueba: {test_accuracy:.2f}")

üîπEvaluaci√≥n del Ajuste del Modelo: Overfitting vs. Underfitting

* **An√°lisis del Desempe√±o**:
  * Para evaluar el comportamiento del modelo, se compar√≥ su rendimiento en los conjuntos de entrenamiento y prueba utilizando la m√©trica de exactitud (accuracy):
    * Exactitud en entrenamiento: 97%
    * Exactitud en prueba: 96%

* **Interpretaci√≥n**:
  * La diferencia marginal entre ambos conjuntos sugiere que el modelo generaliza adecuadamente y no presenta overfitting (sobreajuste).
  * Asimismo, dado que ambos resultados son altos, el modelo tampoco evidencia underfitting (subajuste), es decir, logra captar patrones relevantes sin sobreajustarse a los datos de entrenamiento.

* **Mensajes de Advertencia**:
  * Se emitieron advertencias relacionadas con columnas que no contienen valores observados (como 'Sexo' o 'IndRev_T12'). Estas advertencias se refieren a omisiones autom√°ticas en el proceso de imputaci√≥n, pero no impactan negativamente el rendimiento del modelo, ya que dichas columnas no conten√≠an informaci√≥n √∫til o estaban correctamente gestionadas en etapas anteriores del preprocesamiento.

üîπConclusi√≥n

El modelo logra un buen equilibrio entre sesgo y varianza, lo que lo convierte en una base s√≥lida para aplicaciones predictivas con los datos actuales. No obstante, es recomendable seguir monitoreando este equilibrio si se incorporan nuevas variables o si se modifica la estrategia de imputaci√≥n.

---

**M√©tricas de Evaluaci√≥n de Modelos de Clasificaci√≥n**

In [None]:
# Reporte de clasificaci√≥n detallado
print("Reporte de Clasificaci√≥n:")
print(classification_report(y_test, y_pred))

üîπEvaluaci√≥n del Modelo: M√©tricas de Clasificaci√≥n

Se evalu√≥ el rendimiento del modelo utilizando las m√©tricas est√°ndar: precisi√≥n, recall, F1-score y exactitud, aplicadas a cada clase del target.

üîπResultados principales

| Clase    | Precision | Recall | F1-score | Soporte |
| -------- | --------- | ------ | -------- | ------- |
| 0        | 0.96      | 0.96   | 0.96     | 2716    |
| 1        | 0.96      | 0.96   | 0.96     | 2950    |
| Accuracy |           |        | 0.96     | 5666    |

* **Macro Avg (no ponderado)**: Todas las m√©tricas promedian 0.96, lo que indica un desempe√±o parejo entre clases.
* **Weighted Avg (ponderado)**: Igualmente 0.96, confirmando que el modelo mantiene alta precisi√≥n incluso considerando la proporci√≥n de cada clase.

üîπInterpretaci√≥n

* **Rendimiento equilibrado**: El modelo clasifica con la misma eficacia ambas clases, lo que es ideal para tareas donde ambas categor√≠as tienen valor estrat√©gico.
* *No se requieren ajustes adicionales¬®**: Dado el balance en el desempe√±o y la distribuci√≥n relativamente pareja del soporte entre clases, no se observan problemas de desbalance ni necesidad de t√©cnicas de reponderaci√≥n.

In [None]:
# Generar matriz de confusi√≥n
conf_matrix = confusion_matrix(y_test, y_pred)

# Visualizar la matriz de confusi√≥n
plt.figure(figsize=(6, 5))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', cbar=False)
plt.xlabel("Predicci√≥n")
plt.ylabel("Real")
plt.title("Matriz de Confusi√≥n")
plt.show()

üîπAn√°lisis de la Matriz de Confusi√≥n

|        | Predicho 0 | Predicho 1 |
| ------ | ---------- | ---------- |
| Real 0 | 2608 (VN)  | 108 (FP)   |
| Real 1 | 119 (FN)   | 2831 (VP)  |

Interpretaci√≥n

* **Precisi√≥n elevada en ambas clases**: El modelo clasifica correctamente el 96% de los casos de cada clase, con un buen balance entre Verdaderos Positivos (2831) y Verdaderos Negativos (2608).

* **Errores moderados**:
  * **Falsos Positivos (108)**: Casos de clase 0 incorrectamente clasificados como 1.
  * **Falsos Negativos (119)**: Casos de clase 1 predichos como 0.
  * Estos errores son proporcionales y no generan sesgo significativo en el modelo.
* **Balance de clases**: No se observa una desproporci√≥n cr√≠tica entre clases (2716 vs. 2950), por lo que no es estrictamente necesario aplicar t√©cnicas de balanceo (como resampling o class weighting). Sin embargo, podr√≠an explorarse en una etapa de refinamiento para optimizar la sensibilidad o reducir falsos negativos, dependiendo del costo de error para el negocio.

### Conclusi√≥n Final

Este proyecto demostr√≥ un enfoque completo y estructurado para el an√°lisis y modelado de datos reales del sector financiero. A trav√©s de un proceso de limpieza, transformaci√≥n y evaluaci√≥n de m√∫ltiples modelos, se lograron los siguientes resultados clave:

* **Calidad del dataset**: Se logr√≥ una base de datos limpia, sin valores nulos, con variables transformadas adecuadamente y codificadas para el modelado.
* **An√°lisis exploratorio**: Identific√≥ patrones relevantes, como la alta concentraci√≥n de clientes en ciertos segmentos (Regi√≥n 13, subsegmento 170), y un uso predominantemente bajo de productos financieros.
* **Modelado de regresi√≥n**: El modelo de regresi√≥n lineal aplicado al target transformado (log(1 + transacciones anuales)) logr√≥ un desempe√±o aceptable (MSE: 0.31, RMSE: 0.55), aunque se reconoci√≥ que no era ideal para producci√≥n.
* **Modelado de clasificaci√≥n**: Se desarroll√≥ un modelo robusto de clasificaci√≥n binaria para la retenci√≥n de clientes, alcanzando una exactitud del 96%, sin se√±ales de overfitting ni underfitting. La matriz de confusi√≥n y m√©tricas como precisi√≥n, recall y F1-score confirmaron un desempe√±o equilibrado entre clases.