# PROYECTO FINAL_Sprint 19_Informe de Solución

## 1. Portada y Resumen Ejecutivo

**Proyecto:** Predicción de Churn en Clientes de Interconnect

**Autor:** Aldo Tomás Orduña Fabila

**Fecha:** 30 de diciembre de 2025

InterConnect enfrenta un problema crítico de fuga de clientes (churn), que afecta directamente sus ingresos. El objetivo del proyecto fue desarrollar un modelo predictivo que identifique los clientes en riesgo de cancelar su contrato.

El análisis reveló que los clientes con contratos mensuales, baja antigüedad y facturación elevada presentan mayor propensión al churn. Tras evaluar múltiples algoritmos, el modelo CatBoost se posicionó como la mejor solución alcanzando métricas casi perfectas (AUC-ROC: 0.99955, Recall: 0.98217, Precision: 1.00000). Esto permite anticipar el churn con gran fiabilidad y diseñar campañas de retención altamente efectivas.



## 2. Introducción

InterConnect es una empresa ficticia de telecomunicaciones que compite en un mercado altamente dinámico.
Presenta el grave problema de pérdida de clientes y su impacto financiero, comunmente llamado churn que en español significa rotación.
El objetivo del proyecto es predecir churn y proponer acciones para reducirlo.


## 3. Exploratory Data Analysis (EDA)

- Distribución de churn vs no churn.

![image.png](attachment:image.png)

La tasa global de churn asciende a 26.5%, lo que indica que aproximadamente uno de cada cuatro clientes ha cancelado el servicio. El 73.5% restante representa la base de clientes leales, cuya permanencia puede estar influenciada por el tipo de contrato, método de pago y servicios adicionales contratados.

- Variables más correlacionadas: tipo de contrato, antigüedad, facturación mensual.

![image-2.png](attachment:image-2.png)

El análisis de churn por categorías revela que los clientes con contratos mensuales, que pagan mediante cheque electrónico y que utilizan el servicio de fibra óptica presentan las tasas de cancelación más elevadas. Estos segmentos representan focos críticos para estrategias de retención, ya que combinan flexibilidad contractual con métodos de pago menos comprometidos y servicios de alto costo.

- Visualizaciones clave: histogramas, boxplots y heatmaps que muestran patrones claros de riesgo.

![image-3.png](attachment:image-3.png)

La matriz de correlación revela relaciones fuertes entre variables de duración (tenure, contract_duration) y cargos acumulados (total_charges), lo cual es esperable dado que los clientes que permanecen más tiempo generan más ingresos. En contraste, variables como gender o multiple_lines muestran baja correlación con otras métricas, lo que sugiere que su impacto en el comportamiento del cliente es limitado desde una perspectiva lineal.

## 4. Metodología

 a) Preparación de datos: limpieza, codificación de variables categóricas, feature engineering.

 b) Modelos evaluados: Logistic Regression, Decision Tree, Random Forest, LightGBM, XGBoost, CatBoost, Dummy.

 c) Métricas utilizadas: Accuracy, Precision, Recall, F1 Score, ROC-AUC.



## 5. Resultados de Modelos

![image.png](attachment:image.png)

Los modelos de ensamble y boosting alcanzaron métricas casi perfectas, destacando CatBoost como el más robusto. El Dummy Classifier confirma la necesidad de modelos complejos para capturar la señal del churn.



## 6. Conclusiones

- El churn está fuertemente asociado a contratos mensuales, baja antigüedad y facturación elevada.
- Los modelos lineales fueron menos competitivos, lo que confirma la naturaleza no lineal del problema.
- CatBoost ofrece la mejor capacidad predictiva, con Recall y Precision casi perfectos.



## 7. Recomendaciones Técnicas

- Implementar CatBoost como modelo principal en un pipeline reproducible.
- Monitorear métricas post-despliegue (drift, falsos positivos, tasa de retención).
- Retrain cada 3–6 meses para mantener vigencia.
- Integrar explicabilidad (SHAP, feature importance) para confianza de stakeholders.
- Escalar el pipeline en entornos distribuidos para grandes volúmenes de datos.



## 8. Recomendaciones de Negocio

- Ofrecer beneficios a clientes con contratos mensuales.
- Diseñar programas de fidelización para clientes nuevos.
- Monitorear clientes con alta facturación.
- Integrar el modelo en un dashboard para marketing y atención al cliente.



## 9. Limitaciones y Trabajo Futuro

**Limitaciones**

Los datos utilizados son ficticios y, aunque permiten validar la metodología, no reflejan todas las complejidades del comportamiento real de clientes en telecomunicaciones.
Aunque los modelos alcanzaron métricas casi perfectas, es posible que exista un desbalance en la proporción de clientes churn vs no churn que facilite la separación.
El rendimiento observado puede no replicarse en un entorno productivo con datos reales, donde las variables pueden ser más ruidosas o menos informativas.
Factores como competencia, campañas de marketing externas o cambios regulatorios no fueron considerados en el modelo.

**Trabajo Futuro**

Probar el pipeline con información de clientes reales para confirmar la capacidad predictiva en escenarios prácticos.
Implementar técnicas como SMOTE o undersampling para robustecer el modelo frente a datasets desbalanceados.
Realizar búsquedas más exhaustivas (GridSearch, Bayesian Optimization) para afinar el desempeño de los modelos de boosting.
Explorar arquitecturas de redes neuronales (ej. MLP, RNN) para comparar con los ensambles.
Incorporar interpretabilidad con SHAP o LIME para explicar predicciones individuales y aumentar la confianza de los stakeholders.
Integrar el flujo completo (EDA, entrenamiento, evaluación, despliegue) en un sistema reproducible y escalable.


## 10. Anexos

- Gráficos adicionales del EDA con Sweetviz.

- Código modular del pipeline.

- Documentación técnica para reproducibilidad.
