# Informe Final del Proyecto 

# Predicción de Cancelación de Clientes en Interconnect

---

## Introducción

La empresa **Interconnect** desea reducir su tasa de cancelación de clientes mediante un modelo predictivo que permita anticipar qué usuarios están en riesgo de abandonar el servicio.  
Se utilizaron datos de contratos, información personal y servicios contratados disponibles en los archivos:

- `contract.csv`  
- `personal.csv`  
- `phone.csv`  
- `internet.csv`

---

## Metodología

###  Análisis Exploratorio de Datos (EDA)
- Evaluación de distribuciones, correlaciones y valores atípicos.
- Se imputaron valores nulos en `TotalCharges` mediante:
- Desbalance en la variable `Churn`, tratado mediante **submuestreo**.

### Preprocesamiento
- **One-Hot Encoding** para variables categóricas.
- Generación de `MonthsService` como variable derivada.
- Eliminación de `EndDate` para evitar *data leakage*.
- Normalización de variables numéricas.
- Integración de los cuatro datasets en un solo DataFrame.

### Selección y Evaluación de Modelos
Se entrenaron y compararon los siguientes modelos:

| Modelo              | Propósito                         |
|---------------------|-----------------------------------|
| Regresión Logística | Modelo base interpretable         |
| Random Forest       | Árboles robustos e interpretables |
| Gradient Boosting   | Modelo final, más preciso         |

Se utilizó **StratifiedKFold (5 folds)** y **GridSearchCV** para la validación cruzada y optimización de hiperparámetros.  
La métrica principal fue **AUC-ROC**.

---

## Resultados del Modelo

### Métricas de Evaluación

| Clase        | Precisión | Recall | F1-Score | Soporte |
|--------------|-----------|--------|----------|---------|
| No Canceló   | 0.812     | 0.818  | 0.815    | 379     |
| Canceló      | 0.811     | 0.805  | 0.808    | 369     |
| **Exactitud global** | **0.811** |        |          | 748     |

- **AUC-ROC validado:** > **0.90**
- **Balanceado entre clases** y sin signos de sobreajuste.

###  Matriz de Confusión

La matriz mostró una distribución equilibrada de predicciones, con buena detección de clientes en riesgo.  
Se minimizan falsos positivos y negativos.

###  Importancia de Características

Las variables más influyentes:

- `MonthlyCharges`
- `InternetService_Fiber optic`
- `TechSupport_No`, `OnlineSecurity_No`
- `Contract_Month-to-month`
- `PaymentMethod_Electronic check`

---

## Recomendaciones Basadas en Insights

### Estrategias para retención de clientes:

- Incentivar contratos **anuales o bienales**.
- Incluir **servicios técnicos y de seguridad** en planes base.
- Mejorar la experiencia de usuarios con **fibra óptica**.
- Promover **pagos automáticos** con beneficios.

### Aplicación de resultados:

- Segmentar clientes en riesgo.
- Activar campañas de retención personalizadas.
- Integrar estos insights con los equipos de **marketing**, **soporte técnico** y **gestión comercial**.

---

## Conclusión

El modelo de **Gradient Boosting** se consolidó como el más preciso y equilibrado.  
El proyecto no solo alcanzó un alto nivel técnico (AUC-ROC > 0.90), sino que transformó los resultados en **conocimiento accionable para el negocio**.

Se ofrece así una herramienta real para:

- Reducir cancelaciones.
- Fidelizar clientes.
- Mejorar la toma de decisiones estratégicas en Interconnect.

---
## Recomendaciones Estratégicas para la Empresa

A partir del análisis y resultados obtenidos, Interconnect puede tomar decisiones clave orientadas a reducir la tasa de cancelación y mejorar la fidelización:

- **Segmentación inteligente de clientes**: Utilizar el modelo para identificar usuarios con alta probabilidad de cancelación y aplicar campañas personalizadas.
- **Fomentar contratos a largo plazo**: Implementar incentivos o descuentos para migrar clientes con contrato mensual a planes anuales o bienales.
- **Optimizar métodos de pago**: Promover el uso de pagos automáticos frente a métodos como cheque electrónico, asociados a mayor churn.
- **Mejorar la experiencia del cliente con fibra óptica**: Analizar a fondo los motivos de cancelación en este grupo y reforzar soporte técnico y calidad de servicio.
- **Ofrecer servicios de valor añadido (seguridad, soporte técnico)**: Incluirlos en paquetes base como ventaja competitiva.

---
## Reflexiones sobre el Desarrollo del Proyecto

Durante este proyecto me enfrenté a diversos retos que me ayudaron a fortalecer mi capacidad analítica y técnica. Algunos aspectos relevantes:

- **El preprocesamiento de los datos** fue clave: lidiar con valores nulos, datos inconsistentes y estructuras heterogéneas exigió atención a los detalles.
- **Evitar la fuga de datos (data leakage)** fue un aprendizaje importante para asegurar que el modelo sea realista y aplicable en la vida real.
- **La interpretación de los resultados** me permitió conectar la ciencia de datos con decisiones empresariales, algo fundamental en este tipo de proyectos.
- **El desbalance de clases** representó un reto técnico que resolví aplicando submuestreo para asegurar un modelo justo y equilibrado.

Este proyecto me ha enseñado que un modelo predictivo no solo debe ser preciso, sino también interpretable, contextualizado y útil para quienes toman decisiones estratégicas dentro de una organización.


