# Informe Final del Proyecto de Cancelación de Clientes para Interconnect

## Introducción

El proyecto a ejecutar para la empresa Interconnect se basa en resolver la cancelación de clientes dado a la afectación de los ingresos y el crecimiento de la empresa. Poder identificar patrones de cancelación permitirá al equipo de marketing implementar estrategias para retener a los clientes que podrían abandonar el servicio. La retención de clientes mediante promociones o planes especiales podría reducir la tasa de cancelación y mejorar la estabilidad de la empresa.

El objetivo de este proyecto es predecir la tasa de cancelación de clientes para Interconnect, una empresa de telecomunicaciones. Utilizando un modelo de machine learning, la empresa puede identificar a los clientes en riesgo de cancelar y ofrecerles promociones para mejorar la retención.


## 1. Pasos del Plan de Trabajo

#### 1.1 Carga e Inspección de Datos
- **Acción**: Se cargaron los datos de cuatro fuentes (`contract.csv`, `personal.csv`, `internet.csv`, `phone.csv`).
- **Observación**: Se encontraron valores nulos y tipos de datos inconsistentes que fueron abordados en la fase de preprocesamiento.

#### 1.2 Preprocesamiento
- **Acción**: 
  * Se limpiaron los datos, transformando las fechas y categorizando variables.
  * Se imputaron valores nulos en `TotalCharges` y servicios opcionales con "No".
- **Observación**: La conversión de `EndDate` a un indicador categórico fue crucial para diferenciar entre clientes activos y cancelados.

#### 1.3 Análisis Exploratorio de Datos (EDA)
- **Acción**: Se analizaron distribuciones y relaciones de las variables numéricas y categóricas.
- **Observación**: `MonthlyCharges` y `TotalCharges` mostraron ser factores significativos en la predicción de cancelación.

#### 1.4 Entrenamiento de Modelos
- **Acción**: Se entrenaron modelos de Regresión Logística, Bosque Aleatorio y Gradient Boosting.
- **Observación**: Gradient Boosting mostró el mejor rendimiento en términos de AUC-ROC.

#### 1.5 Optimización de Hiperparámetros
- **Acción**: Se usó `GridSearchCV` para optimizar el modelo de Bosque Aleatorio.
- **Observación**: La optimización mejoró significativamente el AUC-ROC del modelo.

#### 1.6 Validación Cruzada
- **Acción**: Se aplicó validación cruzada a los modelos optimizados.
- **Observación**: Los resultados mostraron una estabilidad aceptable en el rendimiento de los modelos.

#### 1.7 Análisis de Importancia de Características
- **Acción**: Se identificaron las características más influyentes utilizando el modelo de Gradient Boosting.
- **Observación**: `TotalCharges`, `InternetService`, y `PaymentMethod` fueron las características más relevantes.


## 2. Dificultades Encontradas y Soluciones

### Dificultades
- **Manejo de Datos Nulos**: Se encontraron valores nulos en `TotalCharges` y en los servicios opcionales.
  * **Solución**: Se imputaron los valores nulos con "No" o se eliminaron las filas según la relevancia de la columna.
  
- **Consistencia en Tipos de Datos**: La mezcla de tipos de datos en `EndDate` complicó la conversión.
  * **Solución**: Se creó una nueva columna categórica `Status` para distinguir entre clientes activos y cancelados.

- **Optimización de Modelos**: Ajustar los hiperparámetros fue desafiante.
  * **Solución**: `GridSearchCV` permitió un ajuste fino de los parámetros para mejorar el rendimiento del modelo.

## 3. Pasos Clave para Resolver la Tarea

1. **Creación de la Columna `Status`**: Esto permitió diferenciar entre clientes activos y cancelados.
2. **EDA Detallado**: Ayudó a comprender mejor los factores que afectan la cancelación de clientes.
3. **Entrenamiento de Múltiples Modelos**: Probar varios modelos permitió seleccionar el mejor para el objetivo del proyecto.
4. **Optimización y Validación Cruzada**: Mejoraron la precisión y estabilidad del modelo final.
5. **Análisis de Importancia de Características**: Permitió identificar las variables más influyentes para las decisiones de retención.

## 4. Modelo Final y Calidad

### Modelo Final:
El modelo final seleccionado es **Gradient Boosting**, que mostró el mejor rendimiento.

- **AUC-ROC Promedio**: 0.8442
- **Desviación Estándar del AUC-ROC**: 0.0105

### Importancia de Características:
Las características más influyentes fueron `TotalCharges`, `InternetService`, y `PaymentMethod`, entre otras.

## Conclusión

El proyecto cumplió con éxito su objetivo de predecir la cancelación de clientes para Interconnect. La implementación del modelo de Gradient Boosting y el análisis de las características más importantes proporcionaron información valiosa para estrategias de retención de clientes. Este modelo permitirá a Interconnect abordar proactivamente el problema de cancelación y mejorar la satisfacción del cliente.

