# Plan de Trabajo Detallado para el Proyecto de Predicción de Cancelación de Clientes

# Introducción
Interconnect busca predecir la cancelación de clientes para ofrecer promociones a aquellos que planean irse. Se analizarán datos de contratos, información personal y servicios utilizados para desarrollar un modelo de Machine Learning que optimice la retención de clientes.

# Servicios de Interconnect
Interconnect proporciona principalmente dos tipos de servicios:

1. **Comunicación por teléfono fijo**: El teléfono se puede conectar a varias líneas de manera simultánea.
2. **Internet**: La red se puede configurar a través de una línea telefónica (DSL, *línea de abonado digital*) o a través de un cable de fibra óptica.

Otros servicios adicionales incluyen:
- **Seguridad en Internet**: software antivirus (*ProtecciónDeDispositivo*) y bloqueador de sitios web maliciosos (*SeguridadEnLínea*).
- **Soporte Técnico** (*SoporteTécnico*).
- **Almacenamiento en la nube y backup de datos** (*BackupOnline*).
- **Streaming de TV** (*StreamingTV*) y directorio de películas (*StreamingPelículas*).

Los clientes pueden optar por un pago mensual o firmar un contrato de 1 o 2 años. También pueden elegir entre varios métodos de pago y recibir facturas electrónicas.

# Cronograma de Trabajo Detallado

| Fase | Actividades | 
|------|------------|
| **Investigación y Entendimiento del Problema** | Análisis de requerimientos, revisión de datos disponibles |
| **Análisis Exploratorio de Datos (EDA)** | Exploración de datos, identificación de patrones, detección de valores faltantes y atípicos, análisis de desbalance de clases |
| **Preprocesamiento de Datos** | Limpieza, integración y transformación de datasets, balanceo de datos si es necesario |
| **Desarrollo del Modelo** | Selección de modelos con justificación, entrenamiento, ajuste de hiperparámetros, análisis de overfitting y selección de variables más relevantes |
| **Evaluación del Modelo** | Cálculo de métricas AUC-ROC y exactitud, análisis de la importancia de características, validación cruzada |
| **Generación de Insights y Recomendaciones** | Interpretación de los resultados en el contexto del negocio, propuesta de estrategias para reducir la cancelación |
| **Preparación del Informe Final** | Elaboración de visualizaciones, redacción de resultados y recomendaciones |
| **Revisión y Entrega** | Validación final y ajustes necesarios |

# Descripción Detallada de la Metodología

# Investigación y Entendimiento del Problema
- Analizar los datos disponibles en `contract.csv`, `personal.csv`, `phone.csv` e `internet.csv`.
- La columna `customerID` es clave para unir los datos, ya que cada cliente tiene un identificador único.
- La información del contrato es válida a partir del **1 de febrero de 2020**.
- Definir la variable objetivo (`EndDate`), donde un valor distinto de "No" indica cancelación.
- Ubicar los datos en la carpeta `/datasets/final_provider/` para su correcto procesamiento.

# Análisis Exploratorio de Datos (EDA)
- Realizar un análisis descriptivo de cada conjunto de datos.
- Identificar valores nulos, duplicados y posibles inconsistencias.
- Explorar la distribución de variables y su relación con la variable objetivo.
- Analizar el **desbalance de clases** en `Churn` y definir estrategias de balanceo (SMOTE, submuestreo, etc.).
- Justificación del uso de técnicas estadísticas y visualización de datos para identificar patrones clave.

# Preprocesamiento de Datos
- Manejo de valores nulos y datos inconsistentes.
- Transformación de variables categóricas a numéricas mediante **One-Hot Encoding o Label Encoding**.
- Creación de nuevas variables relevantes si es necesario.
- **Balanceo de datos** si el desbalance de clases es significativo (uso de SMOTE o submuestreo).
- Normalización de variables numéricas para mejorar el desempeño del modelo.

# Desarrollo del Modelo
- Justificación de la selección de modelos a utilizar:
  - **Regresión Logística**: Modelo base para comparación.
  - **Random Forest**: Modelo de árboles con buena capacidad de interpretación.
  - **Gradient Boosting (XGBoost o LightGBM)**: Modelo avanzado con mejor capacidad predictiva.
- **División de datos en entrenamiento y prueba** con validación cruzada para evitar overfitting.
- **Optimización de hiperparámetros** mediante GridSearchCV o RandomizedSearch.
- **Evaluación de overfitting** analizando la diferencia entre entrenamiento y prueba.
- **Análisis de importancia de características** para determinar las variables más relevantes.

# Evaluación del Modelo
- Métrica principal: **AUC-ROC** (para evaluar la capacidad del modelo de distinguir entre clases).
- Métrica secundaria: **Exactitud** (para evaluar el porcentaje de predicciones correctas).
- Análisis de la **matriz de confusión** para evaluar falsos positivos y falsos negativos.
- Comparación de modelos y selección del mejor basado en rendimiento y justificación del negocio.

# Generación de Insights y Recomendaciones
- Interpretación de los resultados en el contexto del negocio.
- Identificación de los principales factores que afectan la cancelación de clientes.
- Propuestas de estrategias para mejorar la retención de clientes.
- Evaluación de posibles cambios en las estrategias de marketing y precios basados en los hallazgos del modelo.

# Preparación del Informe Final
- Presentación de hallazgos con gráficos y tablas.
- Explicación detallada de la metodología utilizada y justificación de cada paso.
- Resumen de los resultados del modelo y su impacto en la toma de decisiones.
- Recomendaciones para la empresa basadas en los insights obtenidos.

# Conclusión
Este plan de trabajo detallado proporciona una guía clara para la ejecución del proyecto. Se espera obtener un modelo con **AUC-ROC >= 0.88** para maximizar la puntuación en la evaluación. Además, los hallazgos permitirán a Interconnect desarrollar estrategias efectivas para reducir la cancelación de clientes, optimizando su retención y satisfacción.