# Informe de Solución

## Introducción
El proyecto tuvo como objetivo principal desarrollar un modelo de clasificación capaz de predecir la cancelación de clientes en la empresa Interconnect. Para ello, se realizaron diversas etapas de análisis y procesamiento de datos, así como la construcción, optimización y evaluación de modelos de aprendizaje automático. Este informe detalla el desarrollo del proyecto, los resultados obtenidos y las conclusiones derivadas.

## Desarrollo del Proyecto

### Preparación y Preprocesamiento de Datos
La preparación de los datos fue una etapa clave para garantizar su calidad y consistencia. Se realizaron las siguientes tareas:
- **Manejo de valores nulos:** Las columnas con valores faltantes, como `TotalCharges`, fueron imputadas utilizando la media, mientras que las variables categóricas como `InternetService` y `MultipleLines` se completaron con valores como "No".
- **Codificación de variables categóricas:** Se utilizó `One-Hot Encoding` para transformar variables categóricas como `PaymentMethod` y `InternetService` en un formato compatible con los modelos de aprendizaje automático.
- **Escalado de variables numéricas:** Se estandarizaron variables como `MonthlyCharges` y `TotalCharges` para mejorar el rendimiento de los modelos.
- **Generación de nuevas características:** Se crearon variables como `HasInternet` y `HasPhone` para enriquecer el conjunto de datos.
- **Manejo del desbalance:** Dado que la variable objetivo estaba desbalanceada (26% para la clase minoritaria), se utilizó la técnica de sobremuestreo para equilibrar las clases en el conjunto de entrenamiento.

### Análisis Exploratorio de Datos (EDA)
El EDA permitió identificar patrones y relaciones importantes entre las variables. Entre las observaciones más destacadas se encuentran:
- Los clientes con cargos mensuales (`MonthlyCharges`) más altos tienen una mayor probabilidad de cancelar sus servicios.
- Los clientes que utilizan fibra óptica (`Fiber optic`) tienen una proporción significativamente mayor de cancelaciones en comparación con otros servicios de internet.

### Construcción y Evaluación de Modelos
Se construyeron tres modelos principales:
- **Regresión Logística:** Un modelo simple y eficiente para problemas de clasificación binaria.
- **Árbol de Decisión:** Un modelo interpretable capaz de manejar relaciones no lineales.
- **Bosque Aleatorio:** Un modelo robusto que combina múltiples árboles de decisión.

Los modelos fueron evaluados utilizando las métricas AUC-ROC y F1-Score en los conjuntos de entrenamiento y prueba. Las métricas iniciales mostraron un rendimiento consistente para los modelos sin hiperparámetros, con el Bosque Aleatorio destacándose como el más sólido.

### Optimización de Modelos
Aunque se llevó a cabo la optimización de hiperparámetros utilizando `GridSearchCV`, los modelos ajustados no lograron mejorar significativamente el rendimiento en el conjunto de prueba. De hecho, en algunos casos, el desempeño se deterioró ligeramente. Por esta razón, se decidió mantener los modelos sin ajustes de hiperparámetros, ya que ofrecieron un mejor equilibrio entre simplicidad, eficiencia y calidad.

### Selección del Modelo Final
El **Bosque Aleatorio sin hiperparámetros ajustados** fue seleccionado como el modelo final por su rendimiento robusto y consistente. Las métricas del modelo final fueron:
- **AUC-ROC:** 0.840
- **F1-Score:** 0.633

## Conclusiones y Recomendaciones

### Conclusiones
1. El manejo del desbalance de la variable objetivo fue clave para mejorar el desempeño de los modelos.
2. Los modelos sin hiperparámetros ajustados lograron un mejor equilibrio entre entrenamiento y prueba, evitando el sobreajuste.
3. El Bosque Aleatorio destacó como el modelo más robusto, proporcionando un excelente equilibrio entre sensibilidad y precisión.

### Recomendaciones
1. **Implementación del modelo:** El Bosque Aleatorio debe ser utilizado como la solución principal para predecir cancelaciones. 
2. **Análisis de características:** Utilizar la importancia de características del modelo para identificar los principales factores que contribuyen a la cancelación y tomar acciones proactivas.
3. **Acciones de retención:** Basándose en las predicciones del modelo, la empresa puede diseñar campañas específicas para retener a clientes con alta probabilidad de cancelar.

## Reflexión Final
El proyecto demuestra cómo el análisis y modelado de datos pueden proporcionar insights valiosos para la toma de decisiones estratégicas. La implementación del modelo permitirá a Interconnect no solo reducir su tasa de cancelación, sino también mejorar la experiencia de sus clientes mediante estrategias personalizadas y basadas en datos.
