3. **Informe de solución:**  
En esta etapa tienes que crear un informe que resuma de forma estratégica y pertinente los principales resultados, limitaciones, conclusiones y recomendaciones que has alcanzado en las fases precedentes.

> Cabe señalar que cada uno de los entregables que generes tendrán su propia revisión, y posible reentrega en caso de identificarse observaciones.

---

# Informe de Solución del Proyecto Final

A continuación presento las conclusiones y respuestas relacionadas con el desarrollo completo del proyecto, basadas en el plan de trabajo y en el proceso que seguí para resolver la tarea.

---

## 1. Qué pasos del plan se realizaron y qué pasos se omitieron

De los pasos que había propuesto al inicio, pude llevar a cabo prácticamente todos.  
Entre los que sí realicé se encuentran:

- La limpieza inicial del dataset, incluyendo conversión de tipos, revisión de valores nulos y ajustes necesarios.  
- El análisis exploratorio, donde revisé distribuciones, correlaciones y patrones relacionados con el churn.  
- La codificación y el preprocesamiento de las variables, mezclando escalado, imputación y One-Hot Encoding.  
- El uso de técnicas de balanceo (en este caso SMOTENC), lo cual fue clave para evitar que los modelos se sesgaran por la clase mayoritaria.  
- La comparación de varios modelos con las mismas condiciones de entrenamiento.  
- La evaluación con métricas enfocadas en la clase minoritaria (la clase de churn).

Los pasos que decidí omitir fueron mínimos. Principalmente dejé fuera cualquier optimización exhaustiva de hiperparámetros.  
No la incluí por dos razones:  
1. El objetivo del proyecto es demostrar un pipeline funcional y bien estructurado, más que lograr el mejor score absoluto posible.  
2. El tiempo disponible para el análisis no justificaba un grid search pesado si los modelos ya mostraban resultados claros.

---

## 2. Qué dificultades encontré y cómo las resolví

Uno de los principales retos fue trabajar con un dataset bastante desbalanceado.  
Al principio, los modelos predecían casi siempre la clase 0, lo cual daba métricas engañosas.  
Eso lo resolví aplicando SMOTENC, que me permitió balancear los datos respetando las variables categóricas.

Otra dificultad fue manejar correctamente todas las transformaciones dentro de un solo pipeline.  
Tuve que asegurarme de que el preprocesamiento, el balanceo y el modelo funcionaran como una sola unidad, sin generar fugas de información entre entrenamiento y prueba.  
La solución fue ordenar cuidadosamente cada etapa del pipeline e incluir SMOTENC solo dentro de la parte de entrenamiento.

También tuve que prestar atención a que algunos modelos estaban obteniendo un F1-score perfecto, lo cual me hizo sospechar de posible sobreajuste.  
Para verificarlo revisé las matrices de confusión y comparé los resultados con otros modelos más robustos como Random Forest.  
Esa comparación me ayudó a interpretar mejor qué modelos estaban generalizando y cuáles simplemente estaban memorizando.

---

## 3. Cuáles fueron algunos de los pasos clave para resolver la tarea

Los pasos que considero más determinantes en todo el proceso fueron:

- Hacer una exploración detallada del churn por categoría para entender qué variables tenían un impacto real.  
- Construir un preprocesamiento consistente que funcionara igual para todos los modelos.  
- Aplicar balanceo con SMOTENC para que la clase minoritaria tuviera suficiente presencia durante el entrenamiento.  
- Evaluar los modelos no solo con accuracy, sino también con métricas más sensibles a la clase 1, como recall y F1-score.  
- Analizar las matrices de confusión, que ayudaron mucho a interpretar el comportamiento real de cada modelo.

Estos pasos guiaron casi todas las decisiones posteriores.

---

## 4. Cuál es mi modelo final y qué nivel de calidad tiene

Después de comparar todas las opciones, el modelo final que seleccioné fue **Random Forest**.  
Lo elegí porque, a diferencia de otros modelos que alcanzaron un F1-score perfecto, su rendimiento fue alto pero no exagerado.  

El resultado final del modelo fue:

- F1-score para la clase de churn: alrededor de 0.90  
- Buen equilibrio entre precisión y recall  
- Matriz de confusión consistente, sin señales claras de sobreajuste

En resumen, considero que Random Forest es el modelo más confiable para un entorno real, ya que logra un rendimiento alto sin caer en métricas que parezcan “demasiado perfectas”.

---


# Informe de Solución del Proyecto Final

Este informe presenta un resumen estratégico de los principales resultados, limitaciones, conclusiones y recomendaciones obtenidas durante el desarrollo del proyecto de predicción de churn. La intención es mostrar de forma clara qué hallazgos surgieron y cómo pueden servir para la toma de decisiones.

---

## Resultados Principales

Durante el análisis exploratorio se identificaron patrones claros en diversas categorías que ayudan a explicar el comportamiento del churn. Entre los hallazgos más relevantes destacan los siguientes:

- Los clientes con contratos de tipo Month-to-month muestran tasas de churn significativamente superiores a los contratos de largo plazo.
- El método de pago Electronic check resultó ser uno de los factores más asociados a abandono.
- La falta de servicios como seguridad online, respaldo, protección de dispositivos o soporte técnico incrementa notablemente la probabilidad de churn.
- Los usuarios con servicio Fiber optic presentan un churn mucho mayor que los de DSL.
- Variables demográficas como ser senior citizen o no tener pareja o dependientes también mostraron relación con churn elevado.

En cuanto a los modelos, se evaluaron varias alternativas utilizando un pipeline consistente con técnicas de preprocesamiento y balanceo. Aunque algunos modelos lograron métricas perfectas, el único con un rendimiento sólido sin señales de sobreajuste fue Random Forest. Este modelo ofreció un equilibrio adecuado entre precisión y recall y un F1-score cercano al 0.90 en la clase minoritaria.

---

## Limitaciones Encontradas

El proyecto tuvo algunas limitaciones importantes que es necesario considerar al interpretar los resultados:

- El dataset original estaba desbalanceado, lo cual obligó a utilizar SMOTENC. Aunque esta técnica es útil, no deja de introducir datos sintéticos que pueden generar patrones demasiado fáciles para ciertos modelos.
- Algunos modelos, como Logistic Regression, Decision Tree y XGBoost, alcanzaron un F1-score de 1.0, indicando un posible sobreajuste. Esto dificulta confiar plenamente en sus resultados.
- No se realizó optimización exhaustiva de hiperparámetros debido al tiempo disponible y al enfoque del proyecto, por lo que los modelos podrían aún mejorar.
- No se implementó validación cruzada de manera formal, lo cual podría ayudar a evaluar mejor la estabilidad de los resultados.

---

## Conclusiones

A partir del análisis se concluye lo siguiente:

- El churn está fuertemente asociado al tipo de contrato, los métodos de pago y la disponibilidad de servicios adicionales.
- Las características relacionadas con soporte, seguridad y protección resultaron determinantes para explicar el abandono.
- En general, los factores de retención están más vinculados a estabilidad del cliente (contratos largos, métodos automáticos de pago, apoyo técnico y acompañamiento).
- Entre todos los modelos evaluados, Random Forest es el más adecuado para un escenario real. Su rendimiento es alto, consistente y sin señales de memorizar los datos sintéticos.
- La exploración y el preprocesamiento fueron esenciales para construir un pipeline confiable que pueda replicarse en futuros proyectos.

---

## Recomendaciones

Con base en los hallazgos y limitaciones observadas, las recomendaciones principales son:

- Implementar estrategias de retención enfocadas en clientes con contratos de corto plazo y usuarios que utilicen Electronic check.
- Fomentar activamente los pagos automáticos y los contratos de largo plazo con incentivos claros.
- Promover la contratación de servicios adicionales como seguridad online, backup, soporte técnico y protección de dispositivos.
- Revisar la experiencia de servicio para clientes con fibra óptica, ya que presentan altos niveles de churn.
- Realizar una validación cruzada formal y pruebas con métodos alternativos de balanceo en futuras iteraciones.
- Explorar ajustes de hiperparámetros para mejorar aún más el rendimiento del modelo final.

---