# Resumen ejecutivo: Interconnect predicción de abandono de clientes

## Introducción
El abandono de clientes es un desafío crítico para las empresas de telecomunicaciones, ya que afecta directamente los ingresos y la rentabilidad. Este análisis se centra en comprender las características de los clientes que abandonan el servicio y en desarrollar un modelo predictivo que permita a Interconnect tomar medidas proactivas para retener a sus clientes.

Este reporte presenta un análisis exhaustivo del conjunto de datos de clientes de Interconnect con el objetivo de predecir la probabilidad de abandono (churn) de los clientes. Utilizando técnicas avanzadas de análisis de datos y modelado predictivo, hemos identificado patrones clave y factores que influyen en la decisión de los clientes de permanecer o abandonar el servicio.

## Metodología
1. **Recolección de datos**: Se utilizó un conjunto de datos proporcionado por Interconnect, que incluye información demográfica, de uso del servicio y de historial de pagos de los clientes.
2. **Limpieza y preprocesamiento de datos**: Se realizaron tareas de limpieza de datos, manejo de valores faltantes y transformación de variables categóricas en variables numéricas.
3. **Análisis exploratorio de datos (EDA)**: Se llevaron a cabo análisis descriptivos y visualizaciones para identificar patrones y relaciones entre las variables, con un enfoque en el abandono.
4. **Selección de características**: Se aplicaron técnicas de selección de características para identificar las variables más relevantes para el modelo predictivo.
5. **Modelado predictivo**: Se entrenaron varios modelos de machine learning, incluyendo regresión logística, random forest y potenciación de gradiente (XGBoost), para predecir la probabilidad de abandono de clientes.
6. **Evaluación del modelo**: Se evaluaron los modelos utilizando métricas como precisión, recall, F1-score y AUC-ROC.
7. **Implementación y recomendaciones**: Se proporcionaron recomendaciones basadas en los hallazgos del análisis y se sugirieron estrategias para la retención de clientes, en el presente reporte.

## Resultados
- El análisis exploratorio reveló un evento a finales del 2019 que generó una activación tanto de subscripciones de nuevos usuarios como abandono de los mismos, siendo el segundo caso el de mayor fuerza, resultando en un descenso del total de clientes para la compañía. Solo se tiene registro de abandono de los clientes en los últimos meses, es decir, de octubre del 2019 a enero del 2020.

- Se identificaron segmentos de clientes con alta probabilidad de abandono, lo que permite a Interconnect enfocar sus esfuerzos de retención en estos grupos específicos. A continuación se presentan en el orden de relevancia en que se recomienda brindar atención:
    - Clientes suscritos en el 2019, especialmente aquellos que se unieron en los últimos meses del año. Aquí también incluiremos a clientes nuevos con menos de 10 meses de permanencia, ya que estos representan el 50% de los casos de abandono.
    - Clientes con cargos mensuales iguales o mayores a 80 dólares, estos clientes representan el 50% de los casos de abandono también.
    - Clientes con 2 a 6 servicios adquiridos en total, especialmente clientes con 2 y 3 servicios. Los servicios evaluados se encuentran en esta lista: servicio de telefonía, servicio de internet, servicio de seguridad en línea, servicio de respaldo en línea, servicio de protección de dispositivos, servicio de soporte técnico, servicio de streaming de TV y servicio de streaming de películas.
    - Clientes con los siguientes patrones de pagos: con tipo de contratos mes a mes, con método de pago de cheque electrónico y con facturación electrónica.
    - Clientes senior y sin dependientes.

- El modelo de potenciación de gradiente mostró el mejor desempeño con una precisión del 85%, un recall del 90% y un AUC-ROC de 0.94 una vez se ajustaron sus hiperparámetros para reducir el sobre ajuste.

## Conclusiones
El análisis realizado proporciona una comprensión profunda de los factores que influyen en el abandono de clientes en Interconnect. La implementación del modelo predictivo permitirá a la empresa anticipar y mitigar el riesgo de pérdida de clientes, mejorando así la retención y la satisfacción del cliente. 

# Recomendaciones
1. Implementar campañas de retención dirigidas a los segmentos de clientes identificados con alta probabilidad de abandono.
2. Mejorar la experiencia del cliente mediante la personalización de servicios y ofertas, ya que clientes con una mayor gama de servicios estan relacionados con menor tasa de abandono.
3. Monitorear continuamente el desempeño del modelo y actualizarlo con nuevos datos para mantener su efectividad.

## Preguntas y respuestas


#### **¿Qué pasos del plan se realizaron y qué pasos se omitieron (explica por qué)?**

El plan de trabajo se implementó a completitud. El único cambio que se registró, basándonos en el plan, fue la división en 3 conjuntos de los datos. Inicialmente, se planteó dividirlo en un conjunto de entrenamiento, uno de validación y otro de pruebas, sin embargo, para desarrollar la validación cruzada dividimos los datos en un 80% de entrenamiento y un 20% de pruebas, posteriormente en la validación cruzada si logramos realizar 5 pliegues para separar los datos en un 16% de validación y un 64% de entrenamiento, cumpliendo con nuestro objetivo de 3 conjuntos con diferentes propositos.

#### **¿Qué dificultades encontraste y cómo lograste resolverlas?**

Uno de los mayores retos fue dedicar el suficiente tiempo y análisis a la selección de características para el entrenamiento de los modelos. Mantener un enfoque orientado a nuestra variable objetiva fue clave para esta tarea, ya que nos permitió identificar patrones usando cada uno de los datos proporcionados. Además, tener en cuenta la fuga de datos era importante para no llevar datos al modelo con información que no contáramos en la etapa de producción.

#### **¿Cuáles fueron algunos de los pasos clave para resolver la tarea?**

Considero que hubo dos pasos claves para el éxito de la tarea. El primero fue el análisis de las características más relevantes y la creación de características nuevas de valor que capturaban la información importante de otras características descartadas, y el segundo fue el manejo del sobre ajuste en el modelo con mejor desempeño para llevarlo a ser un modelo robusto y eficaz en su tarea.

#### **¿Cuál es tu modelo final y qué nivel de calidad tiene?**

El modelo de potenciación de gradiente entrenado con la librería XGBoost fue el elegido, ya que logró superar las expectativas propuestas para la métrica ROC AUC (0.88) con un desempeño de 0.94 en el conjunto de pruebas, sus métricas secundarias, exactitud y recall, mostraron valores de 0.85 y 0.9 respectivamente. Finalmente, el sobre ajuste fue controlado en este modelo para dar valores diferenciales alrededor de los 0.04 puntos porcentuales en comparación con las métricas del conjunto de entrenamiento. El resultado fue un modelo robusto, capaz de predecir alrededor del 90% de casos de abandono frente a una exactitud del 85%.