# Informe del proyecto

## 1 Introducción

Hemos completado con éxito un proyecto integral enfocado en analizar los factores que influyen en la deserción de clientes en los servicios de telecomunicaciones de Interconnect. A lo largo de este proyecto, nos centramos en identificar los factores clave que contribuyen a la decisión de los clientes de cancelar el servicio.

El objetivo principal de Interconnect es retener a sus clientes y reducir la tasa de abandono, garantizando así la lealtad del cliente y la rentabilidad a largo plazo. Para lograrlo, es fundamental detectar a tiempo los signos de posible deserción. Al comprender las características de los clientes con mayor riesgo de cancelar el servicio, Interconnect puede implementar estrategias específicas y tomar medidas preventivas oportunas.

Los esfuerzos promocionales deben ser eficientes y rentables. Gracias a nuestro análisis, Interconnect puede personalizar sus iniciativas de retención para responder a las necesidades específicas de los segmentos de clientes más vulnerables, incrementando así la probabilidad de retención.

El proyecto implicó la consolidación de cuatro conjuntos de datos que contenían información diversa de los clientes, incluyendo detalles contractuales, datos personales, uso del servicio de internet y uso del servicio telefónico. Esta integración permitió una visión holística del comportamiento del cliente y profundizó el análisis.

El proyecto se dividió en tres etapas principales:

**Etapa 1: Preparación de los datos**

Nos enfocamos en mejorar la calidad de los datos, transformar variables y preparar el conjunto de datos para un modelado robusto.

**Etapa 2: Análisis Exploratorio de Datos (EDA)**

Se realizó un examen detallado del comportamiento de los clientes para identificar qué características están más asociadas con la deserción. Esto nos permitió detectar grupos vulnerables y comprender los factores que impulsan el abandono.

**Etapa 3: Modelado con Aprendizaje Automático**

Desarrollamos y ajustamos múltiples modelos de aprendizaje automático para predecir la deserción de clientes. Estos modelos permiten a Interconnect identificar proactivamente a los clientes con mayor riesgo de cancelar el servicio y actuar en consecuencia para retenerlos.

Con el conocimiento obtenido en este proyecto, Interconnect puede tomar decisiones basadas en datos que mejoren la satisfacción del cliente y fortalezcan las tasas de retención. Este enfoque basado en datos no solo permite actuar de forma proactiva, sino que también representa una ventaja competitiva sostenible en un mercado dinámico y altamente competitivo.

## 2 Preprocesamiento de los datos

Combinamos los cuatro conjuntos de datos utilizando la técnica de unión externa (outer merge), lo que resultó en un único conjunto con 20 columnas (o características) y 7,043 filas de datos.

A continuación, se presenta una breve descripción de las columnas:

- <code>customerID</code>: ID único del cliente.
- <code>BeginDate</code>: Fecha de inicio del uso del servicio.
- <code>EndDate</code>: Fecha de finalización del uso del servicio.
- <code>Type</code>: Tipo de suscripción (mensual/anual/bianual).
- <code>PaperlessBilling</code>: Facturación sin papel (sí/no).
- <code>PaymentMethod</code>: Método de pago.
- <code>MonthlyCharges</code>: Cargos mensuales.
- <code>TotalCharges</code>: Cargo total por el uso del servicio.
- <code>InternetService</code>: Tipo de servicio de internet.
- <code>OnlineSecurity</code>: Seguridad en línea (sí/no).
- <code>OnlineBackup</code>: Respaldo en línea (sí/no).
- <code>DeviceProtection</code>: Protección de dispositivos (sí/no).
- <code>TechSupport</code>: Soporte técnico (sí/no).
- <code>StreamingTV</code>: Servicio de streaming de televisión (sí/no).
- <code>StreamingMovies</code>: Servicio de streaming de películas (sí/no).
- <code>gender</code>: Género (masculino/femenino).
- <code>SeniorCitizen</code>: Ciudadanos mayores (sí/no).
- <code>Partner</code>: Tiene pareja (sí/no).
- <code>Dependents</code>: Tiene dependientes (sí/no).
- <code>MultipleLines</code>: Tiene múltiples líneas (sí/no).


Durante el proceso de unión de datos, observamos que un número considerable de clientes no utilizaba servicios de internet, lo que resultó en valores faltantes (NaN) en las columnas relacionadas con estos servicios.

Para mejorar la calidad del conjunto de datos, se implementaron los siguientes pasos:

1. **Normalización de nombres de columnas**: Se estandarizaron los nombres de las columnas utilizando el formato snake_case, en el que las palabras se separan con guiones bajos (_) y se escriben en minúsculas. Esto garantiza consistencia y facilita la referencia a las columnas durante el análisis.

2. **Conversión de tipos de datos**: Se ajustaron los tipos de datos de algunas columnas para asegurar una representación precisa y un procesamiento eficiente:

- Las columnas begin_date y end_date se convirtieron de tipo objeto a tipo fecha (datetime) para facilitar el análisis temporal.
- La columna total_charges se transformó de objeto a float para permitir operaciones numéricas.

3. **Codificación de columnas categóricas**: Las columnas categóricas con valores 'Yes' y 'No' se codificaron como 1 (sí) y 0 (no). Estas columnas incluyen: online_security, online_backup, device_protection, tech_support, streaming_tv, streaming_movies, partner, dependents, y multiple_lines.

4. **Tratamiento de valores faltantes**:

- Para las columnas categóricas mencionadas anteriormente, los valores faltantes se reemplazaron con 0, representando que los clientes no utilizaban dichos servicios.
- La columna internet_service contenía 1,526 valores faltantes, que se llenaron con la etiqueta 'no_internet' para indicar que el cliente no usaba servicios de internet.
- En la columna total_charges, se identificaron 11 filas con valores faltantes, las cuales fueron eliminadas debido a su baja proporción en el conjunto total.

Con estos pasos de preprocesamiento, el conjunto de datos está listo para ser analizado y modelado, lo que permitirá obtener información confiable y precisa sobre el comportamiento de los clientes y los patrones de abandono del servicio.

## 3 Análisis exploratorio de datos

Interconnect tiene como objetivo desarrollar un programa promocional dirigido para reducir la pérdida de suscriptores. Para alcanzar este objetivo, es fundamental comprender los factores que están estrechamente relacionados con la tasa de cancelación (churn rate). Con este propósito, se adoptó un enfoque de análisis de correlación durante el proceso de análisis exploratorio de datos (EDA).

Como paso preliminar, se creó una nueva columna llamada churn, derivada de la característica existente end_date. La columna end_date contenía anteriormente las fechas en las que los clientes se dieron de baja del servicio, mientras que aquellos que aún permanecen suscritos estaban marcados como 'No'. Esta información se transformó a un formato binario, en el que los clientes que se dieron de baja se representan con un 1, y los que continúan suscritos con un 0.

Posteriormente, se exploraron las correlaciones entre la columna churn y otras variables del conjunto de datos. Se analizó el grado de correlación para identificar la fuerza de la relación entre cada variable y la cancelación del servicio. Aunque la mayoría de las correlaciones obtenidas fueron relativamente bajas, en general inferiores a 0.5 (tanto positivas como negativas), algunas características mostraron una correlación relativamente más fuerte en comparación con otras.

Estas características representan indicadores potenciales de cancelación por parte de los clientes y proporcionan información valiosa para que Interconnect pueda diseñar estrategias eficaces orientadas a la retención de clientes.

### 3.1 Hallazgos

A continuación se presentan los hallazgos clave derivados de nuestro análisis:

**Correlación Positiva**

- Las siguientes columnas muestran una correlación positiva relativamente alta con la cancelación del servicio (churn): monthly_charges, paperless_billing, y senior_citizen.
- Cuanto mayores son los monthly_charges (cargos mensuales), mayor es la probabilidad de cancelación.
- Los clientes que eligen la opción de paperless_billing (facturación electrónica) son más propensos a cancelar el servicio.
- Los clientes mayores, representados por la variable senior_citizen, también presentan una mayor probabilidad de cancelación.

**Correlación Negativa**

- Varias columnas muestran una correlación negativa destacada con la cancelación: total_charges, online_security, tech_support, dependents, y partner.
- Un menor valor en total_charges (cargos totales) indica una mayor probabilidad de cancelación.
- Los clientes que no utilizan servicios de  online_security (seguridad en línea) y tech_support (soporte técnico) tienen mayor riesgo de cancelar.
- Los clientes sin dependents (personas a cargo) ni partner (pareja) tienden a tener una mayor propensión a abandonar el servicio.

**Características Categóricas**

También se analizaron las características categóricas para examinar su relación con la cancelación. Las variables categóricas revisadas incluyen: type (tipo de suscripción), payment_method (método de pago), internet_service (tipo de servicio de internet) y gender (género).

### 3.2 Conclusión

Las conclusiones derivadas de nuestro análisis exploratorio de datos son las siguientes:

1. Múltiples factores influyen en la cancelación: Diversos factores juegan un papel en la decisión del cliente de abandonar el servicio.

2. Enfoque en alta correlación: Priorizamos las columnas con un alto grado de correlación con el riesgo de cancelación, dejando de lado aquellas con baja correlación.

3. Categorías con alta tasa de cancelación: Identificamos cuatro categorías con las tasas de cancelación más altas, todas superiores al 40%:

- Clientes adultos mayores (senior_citizen = 1) con una tasa de cancelación del 41.68%.
- Clientes con suscripción mensual (type = month-to-month) con una tasa de cancelación del 42.71%.
- Clientes que usan el método de pago cheque electrónico (payment_method = Electronic check) con una tasa de cancelación del 45.29%.
- Clientes que utilizan servicios de internet de fibra óptica (internet_service = Fiber optic) con una tasa de cancelación del 41.89%.
Estas cuatro categorías requieren especial atención por parte de Interconnect.

4. Influencia de dependientes y pareja en la cancelación: Los clientes que tienen dependientes y/o pareja muestran una tasa de cancelación menor en comparación con aquellos que no.

5. Impacto de la seguridad en línea y soporte técnico: Los clientes que no utilizan servicios de seguridad en línea y/o soporte técnico presentan un mayor riesgo de cancelar.

6. No hay diferencia de género en la cancelación: No existe una diferencia significativa en el riesgo de cancelación entre clientes masculinos y femeninos.

### 3.3 Recomendaciones

**Clientes de alto riesgo (tasa de churn > 40%)**

- Clientes senior: Implementar promociones más atractivas y paquetes personalizados para retener a los clientes adultos mayores.
- Suscriptores mensuales: Incentivar el cambio a planes de mayor duración (anual o bianual) ofreciendo descuentos o beneficios adicionales.
- Método de pago con cheque electrónico: Fomentar que los clientes cambien a métodos de pago alternativos, como facturación por correo electrónico, transferencia bancaria automática o tarjeta de crédito, que presentan tasas de churn más bajas.
- Servicio de internet fibra óptica: Ofrecer incentivos para que los clientes cambien al servicio de internet DSL, que tiene una tasa de churn menor.

**Clientes de riesgo moderado (tasa de churn entre 30% y 40%)**

- Clientes con facturación sin papel: Incentivar a los clientes a cambiar a facturación en papel para reducir el riesgo de churn.
- Valor mensual de facturación: Para clientes con facturas mensuales superiores a 70 USD y aquellos con facturación entre 30 y 50 USD, promover el cambio a planes anuales para mejorar la retención.
- Bajo cargo total: Asegurar que los clientes con un cargo total inferior a 2000 USD se comprometan con contratos de largo plazo, ofreciéndoles ofertas especiales o descuentos.
- Seguridad en línea y soporte técnico: Promover los servicios de seguridad en línea y soporte técnico entre los clientes que aún no se hayan suscrito a estas características.
- Dependientes y pareja: Enfocarse en retener a los clientes que no tienen dependientes y/o pareja, aumentando promociones específicas o atrayendo nuevos clientes que sí tengan dependientes y/o pareja.

Implementando estas recomendaciones, Interconnect podrá personalizar mejor sus programas promocionales para dirigirse a segmentos específicos de clientes, reduciendo la tasa de churn y aumentando la satisfacción y lealtad general de los clientes.

## 4 Entrenamiento y evaluación del modelo

En esta sección, diseñamos herramientas de predicción basadas en aprendizaje automático para ayudar a Interconnect a predecir rápidamente si un cliente tiene riesgo de darse de baja próximamente. Esto permite implementar medidas de mitigación de manera oportuna.

Se realizaron varios pasos para preparar los datos y asegurar su calidad para el análisis:

- Eliminamos características innecesarias y agregamos nuevas.
- Codificamos las variables categóricas.
- Dividimos los datos en grupos de características (features) y variable objetivo (target), y separamos los conjuntos de entrenamiento y prueba.
- Escalamos las características con rangos amplios para uniformizar y hacer comparables sus valores.

A continuación, formulamos una función de evaluación que engloba el proceso de entrenamiento y prueba. Creamos dos funciones, una sin ajuste de hiperparámetros y otra con ajuste, para poder comparar resultados.

Aplicamos estas funciones de evaluación a distintos métodos de aprendizaje automático, incluyendo Regresión Logística, Árbol de Decisión, Bosque Aleatorio, XGBoost, LightGBM y CatBoost.

Nuestros hallazgos son los siguientes:

- En general, las funciones de evaluación con ajuste de hiperparámetros produjeron mejores puntuaciones que sin ajuste. Los modelos XGBoost, LightGBM y CatBoost alcanzaron una puntuación perfecta de AUC-ROC de 1 con ajuste, mientras que el Bosque Aleatorio logró un 0.9999987, casi perfecto.
- A pesar de las puntuaciones tan altas, verificamos que los modelos no sufrieran sobreajuste probándolos en el conjunto de prueba, donde las puntuaciones se mantuvieron cercanas a las de entrenamiento, lo que indica la fiabilidad de los modelos.
- Las puntuaciones AUC-ROC en el conjunto de prueba para los modelos Bosque Aleatorio, XGBoost, LightGBM y CatBoost superaron el umbral mínimo de 0.88 para obtener 6 puntos SP, sin necesidad de ajustes en pesos de clase ni técnicas de sobremuestreo o submuestreo.
- El modelo con mejor desempeño en el conjunto de prueba fue el Clasificador XGBoost, con un AUC-ROC de 0.927 y una Precisión de 0.887. Logramos esta puntuación utilizando los siguientes hiperparámetros seleccionados: learning_rate: 0.6183860093330873, max_depth: 48, n_estimators: 616 y subsample: 0.9832308858067882.

## 5 Conclusión final

El proceso de análisis y entrenamiento de modelos se desarrolló sin contratiempos, principalmente gracias a la buena calidad general de los datos. Esto nos permitió abordar de manera efectiva los desafíos presentados por Interconnect y ofrecer recomendaciones relevantes para la toma de decisiones futuras de la empresa.

Consideramos que este análisis y modelado con aprendizaje automático puede mejorar significativamente la comprensión que Interconnect tiene sobre las características de sus clientes y proporcionar herramientas valiosas para mitigar el riesgo de abandono. El poder de los datos demostrado en este análisis puede ayudar a empresas como Interconnect a tomar decisiones fundamentadas y optimizar sus presupuestos promocionales mediante una segmentación efectiva. En última instancia, esto puede traducirse en una mejora del desempeño financiero de la compañía.