## __Kagglehub - Telco Customer Churn__ 
---
## __1. Churn model development general roadmap__

> <p align="justify">
El Churn Rate (tasa de cancelación) mide cuántos clientes abandonan un servicio en un periodo de tiempo determinado. Un enfoque tradicional para abordar este problema es aplicar metodologías de aprendizaje supervisado - **<a href="https://www.datacamp.com/blog/classification-machine-learning">clasificación binaria</a>**, en base a distintas métricas-features-variables asociadas a los clientes y así proyectar una etiqueta (variable supervisadora pronosticada) para determinar los clientes con patrones de comportamientos propios de un "fugado".


### __¿Por qué es crítico el Modelado de Churn?__

En mercados saturados como las telecomunicaciones, adquirir un nuevo cliente es de 5 a 25 veces más caro que mantener a uno actual. Por lo tanto, un modelo predictivo no es solo un ejercicio matemático, sino una herramienta financiera que permite a la empresa realizar intervenciones proactivas (descuentos, llamadas de fidelización) antes de que el cliente se retire.

### __El Impacto Económico y el LTV (Lifetime Value)__

Más allá del costo de adquisición (CAC), el modelado de churn es crítico porque protege el __<a href="https://www.salesforce.com/blog/customer-lifetime-value/">Customer Lifetime Value (LTV)</a>__. Un cliente que se queda un año más no solo ahorra costos de marketing, sino que genera ingresos recurrentes con un margen de beneficio mucho mayor.



* __Ejemplo:__ En una Telco, si el modelo detecta que un cliente de alto valor (High-Tier) tiene una probabilidad de fuga del 80% debido a fallas técnicas recurrentes, la empresa puede enviar un técnico proactivamente o regalar un bono de datos, asegurando miles de dólares en ingresos futuros a cambio de un costo operativo mínimo.

### __Enfoques del Modelado: ¿Qué estamos prediciendo?__

Existen dos enfoques principales __<a href="https://www.datacamp.com/blog/data-science-in-marketing-customer-churn-rate-prediction?utm_cid=21057859163&utm_aid=157296745617&utm_campaign=230119_1-ps-other~dsa-tofu~all_2-b2c_3-latam-en_4-prc_5-na_6-na_7-le_8-pdsh-go_9-nb-e_10-na_11-na&utm_loc=9048036-&utm_mtd=-c&utm_kw=&utm_source=google&utm_medium=paid_search&utm_content=ps-other~latam-en~dsa~tofu~blog~data-science&gad_source=1&gad_campaignid=21057859163&gclid=Cj0KCQiA6sjKBhCSARIsAJvYcpOD78fEkCFMpXdW91Kxng1TjOLGROYil4nvPSPujyh_LH_KSl7ddlsaAuU-EALw_wcB">modelos de churn</a>__ para abordar el análisis:





* __Churn Voluntario:__ El cliente decide irse (por precio, mejor competencia o mala experiencia). Aquí es donde el Machine Learning es más efectivo, ya que existen patrones de comportamiento (clics, quejas, reducción de consumo).

* __Churn Involuntario:__ El cliente se va por causas externas (impago, mudanza a zona sin cobertura, fallecimiento). Estos casos suelen tratarse con reglas de negocio o modelos de riesgo crediticio más que de comportamiento.

### __Tipos de Modelos y su "Personalidad"__ 

En tu proyecto, probarás varios modelos, y cada uno tiene una ventaja estratégica:

* __Modelos Probabilísticos -  <a href="https://www.geeksforgeeks.org/machine-learning/understanding-logistic-regression/
">(Regresión Logística)</a>:__ Son ideales cuando la empresa necesita explicabilidad, debido al supuesto de la forma funcional del modelo. Si el Gerente de Marketing pregunta: "¿Por qué este cliente se va?", la regresión logística te da coeficientes claros (ej: "Por cada 10 dólares de aumento en el cargo mensual, el riesgo sube un 5%"). Su explicabilidad sencilla nos muestra información que es valiosa desde el punto de vista inferencial, adicional a constituirse también como una herramienta de pronósticos.

* __<a href = "https://www.geeksforgeeks.org/machine-learning/a-comprehensive-guide-to-ensemble-learning/">Ensamble Algorithms </a> (Random Forest, XGBoost):__ Tienen una excelente performance cuando se busca máxima precisión en los pronósticos. Esto sucede debido a que estos modelos captan patrones más complejos en la relación entre features disponibles, junto a que la restricción de una forma funcional específica para el modelo se elimina, dándole mayor flexibilidad, sin embargo, esto es a costa de perder interpretabilidad. En este caso podemos valeronos de otras herramientas para ponderar el peso de cada variable incluida en el modelo sobre el output de interés __<a href="https://www.salesforce.com/sales/analytics/customer-churn/">(churn rate)</a>__.

* __<a href="https://www.geeksforgeeks.org/data-science/kaplan-meier-estimator-survival-analysis/">Análisis de Supervivencia (Kaplan-Meier)</a>__: Es una herramienta estadística que mide la probabilidad de que un evento (como la baja de un suscriptor) no ocurra durante un tiempo determinado. Su utilidad principal es que permite visualizar el "ritmo" de abandono, identificando exactamente en qué mes o etapa un cliente es más propenso a irse, permitiendo una intervención preventiva mucho más eficaz que un simple aviso de "riesgo de fuga".

### __Principales Problemas y Desafíos Técnicos__

Debido a la naturaleza intrinseca del fenómeno de "fuga", suele suceder que el hecho que un cliente abandone, es menos frecuente que el hecho que este permanezca (estas proporciones varían mucho entre empresas de distintos tamaños y rubros). Esto genera que los modelos, al tener pocos ejemplos de estos casos en su data de entrenamiento, no aprendar correctamente de de dichos sucesos menos frecuentes, que está demás decir, son los que nos ineteresan pronostica. 

Un ejemplo interesante, es el caso del fraude bancario y como los equipos de data de dichas instituciones buscan determinar mediante un proceso de clasificación binaria, si una transacción desde una cuenta es fraudulenta o no. En este caso, se suelen tener más del 98% de transaccions válidas, versus 2% que se consideram inválidas/fraudulentas. Un modelo de machine learning podría tener problemas es sus métricas de performance debido a que solo habrán pocos ejemplos de casos que nos interesan pronosticar (clase minoritaria) y mucho ruido de la clase más frecuente (caterogía mayoritaria).

* __Desbalance Crítico:__ El "ruido" de los clientes leales (mayoría) suele opacar la "señal" de los que se fugan (minoría). Sin técnicas como __<a href = "https://www.analyticsvidhya.com/blog/2020/10/overcoming-class-imbalance-using-smote-techniques/">SMOTE</a>__ o ajuste de pesos de clase, el modelo ignorará a los fugitivos.

* __Fugas de Datos (Data Leakage):__ Incluir variables del futuro en el pasado. Por ejemplo, incluir "Llamada al departamento de cancelaciones" como variable predictora es un error, ya que esa variable ocurre después de que el cliente decidió irse.

* __Causalidad vs. Correlación:__ Que un cliente use poco el servicio no siempre causa el churn; a veces es el síntoma de que ya contrató a la competencia.
> </p>

### __SIMPLE WORKFLOW__

<img src="1-s2.0-S2666603023000143-gr1_lrg.jpg" alt="Descripción" width="95%">

### __2. Loading dataset__

<p align="justify">

Utilizaremos el dataset __<a href="https://pypi.org/project/kagglehub/">Telco Customer Churn</a>__ de Kaggle accediendo a el utilizando la librería __<a href="https://pypi.org/project/kagglehub/">kagglehub</a>__ . La data original quedará en el pandas-object df_raw_telco_customer.

Se proporciona una breve descripción de los features y sus valores posibles. Posteriormente, se explora el dataset y se aplican las técnicas de limpieza, estructuración e imputación tradicionales.

</p>


In [30]:
#MAIN IMPORTS
import kagglehub                                
import pandas as pd
import numpy as np 
pd.set_option('display.max_columns', None)
import os

In [31]:
path = kagglehub.dataset_download("blastchar/telco-customer-churn")
print("Path to dataset files:", path)

Path to dataset files: C:\Users\USER\.cache\kagglehub\datasets\blastchar\telco-customer-churn\versions\1


__Generación de raw pandas dataframe__

In [32]:
files = os.listdir(path)
print("- ARCHIVO ENCONTRADO:", files)
csv_path = os.path.join(path, files[0])
df_raw_telco_customer = pd.read_csv(csv_path)
df_raw_telco_customer.head().T

- ARCHIVO ENCONTRADO: ['WA_Fn-UseC_-Telco-Customer-Churn.csv']


Unnamed: 0,0,1,2,3,4
customerID,7590-VHVEG,5575-GNVDE,3668-QPYBK,7795-CFOCW,9237-HQITU
gender,Female,Male,Male,Male,Female
SeniorCitizen,0,0,0,0,0
Partner,Yes,No,No,No,No
Dependents,No,No,No,No,No
tenure,1,34,2,45,2
PhoneService,No,Yes,Yes,No,Yes
MultipleLines,No phone service,No,No,No phone service,No
InternetService,DSL,DSL,DSL,DSL,Fiber optic
OnlineSecurity,No,Yes,Yes,Yes,No


### __Diccionario de Datos: Telco Customer Churn__

| Categoría | Feature | Tipo de Dato | Descripción | Valor de Ejemplo |
| :--- | :--- | :--- | :--- | :--- |
| **Identificación** | `customerID` | Categórico (ID) | ID único del cliente. | 7590-VHVEG |
| **Demografía** | `gender` | Categórico | Género del cliente. | Female / Male |
| | `SeniorCitizen` | Numérico (0/1) | Si el cliente es adulto mayor. | 0, 1 |
| | `Partner` | Categórico | Si el cliente tiene pareja. | Yes / No |
| | `Dependents` | Categórico | Si tiene personas a su cargo. | Yes / No |
| **Servicios** | `tenure` | Numérico | Meses de antigüedad en la empresa. | 1, 34, 72 |
| | `PhoneService` | Categórico | Si tiene servicio telefónico. | Yes / No |
| | `MultipleLines` | Categórico | Si tiene múltiples líneas. | Yes / No / No phone |
| | `InternetService` | Categórico | Tipo de tecnología de internet. | DSL, Fiber optic, No |
| | `OnlineSecurity` | Categórico | Servicio de seguridad adicional. | Yes / No |
| | `OnlineBackup` | Categórico | Respaldo en la nube. | Yes / No |
| | `DeviceProtection` | Categórico | Seguro para el dispositivo. | Yes / No |
| | `TechSupport` | Categórico | Soporte técnico premium. | Yes / No |
| | `StreamingTV` | Categórico | Servicio de TV por streaming. | Yes / No |
| | `StreamingMovies` | Categórico | Películas por streaming. | Yes / No |
| **Cuenta** | `Contract` | Categórico | Duración del compromiso legal. | Month-to-month, 1yr |
| | `PaperlessBilling` | Categórico | Factura digital. | Yes / No |
| | `PaymentMethod` | Categórico | Método de pago utilizado. | Electronic check |
| | `MonthlyCharges` | Numérico | Monto facturado al mes. | 29.85, 107.4 |
| | `TotalCharges` | Numérico | Monto total acumulado. | 1889.5, 250.0 |
| **Target** | `Churn` | Categórico | **Variable a predecir**: ¿Se fue? | Yes / No |


### __3. Basic summary + EDA__

In [33]:
print(f"Filas: {df_raw_telco_customer.shape[0]}, Columnas: {df_raw_telco_customer.shape[1]}")
print("-" * 30)
df_raw_telco_customer.info()
df_raw_telco_customer.head()

Filas: 7043, Columnas: 21
------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null 

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,Yes,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,No,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,No,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes
