# üì° Proyecto Final: Telecom ‚Äî Plan de Trabajo
**Jaime Chaves**

## üéØ Objetivo del proyecto (recordatorio operativo)

Desarrollar un modelo de clasificaci√≥n binaria que estime la probabilidad de churn de clientes de Interconnect, con el fin de identificar y priorizar clientes en riesgo para acciones preventivas de retenci√≥n.

* Target: churn (derivado de EndDate)
* Salida principal: probabilidad de churn
* M√©trica principal: AUC-ROC
* M√©trica secundaria: Accuracy

## ETAPA 1 ‚Äî Carga y comprensi√≥n de los datos

### 1.1 Carga de los datasets

Cargaremos los cuatro archivos, usando rutas robustas y manteniendo customerID como llave:

* contract = pd.read_csv(...)
* personal = pd.read_csv(...)
* internet = pd.read_csv(...)
* phone = pd.read_csv(...)


Objetivo:

* Confirmar tama√±os, tipos de datos y presencia de nulos
* Verificar unicidad de customerID
* Entender qu√© informaci√≥n aporta cada fuente

### 1.2 Exploraci√≥n inicial (EDA ligero)

Para cada dataframe:

* .info()
* .head()
* Conteo de valores nulos
* Distribuci√≥n de variables categ√≥ricas clave

Para el target:

* Proporci√≥n churn / no churn
* Confirmar posible **desbalance de clases** (esperable)

**üìå Decisi√≥n clave temprana:**
El desbalance refuerza la elecci√≥n de **AUC-ROC** como m√©trica principal.

## ETAPA 2 ‚Äî Limpieza, transformaci√≥n y construcci√≥n del dataset final

### 2.1 Tratamiento del target

* Crear variable binaria:
*   churn = 1 si EndDate != 'No'
*   churn = 0 si EndDate == 'No'
* Eliminar EndDate luego de crear el target (evitar leakage)

### 2.2 Limpieza por dataset y columnas √∫tiles

**üìÑ contract.csv ‚Äî Base del modelo**

Columnas √∫tiles tras limpieza:
* Type ‚Üí tipo de contrato (month-to-month / 1 year / 2 year)
* PaperlessBilling
* PaymentMethod
* MonthlyCharges
* TotalCharges (convertir a num√©rico)
* tenure (derivada de fechas)

Transformaciones clave:
* Convertir fechas
* Crear tenure_months
* Eliminar columnas puramente administrativas


**üë§ personal.csv ‚Äî Perfil del cliente**

Columnas √∫tiles:
* gender
* SeniorCitizen
* Partner
* Dependents

Transformaciones:
* Convertir a categor√≠as binarias
* No escalar (son categ√≥ricas)


**üåê internet.csv ‚Äî Servicios digitales**

Columnas √∫tiles:
* InternetService (DSL / Fiber optic / No)
* OnlineSecurity
* OnlineBackup
* DeviceProtection
* TechSupport
* StreamingTV
* StreamingMovies

Transformaciones:
* Reemplazar ‚ÄúNo internet service‚Äù ‚Üí ‚ÄúNo‚Äù
* Convertir a variables binarias

**üìå Insight esperado:** Clientes con muchos servicios activos tienden a menor churn (lock-in).


**‚òéÔ∏è phone.csv ‚Äî Servicios de telefon√≠a**

Columnas √∫tiles:
* PhoneService
* MultipleLines

Transformaciones:
* Unificar valores categ√≥ricos
* Convertir a binario

### 2.3 Integraci√≥n final

* Hacer merge progresivo por customerID
* Base final: 1 fila = 1 cliente
* Eliminar customerID antes del modelado (no predictiva)

## ETAPA 3 ‚Äî Preparaci√≥n para modelado

### 3.1 Encoding y escalado

* One-Hot Encoding para variables categ√≥ricas
* Escalado (StandardScaler) solo para:
* MonthlyCharges
* TotalCharges
* tenure_months

### 3.2 Split del dataset
* train_test_split
* test_size = 0.25
* random_state fijo
* Estratificaci√≥n por churn

## ETAPA 4 ‚Äî Modelado

### 4.1 Enfoque de modelado (alineado al objetivo)

El objetivo no es solo clasificar, sino ordenar clientes por riesgo de churn.

Por eso, los modelos deben:
* Entregar probabilidades confiables
* Funcionar bien con variables mixtas
* Manejar relaciones no lineales

### 4.2 Modelos a entrenar (progresi√≥n l√≥gica)
üü¶ Modelo base (baseline)
* **Logistic Regression**
* Ventaja:
* Interpretabilidad
* Punto de comparaci√≥n obligatorio

üü© Modelos principales **(esperados para alta AUC-ROC)**
* **Random Forest**
* **Gradient Boosting**
* **CatBoost** (muy recomendado)

üìå CatBoost es especialmente fuerte aqu√≠ porque:
* Maneja bien variables categ√≥ricas
* Es robusto con poco tuning
* Suele lograr AUC-ROC ‚â• 0.85 en churn

### 4.3 Evaluaci√≥n

Para cada modelo:
* AUC-ROC (principal)
* Accuracy (secundaria)
* Curva ROC
* Comparaci√≥n clara en tabla

## ETAPA 5 ‚Äî Interpretaci√≥n y valor de negocio

### 5.1 Importancia de variables
* Feature importance
* Qu√© factores aumentan el riesgo de churn

Ejemplos esperados:
* Contratos mensuales
* Fibra √≥ptica + alto costo
* Falta de servicios de soporte

### 5.2 Enfoque de negocio
* El modelo prioriza clientes, no decide promociones
* Permite:
* Segmentar campa√±as
* Reducir costo de retenci√≥n
* Actuar antes del churn real

## ETAPA 6 ‚Äî Informe final

El informe debe:
* Explicar el problema en lenguaje de negocio
* Justificar decisiones t√©cnicas
* Presentar resultados con m√©tricas
* Concluir con impacto pr√°ctico

### ‚úÖ Resultado esperado
* Un modelo con AUC-ROC ‚â• 0.85 (ideal ‚â• 0.87)
* Notebook claro, reproducible y bien narrado
* Proyecto alineado con criterios de evaluaci√≥n y realidad empresarial