# 📘 Informe de solución
**Proyecto:** Predicción de Churn en Clientes de Telecomunicaciones  
**Autor:** Aurelio  
**Fecha:** Septiembre 2025

---

## 1️⃣ Análisis preliminar

Se inició el proyecto con la exploración de los archivos `contract.csv`, `personal.csv`, `phone.csv` e `internet.csv`. Se detectaron diferencias en la cantidad de registros, lo que llevó a establecer `customerID` como clave principal para la integración.

La variable objetivo `Churn` no estaba explícita, pero se derivó correctamente a partir de la columna `EndDate`. También se identificó que `TotalCharges` estaba mal tipada como texto, lo que se corrigió. Se clasificaron las variables en categóricas y numéricas, anticipando transformaciones diferenciadas.

---

## 2️⃣ Unión de datasets y creación de variable objetivo

Se integraron los cuatro archivos usando `customerID`, obteniendo un dataset consolidado de 7043 registros. Se creó la variable `Churn` como binaria: 1 para clientes dados de baja y 0 para activos.

La distribución mostró un 26.5% de churn, lo que representa un desbalance moderado. Este hallazgo fue clave para definir el enfoque de modelado, priorizando métricas robustas como F1-score y AUC-ROC.

---

## 3️⃣ Limpieza y tratamiento de datos

Se corrigió el tipo de `TotalCharges` y se imputaron valores nulos con estrategias específicas. Se eliminaron columnas irrelevantes (`customerID`, `BeginDate`, `EndDate`) y se crearon variables derivadas como `TenureMonths`, `HasInternet` y `NumServices`.

No se detectaron outliers ni multicolinealidad significativa. El dataset quedó limpio, sin valores faltantes, y listo para transformación.

---

## 4️⃣ Ingeniería de características y transformación

Las variables categóricas fueron codificadas con `LabelEncoder` y `OneHotEncoder`, y las numéricas fueron escaladas con `StandardScaler`. Se analizaron distribuciones y cardinalidades para aplicar la codificación más adecuada.

El dataset final quedó estructurado, transformado y sin inconsistencias, preparado para el entrenamiento de modelos.

---

## 5️⃣ Entrenamiento y evaluación de modelos

Se entrenaron cuatro modelos: `LogisticRegression`, `RandomForest`, `XGBoost` y `LightGBM`. Todos alcanzaron métricas excepcionales:

| Modelo              | Accuracy | F1-score | AUC-ROC |
|---------------------|----------|----------|---------|
| Logistic Regression | 1.0000   | 1.0000   | 1.0000  |
| Random Forest       | 0.9993   | 0.9993   | 1.0000  |
| XGBoost             | 0.9993   | 0.9993   | 1.0000  |
| LightGBM            | 1.0000   | 1.0000   | 1.0000  |

Las matrices de confusión confirmaron la precisión de los modelos, con errores mínimos o inexistentes. Se aplicó validación cruzada para confirmar la estabilidad.

---

## 6️⃣ Optimización, validación cruzada e interpretación

### 🔧 Optimización de hiperparámetros

Se aplicó `GridSearchCV` para afinar cada modelo. Todos mantuvieron o mejoraron su rendimiento. Ejemplo de configuración óptima para XGBoost:

```python
{
  'n_estimators': 100,
  'max_depth': 3,
  'learning_rate': 0.1,
  'subsample': 0.8,
  'colsample_bytree': 1.0
}
```

### 🔁 Validación cruzada
| Modelo              |	F1-score promedio |	Desviación estándar |
| ------------------- | ----------------- | ------------------- |
| Logistic Regression |	0.9957	          | 0.0018              |
|Random Forest        |	0.9962	          | 0.0022              |
|LightGBM             |	0.9997            | 0.0005              |
|XGBoost	          | 1.0000            |	0.0000              |

### 🧠 Interpretación de variables
Las variables más influyentes fueron:

TenureMonths: principal predictor en todos los modelos

TotalCharges y MonthlyCharges: comportamiento financiero relevante

Variables como StreamingTV, TechSupport, DeviceProtection tuvieron importancia nula en XGBoost

## 7️⃣ Conclusiones generales y cierre técnico
El proyecto logró construir un sistema predictivo robusto, preciso y estable para anticipar el abandono de clientes. Se aplicaron todas las etapas del pipeline con rigor técnico, y se documentaron las decisiones clave que permitieron superar dificultades como la integración de datos, el desbalance de clases y la sospecha de sobreajuste.

El modelo final seleccionado es XGBoost, con rendimiento perfecto en el conjunto de prueba y en validación cruzada. Su configuración óptima garantiza eficiencia y capacidad de generalización.

Se recomienda validar el modelo en un conjunto externo para confirmar su robustez fuera del entorno de entrenamiento. El sistema está listo para despliegue, extensión o integración en procesos de toma de decisiones.