# üìä Optimizaci√≥n de Hiperpar√°metros con GridSearchCV

Este notebook realiza el modelado predictivo para la **cancelaci√≥n de clientes (churn)** usando Random Forest, optimizando los hiperpar√°metros con **GridSearchCV**.  
Partimos desde el dataset limpio generado en `01_EDA.ipynb`.

### üìå ¬øQu√© hace GridSearchCV?

- Prueba m√∫ltiples combinaciones de valores para varios hiperpar√°metros.
- Utiliza validaci√≥n cruzada (Cross-Validation) para evaluar cada configuraci√≥n de forma robusta.
- Retorna la mejor configuraci√≥n y el modelo entrenado con estos hiperpar√°metros.

‚öôÔ∏è El flujo es:
- Cargar los datos limpios.
- Separar la variable objetivo y las caracter√≠sticas predictoras.
- Codificar las variables categ√≥ricas.
- Dividir el dataset en entrenamiento y prueba.
- Configurar un modelo **Random Forest**.
- Optimizar hiperpar√°metros usando **GridSearchCV**.
- Evaluar el desempe√±o del mejor modelo.

---


# 1Ô∏è‚É£ üìö Importar librer√≠as necesarias

Primero importamos todas las librer√≠as necesarias para la modelizaci√≥n, la optimizaci√≥n y la evaluaci√≥n del modelo.

Importamos los paquetes clave para:
- Manipular datos (`pandas`, `numpy`)
- Crear y evaluar el modelo (`sklearn`)

In [57]:
import pandas as pd
import numpy as np

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score


# 2Ô∏è‚É£ Cargar datos limpios üìë

Importamos nuevamente el dataset limpio que preparamos en el EDA (`01_EDA.ipynb`).

Este archivo ya no contiene columnas irrelevantes como `customerID` y tiene variables limpias listas para usar.

In [58]:
# Cargar dataset limpio y enriquecido
df = pd.read_csv('../data/processed/telco_churn_featured.csv')
print("Tama√±o del dataset:", df.shape)
df.head()



Tama√±o del dataset: (7010, 25)


Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,...,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn,AvgCharges,TenureGroup,HasPhoneService,MultipleLinesBinary,TotalServices
0,Female,0,Yes,No,1,No,No phone service,DSL,No,Yes,...,Yes,Electronic check,29.85,29.85,No,29.85,0‚Äì12,0,0,1
1,Male,0,No,No,34,Yes,No,DSL,Yes,No,...,No,Mailed check,56.95,1889.5,No,55.573529,24‚Äì48,1,0,3
2,Male,0,No,No,2,Yes,No,DSL,Yes,Yes,...,Yes,Mailed check,53.85,108.15,Yes,54.075,0‚Äì12,1,0,3
3,Male,0,No,No,45,No,No phone service,DSL,Yes,No,...,No,Bank transfer (automatic),42.3,1840.75,No,40.905556,24‚Äì48,0,0,3
4,Female,0,No,No,2,Yes,No,Fiber optic,No,No,...,Yes,Electronic check,70.7,151.65,Yes,75.825,0‚Äì12,1,0,1


# 3Ô∏è‚É£  Definir variable objetivo (y) y caracter√≠sticas predictoras (X) üéØ

- `y` ser√° la columna **Churn** (cancelaci√≥n o no).
- `X` son todas las dem√°s columnas (excluimos `Churn`).

Esto define qu√© queremos predecir y qu√© variables usaremos como entrada para entrenar el modelo.


In [59]:
y = df['Churn']
X = df.drop('Churn', axis=1)

print("Forma de X:", X.shape)
print("Forma de y:", y.shape)


Forma de X: (7010, 24)
Forma de y: (7010,)


üîπ Forma de X: (7010, 24)

7010 = cantidad de observaciones o filas.

‚û§ Representa el n√∫mero de clientes en el dataset.

24 = cantidad de caracter√≠sticas o columnas.

‚û§ Significa que cada cliente tiene 24 variables predictoras (por ejemplo: tipo de contrato, m√©todo de pago, servicios contratados, etc.).

Esto indica que tienes un dataset con 7010 clientes y 24 atributos por cliente que ser√°n usados para predecir su comportamiento.

üîπ Forma de y: (7010,)

Esta es la forma del vector y, que contiene √∫nicamente la variable objetivo Churn.

El valor (7010,) indica que es un vector unidimensional con 7010 elementos, uno por cada cliente.

# 4Ô∏è‚É£  Codificar variables categ√≥ricas üîë

Los algoritmos de Machine Learning necesitan datos num√©ricos.  

Aqu√≠:
- Identificamos qu√© columnas son categ√≥ricas.
- Aplicamos **One-Hot Encoding** para convertirlas en variables dummy (0 o 1).
- Usamos `drop_first=True` para evitar multicolinealidad.


In [60]:
# Detectar columnas categ√≥ricas
cat_cols = X.select_dtypes(include=['object']).columns.tolist()
print("Columnas categ√≥ricas:", cat_cols)

Columnas categ√≥ricas: ['gender', 'Partner', 'Dependents', 'PhoneService', 'MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling', 'PaymentMethod', 'TenureGroup']


In [61]:
# One-Hot Encoding
X_encoded = pd.get_dummies(X, columns=cat_cols, drop_first=True)
print("Forma despu√©s de codificar:", X_encoded.shape)

X_encoded.head()

Forma despu√©s de codificar: (7010, 38)


Unnamed: 0,SeniorCitizen,tenure,MonthlyCharges,TotalCharges,AvgCharges,HasPhoneService,MultipleLinesBinary,TotalServices,gender_Male,Partner_Yes,...,Contract_One year,Contract_Two year,PaperlessBilling_Yes,PaymentMethod_Credit card (automatic),PaymentMethod_Electronic check,PaymentMethod_Mailed check,TenureGroup_12‚Äì24,TenureGroup_24‚Äì48,TenureGroup_48‚Äì60,TenureGroup_60+
0,0,1,29.85,29.85,29.85,0,0,1,False,True,...,False,False,True,False,True,False,False,False,False,False
1,0,34,56.95,1889.5,55.573529,1,0,3,True,False,...,True,False,False,False,False,True,False,True,False,False
2,0,2,53.85,108.15,54.075,1,0,3,True,False,...,False,False,True,False,False,True,False,False,False,False
3,0,45,42.3,1840.75,40.905556,0,0,3,True,False,...,True,False,False,False,False,False,False,True,False,False
4,0,2,70.7,151.65,75.825,1,0,1,False,False,...,False,False,True,False,True,False,False,False,False,False


| Elemento | Valor    | Significado                                                         |
| -------- | -------- | ------------------------------------------------------------------- |
| **7010** | filas    | Hay **7010 clientes**, igual que antes                              |
| **38**   | columnas | Ahora hay **38 variables num√©ricas**, en lugar de las 24 originales |

Esto significa que al codificar las variables categ√≥ricas en columnas binarias, el total de columnas aument√≥ de 24 a 38 columnas num√©ricas.

# 5Ô∏è‚É£  Dividir el dataset en entrenamiento y prueba ‚úÇÔ∏è

- Usamos 80% de los datos para entrenar y 20% para validar.
- Estratificamos seg√∫n `y` para mantener la proporci√≥n de clases.


In [62]:
X_train, X_test, y_train, y_test = train_test_split(
    X_encoded, y, test_size=0.2, random_state=42, stratify=y
)

print("X_train:", X_train.shape)
print("X_test:", X_test.shape)


X_train: (5608, 38)
X_test: (1402, 38)


test_size=0.2 ‚Üí quiere decir que el 20% de los datos se va al conjunto de prueba.

Entonces:

20% de 7010 = 1402 ‚Üí datos de prueba

80% de 7010 = 5608 ‚Üí datos de entrenamiento

| Conjunto  | Tama√±o     | Uso               | Contenido                                |
| --------- | ---------- | ----------------- | ---------------------------------------- |
| `X_train` | (5608, 38) | Entrenamiento     | 5608 registros, 38 variables predictoras |
| `X_test`  | (1402, 38) | Evaluaci√≥n (test) | 1402 registros, 38 variables predictoras |


# 6Ô∏è‚É£ Configurar modelo base y rejilla de hiperpar√°metros ‚öôÔ∏è

- Usaremos **Random Forest** como clasificador base.
- Definimos un **conjunto de combinaciones** de hiperpar√°metros para probar:
  - `n_estimators`: n√∫mero de √°rboles.
  - `max_depth`: profundidad m√°xima de cada √°rbol.
  - `min_samples_split`: m√≠nimo de muestras para dividir un nodo.


In [63]:
# Modelo base
rf = RandomForestClassifier(random_state=42)

In [64]:
# Rejilla de hiperpar√°metros
param_grid = {
    'n_estimators': [100, 200],
    'max_depth': [None, 5, 10],
    'min_samples_split': [2, 5]
}

print("Rejilla de hiperpar√°metros:", param_grid)

Rejilla de hiperpar√°metros: {'n_estimators': [100, 200], 'max_depth': [None, 5, 10], 'min_samples_split': [2, 5]}


# 7Ô∏è‚É£ Configurar b√∫squeda con GridSearchCV üîç

- `GridSearchCV` probar√° todas las combinaciones de la rejilla usando validaci√≥n cruzada (5 folds).
- Busca la mejor combinaci√≥n de hiperpar√°metros optimizando el `accuracy`.


In [65]:
grid_search = GridSearchCV(
    estimator=rf,
    param_grid=param_grid,
    cv=5,
    scoring='accuracy',
    n_jobs=-1,
    verbose=2
)


# 8Ô∏è‚É£  Ejecutar GridSearchCV üöÄ

Este paso puede tardar unos minutos dependiendo de la cantidad de combinaciones y tama√±o de los datos.


In [66]:
grid_search.fit(X_train, y_train)


Fitting 5 folds for each of 12 candidates, totalling 60 fits


0,1,2
,estimator,RandomForestC...ndom_state=42)
,param_grid,"{'max_depth': [None, 5, ...], 'min_samples_split': [2, 5], 'n_estimators': [100, 200]}"
,scoring,'accuracy'
,n_jobs,-1
,refit,True
,cv,5
,verbose,2
,pre_dispatch,'2*n_jobs'
,error_score,
,return_train_score,False

0,1,2
,n_estimators,200
,criterion,'gini'
,max_depth,10
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,'sqrt'
,max_leaf_nodes,
,min_impurity_decrease,0.0
,bootstrap,True


# 9Ô∏è‚É£ Evaluar el mejor modelo ‚úÖ 

Una vez completada la b√∫squeda:
- Revisamos los mejores hiperpar√°metros encontrados.
- Calculamos m√©tricas sobre los datos de prueba:
  - `Accuracy`
  - Matriz de Confusi√≥n
  - Reporte de Clasificaci√≥n (precision, recall, f1-score)


In [68]:
print("Mejores par√°metros:", grid_search.best_params_)



Mejores par√°metros: {'max_depth': 10, 'min_samples_split': 2, 'n_estimators': 200}


In [69]:
print("Mejor accuracy en validaci√≥n cruzada:", grid_search.best_score_)



Mejor accuracy en validaci√≥n cruzada: 0.8011776472814411


In [70]:
y_pred = grid_search.predict(X_test)

print("Accuracy en test:", accuracy_score(y_test, y_pred))

Accuracy en test: 0.7960057061340942


In [71]:
print("Matriz de Confusi√≥n:\n", confusion_matrix(y_test, y_pred))


Matriz de Confusi√≥n:
 [[937  94]
 [192 179]]


|               | Predijo **No** (no cancel√≥) | Predijo **S√≠** (cancel√≥) |
| ------------- | --------------------------- | ------------------------ |
| **Real: No**  | 937  (‚úîÔ∏è True Negative)     | 94   (‚ùå False Positive)  |
| **Real: Yes** | 192  (‚ùå False Negative)     | 179  (‚úîÔ∏è True Positive)  |


In [72]:
print("Reporte de Clasificaci√≥n:\n", classification_report(y_test, y_pred))

Reporte de Clasificaci√≥n:
               precision    recall  f1-score   support

          No       0.83      0.91      0.87      1031
         Yes       0.66      0.48      0.56       371

    accuracy                           0.80      1402
   macro avg       0.74      0.70      0.71      1402
weighted avg       0.78      0.80      0.79      1402



Clase: No (cliente no cancel√≥)
- Precision: 0.83 ‚Üí De los que predije que no cancelaban, acert√© el 83%
- Recall:    0.91 ‚Üí De todos los que realmente no cancelaron, captur√© el 91%
- F1-score:  0.87 ‚Üí Balance entre precisi√≥n y recall

Clase: Yes (cliente cancel√≥)
- Precision: 0.66 ‚Üí De los que predije que cancelaban, acert√© el 66%
- Recall:    0.48 ‚Üí De todos los que realmente cancelaron, solo captur√© el 48% 
- F1-score:  0.56 ‚Üí El balance aqu√≠ es bajo


## üéì Conclusi√≥n del modelo Random Forest optimizado

El modelo entrenado con `RandomForestClassifier` y optimizado mediante `GridSearchCV` alcanz√≥ una **precisi√≥n general (accuracy) del 80%** sobre el conjunto de prueba, lo cual indica un desempe√±o global s√≥lido. No obstante, un an√°lisis detallado por clase permite observar oportunidades claras de mejora:

### üìå Desempe√±o por clase:

- **Clase 'No Churn' (Clientes que no cancelan):**
  - üîπ **Precision:** 0.83
  - üîπ **Recall:** 0.91
  - üîπ **F1-Score:** 0.87  
  ‚úÖ El modelo es muy efectivo al predecir correctamente a los clientes que permanecen con la compa√±√≠a.

- **Clase 'Churn' (Clientes que cancelan):**
  - üî∏ **Precision:** 0.66
  - üî∏ **Recall:** 0.48
  - üî∏ **F1-Score:** 0.56  
  ‚ö†Ô∏è El modelo **subestima la cancelaci√≥n de clientes**, detectando solo el 48% de los casos reales.

### üìâ Implicaciones:

Aunque el modelo predice bien a los clientes leales, **falla al identificar a tiempo a muchos clientes que van a cancelar el servicio**, lo que podr√≠a generar p√©rdidas econ√≥micas si no se detectan a tiempo.

---

## üîß Pr√≥ximos pasos sugeridos

1. **Manejo del desbalance de clases:**
   - Probar t√©cnicas como **SMOTE** para sobre-samplear la clase `Churn`.

2. **Explorar modelos m√°s potentes:**
   - **XGBoost**, **LightGBM**, o **CatBoost**, que tienden a mejorar el recall de la clase minoritaria.

3. **Mejorar la ingenier√≠a de variables:**
   - Incluir nuevas variables derivadas, como historial de atenci√≥n al cliente, tiempo desde el √∫ltimo reclamo, o engagement mensual.

4. **Evaluaciones adicionales:**
   - Graficar **curvas ROC y AUC**.
   - Analizar la importancia de cada feature para explicar el comportamiento del modelo.

---

