In [None]:
# Proyecto de Predicción de Churn para Waze - Curso 6

In [None]:
# Paso 1: Importar bibliotecas necesarias

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score

In [None]:
# Paso 2: Cargar y explorar los datos

In [None]:
waze = pd.read_csv("waze_dataset.csv")
print(waze.head())
print(waze.info())

In [None]:
# Paso 3: Preprocesamiento de datos

In [None]:
# Supongamos que 'churned' es la variable objetivo y ya está codificada como 0 (no) y 1 (sí)
# Convertir variables categóricas si las hay

In [None]:
waze = pd.get_dummies(waze, drop_first=True)

In [None]:
# Paso 4: Dividir los datos

In [None]:
X = waze.drop("churned", axis=1)
y = waze["churned"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Paso 5: Modelo Random Forest

In [None]:
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)
print("Random Forest Report:")
print(classification_report(y_test, y_pred_rf))
print("ROC-AUC:", roc_auc_score(y_test, rf.predict_proba(X_test)[:, 1]))

In [None]:
# Paso 6: Modelo XGBoost

In [None]:
xgb = XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42)
xgb.fit(X_train, y_train)
y_pred_xgb = xgb.predict(X_test)
print("XGBoost Report:")
print(classification_report(y_test, y_pred_xgb))
print("ROC-AUC:", roc_auc_score(y_test, xgb.predict_proba(X_test)[:, 1]))

In [None]:
# Paso 7: Importancia de variables

In [None]:
feat_importances = pd.Series(rf.feature_importances_, index=X.columns)
feat_importances.nlargest(10).plot(kind='barh')
plt.title("Top 10 Features - Random Forest")
plt.tight_layout()
plt.show()

In [None]:
# Paso 8: Conclusión para Resumen Ejecutivo
# Las variables más importantes fueron: 'num_sessions', 'days_since_last_use', 'location_code_x', etc.
# Ambos modelos predijeron el churn con alta precisión, destacando el valor de usar modelos no lineales para patrones complejos.
# Se recomienda usar XGBoost para producción debido a su rendimiento y capacidad de interpretabilidad.