<a href="https://colab.research.google.com/github/QueMsDa/Telecom-X-karsten-2/blob/main/notebook_analisis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


#  Challenge Telecom X - Parte 2
## Predicción de Cancelación de Clientes (Churn)

Este notebook corresponde a la segunda parte del **Challenge Telecom X**.  
El objetivo es **predecir la cancelación de clientes (churn)** utilizando modelos de *Machine Learning*.  

---


In [None]:

#  Importar librerías principales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve


##  Cargar datos

In [None]:

# Cargar los datos tratados desde un archivo CSV
# Asegúrate de subir 'datos_tratados.csv' a Colab antes de ejecutar esta celda

df = pd.read_csv("datos_tratados.csv")
df.head()


##  Análisis Exploratorio de Datos (EDA)

In [None]:

# Información general
print(df.info())

# Valores nulos
print(df.isnull().sum())

# Estadísticas descriptivas
df.describe()


In [None]:

# Distribución de la variable objetivo (ejemplo: 'cancelacion')
sns.countplot(x='cancelacion', data=df)
plt.title("Distribución de la variable objetivo")
plt.show()


##  Preparación de Datos

In [None]:

# Dividir en variables predictoras (X) y objetivo (y)
X = df.drop("cancelacion", axis=1)
y = df["cancelacion"]

# Dividir en entrenamiento y prueba (80/20)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# Normalización de variables numéricas
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


##  Modelos Predictivos

In [None]:

# Modelo 1: Regresión Logística
log_model = LogisticRegression(max_iter=1000)
log_model.fit(X_train_scaled, y_train)

y_pred_log = log_model.predict(X_test_scaled)
y_prob_log = log_model.predict_proba(X_test_scaled)[:,1]

print("🔹 Regresión Logística")
print(confusion_matrix(y_test, y_pred_log))
print(classification_report(y_test, y_pred_log))
print("AUC:", roc_auc_score(y_test, y_prob_log))


In [None]:

# Modelo 2: Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

y_pred_rf = rf_model.predict(X_test)
y_prob_rf = rf_model.predict_proba(X_test)[:,1]

print("🔹 Random Forest")
print(confusion_matrix(y_test, y_pred_rf))
print(classification_report(y_test, y_pred_rf))
print("AUC:", roc_auc_score(y_test, y_prob_rf))


##  Importancia de Variables

In [None]:

importances = rf_model.feature_importances_
indices = np.argsort(importances)[::-1]

plt.figure(figsize=(10,6))
plt.title("Importancia de variables - Random Forest")
plt.bar(range(X.shape[1]), importances[indices])
plt.xticks(range(X.shape[1]), X.columns[indices], rotation=90)
plt.show()


# Sección nueva
##  Conclusiones Estratégicas

- Los modelos predictivos permiten identificar clientes con mayor probabilidad de cancelación.  
- Variables como `contrato`, `metodo_pago`, `cargos_mensuales` y `tiempo_permanencia` suelen influir fuertemente en el churn.  
- **Random Forest** suele tener mejor desempeño que la Regresión Logística en este tipo de problemas.  
- Este conocimiento ayuda a **Telecom X** a implementar estrategias de retención más efectivas.  

---
