# **TelecomX-Parte2**

# **üõ†Ô∏è Preparaci√≥n de los Datos**

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv("/content/datos_tratados.csv")

In [None]:
if "customerID" in df.columns:
    df.drop(columns=["customerID"], inplace=True)


In [None]:
df.drop(columns=["customerID"], inplace=True, errors="ignore")

In [None]:
if "Genero" in df.columns:
    df["Genero"] = df["Genero"].astype(str).str.strip().str.lower()
    genero_map = {"masculino": 1, "femenino": 0, "male": 1, "female": 0}
    df["Genero"] = df["Genero"].map(genero_map).fillna(0).astype(int)

In [None]:
bool_cols = df.select_dtypes(include=["bool"]).columns
df[bool_cols] = df[bool_cols].astype(int)

# **Encoding**

In [None]:
categoricas = df.select_dtypes(include=["object"]).columns
df = pd.get_dummies(df, columns=categoricas, drop_first=True, dtype=int)

In [None]:
df = df.apply(pd.to_numeric)

In [None]:
assert all(np.issubdtype(t, np.number) for t in df.dtypes), "‚ö†Ô∏è A√∫n quedan columnas no num√©ricas"
print("‚úÖ Dataset 100% num√©rico. Dimensiones:", df.shape)

In [None]:
df.head()

In [None]:
df.to_csv("/content/datos_listos_modelo.csv", index=False)

# **Verificaci√≥n de la Proporci√≥n de Cancelaci√≥n (Churn)**

In [None]:
df = pd.read_csv("/content/datos_listos_modelo.csv")

In [None]:
conteo = df["Churn"].value_counts()
proporcion = df["Churn"].value_counts(normalize=True) * 100

In [None]:
print("üìä Distribuci√≥n de clases:")
print(conteo)
print("\nüìà Proporci√≥n de clases (%):")
print(proporcion.round(2))

In [None]:
umbral = 0.40  # Si alguna clase es < 40% ‚Üí posible desbalance
if proporcion.min() < (umbral * 100):
    print("\n‚ö†Ô∏è Existe un posible desbalance de clases. Podr√≠a ser necesario balancear los datos.")
else:
    print("\n‚úÖ Las clases est√°n relativamente balanceadas.")

In [None]:
from google.colab import files
files.download("/content/datos_listos_modelo.csv")

# **Balanceo de Clases (opcional)**

In [None]:
from imblearn.over_sampling import SMOTE
from collections import Counter

In [None]:
X = df.drop("Churn", axis=1)
y = df["Churn"]

In [None]:
print("üìä Distribuci√≥n original:", Counter(y))

In [None]:
smote = SMOTE(random_state=42)
X_res, y_res = smote.fit_resample(X, y)

In [None]:
print("‚úÖ Distribuci√≥n balanceada:", Counter(y_res))

# **Normalizaci√≥n o Estandarizaci√≥n (si es necesario)**

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

In [None]:
X = df.drop("Churn", axis=1)
y = df["Churn"]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

In [None]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
pd.DataFrame(X_train_scaled, columns=X.columns).to_csv("/content/X_train_scaled.csv", index=False)
pd.DataFrame(X_test_scaled, columns=X.columns).to_csv("/content/X_test_scaled.csv", index=False)
y_train.to_csv("/content/y_train.csv", index=False)
y_test.to_csv("/content/y_test.csv", index=False)

print("‚úÖ Estandarizaci√≥n completada con datos sin balancear.")
print("üìä X_train shape:", X_train.shape)
print("üìä X_test shape:", X_test.shape)

# **üéØ Correlaci√≥n y Selecci√≥n de Variables**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
corr = df.corr()

In [None]:
plt.figure(figsize=(14,10))
sns.heatmap(corr, cmap="coolwarm", annot=False)
plt.title("üìä Matriz de Correlaci√≥n")
plt.show()

In [None]:
corr_churn = corr["Churn"].sort_values(ascending=False)

In [None]:
print("üî• Variables m√°s correlacionadas con la cancelaci√≥n (Churn):")
print(corr_churn.head(10))
print("\n‚ùÑÔ∏è Variables menos correlacionadas con la cancelaci√≥n (Churn):")
print(corr_churn.tail(10))

# **An√°lisis Dirigido**

In [None]:
sns.set(style="whitegrid")
plt.figure(figsize=(14,6))

In [None]:
plt.subplot(1, 2, 1)
sns.boxplot(x="Churn", y="MesesCliente", data=df, palette="Set2")
plt.title("üìä Tiempo de contrato vs Cancelaci√≥n")
plt.xlabel("Cancelaci√≥n (1 = S√≠, 0 = No)")
plt.ylabel("Meses de Cliente")

In [None]:
plt.subplot(1, 2, 2)
sns.boxplot(x="Churn", y="FacturaTotal", data=df, palette="Set3")
plt.title("üí∞ Gasto total vs Cancelaci√≥n")
plt.xlabel("Cancelaci√≥n (1 = S√≠, 0 = No)")
plt.ylabel("Factura Total")
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(14,6))

plt.subplot(1, 2, 1)
sns.scatterplot(x="MesesCliente", y="FacturaTotal", hue="Churn", data=df, palette="coolwarm", alpha=0.6)
plt.title("‚è≥ Meses de Cliente vs Factura Total por Cancelaci√≥n")

plt.subplot(1, 2, 2)
sns.scatterplot(x="MesesCliente", y="FacturaTotal", hue="Churn", data=df, palette="coolwarm", alpha=0.6)
plt.ylim(0, 5000)  # Zoom para ver mejor datos en rango bajo
plt.title("üîç Zoom: Meses de Cliente vs Factura Total")

plt.tight_layout()
plt.show()

In [None]:
from google.colab import files
files.download("/content/datos_listos_modelo.csv")

# **ü§ñ Modelado Predictivo**

In [None]:
from sklearn.model_selection import train_test_split


In [None]:
X = df.drop("Churn", axis=1)
y = df["Churn"]

In [None]:
# Dividir en entrenamiento (70%) y prueba (30%)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y)

In [None]:
#  Verificar tama√±os de los conjuntos
print("üìä Dimensiones del dataset completo:", X.shape)
print("üìö Entrenamiento:", X_train.shape, " Target:", y_train.shape)
print("üß™ Prueba:", X_test.shape, " Target:", y_test.shape)

# **Creaci√≥n de Modelos**

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
X = df.drop("Churn", axis=1)
y = df["Churn"]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

In [None]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
log_reg = LogisticRegression(max_iter=1000, random_state=42)
log_reg.fit(X_train_scaled, y_train)
y_pred_lr = log_reg.predict(X_test_scaled)

In [None]:
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)


In [None]:
print("üìä Regresi√≥n Log√≠stica (con normalizaci√≥n)")
print("Accuracy:", accuracy_score(y_test, y_pred_lr))
print(classification_report(y_test, y_pred_lr))

print("\nüå≥ Random Forest (sin normalizaci√≥n)")
print("Accuracy:", accuracy_score(y_test, y_pred_rf))
print(classification_report(y_test, y_pred_rf))

In [None]:
#  Matrices de confusi√≥n
fig, axes = plt.subplots(1, 2, figsize=(12,5))

sns.heatmap(confusion_matrix(y_test, y_pred_lr), annot=True, fmt="d", cmap="Blues", ax=axes[0])
axes[0].set_title("Matriz de Confusi√≥n - Regresi√≥n Log√≠stica")

sns.heatmap(confusion_matrix(y_test, y_pred_rf), annot=True, fmt="d", cmap="Greens", ax=axes[1])
axes[1].set_title("Matriz de Confusi√≥n - Random Forest")

plt.tight_layout()
plt.show()

# **Evaluaci√≥n de los Modelos**

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd



In [None]:
# ‚úÖ Funci√≥n para evaluar un modelo
def evaluar_modelo(nombre, y_true, y_pred):
    acc = accuracy_score(y_true, y_pred)
    prec = precision_score(y_true, y_pred)
    rec = recall_score(y_true, y_pred)
    f1 = f1_score(y_true, y_pred)

    print("\n==============================")
    print(f"üîé Evaluaci√≥n: {nombre}")
    print(f"Accuracy :  {acc:.4f}")
    print(f"Precisi√≥n: {prec:.4f}")
    print(f"Recall   : {rec:.4f}")
    print(f"F1-Score : {f1:.4f}")
    print("==============================")

    # üìä Matriz de confusi√≥n
    cm = confusion_matrix(y_true, y_pred)
    plt.figure(figsize=(5,4))
    sns.heatmap(cm, annot=True, fmt="d", cmap="Blues")
    plt.title(f"Matriz de Confusi√≥n - {nombre}")
    plt.xlabel("Predicciones")
    plt.ylabel("Valores Reales")
    plt.show()

    return {
        "Modelo": nombre,
        "Accuracy": acc,
        "Precision": prec,
        "Recall": rec,
        "F1-Score": f1
    }

In [None]:
# üìå Evaluar Regresi√≥n Log√≠stica
res_lr = evaluar_modelo("Regresi√≥n Log√≠stica", y_test, y_pred_lr)

In [None]:
# üìå Evaluar Random Forest
res_rf = evaluar_modelo("Random Forest", y_test, y_pred_rf)

In [None]:
# üìä Comparaci√≥n en tabla
resultados = pd.DataFrame([res_lr, res_rf])
print("\nüìä Comparaci√≥n de Modelos:")
print(resultados.sort_values(by="F1-Score", ascending=False))

# **üìã Interpretaci√≥n y Conclusiones**

#**An√°lisis de la Importancia de las Variables**

In [None]:
#üìå 1. Importancia en Regresi√≥n Log√≠stica
#Los coeficientes muestran si una variable aumenta (+) o disminuye (‚Äì) la probabilidad de cancelaci√≥n.

In [None]:
# ‚úÖ Importancia de variables en Regresi√≥n Log√≠stica
import numpy as np

coeficientes = pd.DataFrame({
    "Variable": X_train.columns,
    "Coeficiente": log_reg.coef_[0]
})
coeficientes["Impacto"] = np.where(coeficientes["Coeficiente"] > 0, "‚Üë Mayor riesgo de cancelaci√≥n", "‚Üì Menor riesgo de cancelaci√≥n")
coeficientes = coeficientes.sort_values(by="Coeficiente", ascending=False)

print("üìä Coeficientes de Regresi√≥n Log√≠stica")
display(coeficientes.head(10))   # Top 10 m√°s influyentes

In [None]:
# üìå 2. Importancia en Random Forest
# Random Forest usa la reducci√≥n de impureza para calcular la importancia.

In [None]:
# ‚úÖ Importancia de variables en Random Forest
importances = pd.DataFrame({
    "Variable": X_train.columns,
    "Importancia": rf.feature_importances_
})
importances = importances.sort_values(by="Importancia", ascending=False)

print("üìä Importancia de Variables en Random Forest")
display(importances.head(10))

# üîé Visualizaci√≥n
plt.figure(figsize=(8,5))
sns.barplot(x="Importancia", y="Variable", data=importances.head(10), palette="viridis")
plt.title("Top 10 Variables m√°s importantes - Random Forest")
plt.show()

In [None]:
#üìå 3. Para otros modelos (opcional)
#KNN: no tiene coeficientes directos ‚Üí la relevancia se analiza viendo c√≥mo cambian las predicciones al eliminar/alterar variables (lo har√≠amos con permutation importance).
#SVM lineal: se interpreta igual que la regresi√≥n log√≠stica (coef_).
#XGBoost o Gradient Boosting: tienen feature_importances_ al igual que Random Forest.

#Ejemplo con permutation importance (sirve para KNN, SVM, redes neuronales, etc.):

In [None]:
from sklearn.inspection import permutation_importance

# ‚úÖ Ejemplo con Random Forest (tambi√©n se puede con KNN o SVM)
perm_importance = permutation_importance(rf, X_test, y_test, n_repeats=10, random_state=42)

perm_df = pd.DataFrame({
    "Variable": X_test.columns,
    "Importancia": perm_importance.importances_mean
}).sort_values(by="Importancia", ascending=False)

print("üìä Importancia de Variables (Permutation Importance)")
display(perm_df.head(10))

## **Informe de Cancelaci√≥n de Clientes ‚Äî TelecomX**
**üìå Resumen General**

Analizamos el comportamiento de los clientes y entrenamos modelos de predicci√≥n para identificar qui√©nes tienen m√°s probabilidad de cancelar.

El modelo de Random Forest result√≥ el m√°s efectivo para detectar clientes en riesgo.

La Regresi√≥n Log√≠stica nos permiti√≥ entender con claridad qu√© factores aumentan o reducen la probabilidad de cancelaci√≥n.

**üîë Principales Factores de Cancelaci√≥n**

**Tipo de contrato:**

Los clientes con contrato mensual tienen mucha m√°s probabilidad de cancelar.

En cambio, quienes tienen contratos de uno o dos a√±os permanecen m√°s tiempo.

**Antig√ºedad (Meses como cliente):**

Los clientes nuevos, especialmente en los primeros meses, son los que m√°s cancelan.

**M√©todo de pago:**

Quienes pagan con ‚Äúelectronic check‚Äù cancelan m√°s seguido.

Los clientes con pago autom√°tico (tarjeta/d√©bito) tienden a permanecer m√°s tiempo.

**Monto de la factura:**

Los clientes con facturas mensuales m√°s altas muestran mayor riesgo de abandono.

**Servicios adicionales (seguridad, respaldo online):**

Los clientes que s√≠ contratan servicios extra de internet son m√°s leales.

Los que no tienen add-ons, cancelan m√°s f√°cilmente.

# **üí° Estrategias de Retenci√≥n**

**Con base en los hallazgos, proponemos acciones concretas:**

**Migraci√≥n de contratos:** Incentivar a clientes de contrato mensual a pasarse a planes de 1 o 2 a√±os, con descuentos o beneficios iniciales.

**Apoyo a clientes nuevos:** Dise√±ar un programa de bienvenida para los primeros 3 meses (seguimiento, soporte proactivo, promociones personalizadas).

**Cambio de m√©todo de pago:** Ofrecer bonos o descuentos a clientes que cambien su medio de pago a tarjeta o d√©bito autom√°tico.

**Optimizar facturaci√≥n:** Dar paquetes o planes ajustados para clientes con facturas muy altas, evitando que perciban sobrecostos.

**Promover servicios adicionales:** Ofrecer pruebas gratuitas de seguridad online o respaldo de datos para aumentar el valor percibido y reducir la intenci√≥n de cancelar.

# **üìä Uso del Modelo**

El modelo puede generar semanalmente una lista de clientes con mayor riesgo, permitiendo al equipo de retenci√≥n:

Contactar de forma proactiva.

Ofrecer ofertas personalizadas seg√∫n el motivo de riesgo (precio, contrato, pago).

Reducir el abandono antes de que ocurra.

üëâ En conclusi√≥n, la cancelaci√≥n no es aleatoria:
se concentra en clientes con contrato mensual, poca antig√ºedad, facturas altas y m√©todos de pago poco estables.
Si enfocamos las estrategias en estos puntos, podemos reducir el churn de forma significativa

In [None]:
from google.colab import files
files.download("/content/datos_listos_modelo.csv")