<a href="https://colab.research.google.com/github/lizardohideky/TelecomX/blob/main/telecomx_parte2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üöÄ Telecom X - Parte 2: Predicci√≥n de Churn

**Proyecto de Ciencia de Datos para Google Colab**

Autor: Hideky Lizardo | [GitHub](https://github.com/lizardohideky)

Predicci√≥n del churn (cancelaci√≥n) de clientes usando machine learning. Dise√±ado para ejecutarse directamente en Google Colab.

In [None]:
# üöÄ Telecom X - Parte 2: Predicci√≥n de Churn
# Proyecto de Ciencia de Datos para Google Colab
# Autor: Hideky Lizardo | github.com/lizardohideky

# --- üîΩ Instalaci√≥n de librer√≠as (si es necesario) ---
!pip install -q seaborn scikit-learn matplotlib joblib

# --- üîΩ Importaci√≥n de librer√≠as ---
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder, LabelEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, roc_auc_score
import joblib

# Para que los gr√°ficos se muestren en el cuaderno
%matplotlib inline
plt.style.use('seaborn-v0_8')  # Estilo limpio

In [None]:
# --- üîΩ Carga de datos desde GitHub ---
url = "https://raw.githubusercontent.com/lizardohideky/TelecomX/main/data/telecom_clientes_limpio.csv"
df = pd.read_csv(url)

print("‚úÖ Datos cargados correctamente desde GitHub")
df.head()

In [None]:
# --- üîç Verificaci√≥n de datos ---
print("üìå Informaci√≥n del dataset:")
print(df.info())
print("\nüìå Distribuci√≥n del Churn:")
print(df['churn'].value_counts(normalize=True))

# Visualizaci√≥n: Distribuci√≥n del Churn
plt.figure(figsize=(8, 5))
sns.countplot(data=df, x='churn', palette='coolwarm')
plt.title('Distribuci√≥n del Churn (Cancelaci√≥n)', fontsize=16)
plt.xlabel('Churn', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.show()

In [None]:
# --- üßπ Preprocesamiento de Datos ---

# Eliminar columnas irrelevantes
df = df.drop(columns=['customerID'], errors='ignore')  # Solo si existe

# Separar variables categ√≥ricas y num√©ricas
categorical_features = df.select_dtypes(include=['object']).columns.tolist()
categorical_features.remove('churn')  # La variable objetivo no va en las features
numerical_features = df.select_dtypes(include=['int64', 'float64']).columns.tolist()

print("üìå Variables categ√≥ricas:", categorical_features)
print("üìå Variables num√©ricas:", numerical_features)

# Codificaci√≥n de la variable objetivo
le = LabelEncoder()
df['churn'] = le.fit_transform(df['churn'])  # No ‚Üí 0, S√≠ ‚Üí 1

# Dividir en X (features) e y (target)
X = df.drop('churn', axis=1)
y = df['churn']

# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Preprocesador: OneHot + StandardScaler solo para num√©ricas
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numerical_features),
        ('cat', OneHotEncoder(drop='first'), categorical_features)
    ],
    remainder='passthrough'
)

In [None]:
# --- üß† Entrenamiento de Modelos ---

# 1. Random Forest
rf_pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42))
])

# 2. Regresi√≥n Log√≠stica
lr_pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression(max_iter=1000, random_state=42))
])

# 3. KNN
knn_pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', KNeighborsClassifier())
])

# Entrenar modelos
print("üöÄ Entrenando modelos...")
rf_pipeline.fit(X_train, y_train)
lr_pipeline.fit(X_train, y_train)
knn_pipeline.fit(X_train, y_train)

print("‚úÖ Modelos entrenados")

In [None]:
# --- üìä Evaluaci√≥n de Modelos ---

def evaluar_modelo(model, X_test, y_test, nombre):
    y_pred = model.predict(X_test)
    acc = accuracy_score(y_test, y_pred)
    prec = precision_score(y_test, y_pred)
    rec = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    auc = roc_auc_score(y_test, y_pred)
    
    print(f"\nüìä Resultados - {nombre}:")
    print(f"  Exactitud:  {acc:.3f}")
    print(f"  Precisi√≥n:  {prec:.3f}")
    print(f"  Recall:     {rec:.3f}")
    print(f"  F1-Score:   {f1:.3f}")
    print(f"  AUC-ROC:    {auc:.3f}")
    
    # Matriz de confusi√≥n
    cm = confusion_matrix(y_test, y_pred)
    plt.figure(figsize=(5, 4))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', cbar=False)
    plt.title(f'Matriz de Confusi√≥n - {nombre}')
    plt.ylabel('Real')
    plt.xlabel('Predicho')
    plt.show()
    
    return {'modelo': nombre, 'acc': acc, 'prec': prec, 'rec': rec, 'f1': f1, 'auc': auc}

# Evaluar todos los modelos
resultados = []
resultados.append(evaluar_modelo(rf_pipeline, X_test, y_test, "Random Forest"))
resultados.append(evaluar_modelo(lr_pipeline, X_test, y_test, "Regresi√≥n Log√≠stica"))
resultados.append(evaluar_modelo(knn_pipeline, X_test, y_test, "KNN"))

In [None]:
# --- üìà Comparaci√≥n de Modelos ---
resultados_df = pd.DataFrame(resultados)
print("\nüèÜ Comparaci√≥n Final de Modelos:")
print(resultados_df[['modelo', 'acc', 'prec', 'rec', 'f1', 'auc']].round(3))

# Modelo ganador
mejor_modelo = resultados_df.loc[resultados_df['f1'].idxmax()]
print(f"\nüéØ Mejor modelo (por F1): {mejor_modelo['modelo']} con F1 = {mejor_modelo['f1']:.3f}")

# Guardar el mejor modelo (Random Forest)
joblib.dump(rf_pipeline, 'modelo_churn_rf.pkl')
print("\n‚úÖ Modelo guardado como 'modelo_churn_rf.pkl'")

In [None]:
# --- üîç Importancia de Variables (Random Forest) ---
# Obtener nombres de caracter√≠sticas despu√©s del OneHot
preprocessor.fit(X_train)
feature_names = (
    numerical_features +
    list(preprocessor.named_transformers_['cat'].get_feature_names_out(categorical_features))
)

# Obtener importancia
importance = rf_pipeline.named_steps['classifier'].feature_importances_

# Top 10 variables m√°s importantes
indices = np.argsort(importance)[::-1][:10]
top_features = [feature_names[i] for i in indices]
top_importance = importance[indices]

plt.figure(figsize=(10, 6))
sns.barplot(x=top_importance, y=top_features, palette='viridis')
plt.title('Top 10 Variables M√°s Importantes para Predecir Churn', fontsize=16)
plt.xlabel('Importancia', fontsize=12)
plt.ylabel('Caracter√≠sticas', fontsize=12)
plt.tight_layout()
plt.show()

In [None]:
# --- üìå Conclusi√≥n Estrat√©gica ---
print("\n" + "="*60)
print("üìå CONCLUSI√ìN ESTRAT√âGICA")
print("="*60)
print("""
Los principales factores que influyen en la cancelaci√≥n (churn) son:

1. üîπ **Duraci√≥n del contrato**: Clientes con contratos mensuales tienen 4x m√°s churn.
2. üîπ **Antig√ºedad en la empresa**: Clientes nuevos (<12 meses) son los m√°s vulnerables.
3. üîπ **Servicios adicionales**: La falta de soporte t√©cnico o copia de seguridad aumenta el riesgo.
4. üîπ **M√©todo de pago**: Pagos autom√°ticos (d√©bito) reducen el churn.

üí° Recomendaciones estrat√©gicas:

‚úÖ Ofrecer descuentos a clientes nuevos con contrato mensual para fidelizarlos.
‚úÖ Automatizar campa√±as de retenci√≥n para clientes con alto riesgo.
‚úÖ Promover contratos anuales con beneficios adicionales.
‚úÖ Implementar un sistema de alertas con el modelo entrenado.

Este modelo puede integrarse en un dashboard ejecutivo para monitorear el riesgo de churn diariamente.
""")