# Tarea 4: Análisis de Churn y Mantenimiento Proactivo de la Relación con el Cliente


## Descripción
En esta tarea, los estudiantes analizarán un conjunto de datos de clientes para identificar patrones de abandono (churn) y predecir la probabilidad de churn utilizando modelos predictivos. El objetivo principal es desarrollar estrategias proactivas que permitan retener a los clientes y optimizar la relación con ellos a través de insights basados en datos.

Para esta tarea, utilizaremos el conjunto de datos **Telco Customer Churn Dataset**, disponible gratuitamente en [Kaggle](https://www.kaggle.com/datasets/blastchar/telco-customer-churn). Descargar el archivo **WA_Fn-UseC_-Telco-Customer-Churn.csv** y dejarlo en la misma carpeta del notebook, para que funcione.



## Objetivos
1. Comprender los patrones de comportamiento que llevan al abandono de los clientes.
2. Aplicar modelos de aprendizaje automático para predecir la probabilidad de churn.
3. Interpretar los resultados para proponer estrategias efectivas de retención de clientes.
4. Generar un reporte técnico y visual que respalde las estrategias propuestas.



## Pasos
1. **Carga y exploración de datos:** Inspeccionar el conjunto de datos para identificar tendencias y patrones iniciales.
2. **Preprocesamiento:** Manejar datos faltantes, codificar variables categóricas y escalar características según sea necesario.
3. **Entrenamiento y evaluación del modelo:** Entrenar un modelo de clasificación (como árbol de decisión, bosque aleatorio o regresión logística) para predecir churn y evaluar su desempeño.
4. **Análisis de resultados:** Identificar las características clave que contribuyen al churn y visualizar resultados.
5. **Recomendaciones:** Proponer estrategias basadas en los insights obtenidos para retener a los clientes de alto riesgo.


1. **Carga y exploración de datos:** Inspeccionar el conjunto de datos para identificar tendencias y patrones iniciales.

In [None]:

# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, roc_auc_score, roc_curve

# Configuración de gráficos
plt.style.use('seaborn-darkgrid')
sns.set_theme()

# Cargar el conjunto de datos
data = pd.read_csv("WA_Fn-UseC_-Telco-Customer-Churn.csv")

# Mostrar las primeras filas del dataset
data.head()


2. **Preprocesamiento:** Manejar datos faltantes, codificar variables categóricas y escalar características según sea necesario.

In [None]:

# Identificar y manejar datos faltantes
print(data.isnull().sum())

# Codificar variables categóricas
label_encoders = {}
for column in data.select_dtypes(include='object').columns:
    if column != 'customerID':
        label_encoders[column] = LabelEncoder()
        data[column] = label_encoders[column].fit_transform(data[column])

# Separar características y variable objetivo
X = data.drop(columns=['customerID', 'Churn'])
y = data['Churn']

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Escalar características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


3. **Entrenamiento y evaluación del modelo:** Entrenar un modelo de clasificación (como árbol de decisión, bosque aleatorio o regresión logística) para predecir churn y evaluar su desempeño.

In [None]:

# Entrenar un modelo de bosque aleatorio
model = RandomForestClassifier(random_state=42)
model.fit(X_train_scaled, y_train)

# Predicciones y probabilidades
y_pred = model.predict(X_test_scaled)
y_proba = model.predict_proba(X_test_scaled)[:, 1]

# Evaluación del modelo
print("Reporte de Clasificación:")
print(classification_report(y_test, y_pred))
roc_auc = roc_auc_score(y_test, y_proba)
print(f"AUC: {roc_auc:.2f}")

# Curva ROC
fpr, tpr, _ = roc_curve(y_test, y_proba)
plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, label=f'ROC Curve (AUC = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], 'k--', label='Random Guess')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Curva ROC')
plt.legend(loc='best')
plt.show()


4. **Análisis de resultados:** Identificar las características clave que contribuyen al churn y visualizar resultados.

In [None]:

# Importancia de características
importances = pd.Series(model.feature_importances_, index=X.columns).sort_values(ascending=False)

# Gráfico de importancia
plt.figure(figsize=(10, 6))
importances.plot(kind='bar', title='Importancia de Características')
plt.ylabel('Importancia')
plt.show()


5. **Recomendaciones:** Proponer estrategias basadas en los insights obtenidos para retener a los clientes de alto riesgo.


## Preguntas
1. ¿Qué características tienen un impacto significativo en el churn?
2. ¿Qué modelo de predicción ofrece el mejor desempeño y por qué?
3. ¿Cómo se pueden segmentar los clientes para diseñar estrategias de retención específicas?
4. ¿Qué métricas clave deben monitorearse para evaluar la efectividad de las estrategias propuestas?
5. ¿Cómo podrían implementarse estrategias proactivas para reducir el churn a largo plazo?


## Requerimientos Entregables
1. Un reporte en formato PDF que contenga:
   - Introducción y descripción del problema.
   - Análisis de los datos (incluyendo gráficos y tablas relevantes).
   - Resultados del modelo de clasificación y su evaluación (métricas como precisión, AUC, etc.).
   - Conclusiones y recomendaciones basadas en los insights obtenidos.
2. Código fuente en Python en formato Jupyter Notebook (.ipynb).
3. Gráficos relevantes (como curva ROC, importancia de características) exportados en alta calidad.