# Análisis Predictivo de la Fuga de Clientes (Churn)

**Objetivo:** Construir un modelo de Machine Learning que prediga la probabilidad de que un cliente se fugue, basándose en su comportamiento y características. Este análisis nos permitirá identificar los factores más influyentes en la deserción de clientes.

## 1. Importación de Librerías y Carga de Datos
Usaremos `pandas` para la manipulación de datos y `scikit-learn` para el modelo predictivo. Asumimos que el archivo CSV ya fue exportado desde la base de datos SQL.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar los datos desde el archivo CSV
df = pd.read_csv('../Data/ecommerce_dashboard_data.csv')
print(df.head())

## 2. Preprocesamiento de Datos
Antes de modelar, necesitamos asegurarnos de que los datos estén limpios y en un formato adecuado. Convertimos la variable 'gender' a un formato numérico.

In [None]:
# Convertir la columna 'gender' a valores numéricos
df['gender'] = df['gender'].astype('category').cat.codes

# Seleccionar las características (X) y la variable objetivo (y)
# Excluimos las columnas que no son relevantes para el modelo
features = ['gender', 'annual_income', 'years_as_customer', 'last_purchase_days_ago', 'total_spend', 'price', 'quantity']
X = df[features]
y = df['target_churn']

print(X.head())

## 3. División de los Datos y Creación del Modelo
Dividimos los datos en conjuntos de entrenamiento y prueba. Usamos un `RandomForestClassifier` porque es un modelo robusto que funciona bien con datos tabulares y nos permite obtener la importancia de las características.

In [None]:
# Dividir los datos en conjuntos de entrenamiento y prueba (80/20)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar y entrenar el modelo de Random Forest
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

## 4. Evaluación del Modelo
Evaluamos el rendimiento del modelo en el conjunto de prueba y mostramos la precisión y el reporte de clasificación.

In [None]:
# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar la precisión y mostrar el reporte de clasificación
print("Precisión del modelo:", accuracy_score(y_test, y_pred))
print("\nReporte de Clasificación:\n", classification_report(y_test, y_pred))

## 5. Importancia de las Características
Extraemos y visualizamos la importancia de cada característica para entender qué variables son las más influyentes en la predicción de la fuga de clientes. Esto es clave para la toma de decisiones de negocio.

In [None]:
# Obtener la importancia de las características del modelo
feature_importances = pd.Series(model.feature_importances_, index=features).sort_values(ascending=False)

# Visualizar la importancia de las características
plt.figure(figsize=(10, 6))
sns.barplot(x=feature_importances, y=feature_importances.index)
plt.title('Importancia de las Características para la Predicción de Churn')
plt.xlabel('Importancia Relativa')
plt.ylabel('Características')
plt.show()