# 🧠 Bootcamp IA - Actividad de Modelado Supervisado

**Fecha:** 2025-05-13

**Objetivo:** Preparar y analizar datos de comportamiento de compra para entrenar un modelo supervisado de predicción.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, confusion_matrix

# Cargar el dataset
df = pd.read_csv("churn_dataset4.csv")
df.head()

## 1. Exploración inicial

In [None]:
# Información general
df.info()

# Estadísticas descriptivas
df.describe(include='all')

## 2. Limpieza de datos

In [None]:
# Verificar valores nulos
df.isnull().sum()

# (Opcional) Eliminar filas o columnas si fuera necesario
# df.dropna(inplace=True)

## 3. Análisis de variables

In [None]:
# Visualizar distribución de la variable objetivo
sns.countplot(data=df, x='Compras_ultimos_6_meses')
plt.title("Distribución de la variable objetivo")
plt.show()

## 4. Codificación de variables categóricas

In [None]:
# Crear una copia
df_model = df.copy()

# Codificar variables categóricas
label_cols = ['Genero', 'Medio_de_pago', 'Tipo_de_tarjeta', 'Categoria', 'Provincia', 'Web']
le = LabelEncoder()
for col in label_cols:
    df_model[col] = le.fit_transform(df_model[col])

# Convertir variable objetivo a numérica
df_model['Compras_ultimos_6_meses'] = df_model['Compras_ultimos_6_meses'].astype(int)

# Convertir fecha en variable numérica (año, mes, día)
df_model['Fecha'] = pd.to_datetime(df_model['Fecha'])
df_model['Año'] = df_model['Fecha'].dt.year
df_model['Mes'] = df_model['Fecha'].dt.month
df_model['Día'] = df_model['Fecha'].dt.day
df_model.drop(columns='Fecha', inplace=True)

df_model.head()

## 5. División en variables predictoras (X) y objetivo (y)

In [None]:
X = df_model.drop(columns='Compras_ultimos_6_meses')
y = df_model['Compras_ultimos_6_meses']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Entrenamiento: {X_train.shape}, Prueba: {X_test.shape}")

## 6. Entrenamiento de un modelo supervisado

In [None]:
# Usaremos un árbol de decisión
clf = DecisionTreeClassifier(max_depth=5, random_state=42)
clf.fit(X_train, y_train)

# Predicciones
y_pred = clf.predict(X_test)

# Resultados
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

## 7. Reflexión

- ¿Qué variables parecen más importantes?
- ¿Qué mejorarías en la limpieza o transformación?
- ¿Cómo podrías usar este modelo para una acción de marketing personalizada?
