# Random Forest y la clasificación clientes
Décimo primer día del reto. Ayer predecíamos cosas como precios o tiempos Hoy vamos a hacer algo diferente. Vamos a predecir si un cliente va a responder SÍ o NO a una campaña de marketing. Volveremos a usar _Random Forest_, pero ahora en modo clasificación. _Rando Forest_ puede predecir números (a eso llamamos regresión) pero también puede hacer clasificaciones. Entonces, en vez de adivinar números, asignamos categorías. El modelo elegido se llama `RandomForestClassifier`. _Let's go!_

## Simulación de datos: ¿Quién respondería a la campaña?
Partimos de un _DataFrame_ generado artificialmente. Éstas serán las características:

- Edad.

- Ingresos.

- Antigüedad en la compañía.

- Compras previas.

- ¿Respondió? (nuestro objetivo: 1 = Sí, 0 = No).

In [1]:
import numpy as np
import pandas as pd

np.random.seed(25)
n = 1000
df = pd.DataFrame({
    'edad': np.random.randint(18, 70, n),
    'ingresos': np.random.normal(30000, 10000, n).astype(int),
    'antiguedad': np.random.randint(1, 10, n),
    'compras_previas': np.random.poisson(5, n)
})
# Simula respuesta realista
df['respondio'] = ((df['compras_previas'] > 6) | (df['ingresos'] > 40000)) & (df['edad'] < 50)
df['respondio'] = df['respondio'].astype(int)
df.head()

Unnamed: 0,edad,ingresos,antiguedad,compras_previas,respondio
0,22,19244,9,2,0
1,44,16499,1,2,0
2,33,35318,6,6,0
3,41,20743,5,3,0
4,62,29606,6,6,0


## División y escalado

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X = df.drop('respondio', axis=1)
y = df['respondio']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


## ¿Qué es un Random Forest Classifier?
Imagina un ejército de árboles de decisión, donde cada “árbol” aprende a decidir SÍ o NO en el bosque, y la mayoría gana. Es robusto, evita trampas de modelos débiles, y maneja relaciones complejas y no lineales entre variables.

## Entrenamiento del modelo y predicción

In [3]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(random_state=0, n_estimators=100)
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)


## Evaluación
Vamos a ver qué tan bien predice el modelo, interpretando su precisión y la matriz de confusión. Si acierta mucho, ¡es nuestro nuevo oráculo de marketing!

In [4]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

print("Precisión:", accuracy_score(y_test, y_pred))
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))
print("Reporte de clasificación:\n", classification_report(y_test, y_pred))


Precisión: 0.99
Matriz de confusión:
[[153   0]
 [  2  45]]
Reporte de clasificación:
               precision    recall  f1-score   support

           0       0.99      1.00      0.99       153
           1       1.00      0.96      0.98        47

    accuracy                           0.99       200
   macro avg       0.99      0.98      0.99       200
weighted avg       0.99      0.99      0.99       200



Interpretación rápida
Precisión alta = buena capacidad para distinguir clientes que responden/ignoran la campaña.

Matriz de confusión: cuántos ‘sí’ y ‘no’ acertó o confundió el modelo.

Reporte de clasificación: mira “precision”, “recall” y “f1-score” para medir fuerza y debilidad del modelo.

## Conclusión
Cuando el futuro es incierto y no basta una simple línea, el RandomForestClassifier te ayuda a elegir—no sólo a predecir. Así, identificar los sí y los no de tu campaña resulta mucho más confiable y robusto. La magia de la clasificación, con potencia y estilo.

¿Necesitas adaptación a otro dominio (salud, deporte, crédito)? ¿Deseas añadir interpretación visual del bosque o análisis de importancia de variables? ¡Sólo dilo y afinamos el notebook!