*¿Para qué se utiliza?*
Random Forest es una técnica de machine learning supervisado utilizada tanto para clasificación como para regresión. Se basa en construir múltiples árboles de decisión y combinar sus resultados para mejorar la precisión y robustez del modelo. Es ideal para manejar datos con muchas variables, relaciones no lineales y posibles interacciones entre atributos. Se utiliza ampliamente en aplicaciones como predicción de riesgo, segmentación de clientes, detección de fraude, y diagnóstico médico.

*¿Qué variables considera?*
Variable dependiente: En clasificación: variable categórica. En regresión: variable numérica continua.
Variables independientes: pueden ser numéricas o categóricas. Random Forest selecciona aleatoriamente subconjuntos de variables y observaciones para construir cada árbol, lo que mejora la generalización y reduce el riesgo de sobreajuste.

*¿Cómo funciona?*
Random Forest construye un conjunto (bosque) de árboles de decisión. Cada árbol se entrena con una muestra aleatoria del conjunto de datos (con reemplazo, "bootstrap"). Posteriomente selecciona aleatoriamente un subconjunto de variables en cada nodo para hacer divisiones.

El resultado final es:
- En clasificación: la clase predicha por la mayoría de los árboles.
- En regresión: el promedio de las predicciones de todos los árboles.

Este enfoque reduce la varianza del modelo sin aumentar demasiado el sesgo, logrando predicciones más estables que un solo árbol de decisión.

*Supuestos y recomendaciones*
- No requiere supuestos estadísticos como normalidad o independencia entre variables.
- Puede manejar conjuntos de datos con muchas variables y ruido.
- Es recomendable normalizar el número de árboles (n_estimators) y limitar la profundidad máxima para evitar tiempos de cómputo excesivos.
- Permite calcular la importancia de las variables, lo que facilita la interpretación del modelo.
- No es tan interpretable como un único árbol, pero es mucho más preciso.


In [None]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

# Suponemos que df es tu DataFrame con variables predictoras y una variable objetivo 'y'
# Ejemplo:
# df = pd.DataFrame({
#     'edad': [25, 40, 35, 22, 50],
#     'ingreso': [30000, 70000, 50000, 28000, 80000],
#     'compra': [0, 1, 1, 0, 1]
# })

X = df.drop(columns='y')
y = df['y']

# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Crear y entrenar el modelo
modelo = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=42)
modelo.fit(X_train, y_train)

# Evaluar desempeño
y_pred = modelo.predict(X_test)
print("Reporte de clasificación:")
print(classification_report(y_test, y_pred))

# Matriz de confusión
ConfusionMatrixDisplay.from_estimator(modelo, X_test, y_test, cmap='Blues')
plt.title("Matriz de Confusión - Random Forest")
plt.show()

# Importancia de variables
importancia = pd.Series(modelo.feature_importances_, index=X.columns).sort_values(ascending=False)
print("Importancia de variables:")
print(importancia.round(3))


Ejemplo de resultados:
>Se utilizó un modelo de Random Forest para predecir la probabilidad de compra de un cliente, utilizando variables como edad, ingreso y antigüedad como predictores. El modelo fue entrenado con el 70% de los datos y evaluado con el 30% restante. La precisión global fue del 91%, con una sensibilidad del 94% para los compradores. La matriz de confusión reflejó un bajo número de errores de clasificación. Según el análisis de importancia de variables, el ingreso fue el predictor más relevante, seguido por la edad. La estabilidad del modelo y su capacidad de generalización lo convierten en una herramienta útil para apoyar decisiones de segmentación y estrategias comerciales.