![image.png](attachment:image.png)

# **Radom Forest**



# Random Forest con Scikit-Learn

El modelo **Random Forest** es un método de ensamblaje que opera construyendo múltiples árboles de decisión durante el entrenamiento y generando la clase que es el modo de las clases (clasificación) o predicción media (regresión) de los árboles individuales. Random Forest es una forma de aprendizaje en conjunto, lo que significa que se basa en la agregación de resultados de múltiples modelos de aprendizaje automático para mejorar la robustez y el rendimiento general del modelo.


![image.png](attachment:image.png)

## Invocando el Modelo de Random Forest en Scikit-Learn

Para utilizar el modelo de Random Forest en Scikit-Learn, primero debes importar la clase `RandomForestClassifier` o `RandomForestRegressor` desde el módulo `ensemble`. Luego, puedes instanciar el modelo, entrenarlo con los datos y utilizarlo para hacer predicciones.

Aquí tienes un ejemplo de cómo hacerlo para clasificación:

```python
from sklearn.ensemble import RandomForestClassifier # Y para regresión, el proceso es similar pero utilizando 'RandomForestRegressor'.
from sklearn.model_selection import train_test_split

# Datos de ejemplo
X, y = datos_independientes, datos_dependientes

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Instanciar y entrenar el modelo
modelo = RandomForestClassifier()
modelo.fit(X_train, y_train)

# Hacer predicciones
y_pred = modelo.predict(X_test)

# y_pred contiene las predicciones de clase para el conjunto de prueba



## Hiperparámetros más destacados de Random Forest en Scikit-Learn (Actualizada)

Los modelos de Random Forest vienen con varios hiperparámetros que permiten afinar su comportamiento. Algunos de los más destacados incluyen:

- `n_estimators`: El número de árboles en el bosque.

- `criterion`: La función para medir la calidad de una división. "gini" para la impureza de Gini y "entropy" para la ganancia de información (solo para clasificación).

- `max_depth`: La máxima profundidad del árbol. Si es None, los nodos se expanden hasta que todas las hojas son puras o hasta que todas las hojas contienen menos muestras que `min_samples_split`.

- `min_samples_split`: El número mínimo de muestras requeridas para dividir un nodo interno.

- `min_samples_leaf`: El número mínimo de muestras requeridas para estar en un nodo hoja.

- `max_features`: El número de características a considerar al buscar la mejor división.

- `bootstrap`: Indica si se utilizan muestras de bootstrap para construir los árboles.

- `class_weight`: Ponderaciones asociadas con clases en tareas de clasificación. Puede ser 'balanced' para ajustar automáticamente las ponderaciones inversamente proporcionales a las frecuencias de clase en los datos de entrada o un diccionario de valores especificando el peso de cada clase.

Estos son solo algunos de los hiperparámetros disponibles. La elección de estos hiperparámetros puede afectar significativamente el rendimiento del modelo.



## Hiperparámetros comúnmente optimizados con GridSearchCV o RandomizedSearchCV

Al optimizar un modelo de Random Forest hay que tener en cuenta que se están optimizando árboles de decisión, por lo que los hiperparámetros son similares y tienen las mismas indicaciones, sólo que aquí rigen los mismos valores para todos los árboles. Otro punto diferente e importante a reguar es el número de submodelos. 

Control del Overfitting y del Underfitting: (no es exactamente sólo regularización)

- `n_estimators`: A menudo es útil probar un rango de diferentes cantidades de árboles.

- `max_depth`: Es útil probar diferentes profundidades para controlar la complejidad del modelo y prevenir sobreajuste.

- `min_samples_split` y `min_samples_leaf`: Ajustar estos parámetros ayuda a prevenir el sobreajuste y asegura que cada hoja del árbol tenga suficientes muestras.

- `max_features`: Limitar el número de características puede mejorar el rendimiento y reducir el tiempo de entrenamiento.

Para problemas de clasificación no balanceados:

- `class_weight`: Especialmente importante en conjuntos de datos desbalanceados. Probar con 'balanced', 'balanced_subsample' o un diccionario específico de pesos de clase.

Por "curiosidad":

- `bootstrap`: Puede ser interesante probar tanto True como False.

Estos parámetros son puntos de partida comunes, pero la mejor combinación puede depender en gran medida del conjunto de datos específico y del problema.


NOTA: Esta es una sugerencia y no una imposición, si tienes tiempo y lo crees conveniente puede ser bueno probar el resto de hiperparámetros que puedes encontrar en la documentación de sklearn, [para clasificación](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn-ensemble-randomforestclassifier) y [para regresión](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html#sklearn-ensemble-randomforestregressor)


## Sugerencias de Cuándo Aplicar el Modelo de Random Forest

El modelo de Random Forest es altamente versátil y se puede aplicar en una amplia gama de situaciones, de hecho era el favorito (salvando las redes) antes de la llegada y mejora de los GBT (ver las fichas de los algoritmos de boosting). Es especialmente útil cuando:

1. **Se tiene un conjunto de datos de alta dimensión**: Random Forest es capaz de manejar un gran número de características y determinar las más importantes.

2. **Se busca un modelo con buena capacidad de generalización**: Debido a su naturaleza de ensamblaje, Random Forest es menos propenso al sobreajuste que un árbol de decisión único.

3. **Se necesita un modelo robusto a ruido**: Random Forest es bastante robusto a los datos ruidosos debido al promedio de resultados de múltiples árboles.

4. **Interpretación de importancia de características**: Random Forest proporciona indicadores útiles sobre la importancia de cada característica en la predicción.

Sin embargo, es importante tener en cuenta que Random Forest puede ser computacionalmente intensivo y puede no ser el más adecuado para situaciones donde la velocidad

