# Random Forest para Regresión

Aunque es más conocido por su aplicación en tareas de clasificación, Random Forest también se adapta bien a problemas de regresión.

En el contexto de la regresión, Random Forest construye un conjunto de árboles de decisión y realiza la predicción tomando el promedio de las predicciones individuales de cada árbol. Cada árbol en el bosque contribuye con una predicción ponderada, y el resultado final es una predicción que puede ser un número real en lugar de una etiqueta de clase como ocurre en clasificación.

Random Forest es, por tanto, un modelo Ensemble del modelo de Árbol de Decisión para Regresión creado mediante Bagging.

Cuando utilizas Random Forest para regresión, generalmente estás tratando de predecir un valor continuo en lugar de clasificar en categorías discretas. Los parámetros del Random Forest, como el número de árboles, la profundidad máxima de los árboles y otros, pueden ajustarse según las características específicas de tu conjunto de datos y el problema de regresión que estás abordando.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import pandas as pd
data = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/Regresión/hormigon.csv")

In [None]:
descripcion = data.describe(include = "all").T
print(descripcion)

               count        mean         std     min      25%      50%  \
cement        1030.0  281.167864  104.506364  102.00  192.375  272.900   
slag          1030.0   73.895825   86.279342    0.00    0.000   22.000   
ash           1030.0   54.188350   63.997004    0.00    0.000    0.000   
water         1030.0  181.567282   21.354219  121.80  164.900  185.000   
superplastic  1030.0    6.204660    5.973841    0.00    0.000    6.400   
coarseagg     1030.0  972.918932   77.753954  801.00  932.000  968.000   
fineagg       1030.0  773.580485   80.175980  594.00  730.950  779.500   
age           1030.0   45.662136   63.169912    1.00    7.000   28.000   
strength      1030.0   35.817961   16.705742    2.33   23.710   34.445   

                   75%     max  
cement         350.000   540.0  
slag           142.950   359.4  
ash            118.300   200.1  
water          192.000   247.0  
superplastic    10.200    32.2  
coarseagg     1029.400  1145.0  
fineagg        824.000   992

In [None]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

## Normalización

In [None]:
from sklearn.preprocessing import StandardScaler

ss = StandardScaler()
data_sin_columnas = ss.fit_transform(data)
datos_normalizados = pd.DataFrame(data_sin_columnas, columns = data.columns)

from sklearn.model_selection import train_test_split
y = datos_normalizados['strength']
X = datos_normalizados.drop('strength', axis = 1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

Si no se desea usar datos normalizados ejecutar esta celda para recuperar los originales

In [None]:
datos_normalizados = data.copy()

In [None]:
datos_normalizados.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
cement,1030.0,281.167864,104.506364,102.0,192.375,272.9,350.0,540.0
slag,1030.0,73.895825,86.279342,0.0,0.0,22.0,142.95,359.4
ash,1030.0,54.18835,63.997004,0.0,0.0,0.0,118.3,200.1
water,1030.0,181.567282,21.354219,121.8,164.9,185.0,192.0,247.0
superplastic,1030.0,6.20466,5.973841,0.0,0.0,6.4,10.2,32.2
coarseagg,1030.0,972.918932,77.753954,801.0,932.0,968.0,1029.4,1145.0
fineagg,1030.0,773.580485,80.17598,594.0,730.95,779.5,824.0,992.6
age,1030.0,45.662136,63.169912,1.0,7.0,28.0,56.0,365.0
strength,1030.0,35.817961,16.705742,2.33,23.71,34.445,46.135,82.6


In [None]:
# Separar las variables dependiente e independientes
y = datos_normalizados['strength']
X = datos_normalizados.drop('strength', axis=1)

# Cross Validation
Hasta ahora hemos hecho una sola particion para realizar comprobaciones.

Esto puede provocar que la fiabilidad del modelo se vea condicionada por la aleatoriedad en la particion.

Por ello realizamos validacion cruzada ("Cross Validation").

Esto implica realizar varias particiones y utilizar n-1 para train y la restante para test.

Haciendo una media podemos tener un dato mas ajustado de la fiablididad esperada del modelo.


In [None]:
"""
# La separación train-test no se realiza ya que se usa cross validation
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
"""

'\n# La separación train-test no se realiza ya que se usa cross validation\n# Dividir los datos en conjuntos de entrenamiento y prueba\nX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)\n'

In [None]:
# Random Forest
from sklearn.ensemble import RandomForestRegressor
# Validación cruzada
from sklearn.model_selection import cross_val_score

In [None]:
# Definimos el modelo con todos sus parametros
RF = RandomForestRegressor(n_estimators=500,
                           criterion='squared_error',
                           max_features='auto',
                           max_depth=500,
                           min_samples_split=5,
                           min_samples_leaf=3,
                           max_leaf_nodes=None,
                           min_impurity_decrease=0,
                           bootstrap=True,
                           oob_score=True,
                           n_jobs=1,
                           random_state=None,
                           verbose=0,
                           warm_start=False)

In [None]:
clf = RF.fit(X, y)

  warn(


In [None]:
# Analizamos la fiabilidad sobre los datos utilizados para crear el modelo.
RF.score(X, y)

0.9658600405436739

In [None]:
# Procedemos a realizar validacion cruzada
scores = cross_val_score(RF, X, y, cv=5)
print(scores.mean())
print(scores)

  warn(
  warn(
  warn(
  warn(
  warn(


0.8956194865945084
[0.87058493 0.91342245 0.87655786 0.91682464 0.90070756]


In [None]:
# El ultimo paso es determinar la importancia de cada una de las variables
importancias = pd.DataFrame(clf.feature_importances_)
importancias.index = (X.columns)
print(importancias)

                     0
cement        0.334974
slag          0.081942
ash           0.016032
water         0.102994
superplastic  0.068523
coarseagg     0.021602
fineagg       0.033404
age           0.340529
