## Random Forest
Un árbol de decisión tiene una alta varianza, pero si se combinan paralelamente múltiples árboles de decisión la varianza es baja ya que cada subarbol se entrena con una parte específica de los datos y así el resultado no dependerá de un sólo árbol de decisión. El resultado final, en un problema de regresión, será la media de los resultados de cada subarbol.

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.utils.random import check_random_state
from sklearn.ensemble import RandomForestRegressor

### Ejemplo Random Forest
Se aplicará DT para predecir la distancia entre un par de puntos (x,y) y (x1,y1), uno de ellos constante.$$ d = \sqrt{(x1-x)^2 + (y1 - y)^2} $$

### Generar el conjunto de datos
Para generar el conjunto de datos se calculará la distancia entre un conjunto de 5000 puntos (x,y) aleatorios, así, el modelo de regresión se ajustará a una proporción del 80% del conjunto y el 20% restante estará destinado a la predicción.

In [5]:
def calcular_distancia(X,Y,XF,YF):
    return np.round(np.sqrt(np.power(XF-X,2)+np.power(YF-Y,2)),2)

XF = 5
YF = 12.5

rng = check_random_state(0)

X = np.round(rng.uniform(1, 11, 10000).reshape(5000, 2),2)
XFs=[[XF] for i in range(5000)]
YFs=[[YF] for i in range(5000)]
X=np.append(X, XFs, axis=1)
X=np.append(X, YFs, axis=1)
Y = calcular_distancia(X[:, 0],X[:, 1],XF,YF)
x_train, x_test, y_train, y_test = train_test_split(X,Y,test_size=0.2,random_state=42)

### Crear y ajustar el modelo
El parámetro n_estimators corresponde al número de subarboles, este 'hyperparameter' puede afinarse según se requiera. 

In [14]:
regressor = RandomForestRegressor(n_estimators = 100, random_state = 0, criterion="mse")
rfreg = regressor.fit(x_train, y_train) 
score = rfreg.score(x_train, y_train)
print("coeficiente de determinacion:", score) 

coeficiente de determinacion: 0.9999665805890383


### Métricas
Se utilizará el RMSE para medir el error entre lo obsetvado y la predicción.

In [17]:
tst_pred = regressor.predict(x_test)
score = rfreg.score(x_test, y_test)
print("coeficiente de determinacion:", score)
rmse = np.sqrt(mean_squared_error(y_test,tst_pred))
print("RMSE = ",rmse)

coeficiente de determinacion: 0.9997859077052406
RMSE =  0.03974050704256306
