# Bosques aleatorios

Se generan árboles y se obtienen resultados combinados.
- Método de promedio: Se crean modelos independientes y similares y se hace un promedio de las predicciones.
- Método de impulso: Se genera un solo modelo reduciendo su sesgo a partir de los demás modelos.

Utiliza el método del bagging:
- Tenemos n observaciones del dataset T y m variables. Decidimos entrenar S árboles (cada uno con una parte del dataset diferente)
- Puede haber muestras que nunca aparezcan, otras que aparezcan siempre, etc...

Pasos para generar bosques aleatorios:
1. Tomamos una muestra aleatoria simple de tamaño n con reemplazo.
2. Tomamos una muestra aleatoria simple de variables predictoras sin reemplazo.
3. Construimos un árbol de regresión basado en las muestras tomadas en los pasos 1 y 2 y sin podar.
4. Clasificamos las observaciones que han quedado fuera de nuestra muestra y almacenamos el valor o clase asignada a cada observación.
5. Repetimos los pasos 1-4 para tener tantos árboles como queramos
6. La predicción final será el promedio de clasificaciones (o en caso de clasificación, la mayoría de votos)

In [82]:
from sklearn.ensemble import RandomForestRegressor
import pandas as pd

data = pd.read_csv("../datasets/boston/Boston.csv")

colnames = data.columns.values.tolist()
predictors = colnames[:13]
target = colnames[13]

X = data[predictors]
y = data[target]

#llega un momento en el que por mucho que aumentemos el número de árboles no va a mejorar el modelo
forest = RandomForestRegressor(n_jobs=2, oob_score=True, n_estimators=1000)
forest.fit(X, y)

data["r_forest_pred"] = forest.oob_prediction_

data.head()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv,r_forest_pred
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0,28.779688
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6,22.664304
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7,34.570927
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4,35.035569
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2,34.26954


In [83]:
data["r_forest_error"] = (data["medv"] - data["r_forest_pred"])**2
sum(data["r_forest_error"])/len(data)

10.160802278773591

In [84]:
#Similar al R^2
forest.oob_score_

0.8796392359611866

## Bosques aleatorios para árboles de decisión

In [91]:
from sklearn.ensemble import RandomForestClassifier
import pandas as pd

forest = RandomForestClassifier(n_jobs=2, oob_score=True, n_estimators=500)

In [92]:
data = pd.read_csv("../datasets/iris/iris.csv")

colnames = data.columns.values.tolist()
predictors = colnames[:4]
target = colnames[4]

X = data[predictors]
y = data[target]

data.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [94]:
forest.fit(X, y)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=500, n_jobs=2,
            oob_score=True, random_state=None, verbose=0, warm_start=False)

In [98]:
#probabilidades de que sea de cada clase
forest.oob_decision_function_

array([[1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [0.96685083, 0.03314917, 0.        ],
       [0.98039216, 0.01960784, 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [0.97883598, 0.02116402, 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.        , 0.        , 0.        ],
       [1.

In [100]:
forest.oob_score_

0.9533333333333334