## Técnicas de Agregación

Tal como se describe en la introducción del capítulo _Bagging_, _random
forests_ y _boosting_ utilizan los árboles de decisión como las piezas
elementales para construir mejores modelos de predicción.

### Bagging
**NOTA:** Traduir bagging? Wikipedia ho tradueix com Agregación de bootstrap o
empaquetado


Los árboles de decisión sufren de una gran varianza, esto significa que si
dividimos los datos de entrenamiento en dos partes de manera aleatoria, y
construimos un árbol de decisión para cada una de las dos mitades, los
árboles resultantes que obtenemos podrían ser muy diferentes. Un
procedimiento  con baja varianza producirá resultados similares si se aplica
a distintos conjuntos de datos.

La técnica que aquí se presenta, __bagging__, es un procedimiento diseñado para
reducir la varianza de un método de aprendizaje estadístico. Dado un
conjunto de $n$ observaciones independientes $Z_1, \ldots, Z_n$ cada una de
ellas con su propia varianza $ \sigma^2$, la varianza de la media de estas
observaciones $\overline{Z}$ es  $ \frac{\sigma^2}{n}$. Por lo
tanto, una forma natural de reducir la varianza y, por lo tanto, aumentar la
precisión de la predicción de un método de aprendizaje es construir
diferentes conjuntos de entrenamiento, construir un modelo de
predicción separado usando cada uno de los conjuntos y realizar el promedio
de las predicciones resultantes.

Desgraciadamente, normalmente no tenemos suficientes datos para crear
diferentes conjuntos de entrenamiento. Es por este motivo que se aplica la
técnica de __bootstrap__, simularemos los diferentes conjuntos de
entrenamiento necesarios para construir diferentes árboles y reducir la
varianza del clasificador. Esto se consigue extrayendo repetidos subconjuntos
de la muestra original. Estos subconjuntos muestrales deben extraerse
utilizando  un muestreo con reposición, de tal forma que algunos elementos no
serán  seleccionados y otros lo podrán ser más de una vez en cada muestreo.
(_refereciar al Hasting capítol 5_)

**TODO**: gràfic mostrant bootstrap

Para aplicar la técnica de _bagging_ construiremos un conjunto de árboles de
regresión usando diferentes conjuntos de entrenamiento con la técnica
explicada anteriormente y daremos como resultado final el promedio de las
predicciones individuales de cada uno de los árboles que forman el conjunto.
(_Estos árboles crecen profundamente y  no se podan_) . Al promediar el
resultado de cada uno de estos árboles evidentemente, se consigue reducir la
varianza. Se ha demostrado que el _bagging_ proporciona grandes mejoras  en la
precisión de los resultado al combinar un gran número de árboles en un
solo procedimiento.

Hasta ahora, hemos descrito el procedimiento de _bagging_ en  el caso de
necesitar solventar un problema aplicando una regresión. Esta técnica también
es aplicable a problemas de clasificación, en este caso se
toma la clase que más clasificadores (árboles) hayan predicho.

**NOTA:** Integrar això, potser s'hauria de'eXplicar en la secció anterior.
Bias-variance tradeoff

_Según lo explicado anteriormente, sabemos que cada árbol
individual tiene una alta varianza, pero un bajo sesgo (xq son profundos). Al
obtener información agregada del conjunto  árboles se reduce la varianza._


#### Cálculo de el error (_out-of-bag_)


#### Un ejemplo de _bagging_

Como hemos explicado anteriormente esta técnica es aplicable a diferentes
métodoes de aprendizaje. En el paquete _sklearn.ensemble_ de Scikit
encontramos las clases _BaggingClassifier_ y _BaggingRegressor_ que usan los
árboles de decisión como técnica por defecto.

Vamos a ver un ejemplo de regresión con esta técnica:

In [80]:
from sklearn.ensemble import BaggingRegressor
from sklearn.datasets import make_regression
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor
import numpy as np

X, y = make_regression(n_samples=50, n_features=1,
                       n_informative=1, n_targets=1, noise=10,
                       random_state=0, shuffle=True)

elem = np.linspace(np.min(X),np.max(X),150).reshape(-1, 1)


regressor = DecisionTreeRegressor(random_state=33)
regressor.fit(X, y)

predicciones = regressor.predict(elem)

regr = BaggingRegressor(n_estimators=100, random_state=0)
regr.fit(X, y)

y_predict= regr.predict(elem)


In [None]:
#plt.scatter(X, y);
#plt.plot(elem, y_predict,label="bagging");
#plt.plot(elem, predicciones, label="regressor tree")
#plt.legend()


### Random Forest

Los _random forests_ son una técnica que al igual que la técnica de
_bagging_ consiste en la agregación de diversos árboles de decisión
para proporcionar una decisión conjunta creando diferentes conjuntos de
entrenamiento  mediante _bootstraping_. Esta nueva técnica que presentamos
consigue una mejora de rendimiento respecto a la técnica  de _bagging_.

La particularidad que diferencia a los _random forest_ es que al construir
cada  uno de los árboles de decisión, cada vez que se realiza una división de
un  nodo en un árbol, se elige de manera  aleatoria un subconjunto, $m$, de
características. Este nueva división solo podrá ser realizada usando una
característica que pertenezca a $m$. Cada vez que se realiza una nueva
división se vuelve a generar este conjunto, el valor por defecto de $m \simeq
\sqrt{p}$ donde $p$ es el número total de características.


En resumen, al construir un _random forest_, en cada división del árbol,
el algoritmo no considerará la mayoría de las características disponibles.
Esto permite construir árboles que serán muy diferentes entre si y permite
evitar que existan características que sean dominantes. Una de las
problemáticas que surgen del uso de la técnica de _bagging_ es la similitud
de todos los árboles construidos. Desafortunadamente, promediar muchos valores
altamente correlacionados no conduce a una gran reducción de la varianza como
promediar muchos valores no correlacionados. Esto significa que la técnica
de _bagging_ no proporcionará una gran reducción de la varianza comparando
con la que tenemos con un solo árbol. Los _random forest_ estan diseñados
para  solventar esta problemática al forzar cada división a considerar un
subconjunto de las características.

La principal diferencia entre _bagging_ y _random forest_ es  la elección del
tamaño del subconjunto del predictor. Por ejemplo, si un  _random forest_ se
construye usando  $m = p$, esto equivale simplemente a realizar la técnica de
_bagging_.


### Boosting




### Determinar la importancia de las características






## Un ejemplo completo

**NOTA:** aquí la meva idea seria fer un exemple de classificació comparant
arbres simples amb alguna de les tècniques anteriors. Fer selecció dels
millors parametres i mostrar com canvia el resultat amb el nombre d'estimadors.

## Resumen


* Comentar que tant en els arbres individuals com en les tècnicques
d'agregació ne le cas de classif es pot donar %

* En resumen, el  promedio de un conjunto de observaciones permite reducir la
varianza.




## Ejercicios