# Bagging: Demostración de reducción de varianza

## Intuición:

La idea de un ensemble de tipo bagging es aprovechar la diversidad entre modelos individuales (siendo estos del mismo tipo) que tienen alta varianza. Al promediar sus predicciones, los errores independientes de cada modelo (modelos base) tienden a cancelarse, mientras que las predicciones correctas se refuerzan. Esto permite que el ensemble tenga una predicción más estable y cercana a los valores reales que cada modelo por separado.

## Demostración matemática:

La idea es demostrar matemáticamente que el predictor promedio de Bootstrap Aggregating tiene menor varianza que cada modelo base individual.

Fijamos un punto $x$.

Cada modelo entrenado con bootstrap produce una predicción aleatoria:

$$\hat f_1(x), \hat f_2(x), \dots, \hat f_B(x)$$

Son variables aleatorias porque dependen del dataset bootstrap.



Definimos el predictor bagging:

$$\hat f_{bag}(x) = \frac{1}{B}\sum_{b=1}^{B}\hat f_b(x)$$

Queremos calcular:

$$\text{Var}(\hat f_{bag}(x))$$





### Varianza de una combinación lineal

La varianza de una combinación lineal de variables aleatorias se puede expresar como:

$$\text{Var}\Big(\sum_{i=1}^{B} a_i X_i \Big)
=
\underbrace{\sum_{i=1}^{B} a_i^2 \text{Var}(X_i)}_{\text{(1) varianzas individuales}}
+
\underbrace{\sum_{i \ne j} a_i a_j \text{Cov}(X_i,X_j)}_{\text{(2) covarianzas}}$$

<details>
<summary>Desglose conceptual</summary>

1.	Varianzas individuales: $\sum a_i^2 \text{Var}(X_i)$ mide la variabilidad propia de cada variable por separado.
Si las variables fueran independientes, solo existiría este término.
2.	Término de interacción (covarianzas): $\sum_{i\ne j} a_i a_j \text{Cov}(X_i,X_j)$ mide cuánto “se mueven juntas” las variables.

- Covarianza positiva → aumenta la varianza total.
- Covarianza negativa → puede reducir la varianza total.
- Covarianza cero → no contribuye a la interacción.

</details>

### Aplicación al ensemble Bagging

En bagging, el ensemble es un promedio de B modelos:

$$\hat f_{bag} = \frac{1}{B} \sum_{i=1}^B \hat f_i$$

Aquí cada coeficiente es:

$$a_i = \frac{1}{B}$$

Sustituyendo en la fórmula general:

$$\text{Var}(\hat f_{bag})
= \sum_{i=1}^B \left(\frac{1}{B}\right)^2 \text{Var}(\hat f_i) + \sum_{i\ne j} \frac{1}{B} \frac{1}{B} \text{Cov}(\hat f_i, \hat f_j)
= \frac{1}{B^2} \left( \sum_{i=1}^B \text{Var}(\hat f_i) + \sum_{i\ne j} \text{Cov}(\hat f_i, \hat f_j) \right)$$

<details>
<summary>Desglose conceptual en Bagging</summary>


1.	Variabilidad individual: Mide cuánto varía cada modelo por separado. Al promediar, esta componente se reduce aproximadamente por un factor $1/B$:

$$\sum_{i=1}^B a_i^2 \text{Var}(\hat f_i) = \frac{1}{B^2} \sum_{i=1}^B \text{Var}(\hat f_i)$$

2.	Correlación entre modelos: Mide cuánto se parecen los errores de los modelos entre sí. Esta componente no se reduce automáticamente al promediar:

$$\sum_{i\ne j} a_i a_j \text{Cov}(\hat f_i, \hat f_j) = \frac{1}{B^2} \sum_{i\ne j} \text{Cov}(\hat f_i, \hat f_j)$$

Consecuencias:
- Si los modelos son poco correlacionados → gran reducción de varianza.
- Si son muy correlacionados → la reducción es limitada.

> Nota sobre el factor $1/B^2$: Aparece porque cada modelo se pondera con 1/B en el promedio, y la varianza de un múltiplo se escala como el cuadrado del múltiplo:
> $$\text{Var}(cX) = c^2 \text{Var}(X).$$
> Por eso tanto los términos de varianza individual como de covarianza se multiplican por $ 1/B^2$.

</details>

#### Simplificando la expresión bajo supuestos de simetria 

Para poder simplificar sin perder generalidad conceptual, hacemos el supuesto estándar de análisis de bagging:
1.	Todos los modelos tienen la misma varianza:

$$\text{Var}(\hat f_b) = \sigma^2$$

2.	La covarianza entre cualquier par distinto es constante:

$$\text{Cov}(\hat f_i,\hat f_j) = \rho \sigma^2$$

Este no es un truco matemático; es un supuesto de homogeneidad razonable porque todos los modelos provienen del mismo algoritmo con bootstrap.

##### Sustituimos en la expresión


Sabemos que:
- Hay $B$ términos de varianza.
- Hay $B(B-1)$ términos de covarianza (porque $i \ne j$).

Entonces:

$$\text{Var}(\hat f_{bag})
=
\frac{1}{B^2}
\left(
B\sigma^2
+
B(B-1)\rho\sigma^2
\right)$$

Factorizamos:

$$=
\frac{\sigma^2}{B^2}
\left(
B + B(B-1)\rho
\right)$$

Sacamos B:

$$=
\frac{\sigma^2}{B}
\left(
1 + (B-1)\rho
\right)
\frac{1}{B}$$

Simplificando correctamente:

$$=
\sigma^2
\left(
\rho + \frac{1-\rho}{B}
\right)$$

Resultado final (demostración cerrada)

$$\boxed{
\text{Var}(\hat f_{bag})
=
\sigma^2
\left(
\rho + \frac{1-\rho}{B}
\right)
}$$

<details>

<summary>Desglose</summary>

Partimos del resultado demostrado:

$$\text{Var}(\hat f_{bag})
=
\sigma^2
\left(
\rho + \frac{1-\rho}{B}
\right)$$

Podemos reescribirlo como:

$$\text{Var}(\hat f_{bag})
=
\sigma^2 \rho
+
\frac{\sigma^2(1-\rho)}{B}$$

Esto permite una interpretación estructural clara:
- Parte correlacionada: $\sigma^2 \rho$
- Parte no correlacionada: $\sigma^2 (1-\rho)$

El promedio solo divide por B la parte no correlacionada:

$$\sigma^2 \rho
+
\frac{\sigma^2(1-\rho)}{B}$$

Implicaciones
1.	La varianza del ensemble depende de la estructura de covarianza entre modelos.
2.	La reducción ocurre únicamente sobre la componente no correlacionada.
3.	Cuando $B \to \infty$:

$$\text{Var}(\hat f_{bag}) \to \sigma^2 \rho$$

Existe entonces un límite inferior determinado por la correlación.

</details>

#### Conclusión final:

En otras palabras:

La reducción de varianza no depende solo del número de modelos,
depende fundamentalmente de cómo interactúan entre sí.

Bajo el supuesto de:
- varianzas similares,
- correlación promedio constante,

la varianza se descompone en:

$$\text{Var total}
=
\text{Componente individual}
+
\text{Componente de interacción}$$

Bagging reduce la componente individual por un factor 1/B,
pero la componente de interacción solo disminuye si se reduce la correlación. Por eso métodos como
Random Forest
introducen aleatoriedad adicional en las variables para disminuir la covarianza entre modelos y así bajar el límite inferior de varianza.

---

## Demostración en código:

In [87]:
import numpy as np

In [88]:
from sklearn.datasets import make_regression

In [89]:
from sklearn.model_selection import train_test_split

In [90]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import BaggingRegressor, RandomForestRegressor

In [91]:
# Fijamos semilla
np.random.seed(42)

### Lectura del dataset

In [92]:
X, y = make_regression(
    n_samples=500,
    n_features=10,    # más variables
    noise=20,
    random_state=42
)

y = y + 10 * np.sin(X[:, 0])  # mantener algo de no linealidad

### Separación en entrenamiento y testeo

In [93]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [94]:
# Punto fijo para análisis de varianza sobre una sola muestra
x0 = X_test[0].reshape(1, -1)

### Modelado

In [95]:
B = 200

#### Árbol SIN bootstrap

Demostración puntual

In [96]:
preds_no_bootstrap = []

for i in range(B):
    tree = DecisionTreeRegressor()
    tree.fit(X_train, y_train)
    preds_no_bootstrap.append(tree.predict(x0)[0])

preds_no_bootstrap = np.array(preds_no_bootstrap)

In [97]:
print("Varianza sin bootstrap:", np.var(preds_no_bootstrap))

Varianza sin bootstrap: 1362.1444196661362


In [98]:
# Frontera de decisión


Demostración promedio sobre el test set

In [99]:
# Frontera de decisión


Todos los árboles entrenados sobre el mismo dataset son prácticamente idénticos si el algoritmo es determinista. Varianza puntual y promedio sobre test $set ≈ 0$. Esto implica que el modelo es perfectamente estable, por lo que no hay variabilidad que promediar.

> Concepto clave: Bagging solo es útil con modelos inestables, donde la variabilidad del dataset produce predicciones diferentes.

#### Árbol CON bootstrap (pero aún sin ensemble):

Demostración puntual

In [100]:
rng = np.random.default_rng(42)
n_samples = X_train.shape[0]

preds_bootstrap_puntual = []

for i in range(B):
    idx = rng.choice(n_samples, size=n_samples, replace=True)
    tree = DecisionTreeRegressor()
    tree.fit(X_train[idx], y_train[idx])
    preds_bootstrap_puntual.append(tree.predict(x0)[0])

preds_bootstrap_puntual = np.array(preds_bootstrap_puntual)

In [101]:
var_bootstrap_puntual = np.var(preds_bootstrap_puntual)

print("Varianza puntual árbol con bootstrap:", var_bootstrap_puntual)

Varianza puntual árbol con bootstrap: 10673.419693159489


In [102]:
# Frontera de decisión


Demostración promedio sobre el test set

In [103]:
rng = np.random.default_rng(42)
n_samples = X_train.shape[0]
n_test = len(X_test)

preds_bootstrap_test = np.zeros((B, n_test))

for i in range(B):
    idx = rng.choice(n_samples, size=n_samples, replace=True)
    tree = DecisionTreeRegressor()
    tree.fit(X_train[idx], y_train[idx])
    preds_bootstrap_test[i] = tree.predict(X_test)

In [104]:
# Varianza por punto del test set
var_por_punto = np.var(preds_bootstrap_test, axis=0)

# Promedio sobre el espacio de entrada
var_bootstrap_promedio = np.mean(var_por_punto)

print("Varianza promedio árbol con bootstrap:", var_bootstrap_promedio)

Varianza promedio árbol con bootstrap: 9954.418092061238


In [105]:
# Frontera de decisión


Al entrenar cada árbol sobre distintas muestras bootstrap, aparece variabilidad en las predicciones:

$$\text{Var}(\hat f(X)) > 0$$

Esto refleja que el árbol tiene alta varianza respecto al muestreo del dataset.

> Concepto clave: el bootstrap genera la variabilidad que Bagging puede aprovechar.

#### Bagging usando sklearn

Demostración puntual

In [106]:
bag = BaggingRegressor(
    estimator=DecisionTreeRegressor(),
    n_estimators=B,
    bootstrap=True,
    random_state=42
)

In [107]:
# Entrenamos
bag.fit(X_train, y_train)

In [108]:
# Predicción puntual en x0
f_bag_puntual = bag.predict(x0)[0]
print("Predicción Bagging puntual:", f_bag_puntual)

Predicción Bagging puntual: -35.008271970882596


In [109]:
# Varianza puntual entre los árboles
preds_individuales = np.array([est.predict(x0)[0] for est in bag.estimators_])
var_puntual = np.var(preds_individuales)
print("Varianza puntual de los árboles individuales:", var_puntual) 

Varianza puntual de los árboles individuales: 12782.225743759174


In [110]:
# Frontera de decisión


Demostración promedio sobre el test set

In [111]:
# Predicciones promedio Bagging
pred_bag_test = bag.predict(X_test)

# Predicciones individuales de cada árbol
preds_arboles = np.array([est.predict(X_test) for est in bag.estimators_])

In [112]:
# Varianza por punto
var_por_punto = np.var(preds_arboles, axis=0)

# Varianza promedio sobre test set
var_promedio = np.mean(var_por_punto)

print("Varianza promedio Bagging sobre test set:", var_promedio)

Varianza promedio Bagging sobre test set: 9885.8194287389


Comparado con un solo árbol con bootstrap, bagging promedia B árboles, lo que reduce la varianza de predicción por un factor aproximado de $1/B$ para la parte no correlacionada:

$$\text{Var}(\hat f_{bag}) = \sigma^2 \left(\rho_{Bag} + \frac{1-\rho_{Bag}}{B}\right)$$

- La reducción depende de cuán correlacionados estén los árboles:
- Alta correlación → la reducción es limitada
- Baja correlación → gran reducción

> Concepto clave:
> - Bagging no cambia la correlación intrínseca entre árboles (depende de los datos y del algoritmo)
> - Por eso Random Forest introduce aleatoriedad en features para reducir aún más $\rho$.

#### Random Forest:

In [113]:
rf = RandomForestRegressor(
    n_estimators=B,
    max_features=1,   # introduce aleatoriedad en las columnas
    bootstrap=True,
    random_state=42
)

In [114]:
rf.fit(X_train, y_train)

In [115]:
# Predicción puntual del ensemble
f_rf_puntual = rf.predict(x0)[0]
print("Predicción Random Forest puntual:", f_rf_puntual)

# Predicciones individuales de cada árbol
preds_arboles = np.array([est.predict(x0)[0] for est in rf.estimators_])

Predicción Random Forest puntual: 1.0984179714534494


In [116]:
# Varianza puntual entre los árboles
var_rf_puntual = np.var(preds_arboles)
print("Varianza puntual de los árboles individuales (RF):", var_rf_puntual)

Varianza puntual de los árboles individuales (RF): 18816.625131546436


In [117]:
# Frontera de decisión


Demostración promedio sobre el test set

In [118]:
n_test = len(X_test)

In [119]:
# Predicciones promedio del ensemble
pred_rf_test = rf.predict(X_test)

# Predicciones individuales de cada árbol
preds_arboles_test = np.array([est.predict(X_test) for est in rf.estimators_])

In [120]:
# Varianza por punto del test set
var_por_punto_rf = np.var(preds_arboles_test, axis=0)

# Varianza promedio sobre test set
var_rf_promedio = np.mean(var_por_punto_rf)

print("Varianza promedio Random Forest sobre test set:", var_rf_promedio)

Varianza promedio Random Forest sobre test set: 16835.69362182415


Introduce aleatoriedad adicional en la selección de features para reducir la correlación (\rho) entre árboles:

$$\text{Var}(\hat f_{RF}) = \sigma^2 \left(\rho_{RF} + \frac{1-\rho_{RF}}{B}\right), \quad \rho_{RF} < \rho_{Bag}$$

Esto disminuye aún más el límite inferior de varianza respecto a Bagging tradicional.

> Concepto clave: Random Forest maximiza la reducción de varianza combinando promediado y baja correlación entre árboles.

### Observaciones y conclusiones finales:

1.	La reducción de varianza depende de la interacción entre los modelos, no solo del número de modelos B.
2.	La varianza del ensemble se puede descomponer en:

$$\text{Var total} = \text{Componente individual} + \text{Componente de interacción (correlación)}$$

- Bagging reduce la componente individual dividiendo por B.
- Random Forest reduce adicionalmente la componente de interacción mediante aleatoriedad en features.

3.	El flujo completo de alta varianza → promediado → reducción de varianza explica por qué ensembles de árboles inestables son más precisos que un solo árbol.
