# Bagging: Demostración de reducción de varianza

## Intuición:

La idea de un ensemble de tipo bagging es aprovechar la diversidad entre modelos individuales (siendo estos del mismo tipo) que tienen alta varianza. Al promediar sus predicciones, los errores independientes de cada modelo (modelos base) tienden a cancelarse, mientras que las predicciones correctas se refuerzan. Esto permite que el ensemble tenga una predicción más estable y cercana a los valores reales que cada modelo por separado.

## Demostración:

La idea es demostrar matemáticamente que el predictor promedio de Bootstrap Aggregating tiene menor varianza que cada modelo base individual.

Fijamos un punto $x$.

Cada modelo entrenado con bootstrap produce una predicción aleatoria:

$$\hat f_1(x), \hat f_2(x), \dots, \hat f_B(x)$$

Son variables aleatorias porque dependen del dataset bootstrap.



Definimos el predictor bagging:

$$\hat f_{bag}(x) = \frac{1}{B}\sum_{b=1}^{B}\hat f_b(x)$$

Queremos calcular:

$$\text{Var}(\hat f_{bag}(x))$$





### Varianza de una combinación lineal

La varianza de una combinación lineal de variables aleatorias se puede expresar como:

$$\text{Var}\Big(\sum_{i=1}^{B} a_i X_i \Big)
=
\underbrace{\sum_{i=1}^{B} a_i^2 \text{Var}(X_i)}_{\text{(1) varianzas individuales}}
+
\underbrace{\sum_{i \ne j} a_i a_j \text{Cov}(X_i,X_j)}_{\text{(2) covarianzas}}$$

<details>
<summary>Desglose conceptual</summary>

1.	Varianzas individuales: $\sum a_i^2 \text{Var}(X_i)$ mide la variabilidad propia de cada variable por separado.
Si las variables fueran independientes, solo existiría este término.
2.	Término de interacción (covarianzas): $\sum_{i\ne j} a_i a_j \text{Cov}(X_i,X_j)$ mide cuánto “se mueven juntas” las variables.

- Covarianza positiva → aumenta la varianza total.
- Covarianza negativa → puede reducir la varianza total.
- Covarianza cero → no contribuye a la interacción.

</details>

### Aplicación al ensemble Bagging

En bagging, el ensemble es un promedio de B modelos:

$$\hat f_{bag} = \frac{1}{B} \sum_{i=1}^B \hat f_i$$

Aquí cada coeficiente es:

$$a_i = \frac{1}{B}$$

Sustituyendo en la fórmula general:

$$\text{Var}(\hat f_{bag})
= \sum_{i=1}^B \left(\frac{1}{B}\right)^2 \text{Var}(\hat f_i) + \sum_{i\ne j} \frac{1}{B} \frac{1}{B} \text{Cov}(\hat f_i, \hat f_j)
= \frac{1}{B^2} \left( \sum_{i=1}^B \text{Var}(\hat f_i) + \sum_{i\ne j} \text{Cov}(\hat f_i, \hat f_j) \right)$$

<details>
<summary>Desglose conceptual en Bagging</summary>


1.	Variabilidad individual: Mide cuánto varía cada modelo por separado. Al promediar, esta componente se reduce aproximadamente por un factor $1/B$:

$$\sum_{i=1}^B a_i^2 \text{Var}(\hat f_i) = \frac{1}{B^2} \sum_{i=1}^B \text{Var}(\hat f_i)$$

2.	Correlación entre modelos: Mide cuánto se parecen los errores de los modelos entre sí. Esta componente no se reduce automáticamente al promediar:

$$\sum_{i\ne j} a_i a_j \text{Cov}(\hat f_i, \hat f_j) = \frac{1}{B^2} \sum_{i\ne j} \text{Cov}(\hat f_i, \hat f_j)$$

Consecuencias:
- Si los modelos son poco correlacionados → gran reducción de varianza.
- Si son muy correlacionados → la reducción es limitada.

> Nota sobre el factor $1/B^2$: Aparece porque cada modelo se pondera con 1/B en el promedio, y la varianza de un múltiplo se escala como el cuadrado del múltiplo:
> $$\text{Var}(cX) = c^2 \text{Var}(X).$$
> Por eso tanto los términos de varianza individual como de covarianza se multiplican por $ 1/B^2$.

</details>

#### Simplificando la expresión bajo supuestos de simetria 

Para poder simplificar sin perder generalidad conceptual, hacemos el supuesto estándar de análisis de bagging:
1.	Todos los modelos tienen la misma varianza:

$$\text{Var}(\hat f_b) = \sigma^2$$

2.	La covarianza entre cualquier par distinto es constante:

$$\text{Cov}(\hat f_i,\hat f_j) = \rho \sigma^2$$

Este no es un truco matemático; es un supuesto de homogeneidad razonable porque todos los modelos provienen del mismo algoritmo con bootstrap.

##### Sustituimos en la expresión


Sabemos que:
- Hay $B$ términos de varianza.
- Hay $B(B-1)$ términos de covarianza (porque $i \ne j$).

Entonces:

$$\text{Var}(\hat f_{bag})
=
\frac{1}{B^2}
\left(
B\sigma^2
+
B(B-1)\rho\sigma^2
\right)$$

Factorizamos:

$$=
\frac{\sigma^2}{B^2}
\left(
B + B(B-1)\rho
\right)$$

Sacamos B:

$$=
\frac{\sigma^2}{B}
\left(
1 + (B-1)\rho
\right)
\frac{1}{B}$$

Simplificando correctamente:

$$=
\sigma^2
\left(
\rho + \frac{1-\rho}{B}
\right)$$

Resultado final (demostración cerrada)

$$\boxed{
\text{Var}(\hat f_{bag})
=
\sigma^2
\left(
\rho + \frac{1-\rho}{B}
\right)
}$$

<details>

<summary>Desglose</summary>

Partimos del resultado demostrado:

$$\text{Var}(\hat f_{bag})
=
\sigma^2
\left(
\rho + \frac{1-\rho}{B}
\right)$$

Podemos reescribirlo como:

$$\text{Var}(\hat f_{bag})
=
\sigma^2 \rho
+
\frac{\sigma^2(1-\rho)}{B}$$

Esto permite una interpretación estructural clara:
- Parte correlacionada: $\sigma^2 \rho$
- Parte no correlacionada: $\sigma^2 (1-\rho)$

El promedio solo divide por B la parte no correlacionada:

$$\sigma^2 \rho
+
\frac{\sigma^2(1-\rho)}{B}$$

Implicaciones
1.	La varianza del ensemble depende de la estructura de covarianza entre modelos.
2.	La reducción ocurre únicamente sobre la componente no correlacionada.
3.	Cuando $B \to \infty$:

$$\text{Var}(\hat f_{bag}) \to \sigma^2 \rho$$

Existe entonces un límite inferior determinado por la correlación.

</details>

#### Conclusión final:

En otras palabras:

La reducción de varianza no depende solo del número de modelos,
depende fundamentalmente de cómo interactúan entre sí.

Bajo el supuesto de:
- varianzas similares,
- correlación promedio constante,

la varianza se descompone en:

$$\text{Var total}
=
\text{Componente individual}
+
\text{Componente de interacción}$$

Bagging reduce la componente individual por un factor 1/B,
pero la componente de interacción solo disminuye si se reduce la correlación. Por eso métodos como
Random Forest
introducen aleatoriedad adicional en las variables para disminuir la covarianza entre modelos y así bajar el límite inferior de varianza.

---