# Varianza: Medida de dispersión

La **varianza** es una medida estadística que indica cuánto se dispersan los datos respecto a su media. Es fundamental para entender la variabilidad en conjuntos de datos, y sirve como base para otros conceptos como la desviación estándar y el análisis de regresión.

En este notebook aprenderás:
- Qué representa la varianza.
- Cómo se calcula paso a paso.
- Cómo interpretarla en contextos reales.

##  Fórmula de la varianza muestral

La varianza se define como el promedio de los cuadrados de las diferencias entre cada dato y la media:

$$s^2 = \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2$$

### 📌 Donde:
- \( x_i \): cada dato individual.
- \( \bar{x} \): media muestral.
- \( n \): número total de observaciones.
- \( s^2 \): varianza muestral.

> Al elevar las diferencias al cuadrado, evitamos que las desviaciones negativas se cancelen con las positivas.

In [3]:
import numpy as np
import pandas as pd

# Semilla para reproducibilidad
np.random.seed(616)

# Simulamos 1000 calificaciones para un grupo de alumnos
n = 1000
grupo = 85 + 7 * np.sin(np.linspace(0, 4 * np.pi, n)) + np.random.normal(0, 4, n)

# Creamos DataFrame
df = pd.DataFrame({
    "Calificación": np.round(grupo, 1),
    "Evaluación": np.arange(1, n + 1)
})

df.head()

Unnamed: 0,Calificación,Evaluación
0,86.0,1
1,85.8,2
2,84.5,3
3,85.0,4
4,87.3,5


## 🧮 Cálculo manual de la varianza

Vamos a calcular la varianza muestral sin usar `.var()`, siguiendo la fórmula paso a paso:
1. Calcular la media.
2. Restar la media a cada dato.
3. Elevar al cuadrado cada diferencia.
4. Sumar todos los cuadrados.
5. Dividir entre \( n - 1 \).

In [4]:
# Paso 1: media
media = np.mean(grupo)

# Paso 2 y 3: diferencias al cuadrado
diferencias_cuadradas = (grupo - media) ** 2

# Paso 4: suma de cuadrados
suma_cuadrados = np.sum(diferencias_cuadradas)

# Paso 5: varianza muestral
varianza = suma_cuadrados / (n - 1)

print(f"Media: {media:.2f}")
print(f"Suma de cuadrados: {suma_cuadrados:.2f}")
print(f"Varianza muestral: {varianza:.2f}")

Media: 85.01
Suma de cuadrados: 39861.66
Varianza muestral: 39.90


## 📊 Interpretación de la varianza

La varianza obtenida nos indica cuánta variabilidad hay en las calificaciones del grupo. Una varianza alta sugiere que los alumnos tienen rendimientos muy distintos entre sí. Una varianza baja indica que la mayoría se desempeña de forma similar.

> Recuerda: la varianza se mide en unidades **al cuadrado**, por lo que no es directamente interpretable como las calificaciones. Para eso usamos la desviación estándar.