# Sesgo de las varianzas muestrales

Mostramos que la varianza muestral sin la corrección de Bessel ($S_n^2$) es un estimador sesgado de la varianza. Por otro lado, mostramos que la versión corregida de la varianza muestral $S^2$, no tiene sesgo.

Simulamos muestras de variables normales

In [None]:
import math
variance = 1
sigma = math.sqrt(variance)

In [None]:
# Sample size
nvariables = 3
# Number of simulated samples
nsimulations = 100000

In [None]:
from scipy.stats import norm
import numpy as np
rng = np.random.default_rng(seed=6870)
data = norm.rvs(scale=sigma, size=(nsimulations, nvariables), random_state=rng)
data[0:5]

## Estadístico $S_n^2$

Calculo la varianza muestral **sin** la corrección de Bessel: 

In [None]:
sample_variance_1 = data.var(ddof=0, axis=1)

Media de la varianza muestral

In [None]:
sample_variance_1_mean = sample_variance_1.mean()
sample_variance_1_mean

Sesgo de la varianza muestral

In [None]:
bias_1 = sample_variance_1_mean - variance
bias_1

## Plot $S_n^2$

Distribución de los datos simulados

In [None]:
import danatools
xmax = 2
density_histo, xbin = danatools.histogram(sample_variance_1,  bins=30, range=(0,xmax), density=True)

PDF de $S_n^2$ calculada a partir de la distribución de $ Z = \frac{n}{\sigma^2}  S_n^2 \sim \chi^2_{n-1}$ con un cambio de variables

In [None]:
from scipy.stats import chi2
x_pdf = np.linspace(0, xmax, num=100)
ndof = nvariables - 1
scale_factor = nvariables / variance 
y_pdf = chi2.pdf(x_pdf * scale_factor, df=ndof) * scale_factor

In [None]:
import matplotlib.pyplot as plt
fig, ax = plt.subplots()
ax.set_xlabel("$S_n^2$")
ax.set_ylabel("Probability density")
ax.plot(xbin, density_histo, ls='None', marker='o', label="Data")
ax.plot(x_pdf, y_pdf, label="PDF")
ax.axvline(sample_variance_1_mean, label="Mean", color='tab:green', ls='--')
ax.axvline(variance, label="Variance", color='tab:gray', ls='--')
ax.legend()

El estadístico $S_n^2$ es un estimador *sesgado* de la varianza.

## Estadístico $S^2$

Calculo la varianza muestral **con** la corrección de Bessel: 

In [None]:
sample_variance_2 = data.var(ddof=1, axis=1)

Media de la varianza muestral

In [None]:
sample_variance_2_mean = sample_variance_2.mean()
sample_variance_2_mean

Sesgo de la varianza muestral

In [None]:
bias_2 = sample_variance_2_mean - variance
bias_2

## Plot $S^2$

In [None]:
density_histo, xbin = danatools.histogram(sample_variance_2,  bins=30, range=(0,2), density=True)

In [None]:
x_pdf = np.linspace(0, xmax, num=100)
ndof = nvariables - 1
scale_factor = ndof / variance 
y_pdf = chi2.pdf(x_pdf * scale_factor, df=ndof) * scale_factor

In [None]:
fig, ax = plt.subplots()
ax.set_xlabel("$S^2$")
ax.set_ylabel("Probability density")
ax.plot(xbin, density_histo, ls='None', marker='o', label="Data")
ax.plot(x_pdf, y_pdf, label="PDF")
ax.axvline(sample_variance_2_mean, label="Mean", color='tab:green', ls='--')
ax.axvline(variance, label="Variance", color='tab:gray', ls='--')
ax.legend()

El estadístico $S^2$ es un estimador *sin sesgo* de la varianza. Al menos lo vimos dentro de las incertezas numéricas por el número finito de simulaciones.