# Eficiencia de la media y la mediana

In [None]:
mu = 0
sigma = 1
# Sample size
nvariables = 3

## Media muestral

La media de la media muestral es igual a la media de la variable aleatoria. Por lo tanto, la media muestral es un estimador sin sesgo de la media.

In [None]:
sample_mean_mean = mu
print(f"Media de la media muestral: {sample_mean_mean:.5f}")

Calculamos la desviación estándar de la media muestral a partir de la desviación estándar de la variable aleatoria

In [None]:
import math
sample_mean_sigma = sigma / math.sqrt(nvariables)
print(f"Desviación estándar de la media muestral: {sample_mean_sigma:.5f}")

## Mediana muestral

Al contrario del caso de la media muestral, la mediana muestral no sigue una distribución conocida. Para salvar este inconveniente, estimamos su media y desviación estándar a partir de simulaciones.

Simulamos muestras de variables normales

In [None]:
from scipy.stats import norm
import numpy as np
# Number of simulated samples
nsimulations = 100000
rng = np.random.default_rng(seed=6870)
data = norm.rvs(scale=sigma, size=(nsimulations, nvariables), random_state=rng)
data[0:5]

In [None]:
sample_median = np.median(data, axis=1)

Desviación estándar muestral de la mediana muestral. Notar que la mediana muestral es un estadístico y, a su vez, la desviación estándar muestral calculada a partir de la mediana muestral es otro estadístico.  

In [None]:
sample_median_sample_mean = sample_median.mean()
print(f"Media muestral de la mediana muestral: {sample_median_sample_mean:.5f}")

Verificamos que la mediana muestral es un estimador sin sesgo de la media dentro de la incerteza númerica dada por el número finito de simulaciones.

In [None]:
sample_median_sample_sigma = sample_median.std(ddof=1)
print(f"Desviación estándar muestral de la mediana muestral: {sample_median_sample_sigma:.5f}")

## Comparación de las PDFs

Comparo la PDF de la media muestral con el histograma de densidad de la mediana muestral

In [None]:
xmax = 2
x = np.linspace(-xmax, xmax, num=100)
mean_pdf = norm.pdf(x, loc=mu, scale=sample_mean_sigma)

In [None]:
import danatools
median_histo, median_xbin = danatools.histogram(sample_median,  bins=30, range=(-xmax,xmax), density=True)

In [None]:
import matplotlib.pyplot as plt
fig, ax = plt.subplots()
ax.set_xlabel("Mean")
ax.set_ylabel("Probability density")
ax.plot(x, mean_pdf, label="Mean")
ax.plot(median_xbin, median_histo, ls='None', marker='o', label="Median")
ax.legend()

La figura muestra que la media muestral fluctúa menos que la mediana muestral.

Esta demo muestra que la media y la mediana muestrales son estimadores sin sesgo de la media pero la media muestral es un estimador más eficiente que la mediana muestral. 