# Cobertura de un intervalo de confianza

Estimamos númericamente la cobertura de un intervalo de confianza

Consideramos una variable normal estándar. Escribimos explícitamente sus parámetros:

In [None]:
mu = 0
sigma = 1

Consideramos una muestra de tamaño:

In [None]:
sample_size = 3

Simulamos muchas muestras:

## Datos

In [None]:
from scipy.stats import norm
import numpy as np
# Number of simulated samples
nsimulations = 100000
rng = np.random.default_rng(seed=6870)
data = norm.rvs(loc=mu, scale=sigma, size=(nsimulations, sample_size), random_state=rng)
data[0:10]

Calculamos la media muestral de cada muestra:

In [None]:
sample_mean = np.mean(data, axis=1)
sample_mean[0:10]

Calculamos la desviación estándar de la media muestral:

In [None]:
import math
sample_mean_sigma = sigma/math.sqrt(sample_size)
sample_mean_sigma

Notemos que esta desviación estándar es conocida e igual para todas las muestras.

## Intervalo de confianza

Definimos el nivel de confianza de los intervalos en términos del número de desviaciones estándares:

In [None]:
nsigma = 1

El términos de probabilidad el nivel de confianza es:

In [None]:
confidence_level = 1 - 2 * norm.cdf(-nsigma)
confidence_level

Calculamos el *error*: 

In [None]:
error = nsigma * sample_mean_sigma
error

Calculamos el estadístico *límite inferior del intervalo de confianza*:

In [None]:
mu_1 = sample_mean - error
mu_1[0:10]

Este estadístico es igual a la media muestral menos una constante. Entonces sus fluctuaciones se deben exclusivamente a las de la media muestral. 

Calculamos el límite superior:

In [None]:
mu_2 = sample_mean + error
mu_2[0:10]

## Cobertura

Identificamos para cada simulación si el intervalo [μ₁, μ₂] **cubre** a la media μ:

In [None]:
coverage = np.logical_and(mu_1<mu, mu<mu_2)
coverage[0:10]

Mostramos si los primeros intervalos simulados cubren a μ:

In [None]:
import pandas as pd
intervals = pd.DataFrame({"$\mu_1$": mu_1, "$\mu_2$":mu_2, "Coverage": coverage})
intervals.head(10)

Contamos cuántos intervalos cubren a μ:

In [None]:
nhits = coverage.sum()
nhits

Calculamos que fracción de los intervalos simulados cubren a μ:

In [None]:
coverage_proba = nhits / nsimulations
print(f"Coverage probability: {coverage_proba:.4f}")

Esta fracción aproxima la probabilidad de cobertura. La aproximación será tanto mejor conforme aumentamos el número de simulaciones.

Alternativamente, calculamos la probabilidad de cobertura con la librería danatools: 

In [None]:
import danatools
coverage_proba2, coverage_proba2_error = danatools.get_coverage(mu_1, mu_2, mu)
print(f"Coverage probability: {coverage_proba2:.4f} ± {coverage_proba2_error:.4f}")

Además del estimador del nivel de confianza, danatools reporta un error en el estimador de la cobertura. Veremos más adelante como calcular este error.

Recordamos el nivel de confianza que usamos para construir el intervalo:

In [None]:
print(f"Confidence level: {confidence_level:.4f}")

La cobertura coincide con el nivel de confianza dentro de las incertezas. Esto es esperable, ya que el intervalo de confianza de la media μ para una muestra normal es **exacto**. 