# Intervalo aproximado

Calculo la cobertura del intervalo aproximado del parámetro $\tau$ de una distribución exponencial.

## Definición del intervalo

Parámetro $\tau$ de la distribución exponencial:

In [None]:
tau = 10

La muestra de datos consiste de variables exponenciales iid $T_i \sim \exp(\tau)$ de tamaño:

In [None]:
sample_size = 100

Nivel de confianza del intervalo:

In [None]:
confidence_level = 0.9

Probabilidad de las colas:

In [None]:
tail_probability = (1 - confidence_level)/2
tail_probability

El estimador del parámetro $\tau$ es la media muestral $\bar{t}$. Para calcular el intervalo de confianza de $\tau$ necesitamos la distribución de $\bar{t}$. Vamos a suponer que desconocemos esta distribución y asumimos que $\bar{t}$ sigue *aproximadamente* una distribución normal. Los parámetros de esta distribución normal los calculamos con los momentos de $\bar{t}$, $\mu = \mathrm{E}(\bar{t}) = \tau$ y $\sigma^2 = \mathrm{Var}(\bar{t}) = \tau^2 / n$. Calculamos el intervalo de confianza de $\tau$ a partir de la distribución aproximada de $\bar{t}$.

Calculamos el cuantil de una distribución normal:

In [None]:
from scipy.stats import norm
quantile = norm.isf(tail_probability)
quantile

## Simulación de datos

Evaluamos la cobertura de este intervalo aproximado simulando muchas muestras de datos:

In [None]:
import numpy as np
from scipy.stats import expon
nsimulations = 100000
rng = np.random.default_rng(seed=6870)
data = expon.rvs(scale=tau, size=(nsimulations, sample_size), random_state=rng)
data

El estimador de $\tau$ es la media muestral:

In [None]:
tau_mle = np.mean(data, axis=1)
tau_mle

Calculamos los límites del intervalo de confianza en base a lo que vimos en clase:

In [None]:
import math
tau1 = tau_mle / (1 + quantile / math.sqrt(sample_size))
tau2 = tau_mle / (1 - quantile / math.sqrt(sample_size))
tau1

In [None]:
tau2

## Cobertura

Evaluamos la probabilidad de cobertura del intervalo aproximado:

In [None]:
import danatools
coverage, coverage_error = danatools.get_coverage(tau1, tau2, tau)
print(f"Coverage probability: {coverage:.4f} ± {coverage_error:.4f}")

La probabilidad de cobertura es mayor al nivel de confianza que usamos para construir el intervalo. 
Esto es así incluso considerando la incerteza de la estimación de la cobertura por el número finito de simulaciones, 
Decimos en este caso que el intervalo *sobrecubre* al parámetro (overcovers en inglés). En el caso opuesto que la probabilidad de cobertura es *menor* al nivel de confianza, decimos que el intervalo *subcubre* al parámetro (undercovers en inglés).

*Nota*: Para mostrar un intervalo aproximado usamos una aproximación normal a la distribución de la media muestral. Sin embargo, la distribución de la media muestral de una variable exponencial es conocida; sigue una distribución de Erlang a menos de un cambio de variables. 