## Estimación de Intervalos de confianza

#### Objetivo
Obtener un intervalo con una cierta confianza de que el parámetro poblacional se encuentra ahí. Transitar de la estimación puntual al intervalo de confianza, nos permite ganar en precisión de la estimación al mismo tiempo que incorporamos un cierto nivel de confianza.
#### Definición
Un intervalo de confianza $(1-\alpha)$ para un parámetro $\theta$ es un intervalo $C_n = (a,b)$ con $a= a(X_1,\cdots,X_n)$ y $b= b(X_1,\cdots,X_n)$ funciones de los datos tales que:
$$P_{\theta}(\theta \in C_n) \geq 1-\alpha \qquad \forall \theta \in \Theta$$

$(1-\alpha)$ es la cobertura del intervalo de confianza

#### Ejemplo
Suponga que el tiempo de llegada al trabajo de las personas que viven en Valdivia sigue una distribución Normal de media $\mu$ y varianaza $\sigma^2$. Considere que se tiene una muestra aleatoria de 45 personas que trabajan en Valdiva, cuyo tiempo promedio de llegada al trabajo es de 21 minutos con desviación estandar muestral de 9 minutos. 

Al calcular un intervalo de confianza al 95% (mas adelante aprenderemos como hacerlo) para la media de la muestra, usando la distribución t-student, se obtiene $(18.3, 23.7)$.



#### Interpretaciones erróneas de los Intervalos de Confianza
(i)Al  $95\%$ de los 45 trabajadores les toma entre 18.3 y 23.7 minutos llegar al trabajo.
#### Falso
El intervalo de confianza concierne a todos los trabajadores, no sólo a los 45 de la muestra.

(ii) Hay un $95\%$ de posibilidades de que el tiempo medio  que les tome llegar a su trabajo a todos lo trabajadores de Valdivia, esté entre 18.3 y 23.7 minutos. 

#### Falso
Asi descrita, parece una afirmación sobre las probabilidades de las v.a. que definen los extremos del intervalo. 


#### Interpretaciones correctas  de los Intervalos de Confianza
(i)Tenemos una confianza del $95\%$ de que el tiempo medio  que les toma llegar a su trabajo a todos lo trabajadores de Valdivia, está entre 18.3 y 23.7 minutos, o bien que la media teórica de la distribución se encuentra entre 18.3 y 23.7 minutos.

(ii)Si se extrajeran múltiples muestras aleatorias de la misma población y se calcularan los intervalos de confianza al $95\%$ para cada muestra, esperamos que la media de la población se encuentre en el $95\%$ de esos intervalos, o que el $95\%$ de los intervalos contenga la media teórica. 



#### ¿Cómo calcular un Intervalo de Confianza?

#### Clave
Obtener la distribucioón de probabilidad del estimador puntual 

#### Foco en esta sesión
Poblaciones distribuidas normalmente para estimar intervalos de confianza de la media o la diferencia de medias.


### Caso 1: Media de distribución Normal con varianza conocida 
Sean $X_1,\cdots,X_n$ v.a.i.i.d. ${\cal N}(\mu,\sigma^2)$ entonces, por el Teo de Fisher-Cochran se cumple
$$ Z = \frac{
\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \sim {\cal N}(0,1)$$

Sea $z_{\frac{\alpha}{2}}$ tal que $$P(-z_{\frac{\alpha}{2}}\leq Z \leq z_{\frac{\alpha}{2}}) = 1-\alpha$$

Entonces se define el intervalo de confianza del $100(1-\alpha)\%$ para $\mu$ como:
$$\left(\bar{x} - z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}, 
\bar{x} + z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right )$$



#### Ejemplo
Suponga que cuando una señal de valor $\mu$ es transmitida desde una ubicación A, el valor que se recibe en la localización B sigue una distribución normal de media $\mu$ y varianza $2$. Considere que para reducir el error, se ha enviado nueve veces el mismo valor. Los sucesivos valores recibidos son: $5, 8.5, 12, 15, 7, 9, 7.5, 6.5, 10.5$.
Construya un intervalo de confianza al $95\%$ para $\mu$.

Vemos que $\bar{x} = \frac{81}{9} = 9$, por otra parte resulta que para $100(1-\alpha)\% = 95\%$ se tiene que $z_{\frac{\alpha}{2}}= z_{0.025} = 1.96$



In [24]:
datos <- c(5, 8.5, 12, 15, 7, 9, 7.5, 6.5, 10.5)
media <- mean(datos)
sigma <- sqrt(2)
n <- 9
rango1 <- media - 1.96*sigma/sqrt(n)
rango2 <- media + 1.96*sigma/sqrt(n)
print(c(media, sigma,rango1, rango2))

[1] 9.000000 1.414214 8.076047 9.923953


### Caso 2: Media de distribución Normal con varianza desconocida 

Sean $X_1,\cdots,X_n$ v.a.i.i.d. ${\it N}(\mu,\sigma^2)$ entonces, del Corolario del Teo de Fisher-Cochran se cumple:

$$ \frac{(\bar{X} - \mu)}{\frac{S}{\sqrt{n}}} \sim t_{(n-1)}$$


Sea $t_{(n-1),\frac{\alpha}{2}}$ tal que $$P(-t_{(n-1),\frac{\alpha}{2}}\leq t_{(n-1)} \leq t_{(n-1),\frac{\alpha}{2}}) = 1-\alpha$$

Entonces se define el intervalo de confianza del $100(1-\alpha)\%$ para $\mu$ como:
$$\left(\bar{x} - t_{(n-1),\frac{\alpha}{2}}\frac{S}{\sqrt{n}}, 
\bar{x} + t_{(n-1),\frac{\alpha}{2}}\frac{S}{\sqrt{n}}\right )$$



In [25]:
datos <- c(5, 8.5, 12, 15, 7, 9, 7.5, 6.5, 10.5)
media <- mean(datos)
s <- sd(datos)
n <- 9
rango1 <- media - 2.306*s/sqrt(n)
rango2 <- media + 2.306*s/sqrt(n)
print(c(media, s,rango1, rango2))

[1]  9.000000  3.082207  6.630810 11.369190


## El supuesto de normalidad
Notar que los intervalos de confianza para media muestral aquí construidos, se pueden generalizar para el caso de muestras aleatorias que provienen de otras distribuciones de probabilidad distintas a la normal.

En efecto, del Teo del Límite Central se tiene que para $n$ suficientemente grande ($n \geq 30$, si la distribucion no es muy asimétrica) :

$$  \frac{(\bar{X} - \mu)}{\frac{\sigma}{\sqrt{n}}} \approx {\cal N}(0,1)$$

y mas aún, del Teorema de Slutsky se tiene:

$$ \frac{(\bar{X} - \mu)}{\frac{S}{\sqrt{n}}} \approx  {\cal N}(0,1)$$.


### Caso 3: Diferencia de Medias de dos distribuciones Normales con varianzas conocidas 
Sean $X_1,\cdots,X_n$ v.a.i.i.d. ${\cal N}(\mu_1,\sigma_1^2)$ y $Y_1,\cdots,Y_m$ v.a.i.i.d. ${\cal N}(\mu_2,\sigma_2^2)$
Suponga además que ambas muestras aleatorias son independientes.
En lo que sigue construiremos un intervalo de confianza para la diferencia de medias $\mu_1-\mu_2$

del Teo de Fisher-Cochran se cumple:

$$ \bar{X} \sim {\cal N}(\mu_1,\frac{\sigma_1^2}{n})$$

$$ \bar{Y} \sim {\cal N}(\mu_2,\frac{\sigma_2^2}{m})$$

Como $\bar{X}$ es independiente de $\bar{Y}$, ambas distribuidas normales, entonces 

$$ \bar{X}- \bar{Y} \sim {\cal N}(\mu_1 - \mu_2,\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m})$$

Asi

$$Z = \frac{\bar{X}- \bar{Y} - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m}}}  \sim {\cal N}(0,1)$$



Sea $z_{\frac{\alpha}{2}}$ tal que $$P(-z_{\frac{\alpha}{2}}\leq Z \leq z_{\frac{\alpha}{2}}) = 1-\alpha$$

Entonces se define el intervalo de confianza del $100(1-\alpha)\%$ para $\mu_1 - \mu_2$ como:
$$\left(\bar{x}-\bar{y} - z_{\frac{\alpha}{2}}{\sqrt{\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m}}}, 
\bar{x}-\bar{y} + z_{\frac{\alpha}{2}}{\sqrt{\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m}}}\right )$$

