<img src="logo.png">

# C05.2 Intervalos de confianza

Una estimación por intervalos de un parámetro poblacional es una regla para calcular, a partir de nuestra muestra, un intervalo en el que, con una cierta probabilidad, se encuentra el valor verdadero del parámetro.

**Definición.** Dado un parámetro $\theta$, el intervalo $(A,B)$ es un intervalo de confianza del $(1-\alpha)\cdot100\%$ para $\theta$ cuando $P(A<\theta<B)=1-\alpha$.

El valor $(1-\alpha)\cdot100\%$ recibe el nombre de **nivel de confianza** y $\alpha$ es el **nivel de significación**.

Por defecto, buscaremos intervalos bilaterales tales que la cola de probabilidad sobrante se reparta por igual a cada lado del intervalo: $P(\theta<A)=P(\theta>B)=\frac{\alpha}{2}$.

Por ejemplo, para buscar un intervalo de confianza $(A,B)$ del $95\%$ buscaremos valores $A$ y $B$ tales que $P(\theta<A)=0.025$ y $P(\theta>B)=0.025$. Esto debido a que $(1-\alpha)\cdot 100\%=95\%$ de donde $\alpha=0.05$



## Intervalo de confianza para la media poblacional (varianza conocida)

**Notación previa.** *Si $Z\sim N(0,1)$ y $0<a<1$, al valor $k$ tal que $F_Z(k)=a$ (es decir, el valor $k$ tal que $P(Z\le k)=a$) se le denota por $Z_a$. Esto en R significa que $Z_a=$qnorm(a)*. 


Sea $X$ una v.a. normal con media $\mu$ desconocida y $\sigma$ conocida. Si $X_1,X_2,\cdots,X_n$ es una m.a.s. de $X$ con media muestral $\overline{X}_n$. Queremos determinar un intervalo de confianza para $\mu$ con un cierto nivel de confianza.

Bajo estas condiciones, sabemos que $$Z=\frac{\overline{X}_n-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$$.

Comenzamos calculando un intervalo centrado en 0 en el que $Z$ tenga probabilidad $1-\alpha$. Es decir, hallar $\delta>0$ tal  que $P(-\delta< Z<\delta)=1-\alpha$. Por lo tanto

\begin{eqnarray*}
1-\alpha&=&P(-\delta<Z<\delta)\\
&=&F_Z(\delta)-F_Z(-\delta)\\
&=&2F_Z(\delta)-1,
\end{eqnarray*}

de donde $F_Z(\delta)=\frac{2-\alpha}{2}=1-\frac{\alpha}{2}$. Es decir $\delta=Z_{1-\frac{\alpha}{2}}$ (o en R:  $\boldsymbol{\delta=}$**qnorm**$\boldsymbol{\left(1-\frac{\alpha}{2}\right)}$)

**Teorema** Sea $X\sim N(\mu,\sigma)$ con $\mu$ desconocida y $\sigma$ conocida. Tomamos un m.a.s. de $X$. Un intervalo de confianza del $(1-\alpha)\cdot 100\%$ para $\mu$ es $$\left(\overline{X_n}-Z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{X_n}+Z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right)$$ 

<img src="z_a.png">



**Simulación de intervalos de confianza**

Consideremos una población de $10^6$ valores de una normal con $\mu=1.5$ y $\sigma=1$. 

``set.seed(1012)
mu = 1.5; sigma = 1;
Poblacion = rnorm(10^6,mu,sigma)``


Vamos a generar una muestra aleatoria simple de tamaño 50 de dicha población para posteriormente generar un intervalo de confianza al $95\%$ para $\mu$.

1) Creamos una función tal que dada una muestra, un valor $\sigma$ y una significancia $\alpha$ nos genere el intervalo de confianza correspondiente:

``
intervalo_confianza <- function(x,sigma,alpha){
    inferior <- mean(x) - qnorm(1-alpha/2) * sigma / sqrt(length(x))
    superior <- mean(x) + qnorm(1-alpha/2) * sigma / sqrt(length(x))
    c(inferior,superior)
}
``

2) Tomamos la muestra de tamaño 50:

``muestra  <- sample(Poblacion,50,replace = TRUE)``

3) Realizamos el cálculo 
``intervalo_confianza(muestra,1,0.05)``

**Ejercicio 1**

Tomemos un m.a.s. de tamaño $n=16$ de una v.a. normal con $\sigma=4$ y $\mu$ desconocida. La media de la m.a.s. es $\overline{x}=20$. Calcular un intervalo de confianza del 97.5% para $\mu$.

**Ejercicio 2**

Queremos analizar un sensor que mide la temperatura de un procesador en grados centígrados, que tiene como temperatura usual entre 30C y 40C. Para saber si está bien calibrado, diseñamos un experimento en el que ponemos el procesador a trabajar en las mismas condiciones y tomamos una muestra de 40 valores de temperatura. 

Los resultados son los siguientes: 35.19, 37.76, 37.99, 35.34, 36.05, 34.17, 35.40, 36.94, 33.54, 36.04, 35.51, 36.68, 35.78,
35.28, 35.27, 35.46, 35.32, 33.81, 36.50, 34.80, 36.22, 36.83, 35.05, 34.34, 35.97, 34.82, 37.85, 37.13, 37.27, 37.65, 37.36, 35.00, 36.36, 34.45, 38.02, 35.86, 33.46, 34.76, 35.07, 37.17.

Supongamos que las medidas de nuestro sensor siguen una distribución normal con varianza poblacional conocida $\sigma^2=1.44$. Calcular un intervalo de confianza del 90% para la media de la temperatura del procesador.  

## Intervalo de confianza para la media poblacional (varianza desconocida)

Nuestro problema ahora es que no conocemos $\sigma$. Lo que haremos será sustituir la desviación típica del método anterior por la desviación típica muestral $\tilde{S}_X$.

**Teorema**

Sea $X\sim N(\mu,\sigma)$. Si $X_1,X_2,\cdots,X_n$ es un m.a.s. de $X$ entonces $$T=\frac{\overline{X}-\mu}{\tilde{S}_X/\sqrt{n}}\sim t_{n-1}$$

**Propiedades de la $t_{\nu}$**

* $E[t_\nu]=0$ si $\nu>1$ y $Var(t_\nu)=\frac{\nu}{\nu-2}$ si $\nu>2$


* Su función de distribución es simétrica respecto de $E[t_\nu]=0$: 

$$P(t_\nu\le -x)=P(t_\nu\ge x)=1-P(t_\nu\le x)$$


* Si $\nu$ es grande, su distribución es aproximadamente normal $N(0,1)$ pero con mas varianza (se ve un poco mas aplastada).

*Notación.* Indicaremos con $t_{\nu,q}$ el $q-$cuantil de una $X\sim t_\nu$. Es decir, $P(X\le t_{\nu,q})=q$.



**Teorema** Sea $X\sim N(\mu,\sigma)$ con $\mu$ y $\sigma$ desconocidas. Tomamos un m.a.s. de $X$. Bajo estas condiciones, un intervalo de confianza del $(1-\alpha)\cdot 100\%$ para $\mu$ es $$\left(\overline{X_n}-t_{n-1,1-\frac{\alpha}{2}}\frac{\tilde{S}_X}{\sqrt{n}},\overline{X_n}+t_{n-1,1-\frac{\alpha}{2}}\frac{\tilde{S}_X}{\sqrt{n}}\right)$$ 





In [1]:
# intevalo_confianza_sinvar <- function(x,alpha){
#  c(mean(x)-qt(1-alpha/2,length(x)-1)*sd(x)/sqrt(length(x)),
#  mean(x)+qt(1-alpha/2,length(x)-1)*sd(x)/sqrt(length(x)))
# }

# M <- replicate(10000,intevalo_confianza_sinvar(sample(A,40,replace = TRUE),0.05))

# M <- data.frame(t(M))
#dim(M[M $ X1 < 14.2 & 14.2 < M $ X2,])

<img src="ejemplo_varianza_desconocida.png">

## Intervalos de confianza para $\mu$ de una población cualquiera con $\sigma$ conocida y muestra grande.

Es MUY IMPORTANTE notar que en los ejemplos anteriores hemos supuesto algo bastante restrictivo: la población sigue una distribución normal. 

Consideremos la situación siguiente:

* $X$ una **variable aleatoria cualquiera** con media $\mu$ desconocida y varianza $\sigma^2$ conocida. 

* $X_1,\cdots,X_n$ una m.a.s. de $X$.

* $n\ge 40$.

En estas condiciones, $\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\sim N(0,1)$ aproximadamente. Bajo estas condiciones, podemos tomar como intervalo de confianza del $(1-\alpha)\cdot100\%$ de confianza para el parámetro $\mu$ a
$$\left(\overline{X_n}-Z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{X_n}+Z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right).$$

En cambio, si $\sigma$ es desconocida, tomamos 
$$\left(\overline{X_n}-Z_{1-\frac{\alpha}{2}}\frac{\tilde{S}_X}{\sqrt{n}},\overline{X_n}+Z_{1-\frac{\alpha}{2}}\frac{\tilde{S}_X}{\sqrt{n}}\right)$$ 
