<img src="logo.png">

# C05.2 Intervalos de confianza

Una estimación por intervalos de un parámetro poblacional es una regla para calcular, a partir de nuestra muestra, un intervalo en el que, con una cierta probabilidad, se encuentra el valor verdadero del parámetro.

**Definición.** Dado un parámetro $\theta$, el intervalo $(A,B)$ es un intervalo de confianza del $(1-\alpha)\cdot100\%$ para $\theta$ cuando $P(A<\theta<B)=1-\alpha$.

El valor $(1-\alpha)\cdot100\%$ recibe el nombre de **nivel de confianza** y $\alpha$ es el **nivel de significación**.

Por defecto, buscaremos intervalos bilaterales tales que la cola de probabilidad sobrante se reparta por igual a cada lado del intervalo: $P(\theta<A)=P(\theta>B)=\frac{\alpha}{2}$.

Por ejemplo, para buscar un intervalo de confianza $(A,B)$ del $95\%$ buscaremos valores $A$ y $B$ tales que $P(\theta<A)=0.025$ y $P(\theta>B)=0.025$. Esto debido a que $(1-\alpha)\cdot 100\%=95\%$ de donde $\alpha=0.05$



## Intervalo de confianza para la media poblacional (varianza conocida)

**Notación previa.** *Si $Z\sim N(0,1)$ y $0<a<1$, al valor $k$ tal que $F_Z(k)=a$ (es decir, el valor $k$ tal que $P(Z\le k)=a$) se le denota por $Z_a$. Esto en R significa que $Z_a=$qnorm(a)*. Al valor $Z_a$ se le llama cuantil de orden $a$.


Sea $X$ una v.a. normal con media $\mu$ desconocida y $\sigma$ conocida. Si $X_1,X_2,\cdots,X_n$ es una m.a.s. de $X$ con media muestral $\overline{X}_n$. Queremos determinar un intervalo de confianza para $\mu$ con un cierto nivel de confianza.

Bajo estas condiciones, sabemos que $$Z=\frac{\overline{X}_n-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$$.

Comenzamos calculando un intervalo centrado en 0 en el que $Z$ tenga probabilidad $1-\alpha$. Es decir, hallar $\delta>0$ tal  que $P(-\delta< Z<\delta)=1-\alpha$. Por lo tanto

\begin{eqnarray*}
1-\alpha&=&P(-\delta<Z<\delta)\\
&=&F_Z(\delta)-F_Z(-\delta)\\
&=&2F_Z(\delta)-1,
\end{eqnarray*}

de donde $F_Z(\delta)=\frac{2-\alpha}{2}=1-\frac{\alpha}{2}$. Es decir $\delta=Z_{1-\frac{\alpha}{2}}$ (o en R:  $\boldsymbol{\delta=}$**qnorm**$\boldsymbol{\left(1-\frac{\alpha}{2}\right)}$)

**Teorema** Sea $X\sim N(\mu,\sigma)$ con $\mu$ desconocida y $\sigma$ conocida. Tomamos un m.a.s. de $X$. Un intervalo de confianza del $(1-\alpha)\cdot 100\%$ para $\mu$ es $$\left(\overline{X_n}-Z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{X_n}+Z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right)$$ 

<img src="z_a.png">



**Simulación de intervalos de confianza**

Consideremos una población de $10^6$ valores de una normal con $\mu=1.5$ y $\sigma=1$. 

``set.seed(1012)
mu = 1.5; sigma = 1;
Poblacion = rnorm(10^6,mu,sigma)``


Vamos a generar una muestra aleatoria simple de tamaño 50 de dicha población para posteriormente generar un intervalo de confianza al $95\%$ para $\mu$.

1) Creamos una función tal que dada una muestra, un valor $\sigma$ y una significancia $\alpha$ nos genere el intervalo de confianza correspondiente:

``
intervalo_confianza <- function(x,sigma,alpha){
    inferior <- mean(x) - qnorm(1-alpha/2) * sigma / sqrt(length(x))
    superior <- mean(x) + qnorm(1-alpha/2) * sigma / sqrt(length(x))
    c(inferior,superior)
}
``

2) Tomamos la muestra de tamaño 50:

``muestra  <- sample(Poblacion,50,replace = TRUE)``

3) Realizamos el cálculo 
``intervalo_confianza(muestra,1,0.05)``

**Ejercicio 1**

Tomemos un m.a.s. de tamaño $n=16$ de una v.a. normal con $\sigma=4$ y $\mu$ desconocida. La media de la m.a.s. es $\overline{x}=20$. Calcular un intervalo de confianza del 97.5% para $\mu$.

**Solución:** Sabemos que $n=16$ es el tamaño de nuestra muestra. ADEMÁS, SABEMOS QUE LA POBLACIÓN ES NORMAL, CON MEDIA DESCONOCIDA PERO DESVIACIÓN $\sigma=4$. Como queremos confianza al 97.5%, entonces $\alpha=0.025$ Por lo tanto

\begin{eqnarray*}
\left(\overline{X_n}-Z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{X_n}+Z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right)&=&\left(20-Z_{0.9875}\cdot\frac{4}{\sqrt{16}},20+Z_{0.9875}\cdot\frac{4}{\sqrt{16}}\right)\\
&=&(20-Z_{0.9875},20+Z_{0.9875})
\end{eqnarray*}

Esto en R significa c(20-qnorm(0.9875),20+qnorm(0.9875))



In [None]:
c(20-qnorm(0.9875),20+qnorm(0.9875))
20+qnorm(0.9875)-(20-qnorm(0.9875))

**Ejercicio 2**

Queremos analizar un sensor que mide la temperatura de un procesador en grados centígrados, que tiene como temperatura usual entre 30C y 40C. Para saber si está bien calibrado, diseñamos un experimento en el que ponemos el procesador a trabajar en las mismas condiciones y tomamos una muestra de 40 valores de temperatura. 

Los resultados son los siguientes: 35.19, 37.76, 37.99, 35.34, 36.05, 34.17, 35.40, 36.94, 33.54, 36.04, 35.51, 36.68, 35.78,
35.28, 35.27, 35.46, 35.32, 33.81, 36.50, 34.80, 36.22, 36.83, 35.05, 34.34, 35.97, 34.82, 37.85, 37.13, 37.27, 37.65, 37.36, 35.00, 36.36, 34.45, 38.02, 35.86, 33.46, 34.76, 35.07, 37.17.

Supongamos que las medidas de nuestro sensor siguen una distribución normal con varianza poblacional conocida $\sigma^2=1.44$. Calcular un intervalo de confianza del 90% para la media de la temperatura del procesador.  

Sean $a$ y $b$ los resultados de una elección entre dos candidatos. Llamemos $I_a$ e $I_b$ los intervalos de confianza de $a$ y $b$ respectivamente. Un empate técnico es declarado si $I_a\cap I_b\neq\emptyset$

## Intervalo de confianza para la media poblacional (varianza desconocida)

Nuestro problema ahora es que no conocemos $\sigma$. Lo que haremos será sustituir la desviación típica del método anterior por la desviación típica muestral $\tilde{S}_X$.

**Teorema**

Sea $X\sim N(\mu,\sigma)$. Si $X_1,X_2,\cdots,X_n$ es un m.a.s. de $X$ entonces $$T=\frac{\overline{X}-\mu}{\tilde{S}_X/\sqrt{n}}\sim t_{n-1}\mbox{ ($t$ de Student con $n-1$ grados de libertad) }$$

**Propiedades de la $t_{\nu}$** ($\nu$)

* $E[t_\nu]=0$ si $\nu>1$ y $Var(t_\nu)=\frac{\nu}{\nu-2}$ si $\nu>2$ 


* Su función de distribución es simétrica respecto de $E[t_\nu]=0$: 

$$P(t_\nu\le -x)=P(t_\nu\ge x)=1-P(t_\nu\le x)$$


* Si $\nu$ es grande, su distribución es aproximadamente normal $N(0,1)$ pero con mas varianza (se ve un poco mas aplastada).

*Notación.* Indicaremos con $t_{\nu,q}$ el $q-$cuantil de una $X\sim t_\nu$. Es decir, $P(X\le t_{\nu,q})=q$. Esto en R significa que $t_{\nu,q}=$qt($q$,$\nu$)



**Teorema** Sea $X\sim N(\mu,\sigma)$ con $\mu$ y $\sigma$ desconocidas. Tomamos un m.a.s. de $X$ de tamaño $n$. Bajo estas condiciones, un intervalo de confianza del $(1-\alpha)\cdot 100\%$ para $\mu$ es $$\left(\overline{X_n}-t_{n-1,1-\frac{\alpha}{2}}\frac{\tilde{S}_X}{\sqrt{n}},\overline{X_n}+t_{n-1,1-\frac{\alpha}{2}}\frac{\tilde{S}_X}{\sqrt{n}}\right)$$ 





In [None]:
# intevalo_confianza_sinvar <- function(x,alpha){
#  c(mean(x)-qt(1-alpha/2,length(x)-1)*sd(x)/sqrt(length(x)),
#  mean(x)+qt(1-alpha/2,length(x)-1)*sd(x)/sqrt(length(x)))
# }

# M <- replicate(10000,intevalo_confianza_sinvar(sample(A,40,replace = TRUE),0.05))

# M <- data.frame(t(M))
#dim(M[M $ X1 < 14.2 & 14.2 < M $ X2,])

<img src="ejemplo_varianza_desconocida.png">

In [None]:
## n=24, media muestral es 518000 y la desviación muestral es 40000. Buscamos un intervalo de confianza con alpha = 0.01

c(518000 - qt(1-0.01/2,23) * 40000/sqrt(24), 518000 + qt(1-0.01/2,23) * 40000/sqrt(24))


## Intervalos de confianza para $\mu$ de una población cualquiera con $\sigma$ conocida o desconocida y muestra grande.

Es MUY IMPORTANTE notar que en los ejemplos anteriores hemos supuesto algo bastante restrictivo: la población sigue una distribución normal. 

Consideremos la situación siguiente:

* $X$ una **variable aleatoria cualquiera** con media $\mu$ desconocida y varianza $\sigma^2$ conocida. 

* $X_1,\cdots,X_n$ una m.a.s. de $X$.

* $n\ge 40$.

En estas condiciones, $\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\sim N(0,1)$ aproximadamente. Bajo estas condiciones, podemos tomar como intervalo de confianza del $(1-\alpha)\cdot100\%$ de confianza para el parámetro $\mu$ a
$$\left(\overline{X_n}-Z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{X_n}+Z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right).$$

En cambio, si $\sigma$ es desconocida, tomamos 
$$\left(\overline{X_n}-Z_{1-\frac{\alpha}{2}}\frac{\tilde{S}_X}{\sqrt{n}},\overline{X_n}+Z_{1-\frac{\alpha}{2}}\frac{\tilde{S}_X}{\sqrt{n}}\right)$$ 


### Estimación de intervalos para la proporción

Buscamos ahora estimar un porcentaje de la población que cumple con cierta característica.

**Método exacto de Clopper-Pearson**

* $X$ es una v.a. Bernoulli con parámetro $p$ desconocido.

* $X_1,X_2,\cdots,X_n$ una m.a.s. de $X$ y $\widehat{p}=\sum_1^n X_i/n$

*Observación* bajo las condiciones anteriores, $\sum_1^n X_i\sim Bin(n,p)$.

Un intervalo de confianza $(p_0,p_1)$ del $(1-\alpha)\cdot100\%$ de nivel de confianza para $p$ se obtiene encontrando el $p_0$ mas grande y el $p_1$ mas pequeño tales que $$\max\left\{\sum_{k=x}^n\binom{n}{k}p_0^k(1-p_0)^{n-k},\sum_{k=0}^x\binom{n}{k}p_1^k(1-p_1)^{n-k}\right\}\le\frac{\alpha}{2},$$ donde $x$ es el número de éxitos obtenidos en la muestra. 


**Implementación en R**

install.packages("epitools")

library(epitools)

binom.exact(x,n,conf.level) # x es el número de éxitos; n es el tamaño de la muestra; conf.level es 1-alpha

**Ejemplo 1**

Hallemos un intervalo de confianza para la proporcición de flores setosa dada en una muestra de 60 flores

In [None]:
install.packages("epitools")
library(epitools)


In [None]:

set.seed(1000)

flores_elegidas <- iris[sample(1:150,60,replace = TRUE),]
table(flores_elegidas$Species=="setosa")[2]


In [None]:
binom.exact(21,60,0.95)

### Método de Wilson

Consideremos que $X$ es una v.a. Bernoulli con parámetro $p$ desconocido, y $X_1,X_2,\cdots,X_n$ es una m.a.s. de $X$ y $n\ge 40$. Si $\widehat{p}$ es el estimador de $p$, con $\widehat{p}=\sum_{i=1}^nX_i/n$ y $\widehat{q}=1-\widehat{p}$, entonces $$\left(\frac{\widehat{p}+\frac{z^2_{1-\frac{\alpha}{2}}}{2n}-z_{1-\alpha/2}\sqrt{\frac{\widehat{p}\widehat{q}}{n}+\frac{z^2_{1-\alpha/2}}{4n^2}}}{1+\frac{z^2_{1-\alpha/2}}{n}},\frac{\widehat{p}+\frac{z^2_{1-\frac{\alpha}{2}}}{2n}+z_{1-\alpha/2}\sqrt{\frac{\widehat{p}\widehat{q}}{n}+\frac{z^2_{1-\alpha/2}}{4n^2}}}{1+\frac{z^2_{1-\alpha/2}}{n}}\right)$$ es un intervalo de $(1-\alpha)\cdot100\%$ de confianza para $p$.

**Implementación en R**

install.packages("epitools") 

library(epitools)

binom.wilson(x,n,conf.level) (x es el número de éxitos; n es el tamaño de la muestra; conf.level es 1-alpha)



### Método de Laplace

Bajo las condiciones del Método de Wilson, si $n\ge 100$, $n\widehat{p}\ge10$ y $n\widehat{q}\ge 10$, entonces $$\left(\widehat{p}-z_{1-\alpha/2}\sqrt{\frac{\widehat{p}\widehat{q}}{n}},\widehat{p}+z_{1-\alpha/2}\sqrt{\frac{\widehat{p}\widehat{q}}{n}}\right)$$ es un intervalo de $(1-\alpha)\cdot100\%$ de confianza para $p$.

**Implementación en R**

install.packages("epitools") 

library(epitools)

binom.approx(x,n,conf.level) (x es el número de éxitos; n es el tamaño de la muestra; conf.level es 1-alpha)



## Intervalo de Confianza para la varianza de una población normal.

Sea $X\sim N(\mu,\sigma)$ con $\mu$ y $\sigma$ desconocidas. Si $X_1,\cdots,X_n$ son un m.a.s. de $X$, entonces $\frac{(n-1)\tilde{S}^2_X}{\sigma^2}\sim \chi^2_{n-1}$.

**Teorema.** En las condiciones anteriores, un intervalo del $(1-\alpha)\cdot100\%$ para $\sigma^2$ de la población $X$ es $$\left(\frac{(n-1)\tilde{S}^2_X}{\chi^2_{n-1,1-\alpha/2}},\frac{(n-1)\tilde{S}^2_X}{\chi^2_{n-1,\alpha/2}}\right)$$



<img src="var_inter.png">

## Técnicas de remuestreo (bootstrapping)

Cuando no se satisfacen las condiciones teóricas que garantizan que el intervalo obtenido contiene un 95% de las veces el parámetro poblacional deseado, podemos recurrir a un método no paramétrico. El método más usual es el bootstrap:

1) Remuestrear la muestra: tomar muchas muestras aleatorias simples de la muestra de la que disponemos, cada una de ellas con el mismo tamaño que la original.

2) Calcular el estimador sobre cada una de las submuestras.

3) Organizar los resultados en un vector.

4) Usar este vector para calcular un intervalo de confianza.

### Método de los percentiles.

Se toman como extremos del intervalo de confianza del $(1-\alpha)\cdot100\%$ los cuantiles de orden $\alpha/2$ y $1-\alpha/2$ del vector de estimadores.

**Ejemplo**

Hallemos un intervalo de confianza para la varianza de la longitud del pétalo de iris.


