# Intervalos de Confianza

# $\huge \textbf{Resumencito}$

---



> En estadística, se llama ***intervalo de confianza*** a un par o varios **pares de números** entre los cuales se **estima que estará cierto valor desconocido** con una determinada **probabilidad de acierto**.
>
> Formalmente, estos números determinan un **intervalo**, que se calcula a partir de **datos de una muestra**, y el valor **desconocido** es un **parámetro poblacional**.
>
> La probabilidad de éxito en la estimación se representa con $1 - \alpha$ y se denomina **nivel de confianza**.
>
> En estas circunstancias, $\alpha$ es el llamado ***error aleatorio*** o ***nivel de significación***, esto es, una **medida de las posibilidades de fallar** en la estimación mediante tal intervalo.
>
> > [*es.wikipedia.org/wiki/Intervalo_de_confianza*](https://es.wikipedia.org/wiki/Intervalo_de_confianza)

* Un **intervalo de confianza** es **una estimación** de un **parámetro** 

* **En vez de ser puntual** (un solo valor, como en *estimadores de momentos*, *MV*, etc), da un **rango de valores en forma de intervalo**.

# Mundo Normal (Gaussiano)

$\mathbf x = \{X_1, X_2, \dots, X_n \}$ muestra aleatoria

$$\huge X_i \sim \mathcal{N}(\mu, \sigma^2)$$

Para muestras de esta distribución, tenemos **cuatro** posibles **estimaciones de parámetro** a representar con un **intervalo de confianza**:

1. Queremos estimar $\mu$ **conociendo** el valor de $\sigma^2$ (notamos $\sigma_0^2$)

2. Queremos estimar $\mu$ **sin conocer** el valor de $\sigma^2$

3. Queremos estimar $\sigma^2$ **conociendo** el valor de $\mu$ (notamos $\mu_0$)

4. Queremos estimar $\sigma^2$ **sin conocer** el valor de $\mu$

# Queremos estimar $\mu$ 

   > $$\large P\left( \ a(\mathbf x) < \mu < b(\mathbf x) \ \right) = 1 - \alpha$$
   >
   >Con $a, b$ funciones de la muestra aleatoria $\mathbf x$

# 1. ***conociendo*** el valor $\sigma_0^2$
   **Pivot:**
   >$$\large \frac {\bar X_n - \mu}{\sqrt \frac {\sigma_0^2}{n}} \  \sim \ \mathcal{N}(0, 1)$$
   
   **Intervalo de Confianza de nivel** $1 - \alpha$ **para** $\mu$
   
   >$$\large IC_{1-\alpha} = \left( \bar X_n - \sqrt \frac {\sigma_0^2}{n} \ \ \ , \ \  \bar X_n + \sqrt \frac {\sigma_0^2}{n} \right)$$

# 2. ***sin conocer*** el valor de $\sigma^2$

   **Pivot:**
   > No tengo $\sigma_0^2$, uso estimación "**varianza muestral**": $S^2$
   >
   > Ésto cambia (para **peor**) la distribución a una **t-Student** con $n-1$ grados de libertad
   >
   >$$\large \frac {\bar X_n - \mu}{\sqrt \frac {S^2}{n}}  \  \sim \ t_{n-1}$$
   >
   >Donde $S^2 = \sum_{i=1}^n \frac {(X_i - \bar X_n)^2}{n-1}$
   
   **Intervalo de Confianza de nivel** $1 - \alpha$ **para** $\mu$
   
   >$$\large IC_{1-\alpha} = \left( \bar X_n - \sqrt \frac {S^2}{n} \ \ \ , \ \  \bar X_n + \sqrt \frac {S^2}{n} \right)$$


# Queremos estimar $\sigma^2$ 

> $$\large P\left( \ a(\mathbf x) < \sigma^2 < b(\mathbf x) \ \right) = 1 - \alpha$$
>  
> Con $a, b$ funciones de la muestra aleatoria $\mathbf x$

# 3. ***conociendo*** el valor $\mu_0$
   
   **Pivot:**
   >$$\large \frac {\sum_{i=1}^n \left( X_i - \mu_0 \right)^2} {\sigma^2}  \  \sim \ \chi_{n}^2$$
   >
   >Donde $\chi_{n}^2 = \Gamma (\alpha = \frac n 2 , \lambda = \frac 1 2) \sim \sum_{i=1}^n Z_i^2$
   >
   > con $Z_i \sim \mathcal N (0,1)$ 
   
   **Intervalo de Confianza de nivel** $1 - \alpha$ **para** $\sigma^2$
   
   >$$\large IC_{1-\alpha} = \left( \frac {\sum_{i=1}^n \left( X_i - \mu_0 \right)^2} {\chi_{n, \frac \alpha 2}^2} \ \ \ , \ \  \frac {\sum_{i=1}^n \left( X_i - \mu_0 \right)^2} {\chi_{n, 1 - \frac \alpha 2}^2} \right)$$

# 4. ***sin conocer*** el valor de $\mu$

   **Pivot:**
   > No tengo $\mu_0$, uso estimación "promedio": $\bar X_n$
   >
   > Ésto cambia (para **peor**) la distribución a una **Chi** con $n-1$ grados de libertad
   >
   >$$\large \frac {\sum_{i=1}^n \left( X_i - \bar X_n \right)^2} {\sigma^2}  \  \sim \ \chi_{n-1}^2$$
   >
   >Donde $\chi_{n-1}^2 = \Gamma (\alpha = \frac {n-1} 2 , \lambda = \frac 1 2) \sim \sum_{i=1}^{n} Z_i^2$
   >
   > con $Z_i \sim \mathcal N (0,1)$ 
   
   **Intervalo de Confianza de nivel** $1 - \alpha$ **para** $\sigma^2$
   
   >$$\large IC_{1-\alpha} = \left( \frac {\sum_{i=1}^n \left( X_i - \bar X_n \right)^2} {\chi_{{n-1}, \frac \alpha 2}^2} \ \ \ , \ \  \frac {\sum_{i=1}^n \left( X_i - \bar X_n \right)^2} {\chi_{{n-1}, 1 - \frac \alpha 2}^2} \right)$$

# Mundo Exponencial

$\mathbf x = \{X_1, X_2, \dots, X_n \}$ muestra aleatoria

$$\huge X_i \sim \mathcal{E}(\lambda)$$

Para muestras de esta distribución, tenemos **una sola estimacion de parámetro** posible a representar con un **intervalo de confianza**.

> $$\large P\left( \ a(\mathbf x) < \lambda < b(\mathbf x) \ \right) = 1 - \alpha$$
>  
> Con $a, b$ funciones de la muestra aleatoria $\mathbf x$

**Aunque** existen otros valores a estimar, como función del parámetro $\lambda$

Ej: 

* Para $E\ [ X_1 \, ] = \frac 1 \lambda$
   > $$\large P\left( \ a(\mathbf x) < E\ [ X_1 \, ] < b(\mathbf x) \ \right) = 1 - \alpha$$


* Para $V\ [ X_1 \, ] = \frac 1 {\lambda^2}$
   > $$\large P\left( \ a(\mathbf x) < V\ [ X_1 \, ] < b(\mathbf x) \ \right) = 1 - \alpha$$

**Pivot:**

Notar:

> Como
>
>$$\large 2 \lambda X_1 \sim \mathcal E \left(\frac 1 2 \right) = \Gamma \left(1, \frac 1 2 \right)$$
>
> Entonces:
>
>$$\huge 2 \lambda \sum_{i=1}^n X_i \sim \mathcal E \left(\frac 1 2 \right) = \Gamma \left(n, \frac 1 2 \right) = \chi_{2n}^2$$

Partiendo de una muestra de $n$ exponenciales, llegamos a una distribución $\chi_{2n}^2$

Pivot: 

$$\large 2 \lambda \sum_{i=1}^n X_i \sim \chi_{2n}^2$$

**Intervalo de Confianza de nivel** $1 - \alpha$ **para** $\lambda$
   
> $$\large IC_{1-\alpha} = \left( \frac {\chi_{{2n}, 1 - \frac \alpha 2}^2}{2 \sum_{i=1}^n X_i}  \ \ \ , \ \  \frac  {\chi_{{2n}, \frac \alpha 2}^2}{2 \sum_{i=1}^n X_i} \right)$$

**Intervalo de Confianza de nivel** $1 - \alpha$ **para** $E [ X ] = \frac 1 \lambda$

> Sabemos
>
> $$P\left( \ a(\mathbf x) < \lambda < b(\mathbf x) \ \right) = 1 - \alpha$$
>
> Queremos
>
> $$ P\left( \ c(\mathbf x) < E[X_1] < d(\mathbf x) \ \right) = 1 - \alpha$$
>
> Como $E[X_1] = \frac 1 \lambda$, aplico $g(x) = \frac 1 x$ a cada término, y cambio desigualdades
>
> $$ P\left( \ \frac 1 {a(\mathbf x)} > \frac 1 \lambda > \frac 1 {b(\mathbf x)} \ \right) = 1 - \alpha$$
>
> Reordeno:
>
> $$ P\left( \ \frac 1 {b(\mathbf x)} < \frac 1 \lambda < \frac 1 {a(\mathbf x)} \ \right) = 1 - \alpha$$
>
> Reemplazo
>
> $$\large  P\left( \ \frac 1 {b(\mathbf x)} < E[X_1] < \frac 1 {a(\mathbf x)} \ \right) = 1 - \alpha$$
>
> Con IC:
   >
> $$\large IC_{1-\alpha} = \left( \frac {2 \sum_{i=1}^n X_i}{\chi_{{2n}, \frac \alpha 2}^2}  \ \ \ , \ \  \frac {2 \sum_{i=1}^n X_i}{\chi_{{2n}, 1 - \frac \alpha 2}^2}  \right)$$

Fija que entra en algún parcial:

**Intervalo de Confianza de nivel** $1 - \alpha$ **para** $V [ X ] = \frac 1 {\lambda^2}$

> Sabemos
>
> $$P\left( \ a(\mathbf x) < \lambda < b(\mathbf x) \ \right) = 1 - \alpha$$
>
> Queremos
>
> $$ P\left( \ c(\mathbf x) < V[X_1] < d(\mathbf x) \ \right) = 1 - \alpha$$
>
> Como $V[X_1] = \frac 1 {\lambda^2}$, aplico $f(x)=x^2$ y luego $g(x) = \frac 1 x$ a cada término, y cambio desigualdades
>
> Como $\lambda > 0$ y $f(x)$ es **creciente** en $(0, +\infty)$, aplicar $f$ no cambia la desigualdad:
>
> $$P\left( \ \left(a(\mathbf x)\right)^2 < \lambda^2 < \left(b(\mathbf x)\right)^2 \ \right) = 1 - \alpha$$
>
> $$ P\left( \ \frac 1 {a^2(\mathbf x)} > \frac 1 {\lambda^2} > \frac 1 {b^2(\mathbf x)} \ \right) = 1 - \alpha$$
>
> Reordeno:
>
> $$ P\left( \ \frac 1 {b^2(\mathbf x)} < \frac 1 {\lambda^2} < \frac 1 {a^2(\mathbf x)} \ \right) = 1 - \alpha$$
>
> Reemplazo
>
> $$\large  P\left( \ \frac 1 {b^2(\mathbf x)} < V[X_1] < \frac 1 {a^2(\mathbf x)} \ \right) = 1 - \alpha$$
>
> Con IC:
   >
> $$\large IC_{1-\alpha} = \left( \left( \frac {2 \sum_{i=1}^n X_i}{\chi_{{2n}, \frac \alpha 2}^2} \right)^2 \ \ \ , \ \ \left(  \frac {2 \sum_{i=1}^n X_i}{\chi_{{2n}, 1 - \frac \alpha 2}^2}  \right)^2 \right)$$

# IC de nivel asintótico

Cuando la **distribución** de las $X_i$ es **desconocida**, puedo aprovechar el [**Teorema Central del Límite**](https://es.wikipedia.org/wiki/Teorema_del_l%C3%ADmite_central):

> Sea $\mathcal S_n^+$ la suma de $n$ **variables aleatorias iid** con **media** $\mu$ y **varianza** $\sigma^2 > 0$:
>
> * $\mathcal S_n^+ = X_1 + X_2 + \dots + X_n$
>
> Entonces
>
> $$\lim_{n \to \infty} P\left( \frac {\mathcal S_n^+ - n \mu}{\sigma \sqrt n} \leq z \right) = \Phi (z)$$
>
> con $\Phi (z)$ la **función de acumulación** de una distribución **Normal(0,1)**
>
>
> Que para promedios (divido arriba y abajo por $n$) es:
>
> $$\lim_{n \to \infty} P\left( \frac {\bar X_n - \mu}{\frac \sigma {\sqrt n}} \leq z \right) = \Phi (z)$$
>
> Para $X_i$ iid de **cualquier distribución**.

> Puedo usar de pivot
>
> $$\frac {\bar X_n - \mu}{\frac \sigma {\sqrt n}}$$
>
> $$\lim_{n \to \infty} P \left( \underset{\rightarrow}{z}_{1 - \frac \alpha 2} < \frac {\bar X_n - \mu}{\frac \sigma {\sqrt n}} < \underset{\rightarrow}{z}_{\frac \alpha 2} \ \right) = 1 - \alpha$$
>
> con $\underset{\rightarrow}{z}_{\frac \alpha 2} = z_{1 - \frac \alpha 2} = \Phi({1 - \frac \alpha 2}) $  (no sé hacer z cursiva)

> Que al despejar el parámetro a estimar de la forma:
>
> $$\lim_{n \to \infty} P \left( \ a \left( \left\{ X_1, X_2, \dots, X_n \right\} \right) < \theta < b\left( \left\{ X_1, X_2, \dots, X_n \right\} \right) \ \right) = 1 - \alpha$$


In [1]:
data1 <- c(0.44,-1.63,2.59,1.54,0.45,-0.13,-2.76,-1.53)

In [2]:
mean(data1)

In [3]:
sd(data1)

In [6]:
mean(data1) - qt(0.025, df=7)* sd(data) / sqrt(8)

In [7]:
mean(data1) + qt(0.025, df=7)* sd(data) / sqrt(8)