# Módulo: Inferencia Estadística
## Problemas de estimación
## Intervalos de confianza y tolerancia

# Objetivos de la clase
- Calcular intervalos de confianza para la estimación de la media con una muestra
- Calcular intervalos de tolerancia para estimar proporciones de una población
- Calcular intervalos de confianza para la estimación de la varianza con una muestra


# Introducción


La inferencia estadística se divide en dos áreas: estimación y pruebas de hipótesis

*Ejemplos:*
<dl>
<dt>Estimación</dt>
<dd>Se quiere estimar la resistencia de un material dada una muestra</dd>
<dt>Prueba de hipótesis</dt>
<dd>Se quiere conocer si el material A es más resistente que el material B </dd>
</dl>

<center>
    <img src="figures/stats-2.jpg" width="500"/>
</center>

# Estimación de la media con una sola muestra


## Teorema límite central
Del TLC se puede concluir que la distribución muestral de $\overline{X}$ tiene:

- Una media $\mu_{\overline{X}} = \mu$ 
- Una varianza $\sigma_{\overline{X}}^2 = \sigma^2/n$ 
- Distribución normal si $n$ es grande o la población es normal

<center>
    <img src="figures/tlc-2.png" width="600"/>
</center>

Por lo tanto, el valor puntual de una muestra $\overline{x}$ será muy cercano a $\mu$ si $n$ es grande.

<center>
    <img src="figures/tlc-1.png" width="900"/>
</center>

Todo lo anterior permite establecer intervalos de probabilidad (confianza) para $\mu$ a partir de la distribución normal de $\overline{X}$

## Intervalos de confianza
Formamos la variable $Z$ relativa a la distribución normal estandar de la siguiente forma:

\begin{align}
    Z = \frac{ \overline{X} - \mu }{ \sigma / \sqrt{n} }
\end{align}

Al definir como $z_{\alpha /2}$ al valor $z$ por sobre el cual encontramos un área de $\alpha /2$ bajo la curva normal

\begin{align}
    P \left( -z_{\alpha /2} < Z < z_{\alpha /2} \right) = 1 - \alpha
\end{align}

<center>
    <img src="figures/norm-interval-1.png" width="500"/>
</center>




*Sea $\overline{x}$ la media de una muestra aleatoria de tamaño $n$ de una población con varianza $\sigma^2$ conocida:*

El intervalo de confianza de $100(1 - \alpha)\%$ para la estimación de la media poblacional $\mu$ es:

<div class="well">
    \begin{align}
        \mu \in \left[  \overline{x} - z_{\alpha /2} \frac{\sigma}{\sqrt{n}} , \overline{x} + z_{\alpha /2} \frac{\sigma}{\sqrt{n}} \right]
    \end{align}
</div>

donde $z_{\alpha /2}$ es el valor $z$ que deja un área de $\alpha /2$ a la derecha.

**Ejemplo:** Si quieremos una confianza del $95\%$ entonces:
 
\begin{equation}
    95 = 100(1 - \alpha) \\
    \alpha = 1 - 0.95 = 0.05
\end{equation}

**Ejemplo**: La concentración media de Zinc en **36 puntos** de medición en un lago es de **2.6 g/mL**. Calcular el intervalo de confianza del **95%** para la concentración media de zinc en el lago. Suponer una desviación estándar de la población de **0.3 g/mL**.

&#10148; La estimación puntual de $\mu$ es: <font color=darkblue>$\overline{x} = 2.6$</font>

&#10148;  Para una confianza del 95%: <font color=darkblue>$\alpha = 1 - 0.95 = 0.05$</font>

&#10148; Debemos buscar el valor $z$ que deja un área de $\alpha /2 = 0.025$ a la derecha (y por lo tanto un área de $0.975$ a la izquierda).

<center>
    <img src="figures/norm-table-9.png" width="1300"/>
</center>

&#10148; Esto se cumple para: <font color=darkblue>$z_{\alpha / 2} = 1.96$</font>

&#10148; Tenemos que la muestra es de tamaño $n = 36$ para una población con $\sigma = 0.3$

&#10148; Entonces el intervalo de confianza del 95% es:

<div class="well">
    \begin{align}
        \mu \in \left[  \overline{x} - z_{\alpha /2} \frac{\sigma}{\sqrt{n}} , \overline{x} + z_{\alpha /2} \frac{\sigma}{\sqrt{n}} \right]
    \end{align}
</div>

\begin{align}
        \mu \in \left[  2.6 - 1.96 \frac{0.3}{\sqrt{36}} , 2.6 + 1.96 \frac{0.3}{\sqrt{36}} \right]
\end{align}

\begin{align}
    \mu \in \left[ 2.5 , 2.7 \right]
\end{align}

&#10148; Esto significa que con una confianza del 95\% la media poblacional $\mu$ estará entre 2.5 y 2.7.

## Error en la estimación

La magnitud del error en la estimación de la media poblacional es la diferencia entre $\mu$ y la estimación puntual de la muestra $\overline{x}$

<center>
    <img src="figures/error-2.png" width="700"/>
</center>

Para un intervalo dado, tenemos una confianza de $100(1 - \alpha)\%$ que el error no superará el valor:

\begin{align}
    e < z_{\alpha /2} \frac{\sigma}{\sqrt{n}}
\end{align}

*Además se puede demostrar que:*

Si usamos $\overline{x}$ para estimar $\mu$, tenemos un $100(1 - \alpha)\%$ de confianza que el error será inferior a $e$ si el tamaño de la muestra es al menos:

<div class="well">
\begin{align}
    n \geq \left( \frac{z_{\alpha /2} \sigma}{e} \right)^2
\end{align}
</div>

*Ejemplo para $\sigma = 1$:*
<center>
    <img src="figures/ex-samples-1.png" width="400"/>
</center>

**Ejemplo**: ¿Qué tan grande debe ser la muestra del ejemplo del zinc en el lago si queremos un 99% de confianza en que la estimación de $\mu$ tendrá un error inferior a 0.05?

&#10148; El tamaño de la muestra viene dado por:

<div class="well">
\begin{align}
    n \geq \left( \frac{z_{\alpha /2} \sigma}{e} \right)^2
\end{align}
</div>

&#10148;  Para una confianza del 99%: <font color=darkblue>$\alpha = 1 - 0.99 = 0.01$</font>

&#10148; Debemos buscar el valor $z$ que deja un área de $\alpha /2 = 0.005$ a la derecha (y por lo tanto un área de $0.995$ a la izquierda).

<center>
    <img src="figures/norm-table-10.png" width="1300"/>
</center>


&#10148; Elegimos un valor: <font color=darkblue>$z_{\alpha / 2} = 2.575$</font>

&#10148; La población tiene $\sigma = 0.3$ y se requiere un error inferior a $e=0.05$

&#10148; Por lo tanto:

\begin{align}
    n \geq \left( \frac{z_{\alpha /2} \sigma}{e} \right)^2 = \left( \frac{2.575 \cdot 0.3}{0.05} \right)^2 \approx 239
\end{align}

&#10148; Es decir, necesitamos al menos 239 muestras para tener un error inferior a 0.05 en la estimación de la media poblacional con una confianza de 99%.



## Estimación con varianza de la población desconocida

Las formulaciones anteriores son aplicables si la varianza $\sigma^2$ de la población es conocida.

Si esto no ocurre hay 2 opciones:

1. Tomar una muestra grande ($n\geq30$) para estimar $\sigma$ a partir del valor obtenido de $s$. Esto funciona bien si la distribución de la población no es tan asimétrica.

2. **Si la población es normal**, de puede aplicar el hecho que la variable $T$ sigue una distribución $t$ con $n-1$ grados de libertad:

\begin{align}
    T = \frac{ \overline{X} - \mu }{ S / \sqrt{n} }
\end{align}



*Se puede demostrar que para una población normal con varianza desconocida:*

Dado una media muestral $\overline{x}$ y desviación muestral $s$, la media poblacional estará en el intervalo:

<div class="well">
    \begin{align}
        \mu \in \left[  \overline{x} - t_{\alpha /2} \frac{s}{\sqrt{n}} , \overline{x} + z_{\alpha /2} \frac{s}{\sqrt{n}} \right]
    \end{align}
</div>

con una confianza del $100(1-\alpha)\%$

<font color=darkred>**Nota**: el intervalo anterior basado en el valor $Z$ era válido para cualquier distribución de la población, pero con varianza conocida. </font>



## Intervalos de tolerancia

En ciertos casos es de interés conocer dónde se ubican la mayoría de observaciones de una población más que estimar con exactitud su media poblacional.

Para una distribución normal:

<center>
    <img src="figures/norm-limits-1.png" width="800"/>
</center>



En la práctica pocas veces se conocen $\mu$ y $\sigma$, por lo que los intervalos de tolerancia se estiman con:

<div class="well">
\begin{align}
    \overline{x} \pm k s
\end{align}
</div>

donde $k$ es un entero que se determina de tal manera que con un $100(1-\gamma)\%$ de confianza los límites dados contengan al menos la proporción de $1 - \alpha$ de las observaciones.

<font color=darkblue>*Ejemplo: Para una confianza del 95% en que el 99% de los valores estará dentro de un rango para una muestra de tamaño 3 usamos $k=$12.861*</font>

<center>
    <img src="figures/table-tol-1.png" width="600"/>
</center>


**Ejemplo**: Considere una muestra de tamaño $n=30$ de una población normal con media $\mu = 95$. La muestra tuvo una media $\overline{x} = 96.2$ y desviación estándar $s=0.8$. Calcular un intervalo de tolerancia que proporcione límites del 95% de confianza sobre el 90% de la población.

Se requiere una confianza de $(1-\gamma) = 0.95$ para una proporción de $(1-\alpha) = 0.9$

<center>
    <img src="figures/table-tol-3.png" width="800"/>
</center>

De la tabla vemos que se requiere un $k = 2.14$. El intervalo de tolerancia es:

\begin{align}
    \left[ \overline{x} - k s , \overline{x} + k s \right] = [94.5 , 97.9]
\end{align}

<font color=darkblue>*Tenemos 95% de confianza que este rango cubre el 90% central de la distribución de valores de la población.*</font>

# Estimación de la varianza con una sola muestra

## Variable chi cuadrada

La estimación por intervalos de la varianza $\sigma^2$ de una población normal se logra a través de la variable estadística:

\begin{align}
    \chi^2 = \frac{(n-1) S^2}{\sigma^2}
\end{align}

Esta variable sigue una distribución chi cuadrada con $n-1$ grados de libertad.

Denotamos como $\chi^2_{\alpha}$ al valor de $\chi^2$ que deja un área bajo la curva (probabilidad) a su derecha igual a $\alpha$

## Intervalos de confianza

Existe una confianza de $(1-\alpha)$ que el valor de $\chi^2$ se encuentre dentro del siguiente intervalo:

\begin{align}
    P \left( \chi^2_{1 - \alpha /2} < \chi^2 < \chi^2_{\alpha /2}  \right) = 1 - \alpha
\end{align}

<center>
    <img src="figures/int-chi2-1.png" width="700"/>
</center>

A partir de esta observación se puede establecer un intervalo de confianza para la varianza poblacional

*Sea $s^2$ la varianza de una muestra aleatoria de tamaño $n$ de una población normal:*

El intervalo de confianza de $100(1 - \alpha)\%$ para estimar la varianza poblacional $\sigma^2$ es:

<div class="well">
    \begin{align}
        \sigma^2 \in \left[ \frac{(n-1)s^2}{ \chi^2_{\alpha /2} }  , \frac{(n-1)s^2}{ \chi^2_{1 - \alpha /2} } \right]
    \end{align}
</div>

donde $\chi^2_{\alpha /2}$ y $\chi^2_{1 - \alpha /2}$ son los valores de $\chi^2$ con $\nu = n-1$ grados de libertad que dejan áreas $\alpha/2$ y $1 - \alpha/2$ a la derecha, respectivamente.

<font color=darkred>**Nota**: El intervalo para la desviación estándar $\sigma$ se obtiene tomando la raíz cuadrada para los extremos del intervalo anterior. </font>

**Ejemplo**: Se mide la temperatura promedio de una estructura expuesta al sol a lo largo de **10 días**. Calcular el intervalo de **confianza del 95%** para la **varianza** de la temperatura promedio medida. Suponer una distribución normal. Datos:

\begin{equation}
    \{46.4, 46.1, 45.8, 47.0, 46.1, 45.9, 45.8, 46.9, 45.2, 46.0 \}
\end{equation}

&#10148; Calculamos la varianza muestral, resultando: $s^2 = 0.286$

&#10148; Para una confianza del 95% elegimos: $\alpha = 0.05$

&#10148; Debemos encontrar los valores $\chi^2_{0.025}$ y $\chi^2_{0.975}$ para $\nu = 10 - 1 = 9$

<center>
    <img src="figures/ex-chi2-1.png" width="1000"/>
</center>

&#10148; Obtenemos valores $\chi^2_{0.025} = 19.023$ y $\chi^2_{0.975} = 2.700$

&#10148; Entonces el intervalo de confianza del 95% para $\sigma^2$ es:

\begin{equation}
    \sigma^2 \in \left[ \frac{(n-1)s^2}{ \chi^2_{\alpha /2} }  , \frac{(n-1)s^2}{ \chi^2_{1 - \alpha /2} } \right]
\end{equation}

\begin{equation}
    \sigma^2 \in \left[ \frac{(10-1)(0.286)^2}{ 19.023 }  , \frac{(10-1)(0.286)^2}{ 2.700 } \right] = [0.135, 0.953]
\end{equation}

<font color=darkblue> A partir de la muestra recopilada, tenemos una confianza del 95% que la varianza estará entre 0.135 y 0.953.</font>


# Sumario
- A partir de una muestra es posible calcular intervalos de confianza para estimar la media y varianza de la población.
- Si la varianza poblacional es conocida, podemos usar la distribución normal para calcular los intervalos de confianza de la media.
- Si la varianza poblacional es deconocida, podemos usar la distribución $t$ o tomar una muestra grande para calcular los intervalos de confianza de la media.
- Si la población es normal, podemos usar la distribución chi cuadrada para calcular intervalos de confianza para la varianza.