<img src="logo.png">

# Intervalos de confianza

Un **parámetro poblacional** es una característica que deseamos conocer en una población. Usualmente ese parámetro poblacional es desconocido y, a través de ciertas técnicas estadísticas, lo estimamos mediante una muestra. 

Frecuentemente los parámetros poblacionales que nos interesa medir es el valor promedio de una característica en una población; o la proporcición en la que la característica se presenta, o la desviación poblacional de cierta característica.

De esta manera, si $\theta$ es un parámetro poblacional, entonces $\theta$ puede ser, por ejemplo, el promedio del número de delitos que sufrieron las víctimas de delito en México durante 2022, la proporción de mujeres estudiantes de ciencias que ejercerán sus carreras o el tiempo promedio de recuperación de un enfermo cuando recibe un tratamiento médico

Una estimación por intervalos de confianza de un parámetro poblacional es una regla para calcular, a partir de nuestra muestra, un intervalo en el que, con una cierta probabilidad, se encuentra el valor verdadero del parámetro poblacional.

Así, si $\theta$ es un parámetro poblacional, se dice que el intervalo $(A,B)$ es un **intervalo de confianza para $\theta$** con nivel de significancia $\alpha$ si $P(A<\theta<B)=1-\alpha$

Al nivel de significancia $\alpha$ se le asocia el número $1-\alpha$, y se dice que el intervalo tiene una confianza del $(1-\alpha)*100$ *por ciento*. En la práctica se toma $\alpha$ como $0.01$, $0.05$ y $0.1$, por lo cual tenemos intervalos de confianza del 99%, 95% y 90%, respectivamente.

## Interpretación 

La interpretación de los intervalos de confianza puede resumirse de la siguiente manera: *Supongamos que nos interesa estimar el parámetro poblacional $\theta$ de una población. Si tomamos muestras y muestras de una población y se calcula el valor del parámetro en cada una de las muestras, entonces el intervalo de confianza con significancia $\alpha$ que construyas en cada muestra contendrá al valor verdadero del parámetro muestral un $1-\alpha$ por ciento de las veces*.

## Intervalo de confianza para la media poblacional con varianza conocida (población normal)

Supongamos que queremos medir el valor promedio de la característica $X$ de cierta población, donde $X$ es **una gaussiana con media $\mu$ desconocida pero varianza poblacional $\sigma$ conocida.** Es decir, queremos hallar $\mu$.

Tomemos una muestra de tamaño $n$. Sean $X_1$, $X_2$,...,$X_n$ los valores de la característica $X$ en esa muestra. Un intervalo de confianza con significancia $\alpha$ para la media $\mu$, conociendo la desviación poblacional $\sigma$, es $$\left(\overline{X_n}-Z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{X_n}+Z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right),$$

donde $Z_{1-\frac{\alpha}{2}}$ tiene los siguientes valores:

$\alpha$|1-$\alpha$|$Z_{1-\alpha/2}$
--|--|--
0.1|0.90|1.645
0.05|0.95|1.96
0.01|0.99|2.575

**Problema 1 (simulación).**

La tabla [tabla_poblacion_simulada.csv](https://github.com/scidatmath2020/Inferencia-Estad-stica-2022/blob/main/data/tabla_poblacion_simulada.csv) es un dataframe de dos columnas, ambas de una característica de tipo gaussiana tomadas de una población de tamaño 10,000 y de las cuales desconocemos el valor de la media de la población. 

En el caso de la desviación estándar de la columna *sd_4*, el valor es 4.

1. Toma una muestra de tamaño 25 y calcula el intervalo de confianza al 95% de la media poblacional.

2. El valor verdadero de la media poblacional es 20. Toma 1000 muestras de tamaño 25; construye el intervalo de confianza al 99% para cada una de esas muestras y verifica que aproximadamente en el 99% de los casos la media poblacional se encuentra en el intervalo de confianza.

Como has podido ver, el cálculo del intervalo de confianza puede ser algo tedioso.

En **R** disponemos de la paquetería ``BSDA`` para hallar intervalos de confianza en el caso de población gaussiana con media desconocida y desviación conocida mediante la función ``z.test()``

La sintaxis es la siguiente:

``prueba <- z.test(muestra,sigma.x = desviación,conf.level = 1-alpha)``

``prueba$conf.int``

**Sustento teórico.**

El sustento teorico del por qué el intervalo de confianza tiene la forma que se mostró en el caso de población gaussiana con desviación conocida y media desconocida es el siguiente resultado que vimos en la sección de variables aleatorias gaussianas:

Si $X_1,X_2,...,X_n$ son gaussianas independientes, todas con media $\mu$ y desviación $\sigma$, y $\overline{X}=(X_1+X_2+...+X_n)/n$, entonces $$\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$$

## Intervalo de confianza para la media poblacional con varianza desconocida (población normal)

Supongamos que queremos medir el valor promedio de la característica $X$ de cierta población, donde $X$ es **una gaussiana con media $\mu$ desconocida y varianza poblacional $\sigma$ también desconocida.** Es decir, queremos hallar $\mu$ sin conocer $\sigma$. Este es el caso mas común en la práctica.

Tomemos una muestra de tamaño $n$. Sean $X_1$, $X_2$,...,$X_n$ los valores de la característica $X$ en esa muestra. Un intervalo de confianza con significancia $\alpha$ para la media $\mu$, desconociendo la desviación poblacional $\sigma$, es $$\left(\overline{X_n}-t_{n-1,1-\frac{\alpha}{2}}\frac{S}{\sqrt{n}},\overline{X_n}+t_{n-1,1-\frac{\alpha}{2}}\frac{S}{\sqrt{n}}\right),$$ donde $$S=\sqrt{\frac{(X_1-\overline{X})^2+(X_2-\overline{X})^2+...+(X_n-\overline{X})^2}{n-1}}$$

En **R**, en la misma paquetería ``BSDA`` viene instalada la función ``t.test()`` para encontrar intervalos de confianza para la media poblacional cuando la población es gaussiana y se desconoce la desviación. La sintaxis es 

``t.test(muestra,conf.level=1-alpha)``

**Problema 2 (simulación).**

De la tabla [tabla_poblacion_simulada.csv](https://github.com/scidatmath2020/Inferencia-Estad-stica-2022/blob/main/data/tabla_poblacion_simulada.csv) del Problema 1, se desconoce la desviación poblacional de la columna *sd_desconocida*.

Toma una muestra de tamaño 25 y calcula el intervalo de confianza al 95% de la media poblacional.



**Sustento teórico.**

El sustento teorico del por qué el intervalo de confianza tiene la forma que se mostró en el caso de población gaussiana con desviación desconocida y media desconocida es el siguiente resultado que vimos en la sección de variables aleatorias gaussianas:

Si $X_1,X_2,...,X_n$ son gaussianas independientes, todas con media $\mu$ y desviación $\sigma$, y $\overline{X}=(X_1+X_2+...+X_n)/n$, entonces $$\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t_{n-1}\mbox{ ($t$ de Student con $n-1$ grados de libertad) }$$
