<font color='IndianRed'>
<font size=9> 

**Curso Inferencia Estadística**

<font color = 'DodgerBlue'>
<font size = 5>
    
**Intervalos de Confianza**

<font color = 'Black'>
<font size = 3>

Un **parámetro poblacional** es una característica que deseamos conocer en una **población**. Usualmente ese **parámetro poblacional** es **desconocido** y, a través de ciertas técnicas estadísticas, lo estimamos mediante una **muestra**. 

Frecuentemente los **parámetros poblacionales** que nos interesa medir es el valor **promedio** de una **característica** en una **población**; o la **proporcición** en la que la característica se presenta, o la **desviación poblacional** de cierta característica.

De esta manera, si $\theta$ es un **parámetro poblacional**, entonces $\theta$ puede ser, por ejemplo, el promedio del número de delitos que sufrieron las víctimas de delito en México durante 2022, la proporción de mujeres estudiantes de ciencias que ejercerán sus carreras o el tiempo promedio de recuperación de un enfermo cuando recibe un tratamiento médico.

En general, son tres cosas que te van a interesar de los **parámetros poblacionales**:

- Valores promedios.
- Valores proporcionales (*i.e. Qué porcentaje cumple con cierta condición*).
- Desviaciones estándar (*desviaciones de las poblaciones*).
- *Valores totales* (*se pueden calcular a partir de los valores promedios*).

No basta con saber el valor promedio, se necesita la **desviación estándar**.

Una estimación por **intervalos de confianza** de un **parámetro poblacional** es una regla para calcular, a partir de nuestra muestra, un intervalo en el que, con una cierta probabilidad, se encuentra el **valor verdadero** del **parámetro poblacional**.

Así, si $\theta$ es un **parámetro poblacional**, se dice que el intervalo $(A,B)$ es un **intervalo de confianza para $\theta$** con nivel de significancia $\alpha$, si $P(A<\theta<B)=1-\alpha$

<img src="Data/im013.png">

Al nivel de significancia $\alpha$ se le asocia el número $1-\alpha$, y se dice que el intervalo tiene una confianza del $(1-\alpha)*100$ *por ciento*. En la práctica se toma $\alpha$ como $0.01$, $0.05$ y $0.1$, por lo cual tenemos intervalos de confianza del 99%, 95% y 90%, respectivamente.

<font color = 'DodgerBlue'>
<font size = 5>

---
    
**Interpretación**

<font color = 'Black'>
<font size = 3>
    
La interpretación de los **intervalos de confianza** puede resumirse de la siguiente manera: 

*Supongamos que nos interesa estimar el **parámetro poblacional** $\theta$ de una **población**. Si tomamos **muestras** y **muestras** de una **población** y se calcula el valor del parámetro en cada una de las **muestras**, entonces el **intervalo de confianza** con significancia $\alpha$ que construyas en cada muestra contendrá al valor verdadero del **parámetro muestral** un $1-\alpha$ por ciento de las veces*.

Tienes a la población, tienes el parámetro desconocido $\theta$, que es el que quieres estimar. Lo que te está diciendo es que si te tomas una muestra de esa población, luego le calculas el parámetro que te interesa (por ejemplo la media, proporción, etc.), calculas el parámetro muestral en esa muestra y lo anotas, luego te vuelves a tomar otra muestra y le vuelves a calcular el parámetro muestral de esa nueva muestra y lo anotas. Haces ese proceso unas 100 veces, vas a tener 100 numerítos, entonces vas a construir 100 intervalos de confianza, un intervalo de confianza para cada muestra.

Lo que te está diciendo la interpretación es que en el $1-\alpha$ *por ciento de las veces*, por ejemplo en una confianza del 99%, te estaría diciendo que aproximadamente en el 99% o en el 99 de cada 100 veces, el valor verdadero del parámetro poblacional que tú no conoces, va caer el valor verdadero dentro del intervalo. 

Una analogía de lo que es el intervalo de confianza sería **el juego de botella y un aro de la feria** y aquí se explica:

Tú tienes una botella y te dan un aro para lanzarlo a la botella. El **intervalo de confianza** es, de cada 100 intentos que le avientes para atinarle a la botella, en un **intervalo de confianza** al 95% significa: que en 95 veces el aro va entrar a la botella. 

Entre mayor confianza necesites, vas a necesitar que el aro sea más grande para asegurar que va entrar.

Si necesitas poca confianza significa que te estás permitiendo más fallos, ya que el intervalo de confianza se vuelve más pequeño, por lo tanto es más difícil que insertes el aro en la botella.

El diámetro del aro sería proporcional a la confianza.

**El intervalo de confianza es lanzar aros a la botella, la botella sería el parámetro poblacional, el aro (la confianza) te mide cuántas veces le atinaste al parámetro poblacional. Es decir, cuántas veces el aro atrapó a la botella. Cuántas veces con tu intervalo atrapaste al parámetro poblacional**.

---

<font color = 'Black'>
<font size = 3>
    
**Importante: selección de muestras en Python**

```python

tabla = pd.DataFrame(data)

# Definir el tamaño de la muestra
n = 3

# Tomar una muestra aleatoria; random_state es para establecer reproductibilidad
muestra = tabla.sample(n=n, random_state=42) 

<font color = 'DodgerBlue'>
<font size = 5>

---

**Intervalo de confianza** para la **media poblacional** con **varianza** conocida (**población normal**)

<font color = 'Black'>
<font size = 3>
    
Supongamos que queremos medir el valor promedio de la característica $X$ de cierta población, donde $X$ es **una gaussiana con media $\mu$ desconocida pero varianza poblacional $\sigma$ conocida.** Es decir, queremos hallar $\mu$.

Tomemos una muestra de tamaño $n$. Sean $X_1$, $X_2$,...,$X_n$ los valores de la característica $X$ en esa muestra. Un intervalo de confianza con significancia $\alpha$ para la media $\mu$, conociendo la desviación poblacional $\sigma$, es $$\left(\overline{X_n}-Z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\overline{X_n}+Z_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right),$$

donde $Z_{1-\frac{\alpha}{2}}$ tiene los siguientes valores:

$\alpha$|1-$\alpha$|$Z_{1-\alpha/2}$
--|--|--
0.1|0.90|1.645
0.05|0.95|1.96
0.01|0.99|2.575

En la siguiente imagen se un poco el significado geométrico de la $\alpha$.

<img src="Data/exp_z.jpg">

---

<font color = 'Black'>
<font size = 3>
    
Con lo visto hasta ahora, el cálculo del intervalo de confianza puede ser algo tedioso y para eso hacemos el uso de Python para calcularlo con el siguiente código:

```python
import numpy as np
from scipy.stats import norm

# Parámetros
media_muestral = 50  # media muestral
sigma = 10           # desviación estándar de la población
n = 30               # tamaño de la muestra
alpha = 0.05         # nivel de significancia para el 95% de confianza

# Cálculo del valor crítico Z
Z = norm.ppf(1 - alpha / 2)

# Cálculo del margen de error
margen_error = Z * (sigma / np.sqrt(n))

# Cálculo del intervalo de confianza
IC_inferior = media_muestral - margen_error
IC_superior = media_muestral + margen_error

# Mostrar los resultados
print(f"Intervalo de confianza para la media: ({IC_inferior:.2f}, {IC_superior:.2f})")
```

In [9]:
import numpy as np
from scipy.stats import norm

# Parámetros
media_muestral = 50  # media muestral
sigma = 10           # desviación estándar de la población
n = 30               # tamaño de la muestra
alpha = 0.05         # nivel de significancia para el 95% de confianza

# Cálculo del valor crítico Z
Z = norm.ppf(1 - alpha / 2)
print(f"El valor de Z es: {Z}")

# Cálculo del margen de error
margen_error = Z * (sigma / np.sqrt(n))
print(f"El margen de error fue de: {margen_error}")

# Cálculo del intervalo de confianza
IC_inferior = media_muestral - margen_error
IC_superior = media_muestral + margen_error

# Mostrar los resultados
print(f"Intervalo de confianza para la media: ({IC_inferior:.2f}, {IC_superior:.2f})")

El valor de Z es: 1.959963984540054
El margen de error fue de: 3.5783882874343145
Intervalo de confianza para la media: (46.42, 53.58)


<font color = 'DodgerBlue'>
<font size = 5>

---

**Sustento teórico**

<font color = 'Black'>
<font size = 3>
    
El sustento teorico del por qué el intervalo de confianza tiene la forma que se mostró en el caso de población gaussiana con desviación conocida y media desconocida es el siguiente resultado que vimos en la sección de variables aleatorias gaussianas:

Si $X_1,X_2,...,X_n$ son gaussianas independientes, todas con media $\mu$ y desviación $\sigma$, y $\overline{X}=(X_1+X_2+...+X_n)/n$, entonces 

$$\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$$

Es decir, es una **gaussiana** ($N$), con **media** $= 0$ y **desviación** $= 1$.

---

<font color = 'LightSeaGreen'>
<font size = 3>

**Ejemplo 1.**

<font color = 'LightSeaGreen'>
<font size = 3>

La tabla [tabla_poblacion_simulada.csv](https://github.com/scidatmath2020/Inferencia_Estadistica_2024/blob/main/data/tabla_poblacion_simulada.csv) es un dataframe de dos columnas, ambas de una característica de tipo gaussiana tomadas de una población de tamaño 10,000 y de las cuales desconocemos el valor de la media de la población. 

En el caso de la desviación estándar de la columna *sd_4*, el valor es 4.

1. Toma una muestra de tamaño 25 y calcula el intervalo de confianza al 95% de la media poblacional.

2. El valor verdadero de la media poblacional es 20. Toma 1000 muestras de tamaño 25; construye el intervalo de confianza al 99% para cada una de esas muestras y verifica que aproximadamente en el 99% de los casos la media poblacional se encuentra en el intervalo de confianza.

<font color = 'Brown'>
<font size = 4>

---
    
**Notas**

<font color = 'DarkRed'>
<font size = 3>

- Entre más confianza necesites, vas a necesitar que el intervalo de confianza sea cada vez más grande.
- A mayor confianza, para poder asegurarte que el parámetro va estar en el intervalo, el intervalo debe crecer.
- Si quisieras tener una confianza del $100\%$ (certeza), el intervalo se convierte en toda la recta de los números $\mathbb{R}$. Es por eso que nunca llegas al $100\%$ de confianza ya que el intervalo son todos los valores posibles.
- Para confianzas pequeñas el intervalo es pequeño, pero no da nada de información.
- Tú decides con qué confianza trabajar. En medicina ocupan mucho el $99\%$ porque necesitas tener mucha seguridad.
- El **parámetro poblacional** no puede cambiar, es el valor verdadero y por eso está fijo.
- El **intervalo de confianza** cambia y depende de la **muestra**.
- La $\alpha$ puede tomar cualquier valor. Es decir, $\alpha \in [0,1]$.
- La **media poblacional** nunca la vas a conocer.
- Si nos tomamos varias **gaussianas** su **promedio** va seguir siendo gaussiano. 

---

In [None]:
# Video sesion 17 min 42:00