# Intervalos de confianza

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as st

## Intervalo de Confianza para la media de una distribución normal (σ conocida)

Sea $X_1, \dots, X_n$ una m.a. $X_i \sim \mathcal{N}(\mu, \sigma^2)$. Entonces:

- $\bar{X} \sim \mathcal{N}(\mu, \frac{\sigma^2}{n})$
- $Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim \mathcal{N}(0,1)$

### Nivel de significancia (error): $\alpha$

El intervalo de confianza se basa en que:
$$
\mathbb{P}\left( -z_{\alpha/2} < \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} < z_{\alpha/2} \right)
= \mathbb{P}\left( \bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} < \mu < \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right)
= 1 - \alpha
$$

### El intervalo del $(1 - \alpha) \cdot 100\%$ de confianza para $\mu$ (con $\sigma$ conocida) es:

$$
\left( \bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \quad \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right)
$$
donde
- $\sigma$ es la desviación estándar
- $\frac{\sigma}{\sqrt{n}}$ es el error estándar de la media
- $z_{\alpha/2}$ determina el nivel de confianza
- el intervalo está centrado en $\bar{X}$

**OBS** A mayor valor de $n$ -> menor error estándar -> el intervalo de confianza es más pequeño -> lo cual hace que se acerque más a la media, es decir, que haya menos variación.

**EJEMPLO 1** Para trata de estimar la media de consumo por cliente en un restaurante, se reunieron datos de una muestra de $49$ clientes durante tres semanas.

**a)** Supongamos que la **desviación estándar** de la población es de $\$2.5$. ¿Cuál es el error estándar de la media?

**b)** Con un nivel de confianza del $95\%$, ¿cuál es el margen de error?

**c)** Si la media de la muestra es de $\$22.60$ ¿cuál es el intervalo de confianza del $95\%$ para la media de la población? 

In [6]:
# Datos:
n = 49 
sigma = 2.5
media_muestral = 22.60
confianza = 0.95

# a) Error estándar de la media
error_estandar = sigma / np.sqrt(n)
print(f"Eror estándar de la media: {error_estandar:.2f}")

# b) Margen de error
# 1-confianza= 0.05 => 0.025 en cada cola -> (1-confianza)/2

z = st.norm.ppf(1 - (1 - confianza) / 2) # ppf -> percentil point function
# z_{0.975} es tal que P(Z <= z_{0.975}) = 0.975
margen_error = z * error_estandar
print(f"Margen de error: {margen_error:.2f}")

# c) Intervalo de confianza
limite_inferior = media_muestral - margen_error
limite_superior = media_muestral + margen_error
print(f"Intervalo de confianza del {confianza*100}%: ({limite_inferior:.2f}, {limite_superior:.2f})")

Eror estándar de la media: 0.36
Margen de error: 0.70
Intervalo de confianza del 95.0%: (21.90, 23.30)


Por lo tanto, podemos decir que con un $95\%$ de confianza, se estima que el **consumo medio poblacional** está entre $\$21.90$ y $\$23.30$

**Ejemplo 2** Supongamos que se toma una muestra aleatoria de 100 personas para estimar la media del peso de una población, y se obtiene que la media muestral es de $70$ kg con una desviación estándar que es conocida de $10$ kg. Para un nivel de confianza del $95\%$, calcular el intervalo de confianza.

In [None]:
# Datos:
n = 100
sigma = 10
media_muestral = 70 
confianza = 0.95    
error_estandar = sigma / np.sqrt(n)

# Vamos a utilizar la función scipy.stats.norm.interval
# Sintaxis: scipy.stats.norm.interval(confidence = confianza, loc=media_muestral, scale=error_estandar)

intervalo = st.norm.interval(confianza, loc=media_muestral, scale=error_estandar)

print(f"Intervalo de confianza del {confianza*100}%: ({intervalo[0]:.2f}, {intervalo[1]:.2f})")

Intervalo de confianza del 95.0%: (68.04, 71.96)


## Intervalo de Confianza para la media $\mu$ de una distribución normal ($\sigma$ deconocida)

Sea $X_1, \dots, X_n$ una m.a. $X_i \sim \mathcal{N}(\mu, \sigma^2)$. Entonces:

- $\bar{X} \sim \mathcal{N}(\mu, \frac{\sigma^2}{n})$
- $Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim \mathcal{N}(0,1)$

Si el tamaño de la muestra es menor a 30, se utiliza la $t$: 
### Estadístico t

Definimos el estadístico $t$ de la siguiente manera:
$$T = \frac{\bar{X}-\mu}{s/\sqrt{n}} \sim t_{(n-1)} $$

### El intervalo del $(1 - \alpha) \cdot 100\%$ de confianza para $\mu$ (con $\sigma$ desconocida) es:

$$
\left( \bar{X} - t_{\alpha/2} \frac{s}{\sqrt{n}}, \quad \bar{X} + t_{\alpha/2} \frac{s}{\sqrt{n}} \right)
$$
donde

- $s$ = desviación estándar muestral
- $\frac{s}{\sqrt{n}}$ = error estándar de la media  
- $t_{\alpha/2}$ determina el nivel de confianza  
- El intervalo está centrado en $\bar{X}$

**Ejemplo 3** Supongamos que tenemos los soguientes datos de una muestra aleatoria de 10 observaciones:
$$ datos = [45, 55, 67, 45, 68, 79, 98, 87, 84, 82] $$
Calcular un intervalo de confianza para la media.

In [19]:
# Datos 
datos = [45, 55, 67, 45, 68, 79, 98, 87, 84, 82]
n = len(datos)
confianza = 0.95
gl = n - 1

# Tenemos la media y el error estándar
media_muestral = np.mean(datos)
error_estandar = st.sem(datos) # std error of the mean utilizando la desviación estándar muestral

# Utilizamos la distribución t de Student
intervalo = st.t.interval(confianza, df=gl, loc=media_muestral, scale=error_estandar)
print(f"La media muestral es: {media_muestral:.2f}")
print(f"Intervalo de confianza del {confianza*100}%: ({intervalo[0]:.2f}, {intervalo[1]:.2f})")


La media muestral es: 71.00
Intervalo de confianza del 95.0%: (58.00, 84.00)


**Ejemplo 4** Los artículos de cerámica utilizados sobre velas electricas sobrecargadas se rompen con diferentes presiones. Supongamos que los datos provienen de una distribución normal.

La resistencia a la ruptura fue medida en una muestra de 100 artículos, y el promedio fue de $1750$ con un desviación estándar de 315.8

**a)** Estimar con un nivel del confianza del $90\%$ a la media poblacional de la presión de la ruptura.

**b)** Estimar con un nivel del confianza del $90\%$ a la varianza poblacional.

Estamos utilizado la formula para en b)

$$ \left(
 \frac{(n - 1) s^2}{\chi^2_{1 - \alpha/2}} ,
 \frac{(n - 1) s^2}{\chi^2_{\alpha/2}} 
\right) $$ 

In [27]:
from scipy.stats import chi2
#Datos:
n = 100
media_muestral = 1750
desviacion_muestral = 315.8 # varianza muestral = 99,729.64
confianza = 0.90

# a) Se tiene que n>30, por lo que usamos la normal
error_estandar = desviacion_muestral / np.sqrt(n)
intervalo_media = st.norm.interval(confianza, loc=media_muestral, scale=error_estandar)
print(f"Intervalo de confianza para la media del {confianza*100}%: ({intervalo_media[0]:.2f}, {intervalo_media[1]:.2f})")

# b) Intervalo de confianza para la varianza
gl = n - 1
alpha = 1 - confianza   
s2 = desviacion_muestral**2

# Vamos a calcular los cuantiles de la distribución chi-cuadrado
chi2_inf = st.chi2.ppf(alpha / 2, df=gl)
chi2_sup = st.chi2.ppf(1 - alpha / 2, df=gl)
intervalo_varianza = ((gl * s2) / chi2_sup, (gl * s2) / chi2_inf)
print(f"Intervalo de confianza para la varianza del {confianza*100}%: ({intervalo_varianza[0]:.2f}, {intervalo_varianza[1]:.2f})")

# Otra forma de calcular el intervalo de confianza para la varianza
chi2_inf, chi2_sup = chi2.interval(confianza, df=gl)
intervalo_varianza2 = ((gl * s2) / chi2_sup, (gl * s2) / chi2_inf)
print(f"Intervalo de confianza para la varianza del {confianza*100}%: ({intervalo_varianza2[0]:.2f}, {intervalo_varianza2[1]:.2f})")


Intervalo de confianza para la media del 90.0%: (1698.06, 1801.94)
Intervalo de confianza para la varianza del 90.0%: (80123.49, 128146.72)
Intervalo de confianza para la varianza del 90.0%: (80123.49, 128146.72)
