# Estadística Inferencial

"Hay muchas formas de tomar decisiones o predicciones, algunas son subjetivas y otras son objetivas por naturaleza. ¿Qué tan buenas serán las predicciones o decisiones? Es la función del estadístico matemático dar métodos de toma de inferencia estadística que son mejores y más confiables que únicamente cálculos subjetivos."  

## Estimadores

Cuando se quiere estimar el valor de un parámetro poblacional, se puede usar información de la muestra en la forma de un *estimador*. 

*Estimadores:* es una función de la muestra aleatoria que se usa para aproximar un parámetro desconocido de la población.

### Propiedades de los estimadores

- **Insesgamiento:** 
  
  Se dice que un estimador de un parámetro es insesgado si la media de su distribución es igual al verdadero valor del parámetro. El estimador no debe subestimar o sobreestimar de manera consistente el parámetro de interés. De otro modo, se dice que el estimador está sesgado.
  $$ \mathbb{E}[\hat{\theta}] = \theta$$

- **Consistencia:**
  
  Esta propiedad considera que el estimador converge en probabilidad al parámetro cuando el tamaño de la muestra crece a infinito. Es decir, si $\hat{\theta}_n$ es un estimador para $\theta$ basado en una m.a. de tamaño n. $\hat{\theta}_n$ es consistente si para cualquier $\varepsilon > 0$
  $$ \lim_{n\to\infty} \mathbb{P}(|\hat{\theta}_n - \theta|>\varepsilon) = 0$$
  otra notación es $\hat{\theta}_n \xrightarrow{p}\theta$

- **Eficiencia:**

  La dispersión (medida por la varianza) de la distribución muestral debe ser tan pequeña como sea posible. Esto asegura que, con una alta probabilidad, una estimación individual caerá cerca del valor verdadero del parámetro.

### Métodos para construir estimadores

#### Método de momentos 

Consiste en igualar los momentos poblacionales con los momentos muestrales y resolver la ecuación, o sistema de ecuaciones , para el parámetro o vector de parámetros, cuando sea posible. 
 
 - Momento poblacional: Sea $k \geq 1$ un entero. El $k$-ésimo momento de una variable aleatoria $X$, es el número $\mathbb{E}[X^k]$.
 - Momento muestral: Sea $k \geq 1$ un entero. El $k$-ésimo momento de una muestra aleatoria $X_1,\dots,X_n$ es la variable aleatoria $m_k = \frac{1}{n} \sum_{i=1}^{n}X_i^k$_

**Ejemplo**

El tiempo de retardo para pacientes con enfermedad coronaria potencial se define como la duración entre el comienzo de un síntoma agudo cardiovascular y la llegada a la unidad de emergencia.
Se supone que el tiempo de retardo sigue una distribución exponencial con parámetro $\theta $.
Se registraron los tiempos de retardo (en minutos) en la clínica para los primeros 20 pacientes:
$$ 525, \ 719, \ 2880, \ 150, \ 30, \ 251, \ 45, \ 858, \ 15, \ 47, \ 90, \ 56, \ 68, \ 6, \ 189, \ 180, \ 60, \ 60, \ 294, \ 747 $$
- Encuentra un estimador por el **método de momentos** para la media de la distribución (exponencial).
  Recordemos que si $X\sim Exp(\theta)$, entonces $\mathbb{E}[X]=\frac{1}{\theta}$
- (Python) Encuentra el valor del estimador con los datos dados.

**Inciso 1**

Sabemos que para una distribución exponencial $\mathbb{E}[X] = \frac{1}{\theta}$ y que el momento muestral $m_1 = \frac{1}{n}\sum_{i=1}^{n}x_i$, igualando los momentos obtenemos 
$$ \frac{1}{\theta} = \frac{1}{n}\sum_{i=1}^{n}x_i = \bar{x}$$
y despejando, llegamos al estimador 
$$ \hat{\theta} = \frac{1}{\bar{x}}$$

**Inciso 2**
  

In [None]:
# Llamamos a las librerias que ocuparemos
import numpy as np

# Creamos un arreglo con los datos 
datos = np.array([525, 719, 2880, 150, 30, 251, 45, 858, 15, 47, 
                 90, 56, 68, 6, 189, 180, 60, 60, 294, 747])

# Calculamos la media 
media = np.mean(datos)

# Calculamos el estimador
theta_hat = 1/media

# Imprimimos el valor del estimador
print('El valor del estimador es:',theta_hat)

El valor del estimador es: 0.002751031636863824


#### Método de máxima verosimilitud

La *función de verosimilitud* de un vector aleatorio $ (X_1,\dots,X_n)$ cuya distribución depende de un parámetro $\theta$ se define como la función de densidad 
$$L(\theta) = f_{X_1,\dots,X_n}(x_1,\dots,x_n;\theta) $$
y cuando hay distribución idéntica de $X_i$ se calcula de la siguiente manera
$$ L(\theta) = f(x_1;\theta)\cdots f(x_n;\theta) = \prod_{i=1}^{n}f(x_i;\theta).$$

El método consiste en encontrar el valor de $\theta$ que maximiza a la función $L(\theta)$. Al valor de $\theta$ en donde $L(\theta)$ alcanza su máximo se le llama estimación de máxima verosimilitud o estimación máximo verosímil.

**Observación**
$$\begin{align*} \log{L(\theta)} &=  \log{\prod_{i=1}^{n}f(x_i;\theta)} \\ &= \sum_{i=1}^{n} \log{f(x_i;\theta)} \end{align*}$$

**Ejemplo.** 

Sea $x_1,\dots,x_n$ una m.a $Poisson(\lambda)$
$$ f(x_i;\lambda) = e^{-\lambda}\frac{\lambda^{x_i}}{x_i !}, \quad i\in\{1,2,\dots,n\}$$
1. Encontrar EMV
2. ¿es insesgado?
3. ECM

**Inciso 1**

$$L(x_1\dots x_n;\theta) = \prod_{i=1}^{n} e^{-\theta}\frac{\theta^{x_i}}{x_i !} = \frac{e^{-n\theta}\theta^{\sum x_i}}{x_1!\dots x_n!}$$

$$\log{L(x_1\dots x_n;\theta)} = \log{e^{-n\theta}\theta^{\sum x_i}} - \log{x_1!\dots x_n!} = -n\theta + \sum x_i \log{\theta} - \sum \log{x_i!}$$
derivando $L(x_i;\theta)$ e igualando a cero
$$ \frac{dL(x_i;\theta)}{d\theta} = -n + \frac{\sum x_i}{\theta} = 0$$
así
$$ \frac{\sum x_i}{\theta} = n \rightarrow  \theta = \frac{\sum x_i}{n} \quad \text{entonces} \quad \hat{\theta} = \bar{x}$$

**Inciso 2**
$$ \mathbb{E}[\hat{\theta}] = \mathbb{E}\left[\frac{\sum x_i}{n}\right] = \frac{1}{n}\sum \mathbb{E}[x_i] = \frac{1}{n}\sum \theta = \frac{n\theta}{n} = \theta $$

**Inciso 3**
$$\begin{align*}ECM(\hat{\theta}) &= Var(\hat{\theta}) + (\mathbb{E}[\hat{\theta}]-\theta)^2 = Var\left(\frac{\sum x_i}{n} \right) + 0 \\ &= \frac{1}{n^2} \sum Var(x_i) = \frac{1}{n^2} \sum \theta = \frac{n\theta}{n^2} = \frac{\theta}{n} \end{align*}$$
disminuye a medida que aumenta la cantidad de datos.

## Intervalos de confianza 

Considerando que se tiene una cierta variable aleatoria de interés, con función de densidad o de probabilidad conocida $f(x;\theta)$, pero dependiente de un parámetro desconocido $\theta$, el cual deseamos estimar con base en una muestra aleatoria de esta distribución y $\alpha\in(0,1)$ un número fijo dado. Se define un *intervalo de confianza* como un intervalo aleatorio de la forma $(\hat{\theta}_1,\hat{\theta}_2)$, donde $\hat{\theta}_1$ y $\hat{\theta}_2$ son dos estadísticas que satisfacen 
$$ \mathbb{P}[\hat{\theta}_1< \theta < \hat{\theta}_2] = 1-\alpha.$$

Al número $1-\alpha$ se le conoce como grado o coeficiente de confianza y a $(\hat{\theta}_1,\hat{\theta}_2)$ se le conoce como intervalo del $(1-\alpha)\times 100\%$ de confianza. 

### Distribución Normal

Consideramos $X_1,\dots,X_n$ una muestra aleatoria donde $X_i \sim N(\mu,\sigma^2)$

Entonces:

- $\bar{X} \sim \mathcal{N}(\mu, \frac{\sigma^2}{n})$
- $Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim \mathcal{N}(0,1)$

Un concepto importante es el siguiente:

- Error estándar $(SE)$: nos permite cuantificar cuánto varía una estadística 
   - si conozco $\sigma$: $SE = \frac{\sigma}{\sqrt{n}}$
   - si no conozco $\sigma$: se utiliza la $S$ muestral, entonces $SE = \frac{S}{\sqrt{n}}$

#### Intervalo para la media con varianza conocida 

$$ IC = \left(\bar{X} \pm Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \right)$$ 

Es decir que $ \mu \in \left(\bar{X} - Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}, \bar{X} + Z_{\alpha/2}\cdot \frac{\sigma}{\sqrt{n}} \right) $ con $(1-\alpha)\times 100\%$ de confianza.

**Observación** 

A mayor valor de $n$ se tiene menor error estándar, entonces el intervalo de confianza es más pequeño, lo cual hace que se acerque más a la media, es decir, que haya menos variación.

**Ejemplos** 

Para trata de estimar la media de consumo por cliente en un restaurante, se reunieron datos de una muestra de $49$ clientes durante tres semanas.

**a)** Supongamos que la **desviación estándar** de la población es de $\$2.5$. ¿Cuál es el error estándar de la media?

**b)** Con un nivel de confianza del $95\%$, ¿cuál es el margen de error?

**c)** Si la media de la muestra es de $\$22.60$ ¿cuál es el intervalo de confianza del $95\%$ para la media de la población?

In [2]:
# Llamamos a las librerias que ocuparemos
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as st

In [3]:
# Datos:
n = 49 
sigma = 2.5
media_muestral = 22.60
confianza = 0.95

# a) Error estándar de la media
error_estandar = sigma / np.sqrt(n)
print(f"Eror estándar de la media: {error_estandar:.2f}")

# b) Margen de error
# 1-confianza= 0.05 => 0.025 en cada cola -> (1-confianza)/2

z = st.norm.ppf(1 - (1 - confianza) / 2) # ppf -> percentil point function
# z_{0.975} es tal que P(Z <= z_{0.975}) = 0.975
margen_error = z * error_estandar
print(f"Margen de error: {margen_error:.2f}")

# c) Intervalo de confianza
limite_inferior = media_muestral - margen_error
limite_superior = media_muestral + margen_error
print(f"Intervalo de confianza del {confianza*100}%: ({limite_inferior:.2f}, {limite_superior:.2f})")

Eror estándar de la media: 0.36
Margen de error: 0.70
Intervalo de confianza del 95.0%: (21.90, 23.30)


Por lo tanto, podemos decir que con un $95\%$ de confianza, se estima que el **consumo medio poblacional** está entre $\$21.90$ y $\$23.30$


Supongamos que se toma una muestra aleatoria de 100 personas para estimar la media del peso de una población, y se obtiene que la media muestral es de $70$ kg con una desviación estándar que es conocida de $10$ kg. Para un nivel de confianza del $95\%$, calcular el intervalo de confianza.

In [4]:
# Datos:
n = 100
sigma = 10
media_muestral = 70 
confianza = 0.95    
error_estandar = sigma / np.sqrt(n)

# Vamos a utilizar la función scipy.stats.norm.interval
# Sintaxis: scipy.stats.norm.interval(confidence = confianza, loc=media_muestral, scale=error_estandar)

intervalo = st.norm.interval(confianza, loc=media_muestral, scale=error_estandar)

print(f"Intervalo de confianza del {confianza*100}%: ({intervalo[0]:.2f}, {intervalo[1]:.2f})")

Intervalo de confianza del 95.0%: (68.04, 71.96)


#### Intervalo para la media con varianza desconocida 

En el caso $n>30$ se tiene el intervalo 
$$ IC = \left(\bar{X} \pm Z_{\alpha/2} \cdot \frac{S}{\sqrt{n}}  \right)$$
para $n<30$ se tiene 
$$ IC = \left(\bar{X} \pm t_{\alpha/2}^{(n-1)} \cdot \frac{S}{\sqrt{n}}  \right)$$


**Ejemplo** 

Supongamos que tenemos los soguientes datos de una muestra aleatoria de 10 observaciones:
$$ datos = [45, 55, 67, 45, 68, 79, 98, 87, 84, 82] $$
Calcular un intervalo de confianza para la media.

In [5]:
# Datos 
datos = [45, 55, 67, 45, 68, 79, 98, 87, 84, 82]
n = len(datos) # es facil notar que n<30
confianza = 0.95
gl = n - 1

# Tenemos la media y el error estándar
media_muestral = np.mean(datos)
error_estandar = st.sem(datos) # std error of the mean utilizando la desviación estándar muestral

# Utilizamos la distribución t de Student
intervalo = st.t.interval(confianza, df=gl, loc=media_muestral, scale=error_estandar)
print(f"La media muestral es: {media_muestral:.2f}")
print(f"Intervalo de confianza del {confianza*100}%: ({intervalo[0]:.2f}, {intervalo[1]:.2f})")

La media muestral es: 71.00
Intervalo de confianza del 95.0%: (58.00, 84.00)


#### Intervalo para la varianza

$$IC = \left(\frac{(n-1)S^2}{\chi^2_{\alpha/2,n-1}},\frac{(n-1)S^2}{\chi^2_{1-\alpha/2,n-1}}  \right)$$

**Ejemplo** 

Los artículos de cerámica utilizados sobre velas electricas sobrecargadas se rompen con diferentes presiones. Supongamos que los datos provienen de una distribución normal.

La resistencia a la ruptura fue medida en una muestra de 100 artículos, y el promedio fue de $1750$ con un desviación estándar de 315.8

**a)** Estimar con un nivel del confianza del $90\%$ a la media poblacional de la presión de la ruptura.

**b)** Estimar con un nivel del confianza del $90\%$ a la varianza poblacional.

In [7]:
from scipy.stats import chi2 # importamos la distribución chi-cuadrado


#Datos:
n = 100
media_muestral = 1750
desviacion_muestral = 315.8 # varianza muestral = 99,729.64
confianza = 0.90

# a) Se tiene que n>30, por lo que usamos la normal
error_estandar = desviacion_muestral / np.sqrt(n)
intervalo_media = st.norm.interval(confianza, loc=media_muestral, scale=error_estandar)
print(f"Intervalo de confianza para la media del {confianza*100}%: ({intervalo_media[0]:.2f}, {intervalo_media[1]:.2f})")

# b) Intervalo de confianza para la varianza
gl = n - 1
alpha = 1 - confianza   
s2 = desviacion_muestral**2

# Vamos a calcular los cuantiles de la distribución chi-cuadrado
chi2_inf = st.chi2.ppf(alpha / 2, df=gl)
chi2_sup = st.chi2.ppf(1 - alpha / 2, df=gl)
intervalo_varianza = ((gl * s2) / chi2_sup, (gl * s2) / chi2_inf)
print(f"Intervalo de confianza para la varianza del {confianza*100}%: ({intervalo_varianza[0]:.2f}, {intervalo_varianza[1]:.2f})")

# Otra forma de calcular el intervalo de confianza para la varianza
chi2_inf, chi2_sup = chi2.interval(confianza, df=gl)
intervalo_varianza2 = ((gl * s2) / chi2_sup, (gl * s2) / chi2_inf)
print(f"Intervalo de confianza para la varianza del {confianza*100}%: ({intervalo_varianza2[0]:.2f}, {intervalo_varianza2[1]:.2f})")


Intervalo de confianza para la media del 90.0%: (1698.06, 1801.94)
Intervalo de confianza para la varianza del 90.0%: (80123.49, 128146.72)
Intervalo de confianza para la varianza del 90.0%: (80123.49, 128146.72)


#### Intervalo para la diferencia de dos medias con varianzas conocidas

Ahora consideramos dos muestras aleatorias $X_1,\dots,X_n$ con distribución $N(\mu_1,\sigma^2)$ y $Y_1,\dots,Y_m$ independiente de la primera y con distribución $N(\mu_2,\sigma_2^2)$, el intervalo de confianza para $\mu_1-\mu_2$ es
$$ IC = \left((\bar{X}-\bar{Y})\pm Z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n} + \frac{\sigma_2^2}{m}}  \right).$$

#### Intervalo para la diferencia de dos medias con varianzas desconocidas pero iguales

En este caso también tenemos dos muestras aleatorias independientes, $X_1,\dots,X_n$ que se distribuye como $N(\mu_1,\sigma^2)$ y $Y_1,\dots,Y_m$ que se distribuye como $N(\mu_2,\sigma^2)$. El intervalo de confianza para $\mu_1-\mu_2$, con $\sigma^2$ desconocida es
$$IC = \left( (\bar{X}-\bar{Y}) \pm t_{(n+m-2)}S\sqrt{\frac{1}{n}+\frac{1}{m} }\right).$$

## Referencias

- Rincón, L. (2019). *Una introducción a la estadística inferencial*. México: Universidad Nacional Autónoma de México, Facultad de Ciencias.

- Mendenhall, W., Beaver, R. J., Beaver, B. M., & Romo Muñoz, J. H. (2010). *Introducción a la probabilidad y estadística* (13a ed.). México: Cengage Learning.