# Inferencia estadística

## Estadísticas suficientes

**Definición(Muestra)**

Una muestra, $X_1,\ldots,X_n$, es un conjunto de variables (observables) aleatorias independientes e idénticamente distribuidas.

En la práctica, se supone que una muestra proviene de una población cuya distribución $f(x)$ está parametrizada por un vector de parámetros $\mathbf{\theta}$. Este vector $\mathbf{\theta}$, captura los aspectos relevantes de la distribución, por ejemplo en el caso de la distribución $N(\mu, \sigma^2)$, $\mathbf{\theta} = (\mu, \sigma^2)$.

Desde el punto de vista de la estadística frecuentista, el vector $\mathbf{\theta}$ se considera desconocido **pero fijo** y el objetivo de la inferencia estadística es obtener información acerca de él, utilizando la muestra $X_1,\ldots,X_n$.

**Definición(Estadística)**

Una función **observable**, $T(X_1,\ldots,X_n)$, es llamada una estadística.

El término **observable** se refiere a que $T(X_1,\ldots,X_n)$ no puede involucrar cantidades desconocidas, por ejemplo, algún elemento del vector $\mathbf{\theta}$. $T(X_1,\ldots,X_n)$ se determina únicamente a través de los valores de observados para en la muestra.

**Definición(Estadística suficiente)**

Una estadística, $T$, es llamada **suficiente**  para un parámetro desconocido $\mathbf{\theta}$ si y sólo si la distribución condicional de la muestra $\mathbf{X} = (X_1,\ldots,X_n)$ dado $T=t$ no involucra $\mathbf{\theta}$ para todo $t$ en el soporte de $T$.

Así pues, una vez habiendo observado el valor de una **estadística suficiente**, la muestra $(X_1,\ldots,X_n)$ no nos puede brindar más información acerca de $\mathbf{\theta}$.

**Definición(Función de verosimilitud)**

Una vez observando los valores $X_i = x_i$, $i=1,\ldots,n$; la función de verosimilitud (en inglés likelihood) se define como una función de $\mathbf{\theta}$

$$
L(\mathbf{\theta}) = \Pi_{i=1}^n f(x_i;\mathbf{\theta}).
$$

En el caso discreto $L(\mathbf{\theta})$ es igual a $\mathbb{P}_{\mathbf{\theta}}\left( X_1 = x_1 \cap X_2 = x_2 \cap \ldots \cap X_n = x_n\right)$

**Teorema(Factorización de Neyman)**

Una estadística $T$ es suficiente para $\mathbf{\theta}$ si y sólo si la siguiente factorización se cumple para toda $x_1,\ldots,x_n \in \mathcal{X}$

$$
L(\mathbf{\theta}) = g(T(x_1,\ldots,x_n);\mathbf{\theta})h(x_1,\ldots,x_n).
$$

en donde $g$ y $h$ son funciones no negativas, $h$ no depende de $\mathbf{\theta}$ y $g$ únicamente involucra $x_1,\ldots,x_n$ a través de $T(x_1,\ldots,x_n)$.

**Ejemplo**

Suponga que $X_1,\ldots,X_n$ tienen distribución Bernoulli$(p)$ con $p$ desconocida. Entonces

$$
L(p) = \Pi_{i=1}^{n}p^{x_i}(1-p)^{1-x_i}=p^{\sum_{i=1}^{n}x_i}(1-p)^{n-\sum_{i=1}^{n}x_i}
$$

en este caso $g(T(x_1,\ldots,x_n);p) = p^{\sum_{i=1}^{n}x_i}(1-p)^{n-\sum_{i=1}^{n}x_i}$ y $h(x_1,\ldots,x_n)=1$ y $T=\sum_{i=1}^{n}X_i$ es una estadística suficiente para $p$.

**Ejemplo**

Suponga que $X_1,\ldots,X_n$ tienen distribución $Poisson(\lambda)$, con $\lambda$ desconocida. Entonces

$$
L(\lambda) = \Pi_{i=1}^{n} \dfrac{e^{-\lambda} \lambda^{x_i}  }{x_{i}!} = e^{-n\lambda}\lambda^{\sum_{i=1}^{n}x_i} \left( \Pi_{i=1}^{n}x_i! \right)^{-1}.
$$

En este caso $g = e^{-n\lambda}\lambda^{\sum_{i=1}^{n}x_i}$, $h = \left( \Pi_{i=1}^{n}x_i! \right)^{-1}$ y $T=\sum_{i=1}^{n}X_i$.


**Teorema**

Si $T$ es una estadística suficiente para $\mathbf{\theta}$, entonces cualquier estadística $U$ que es una función **uno a uno** de $T$, es suficiente para $\mathbf{\theta}$.

Así, en los ejemplos anteriores, $\bar{X}$ es tambíen una estadística suficiente.

## Estimación puntual

**Definición(Estimador puntual y estimado)**

Un estimador puntual de un parámetro desconocido $\mathbf{\theta}$ es una función $T(X_1,\ldots,X_n)$. Una vez observando los valores de la muestra $\mathbf{X}=\mathbf{x}$, el valor $t = T(\mathbf{X})$ es llamado un estimado para $\mathbf{\theta}$.

**Definición(Estimado y estimador máximo verosímil)**

Un **estimado** máximo verosímil de $\mathbf{\theta}$, es un valor $\widehat{\mathbf{\theta}(\mathbf{x})}$ para el cual

$$
L(\widehat{ \mathbf{\theta}(\mathbf{x}) } ) = \max_{\mathbf{\theta}}L(\mathbf{\theta}).
$$

El **estimador** máximo verosímil de $\mathbf{\theta}$, es la variable aleatoria $\widehat{\mathbf{\theta}(\mathbf{X})}$.

Intuitivamente, un estimador máximo verosímil se interpreta como el valor de $\mathbf{\theta}$ que maximiza la "posibilidad" de observar un conjunto de datos, $\mathbf{x}$, en particular.

En la práctica, en lugar de maximizar $L(\mathbf{\theta})$, se maximiza la función

$$
\ln L(\mathbf{\theta})
$$

**Ejercicio**

Si $X_1,\ldots,X_n$ son variables independientes con distribución $N(\mu, \sigma^2)$, es posible demostrar que los estimadores máximos verosímiles para $\mu$ y $\sigma^2$ son

$$
\widehat{\mu(\mathbf{X})} = \bar{X}
$$
$$
\widehat{ \sigma^2 (\mathbf{X}) } = \dfrac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2
$$
Compruebe lo anterior utilizando
```python
from scipy.optimize import minimize
from scipy.optimize import Bounds
```
junto con una muestra de 100 variables $N(\mu = 1, \sigma = 1.5)$

In [1]:
import numpy as np
from scipy.optimize import minimize
from scipy.optimize import Bounds
from scipy.stats import norm

def log_like_normal(params, *args):
    '''
    Función para calcular el logaritmo (natural) de una función
    de densidad normal
    
    ENTRADA
    params: Numpy array con dimensión 1 y shape(n,) en donde n es el número
    de variables que se quieren optimizar
    
    *args: Tupla de parámetros fijos necesarios para definir completamente
    la función
    
    SALIDA
    Valor de logaritmo (natural) de una función de densidad normal
    '''
    
    datos = args[0] #Valores de cada variable en X_i
    mu = params[0]
    sig = params[1]
    
    return -np.sum( norm.logpdf(x = datos, loc = mu, scale = sig) )
    
    

In [2]:
#Genera la una muestra
np.random.seed(54321)
x = norm.rvs(loc = 1, scale = 1.5, size = 100)

#Solución inicial
x0 = np.array([0,1])

#Cotas
#mu puede tomar cualquier valor en [-np.inf, np.inf]
#sigma cualquier valor en [0, np.inf], el 0.00001 es para evitar
cotas = Bounds(lb = [-np.inf, 0], ub = [np.inf, np.inf])

#Obtiene la solución
solucion = minimize(log_like_normal,x0 = x0,bounds=cotas, method='L-BFGS-B',args=(x))
print(solucion)

      fun: 176.10512636240364
 hess_inv: <2x2 LbfgsInvHessProduct with dtype=float64>
      jac: array([-3.41060513e-05, -6.53699317e-05])
  message: b'CONVERGENCE: REL_REDUCTION_OF_F_<=_FACTR*EPSMCH'
     nfev: 36
      nit: 9
   status: 0
  success: True
        x: array([1.33493571, 1.40791837])


In [3]:
print("La solución analítica para mu es ", np.round(x.mean(), 6))
print("La solución aproximada para mu es ", np.round(solucion.x[0], 6))
print("La solución analítica para sigma^2 es ", np.round(x.var(ddof = 0), 6))
print("La solución aproximada para sigma^2 es ", np.round(solucion.x[1]**2, 6))

La solución analítica para mu es  1.334936
La solución aproximada para mu es  1.334936
La solución analítica para sigma^2 es  1.982236
La solución aproximada para sigma^2 es  1.982234


**Teorema(Invarianza de estimadores máximo verosímiles)**

Suponga que $\widehat{ \mathbf{\theta} }$ es un estimador máximo verosímil de $\mathbf{\theta}$. Sea $g(.)$ una función (no necesariamente uno a uno). Entonces, un estimador máximo verosímil de $g(\mathbf{\theta})$ es $g(\widehat{\mathbf{\theta}})$.

In [4]:
print("La solución analítica para sigma es ", np.round(x.std(ddof = 0), 6))
print("La solución aproximada para sigma es ", np.round(solucion.x[1], 6))

La solución analítica para sigma es  1.407919
La solución aproximada para sigma es  1.407918


**Definición(Estimador insesgado y sesgo)**

Una estadística $T$ es un estimador insesgado del parámetro $\tau(\mathbf{\theta})$ si y sólo si para todo $\mathbf{\theta}$
$$
E_{\mathbf{\theta}}[T] = \tau(\mathbf{\theta}) 
$$
El sesgo de $T$ se define como
$$
Sesgo_{\mathbf{\theta}}(T) = E_{\mathbf{\theta}}[T] - \tau(\mathbf{\theta})
$$

**Definición(Error cuadrático medio)**

El error cuadrático medio de un estimador $T$ para un parámetro $\tau(\mathbf{\theta})$ se define como 
$$
E_{\mathbf{\theta}}\left[ (T - \tau(\mathbf{\theta}))^2 \right]
$$

**Teorema(Descomposición del error cuadrático medio)**

$$
E_{\mathbf{\theta}}\left[ (T- \tau(\mathbf{\theta}))^2 \right] = Var(T) + Sesgo^2(T)
$$

**Teorema(Rao-Blackwell)**

Suponga que $T$ es un estimador insesgado de una función con valor real $\tau(\theta)$. Sea $U$ una estadística suficiente para $\theta$ y defina $g(u) = E[T|U=u]$. Entonces

1. $W = g(U)$ es un estimador insesgado de $\tau(\theta)$.

2. $Var(W) \leq Var(T)$ para todo $\theta$. 

In [5]:
#Optimización de la log versosimilitud en el caso poisson
import numpy as np
from scipy.stats import poisson

def log_lik_poisson(params, *args):
    datos = args[0]
    lam = params[0]
    
    return -np.sum(poisson.logpmf(k = datos, mu = lam))

In [7]:
np.random.seed(54321)
simulados = poisson.rvs(size = 100, mu = 2.5)

#Punto inicial
x0 = np.array([0.5])
cotas = Bounds(lb = [0], ub = [np.inf])

solucion = minimize(log_lik_poisson, x0 = x0, args = (simulados),
                   method = 'L-BFGS-B', bounds = cotas)

In [8]:
solucion

      fun: 181.648880546196
 hess_inv: <1x1 LbfgsInvHessProduct with dtype=float64>
      jac: array([5.68434189e-06])
  message: b'CONVERGENCE: NORM_OF_PROJECTED_GRADIENT_<=_PGTOL'
     nfev: 18
      nit: 8
   status: 0
  success: True
        x: array([2.46000006])

In [9]:
simulados.mean()

2.46