<img src="logo.png">

# Estimadores de máxima verosimilitud

Si suponemos que conocemos la distribución de nuestra variable aleatoria multivariante $X$ entonces, el objetivo principal de la inferencia estadística es estimar los parámetros que sean desconocidos de esta distribución.

Sea $\Theta = (\Theta_1,\Theta_2,...,\Theta_r)$ el vector de parámetros de una distribución determinada con función de densidad $f_X(\cdot;\Theta)$. El objetivo es estimar el valor verdadero de $\Theta$ a partir de una muestra.

El método mas usual para hacer esto es el de **estimador de máxima verosimilitud** (MLE).

Dada una muestra $x_1,x_2,...,x_n$ (recordemos que aquí, los elementos de la muestra son las observaciones de cada una de las características del vector aleatorio $X$), se define la **función de máxima verosimilitud** de $\Theta$ como 

$$l(\theta)=f_X(x_1;\theta)f_X(x_2;\theta)...f_X(x_n;\theta).$$

El estimador de máxima verosimilitud del parámetro verdadero $\Theta$ es el vector $\widehat{\theta}$ si $l(\widehat{\theta})$ es un valor máximo de la función $l$. Esto significa que $\widehat{\theta}$ es el valor que maximiza la probabilidad de obtener la muestra que obtuvimos.

**Observación.** A veces trabajar con la función $l$ para tratar de maximizarla es complicado. Muchas veces, en lugar de la función de máxima verosimilitud, se ocupa la **función log de máxima verosimilitud** que se define como 

$$L(\theta)=\log(l(\theta)).$$ 

El valor que maximiza a $L$ es igual al valor que maximiza a $l$ y viceversa, de modo que el estimador de máxima verosimilitud $\widehat{\theta}$ no se ve alterado.

**Teorema.** Supongamos que tenemos nuestra muestra $x_1,x_2,...,x_n$ (es una muestra independiente e idénticamente distribuida). Si $\widehat{\theta}\in\mathbb{R}^r$ es el estimador de máxima verosimilitud del parámetro verdadero $\Theta$, *bajo condiciones de regularidad*, si $n$ es grande,se tiene 

$$\sqrt{n}(\widehat{\theta}-\Theta)\sim N_r(\boldsymbol{0_d},F^{-1})$$ 

donde $F$ es la información de Fisher: $$F=-\frac{1}{n}E\left[\frac{\partial^2}{\partial\theta\partial\theta^T}L(\theta)\right]$$

Algunas consecuencias de este teorema son que para $n$ grande, $\widehat{\theta}$ es el mejor estimador de $\Theta$.

## MLE de una normal

Sean $x_1,x_2,...,x_n$ una muestra aleatoria de una normal multivariante $N_p(\vec{\mu},\Sigma)$. Bajo la notación de la sección de arriba se tiene $\Theta=(\vec{\mu},\Sigma)$.

En este caso, la función $L$ (el logaritmo de la función de verosimilitud) viene dada de la siguientes maneras:

$$\begin{eqnarray}L(\vec{\mu},\Sigma)&=&-\frac{np}{2}\log(2\pi)-\frac{n}{2}\log(|\Sigma|)-\frac{1}{2}\sum_{i=1}^n(x_{i,\cdot}-\vec{\mu})^T\Sigma^{-1}(x_{i,\cdot}-\vec{\mu})\\&=&-\frac{n}{2}\log(|\Sigma|)-\frac{n}{2}tr(\Sigma^{-1}S)-\frac{n}{2}(\overline{x}-\vec{\mu})^T\Sigma^{-1}(\overline{x}-\vec{\mu})\end{eqnarray}$$

donde $S=\sum_{i=1}^n(x_{i\cdot}-\vec{\mu})^T(x_{i\cdot}-\vec{\mu})$.

Entonces los estimadores de máxima verosimilitud de $\vec{\mu}$ y $\Sigma$ son 

$$\widehat{\vec{\mu}}=\overline{x}\,\,\,\,y$$

$$\widehat{\Sigma}=\frac{1}{n}\sum_{j=1}^n(x_{i\cdot}-\overline{x})(x_{i\cdot}-\overline{x})^T.$$