# TP4 - Estimación de parámetros

## Análisis estadístico de datos, 2021

## Alvaro Concha

In [1]:
"""Instalar librerias necesarias"""
%pip install numpy scipy seaborn

Note: you may need to restart the kernel to use updated packages.


### Notación
Sea $x$ una variable continua unidimensional, utilizamos la siguiente notación para el operador diferencial
$$
\begin{align*}
d_x &\dot{=} \frac{d}{dx}\\
&\dot{=} D_x.
\end{align*}
$$

Sea $\mathbf{x} = (x_1, x_2)$ un vector bidimensional, utilizamos las siguientes notaciones para operadores diferenciales
$$
\begin{align*}
d_{\mathbf{x}} &\dot{=} \nabla_{\mathbf{x}}\\
&\dot{=} (\partial_{x_1}, \partial_{x_2}),
\end{align*}
$$
y
$$
\begin{align*}
d^2_{\mathbf{x}} &\dot{=} \mathrm{Hessian}_{{\mathbf{x}}}\\
&\dot{=} \mathrm{Jacobian}(\nabla_{\mathbf{x}})\\
&\dot{=} \left( \frac{\partial^2}{\partial_{x_i}\partial_{x_j}} \right).
\end{align*}
$$

---
## Ejercicio 1
Considerar una variable aleatoria $X$ que sigue una distribución normal con media $\mu$ y varianza $\sigma ^2$ ambas desconocidas.

En un experimento se observaron los siguientes valores de $X = \{18.9, 17.4, 20.8, 18.3, 17.0\}$.

A partir de los datos, estimar sin sesgo $\mu$ y $\sigma^2$.

## Solución
Sea la variable aleatoria $X \sim \mathcal{N}(\mu, \sigma^2)$, con parámetros desconocidos.

Sean $n$ observaciones $\vec{x} = (x_1, \dots, x_n)$ de la variable aleatoria $X$.

Podemos estimar la media poblacional $\mu$ de $X$ usando la media muestral
$$
\begin{align*}
\bar{X} &= \frac{1}{n} \sum_{i=1}^n x_i\\
&\sim \mathcal{N}(\mu, \frac{\sigma^2}{n}),
\end{align*}
$$
o, la mediana
$$
\begin{align*}
\tilde{X} &= \mathrm{Mediana}(\vec{x})\\
&\sim \mathcal{N}(\mu, \frac{\pi}{2} \frac{\sigma^2}{n}),
\end{align*}
$$
ambos son estimadores sin sesgo, siendo el sesgo de un estimador $\hat{\theta}$ igual a [[Wikipedia - Bias of an estimator](https://en.wikipedia.org/wiki/Bias_of_an_estimator)]
$$
\mathrm{B}(\hat{\theta}) = \mathrm{E}(\hat{\theta}) - \theta.
$$

sin embargo, la media muestral tiene una varianza menor que la mediana, por lo que es más eficiente, siendo la eficiencia inversamente proporcional a la varianza [[Wikipedia - Efficiency of an estimator](https://en.wikipedia.org/wiki/Bias_of_an_estimator)]
$$
e(\hat{\theta}) = \frac{1/\mathcal{I}(\theta)}{\mathrm{Var}(\hat{\theta})},
$$
donde $\mathcal{I}(\theta)$ es la información de Fisher de la muestra dado que el valor verdadero del parámetro es $\theta$ [[Wikipedia - Fisher information](https://en.wikipedia.org/wiki/Fisher_information)].

Mientras que para estimar la varianza poblacional $\sigma^2$ podemos usar la varianza muestral, con cero delta grados de libertad [[Numpy - Variance](https://numpy.org/doc/stable/reference/generated/numpy.var.html)]
$$
\begin{align*}
s_n^2 &= \frac{1}{n} \sum_{i=1}^n (x_i - \bar{X})^2\\
&\sim \frac{\sigma^2}{n}\chi_{n-1}^2,
\end{align*}
$$
o, con un delta grado de libertad
$$
\begin{align*}
s_{n-1}^2 &= \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{X})^2\\
&\sim \frac{\sigma^2}{n-1}\chi_{n-1}^2,
\end{align*}
$$
con sesgos
$$
\mathrm{B}(s_n^2) = -\frac{\sigma^2}{n},
$$
y
$$
\mathrm{B}(s_{n-1}^2) = 0,
$$
y con varianzas
$$
\mathrm{Var}(s_n^2) = \left(\frac{n-1}{n}\right)^2 \frac{2}{n-1} \sigma^4,
$$
y
$$
\mathrm{Var}(s_{n-1}^2) = \frac{2}{n-1} \sigma^4.
$$

Finalmente, si tuviéramos acceso al valor verdadero del parámetro $\mu$, podríamos calcular también el estimador de varianza
$$
\begin{align*}
t^2 &= \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2\\
&\sim \frac{\sigma^2}{n}\chi_{n}^2,
\end{align*}
$$
con sesgo
$$
\mathrm{B}(t^2) =  0,
$$
y varianza
$$
\mathrm{Var}(s_n^2) = \frac{2}{n} \sigma^4.
$$

## Observación
Se dice que un estimador $\hat{\theta}$ es consistente, si su sesgo satisface [[Wikipedia - Consistency of an estimator](https://en.wikipedia.org/wiki/Consistent_estimator)]
$$
\mathrm{B}(\hat{\theta}) \xrightarrow[n \to \infty]{} 0,
$$
en el límite cuando el número de observaciones $n$ tiende a infinito.

Por ej., el estimador
$$
\hat{\theta} = x_i,
$$
es un estimador sin sesgo de la media de poblacional, sin embargo no es consistente.

Mientras que el estimador
$$
\hat{\theta} = \frac{1}{n} \sum_{i=1}^n x_i + \frac{1}{n},
$$
es consistente, pero tiene sesgo.

Si una secuencia de estimadores no tiene sesgo y converge a un valor, entonces es consistente y converge al valor correcto.

In [2]:
%run ./ej1.py

Media muestral	18.48
Mediana		18.30
Varianza muestral		2.24
Varianza muestral sesgada	1.79


---
## Ejercicio 2
Simular una muestra de tres variables aleatorias $X_1$, $X_2$ y $X_3$ que siguen una distribución normal estándar.

Calcular la media muestral $\bar{X}$.

Repetir este procedimiento 1000 veces y contruir un histograma de frecuencia de $\bar{X}$.

A partir de este histograma estimar el sesgo y varianza de $\bar{X}$, graficar el histograma y superponer la función de densidad de probabilidad de $\bar{X}$.

*Nota: no ajustar el histograma.*

## Solución
Sean las $n$ variables aleatorias iid $X_i \sim \mathcal{N}(\mu, \sigma^2)$.

Luego, la media sigue una distribución
$$
\begin{align*}
\bar{X} &= \frac{1}{n} \sum_{i=1}^n x_i\\
&\sim \mathcal{N}(\mu, \frac{\sigma^2}{n}).
\end{align*}
$$

In [3]:
%run ./ej2.py

VBox(children=(Label(value='Seleccionar parámetros', layout=Layout(display='flex', justify_content='center')),…

---
## Ejercicio 3
Simular una muestra de dos variables aleatorias $X_1$ y $X_2$ que siguen una distribución normal estándar.

Calcular la varianza muestral $s^2$.

Repetir la simulación 1000 veces y construir un histograma de frecuencia de $s^2$.

A partir del histograma estimar el sesgo y la varianza de $s^2$.

Graficar el histograma y superponer la distribución de probabilidad de $s^2$.

*Nota: no ajustar el histograma.*

## Solución
Sean las $n$ variables aleatorias iid $X_i \sim \mathcal{N}(\mu, \sigma^2)$.

Luego, la varianza muestral con $\delta$ grados de libertad menos es
$$
\begin{align*}
s_{n - \delta}^2 &= \frac{1}{n - \delta} \sum_{i=1}^n (x_i - \bar{X})^2\\
&\sim \frac{\sigma^2}{n - \delta}\chi_{n-1}^2,
\end{align*}
$$
con valor esperado
$$
\mathrm{E}(s_{n - \delta}^2) = \frac{n - 1}{n - \delta} \sigma^2,
$$
y, por lo tanto, con sesgo
$$
\mathrm{B}(s_{n - \delta}^2) = \frac{\delta - 1}{n - \delta} \sigma^2.
$$

Finalmente, su varianza es
$$
\mathrm{Var}(s_{n - \delta}^2) = \left(\frac{n-1}{n-\delta}\right)^2 \frac{2}{n-1} \sigma^4.
$$

In [4]:
%run ./ej3.py

VBox(children=(Label(value='Seleccionar parámetros', layout=Layout(display='flex', justify_content='center')),…

---
## Ejercicio 4
Considerar una variable aleatoria $X$ que sigue una distribución normal con una media $\mu$ desconocida y una desviación estándar $\sigma = 4.5$.

En un experimento se observa el valor $x = 37.2$.

Encontrar la función de verosimilitud $\mathcal{L}(\mu)$.

Calcular el estimador de máxima verosimilitud de $\mu$ ($\hat{\mu}$).

Calcular la verosimilitud máxima $\mathcal{L}_{\max} = \mathcal{L}(\hat{\mu})$.

Calcular el cociente de verosimilitudes $\lambda(\mu) = \mathcal{L}(\mu)/\mathcal{L}_{\max}$ y graficar la función de costo $J(\mu) = -2 \ln \lambda(\mu)$.

## Observación
Sean las variables aleatorias $X$ (datos) y $\Theta$ (parámetros)

Supongamos que tenemos acceso o que podemos conocer a la distribución $f(x; \theta)$
$$
{\color{red}{P(X=x|\Theta=\theta)}} = f(x; \theta),
$$
que en el caso continuo se expresaría como
$$
P(x\le X \le x+dx|\Theta=\theta) = f(x; \theta)dx,
$$
pero, por simplicidad, voy a usar la notación ${\color{red}{P(X=x|\Theta=\theta)}}$.

Entonces, la función likelihood es igual a
$$
\mathcal{L}(\theta; x) = f(x; \theta),
$$
es decir, resulta de tratar a la distribución $f(x; \theta)$ como función de $\theta$ tratando a $x$ como parámetro.

Note que la likelihood en general no es igual a la probabilidad condicional
$$
\mathcal{L}(\theta; x) \ne {\color{black}{P(\Theta=\theta|X=x)}},
$$
sino que sería una representación incompleta de ${\color{black}{P(\Theta=\theta|X=x)}}$.

Para obtener exactamente la condicional ${\color{black}{P(\Theta=\theta|X=x)}}$, podemos usar el teorema de Bayes
$$
{\color{black}{\underbrace{P(\Theta=\theta|X=x)}_{\text{Posterior}}}} = \frac{ {\color{red}{\overbrace{P(X=x|\Theta=\theta)}^{\text{Likelihood}}}} {\color{green}{\overbrace{P(\Theta=\theta)}^{\text{Prior}}}} }{ {\color{blue}{\underbrace{P(X=x)}_{\text{Evidencia}}}} }.
$$

Como la evidencia (o likelihood marginal) no depende de $\theta$, entonces se puede ignorar su contribución al buscar el estimador $\hat\theta_{MAP}$ (*Maximum a posteriori estimator*) que maximice la posterior como
$$
\begin{align*}
\hat\theta_{MAP} &= \underset{\theta}{\mathrm{argmax}} \left\{ {\color{black}{P(\Theta=\theta|X=x)}} \right\}\\
&= \underset{\theta}{\mathrm{argmax}} \left\{ {\color{red}{P(X=x|\Theta=\theta)} \color{green}{P(\Theta=\theta)}} \right\}.
\end{align*}
$$

Por lo pronto, en esta práctica nos vamos a concentrar en calcular estimadores que maximicen solamente la likelihood $\hat\theta_{MLE}$ (*Maximum likelihood estimator*), de la forma
$$
\hat\theta_{MLE} = \underset{\theta}{\mathrm{argmax}} \left\{ {\color{red}{P(X=x|\Theta=\theta)}} \right\}.
$$

Para el caso en el que la prior sea constante en $\theta$ o que tenga un único máximo que coincida con el máximo de la likelihood (y que sea también único), entonces
$$
\hat\theta_{MLE} = \hat\theta_{MAP}.
$$

* [Wikipedia - Likelihood function](https://en.wikipedia.org/wiki/Likelihood_function)
* [Wikipedia - Maximum likelihood estimation](https://en.wikipedia.org/wiki/Maximum_likelihood_estimation)
* [Wikipedia - Maximum a posteriori estimation](https://en.wikipedia.org/wiki/Maximum_a_posteriori_estimation)

## Solución
Sea la variable aleatoria con distribución normal
$$
X \sim \mathcal{N}(\mu, \sigma^2),
$$
luego, la likelihood es la distribución de densidad de probabilidad de $X$, pero vista como función de los parámetros $(\mu, \sigma)$
$$
\begin{align*}
\mathcal{L}(\mu, \sigma; x) &= f(x; \mu, \sigma)\\
&= \frac{1}{\sigma\sqrt{2\pi}} \exp\left[-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right].
\end{align*}
$$

En el caso en que $\sigma$ y $x$ estén fijos, el estimador maximum likelihood para $\mu$ es
$$
\begin{align*}
\hat\mu_{MLE} &= \underset{\mu}{\mathrm{argmax}} \left\{ \mathcal{L}(\mu) \right\}\\
&= \underset{\mu}{\mathrm{argmax}} \left\{ \ln \mathcal{L}(\mu) \right\},
\end{align*}
$$
donde aplicamos el logaritmo que no cambia la ubicación del máximo por ser monótono creciente.

Luego, usando cálculo, el máximo debe satisfacer que las derivadas
$$
\begin{cases}
d_\mu \ln \mathcal{L}(\mu) |_{\mu = \hat\mu_{MLE}} = 0 \text{ o no definida}\\
d^2_\mu \ln \mathcal{L}(\mu) |_{\mu = \hat\mu_{MLE}} < 0
\end{cases},
$$
y tenemos que
$$
\begin{align*}
d_\mu \ln \mathcal{L}(\mu) &= d_\mu \left\{ \underbrace{-\ln\sqrt{2\pi}\sigma}_{\text{cte}} + \left[ -\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2 \right]  \right\}\\
&= \frac{x-\mu}{\sigma^2},
\end{align*}
$$
con
$$
\begin{align*}
d^2_\mu \ln \mathcal{L}(\mu) &= -\frac{1}{\sigma^2}\\
&< 0,
\end{align*}
$$
por lo que
$$
\hat\mu_{MLE} = x.
$$

Por su parte, el valor máximo que adopta la likelihood es
$$
\begin{align*}
\mathcal{L}_{\max} &= \underset{\mu}{\max} \left\{ \mathcal{L}(\mu) \right\}\\
&= \mathcal{L}(\hat\mu_{MLE})\\
&= \frac{1}{\sigma\sqrt{2\pi}},
\end{align*}
$$
y el cociente de likelihood es
$$
\begin{align*}
\lambda(\mu) &= \frac{\mathcal{L}(\mu)}{\mathcal{L}_{\max}}\\
&= \exp\left[-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right],
\end{align*}
$$
con función de costo
$$
\begin{align*}
J(\mu) &= -2 \ln \lambda(\mu)\\
&= \left(\frac{x-\mu}{\sigma}\right)^2,
\end{align*}
$$
la cual es una parábola con vértice en $\mu=x=\hat\mu_{MLE}$, abierta hacia arriba, con ancho de apertura proporcional a $\sigma$ y 
$$
J(\hat\mu_{MLE}) = 0.
$$

In [5]:
%run ./ej4.py

VBox(children=(Label(value='Seleccionar parámetros', layout=Layout(display='flex', justify_content='center')),…

---
## Ejercicio 5
Una moneda cargada se lanza $n = 12$ veces de la cuáles salen $k = 8$ caras.

Considerar la función de masa de probabilidad binomial del número de caras $P(k) = {n\choose k} p^k (1 - p)^{n-k}$.

Graficar la función de verosimilitud del parámetro $p$ para los valores dados de $n$ y $k$ ($\mathcal{L}(p)$).

Calcular el estimador de máxima verosimilitud de $p$ en función de $n$ y $k$ derivando $\mathcal{L}(p)$ ($\hat{p}$).

Calcular la máxima verosimilitud $\mathcal{L}_{\max} = \mathcal{L}(\hat{p})$.

Calcular el cociente de verosimilitudes $\lambda(p) = \mathcal{L}(p)/\mathcal{L}_{\max}$ y graficar la función de costo $J(p) = -2 \ln \lambda(p)$.

## Solución
Sea la variable aleatoria con distribución binomial
$$
K \sim B(n, p),
$$
luego, la likelihood es la distribución de masa de probabilidad de $K$, pero vista como función de los parámetros $(n, p)$
$$
\begin{align*}
\mathcal{L}(n, p; k) &= f(k; n, p)\\
&= {n\choose k} p^k (1 - p)^{n-k}.
\end{align*}
$$

En el caso en que $p$ y $k$ estén fijos, el estimador maximum likelihood para $p$ es
$$
\begin{align*}
\hat{p}_{MLE} &= \underset{p}{\mathrm{argmax}} \left\{ \mathcal{L}(p) \right\}\\
&= \underset{p}{\mathrm{argmax}} \left\{ \ln \mathcal{L}(p) \right\},
\end{align*}
$$
donde aplicamos el logaritmo que no cambia la ubicación del máximo por ser monótono creciente.

Luego, usando cálculo, el máximo debe satisfacer que las derivadas
$$
\begin{cases}
d_p \ln \mathcal{L}(p) |_{p = \hat{p}_{MLE}} = 0 \text{ o no definida}\\
d^2_p \ln \mathcal{L}(p) |_{p = \hat{p}_{MLE}} < 0
\end{cases},
$$
y tenemos que
$$
\begin{align*}
d_p \ln \mathcal{L}(p) &= d_p \left[ \underbrace{\ln {n\choose k}}_{\text{cte}} + k \ln p + (n-k) \ln (1-p) \right]\\
&= \frac{k}{p} + \frac{n-k}{1-p},
\end{align*}
$$
con
$$
\begin{align*}
d^2_p \ln \mathcal{L}(p) &= -\frac{k}{p^2} - \frac{n-k}{(1-p)^2}\\
&< 0, \text{ pues $k < n$, }
\end{align*}
$$
por lo que
$$
\hat{p}_{MLE} = \frac{k}{n}.
$$

Por su parte, el valor máximo que adopta la likelihood es
$$
\begin{align*}
\mathcal{L}_{\max} &= \underset{p}{\max} \left\{ \mathcal{L}(p) \right\}\\
&= \mathcal{L}(\hat{p}_{MLE})\\
&= {n\choose k} \left(\frac{k}{n}\right)^k \left(1 - \frac{k}{n}\right)^{n-k},
\end{align*}
$$
y el cociente de likelihood es
$$
\begin{align*}
\lambda(p) &= \frac{\mathcal{L}(p)}{\mathcal{L}_{\max}}\\
&= \left(\frac{p}{k/n}\right)^k \left(\frac{1 - p}{1 - k/n}\right)^{n-k},
\end{align*}
$$
con función de costo
$$
\begin{align*}
J(p) &= -2 \ln \lambda(p)\\
&= -2 \left[ k \ln \left(\frac{p}{k/n}\right) + (n-k) \ln  \left(\frac{1 - p}{1 - k/n}\right) \right],
\end{align*}
$$
lo cual evaluado en $\hat{p}_{MLE} = k/n$ es
$$
J(\hat{p}_{MLE}) = 0.
$$

In [6]:
%run ./ej5.py

VBox(children=(Label(value='Seleccionar parámetros', layout=Layout(display='flex', justify_content='center')),…

---
## Ejercicio 6
Un experimento mide tres veces una variable normal $X$ obteniendo los valores $x_1 = 3.38$, $x_2 = 5.06$ y $x_3 = 7.67$.

Escribir la distribución de probabilidad conjunta de ($X_1$, $X_2$, $X_3$).

Considerando que la media $\mu$ es desconocida y la desviación estándar es $\sigma = 1.4$, encontrar y graficar la función de verosimilitud $\mathcal{L}(\mu)$.

Calcular el estimador de máxima verosimilitud de $\mu$.

Calcular el cociente de verosimilitudes $\lambda(\mu) = \mathcal{L}(\mu)/\mathcal{L}_{\max}$ y graficar la función de costo $J(\mu) = -2 \ln \lambda(\mu)$.

## Solución
Sea $X_i$ la $i$-ésima observación de una variable aleatoria con distribución normal
$$
X_i \sim \mathcal{N}(\mu, \sigma^2),
$$
se realizan $n$ observaciones iid y se obtienen
$$
X_i = x_i,
$$
con las que se construye el vector de datos
$$
\mathbf{x} = (x_1, \dots, x_n).
$$

Este problema puede también interpretarse como generar una realización de una variable aleatoria multinormal independiente y no correlacionada
$$
\mathbf{X} \sim \mathcal{N}_n(\mu \mathbf{1}, \sigma^2 \mathbb{1}).
$$

Luego, la likelihood es la distribución de densidad de probabilidad de $\mathbf{X}$, pero vista como función de los parámetros $(\mu, \sigma)$
$$
\begin{align*}
\mathcal{L}(\mu, \sigma; \mathbf{x}) &= f(\mathbf{x}; \mu, \sigma)\\
&= \prod_i f(x_i; \mu, \sigma)\\
&= \prod_i \frac{1}{\sigma\sqrt{2\pi}} \exp\left[-\frac{1}{2}\left(\frac{x_i-\mu}{\sigma}\right)^2\right].
\end{align*}
$$

En el caso en que $\sigma$ y $\mathbf{x}$ estén fijos, el estimador maximum likelihood para $\mu$ es
$$
\begin{align*}
\hat\mu_{MLE} &= \underset{\mu}{\mathrm{argmax}} \left\{ \mathcal{L}(\mu) \right\}\\
&= \underset{\mu}{\mathrm{argmax}} \left\{ \ln \mathcal{L}(\mu) \right\},
\end{align*}
$$
donde aplicamos el logaritmo que no cambia la ubicación del máximo por ser monótono creciente.

Luego, usando cálculo, el máximo debe satisfacer que las derivadas
$$
\begin{cases}
d_\mu \ln \mathcal{L}(\mu) |_{\mu = \hat\mu_{MLE}} = 0 \text{ o no definida}\\
d^2_\mu \ln \mathcal{L}(\mu) |_{\mu = \hat\mu_{MLE}} < 0
\end{cases},
$$
y tenemos que
$$
\begin{align*}
d_\mu \ln \mathcal{L}(\mu) &= d_\mu \left\{ \underbrace{-n\ln\sqrt{2\pi}\sigma}_{\text{cte}} + \sum_i \left[ -\frac{1}{2}\left(\frac{x_i-\mu}{\sigma}\right)^2 \right]  \right\}\\
&= \frac{1}{\sigma^2} \left[ \left( \sum_i x_i\right) - n\mu \right],
\end{align*}
$$
con
$$
\begin{align*}
d^2_\mu \ln \mathcal{L}(\mu) &= -\frac{n}{\sigma^2}\\
&< 0,
\end{align*}
$$
por lo que
$$
\begin{align*}
\hat\mu_{MLE} &= \frac{1}{n} \sum_i x_i\\
&= \hat{\bar{x}}.
\end{align*}
$$

Por su parte, el valor máximo que adopta la likelihood es
$$
\begin{align*}
\mathcal{L}_{\max} &= \underset{\mu}{\max} \left\{ \mathcal{L}(\mu) \right\}\\
&= \mathcal{L}(\hat\mu_{MLE})\\
&= \prod_i \frac{1}{\sigma\sqrt{2\pi}} \exp\left[-\frac{1}{2}\left(\frac{x_i-\hat{\bar{x}}}{\sigma}\right)^2\right],
\end{align*}
$$
y el cociente de likelihood es
$$
\begin{align*}
\lambda(\mu) &= \frac{\mathcal{L}(\mu)}{\mathcal{L}_{\max}}\\
&= \prod_i \exp\left\{ -\frac{1}{2}\left[ \left(\frac{x_i-\mu}{\sigma}\right)^2 - \left(\frac{x_i-\hat{\bar{x}}}{\sigma}\right)^2 \right] \right\},
\end{align*}
$$
con función de costo
$$
\begin{align*}
J(\mu) &= -2 \ln \lambda(\mu)\\
&= \frac{1}{\sigma^2} \sum_i \left[ (x_i-\mu)^2 - (x_i-\hat{\bar{x}})^2 \right]\\
&= \frac{1}{\sigma^2} \sum_i \left[ \mu^2 - \hat{\bar{x}}^2 - 2(\mu - \hat{\bar{x}}) x_i \right]\\
&= n \left(\frac{\mu - \hat{\bar{x}}}{\sigma}\right)^2,
\end{align*}
$$
la cual es una parábola con vértice en $\mu=\hat{\bar{x}}=\hat{\mu}_{MLE}$, abierta hacia arriba, con ancho de apertura proporcional a $\sigma / \sqrt{n}$ y
$$
J(\hat\mu_{MLE}) = 0,
$$
y si $n=1$ se recupera el comportamiento del Ejercicio 4.

In [7]:
%run ./ej6.py

VBox(children=(Label(value='Seleccionar parámetros', layout=Layout(display='flex', justify_content='center')),…

---
## Ejercicio 7 (Para entregar)
Considerar las variables $X_1$ and $X_2$ que siguen una distribución binormal con varianzas $\sigma_1 = 2.3$, $\sigma_2 = 1.7$ y correlación $\rho = -0.78$.

Calcular la función de verosimilitud de los parámetros $\mu_1$ y $\mu_2$ para los valores observados $x_1 = 7.9$ y $x_2 = 13.4$ ($\mathcal{L}(\mu1 , \mu2 )$).

Calcular los estimadores de máxima verosimilitud de $\mu_1$ y $\mu_2$ y evaluar la verosimilitud máxima $\mathcal{L}_{\max}$.

Calcular el cociente de verosimilitudes $\lambda(\mu_1, \mu_2) = \mathcal{L}(\mu_1, \mu_2)/\mathcal{L}_{\max}$ y graficar la función de costo $J(\mu_1, \mu_2) = -2 \ln \lambda(\mu_1, \mu_2)$.

### Notación
Sean el vector bidimensional $\mathbf{x} = (x_1, x_2)$, y la función $f: \mathbb{R}^2 \mapsto \mathbb{R}$, denotamos el gradiente de $f$ respecto de $\mathbf{x}$ como
$$
\nabla_{\mathbf{x}} f(\mathbf{x}) \dot{=} \left[\partial_{x_1}f(\mathbf{x}), \partial_{x_2}f(\mathbf{x})\right],
$$
y denotamos la matriz hessiana de $f$ respecto de $\mathbf{x}$ como
$$
\begin{align*}
\mathrm{Hessian}_{{\mathbf{x}}} f(\mathbf{x}) &\dot{=} \mathrm{Jacobian}_{{\mathbf{x}}} \nabla_{\mathbf{x}} f(\mathbf{x})\\
&\dot{=} \left[ \frac{\partial^2 f(\mathbf{x})}{\partial x_i\partial x_j} \right].
\end{align*}
$$

Sean el vector bidimensional $\mathbf{x} = (x_1, x_2)$, y la función vectorial $\mathbf{f}: \mathbb{R}^2 \mapsto \mathbb{R}^2$, con $\mathbf{f}(\mathbf{x}) = (f_1(\mathbf{x}), f_2(\mathbf{x}))$, usamos el operador gradiente para denotar al jacobiano $\mathbf{f}$ respecto de $\mathbf{x}$
$$
\begin{align*}
\nabla_{\mathbf{x}} \mathbf{f}(\mathbf{x}) &\dot{=} \mathrm{Jacobian}_{{\mathbf{x}}} \mathbf{f}(\mathbf{x})\\
&\dot{=} \left[ \frac{\partial f_i(\mathbf{x})}{\partial x_j} \right].
\end{align*}
$$

## Solución
Sea la variable aleatoria binormal
$$
X = (X_1, X_2) \sim \mathcal{N}_2(\boldsymbol{\mu}, \Sigma),
$$
con media desconocida
$$
\boldsymbol{\mu} = (\mu_1, \mu_2),
$$
y matriz de covarianza
$$
\Sigma = \begin{pmatrix}
\sigma_1^2 & \rho\sigma_1\sigma_2\\
\rho\sigma_1\sigma_2 & \sigma_2^2
\end{pmatrix},
$$
con $\sigma_1 = 2.3$, $\sigma_2 = 1.7$, $\rho = -0.78$.

*Comentario*: la matriz de covarianza es simétrica y definida positiva, y su inversa $\Sigma^{-1}$ también.

Luego, la likelihood es la distribución de densidad de probabilidad de $\mathbf{X}$, pero vista como función de los parámetros $(\boldsymbol{\mu}, \Sigma)$
$$
\begin{align*}
\mathcal{L}(\boldsymbol{\mu}, \Sigma; \mathbf{x}) &= f(\mathbf{x}; \boldsymbol{\mu}, \Sigma)\\
&= \frac{1}{2\pi \sqrt{\det{\Sigma}}} \exp\left[ -\frac{1}{2} (\mathbf{x}-\boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x}-\boldsymbol{\mu}) \right].
\end{align*}
$$

En el caso en que $\Sigma$ y $\mathbf{x}=(x_1, x_2)$ estén fijos, el estimador maximum likelihood para $\boldsymbol{\mu}$ es
$$
\begin{align*}
\hat{\boldsymbol{\mu}}_{MLE} &= \underset{\boldsymbol{\mu}}{\mathrm{argmax}} \left\{ \mathcal{L}(\boldsymbol{\mu}) \right\}\\
&= \underset{\boldsymbol{\mu}}{\mathrm{argmax}} \left\{ \ln \mathcal{L}(\boldsymbol{\mu}) \right\},
\end{align*}
$$
donde aplicamos el logaritmo que no cambia la ubicación del máximo por ser monótono creciente.

Luego, usando cálculo, el máximo de la likelihood debe satisfacer que
$$
\begin{cases}
\nabla_{\boldsymbol{\mu}} \ln \mathcal{L}(\boldsymbol{\mu}) |_{\boldsymbol{\mu} = \hat{\boldsymbol{\mu}}_{MLE}} = \mathbf{0} \text{ o no definido}\\
\mathrm{Hessian}_{\boldsymbol{\mu}} \ln \mathcal{L}(\boldsymbol{\mu}) |_{\boldsymbol{\mu} = \hat{\boldsymbol{\mu}}_{MLE}} \text{ definida negativa}
\end{cases},
$$
y tenemos que
$$
\begin{align*}
\nabla_{\boldsymbol{\mu}} \ln \mathcal{L}(\boldsymbol{\mu}) &= \nabla_{\boldsymbol{\mu}} \left\{ \underbrace{-\ln2\pi\sqrt{\det\Sigma}}_{\text{cte}} + \left[ -\frac{1}{2} (\mathbf{x}-\boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x}-\boldsymbol{\mu}) \right] \right\}\\
&= \nabla_{\boldsymbol{\mu}} \left[ -\frac{1}{2} (\mathbf{x}-\boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x}-\boldsymbol{\mu}) \right]\\
&= -\frac{1}{2} \left[ \underbrace{\mathrm{Jacobian}_{\boldsymbol{\mu}}(\mathbf{x}-\boldsymbol{\mu})^T}_{-\mathbb{1}} \Sigma^{-1} (\mathbf{x}-\boldsymbol{\mu}) + (\mathbf{x}-\boldsymbol{\mu})^T \Sigma^{-1} \underbrace{\mathrm{Jacobian}_{\boldsymbol{\mu}}(\mathbf{x}-\boldsymbol{\mu})}_{-\mathbb{1}} \right] \text{ derivada del producto}\\
&= \frac{1}{2} \left[ \Sigma^{-1} (\mathbf{x}-\boldsymbol{\mu}) + \underbrace{(\mathbf{x}-\boldsymbol{\mu})^T \Sigma^{-1}}_{\Sigma^{-1} (\text{ $\mathbf{x}-\boldsymbol{\mu})$ por ser $\Sigma^{-1}$ simétrica}} \right]\\
&= \Sigma^{-1} (\mathbf{x}-\boldsymbol{\mu}),
\end{align*}
$$
con
$$
\begin{align*}
\mathrm{Hessian}_{\boldsymbol{\mu}} \ln \mathcal{L}(\boldsymbol{\mu}) &= \mathrm{Jacobian}_{{\boldsymbol{\mu}}} \nabla_{\boldsymbol{\mu}} \ln \mathcal{L}(\boldsymbol{\mu})\\
&= \mathrm{Jacobian}_{{\boldsymbol{\mu}}} \Sigma^{-1} (\mathbf{x}-\boldsymbol{\mu})\\
&= \Sigma^{-1} \underbrace{\mathrm{Jacobian}_{{\boldsymbol{\mu}}} (\mathbf{x}-\boldsymbol{\mu})}_{-\mathbb{1}}\\
&= -\Sigma^{-1} \text{ definida negativa},
\end{align*}
$$
por lo que el estimador maximum likelihood es solución de
$$
\begin{align*}
\Sigma^{-1} (\mathbf{x}-\hat{\boldsymbol{\mu}}_{MLE}) &= \mathbf{0}\\
\implies \underbrace{\Sigma\Sigma^{-1}}_{\mathbb{1}} (\mathbf{x}-\hat{\boldsymbol{\mu}}_{MLE}) &= \underbrace{\Sigma\mathbf{0}}_{\mathbf{0}}\\
\implies \hat{\boldsymbol{\mu}}_{MLE} &= \mathbf{x}.
\end{align*}
$$

Por su parte, el valor máximo que adopta la likelihood es
$$
\begin{align*}
\mathcal{L}_{\max} &= \underset{\boldsymbol{\mu}}{\max} \left\{ \mathcal{L}(\boldsymbol{\mu}) \right\}\\
&= \mathcal{L}(\hat{\boldsymbol{\mu}}_{MLE})\\
&= \frac{1}{2\pi \sqrt{\det{\Sigma}}},
\end{align*}
$$
y el cociente de likelihood es
$$
\begin{align*}
\lambda(\boldsymbol{\mu}) &= \frac{\mathcal{L}(\boldsymbol{\mu})}{\mathcal{L}_{\max}}\\
&= \exp\left[ -\frac{1}{2} (\mathbf{x}-\boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x}-\boldsymbol{\mu}) \right],
\end{align*}
$$
con función de costo
$$
\begin{align*}
J(\boldsymbol{\mu}) &= -2 \ln \lambda(\boldsymbol{\mu})\\
&= (\mathbf{x}-\boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x}-\boldsymbol{\mu})\\
&\ge 0,
\end{align*}
$$
la cual se anula en el estimador de maximum likelihood y es su mínimo
$$
J(\hat{\boldsymbol{\mu}}_{MLE}) = 0,
$$
y es igual a la forma cuadrática $q(\mathbf{x}; \boldsymbol{\mu}, \Sigma)$ pero como función de $(\boldsymbol{\mu}, \Sigma)$ y tratando a $\mathbf{x}$ como parámetro
$$
\begin{align*}
J(\boldsymbol{\mu}, \Sigma; \mathbf{x}) &= q(\mathbf{x}; \boldsymbol{\mu}, \Sigma)\\
&= (\mathbf{x}-\boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x}-\boldsymbol{\mu}),
\end{align*}
$$
siendo sus superficies de nivel
$$
q(\mathbf{x}; \boldsymbol{\mu}, \Sigma) = r^2,
$$
elipses, si $r > 0$.

In [8]:
%run ./ej7.py

HBox(children=(Output(), VBox(children=(Label(value='Seleccionar parámetros', layout=Layout(display='flex', ju…