<a href="https://colab.research.google.com/github/DepartmentOfStatisticsPUE/bi-2021/blob/main/materials/3_mle_optimization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Metoda największej wiarygodności



## Teoria

Niech $f_{i}\left(k_{i} ; \mathbf{\theta}\right)$ będzie funkcją gęstości (probability density function; pdf) zmiennej losowej $X$ gdzie  $\mathbf{\theta}$ jest wektorem parametrów tego rozkładu (przykładowo $\lambda$ jest parameterem rozkładu Poissona), wtedy, funkcja wiarygodności (likelihood function) tej zmiennej losowej, przy założeniu $N$ niezależnych realiacji (np. obserwacji, $x_i$), dana jest wzorem:

\begin{equation}
        f(\mathbf{x} ; \mathbf{\theta})=\prod_{i=1}^{N} f_{i}\left(x_{i} ; \mathbf{\theta}\right)
\end{equation}


Estymatorem największej wiarygodności (maximum likelihood estimator; MLE) wektora parametrów $\mathbf{\theta}$ nazywamy takie wartości, które maksymalizują funkcję wiarygodności

\begin{equation}
    \hat{\mathbf{\theta}} =\arg \max _{\mathbf{\theta}} f(\mathbf{x} ; \mathbf{\theta}) =\arg \min _{\theta} l_{\mathbf{x}}(\mathbf{\theta}),
\end{equation}

gdzie


\begin{equation}
    l_{\mathrm{x}}(\mathbf{\theta}) =-\sum_{i=1}^{N} \log f\left(x_{i} ; \mathbf{\theta}\right) =-N \log f\left(x_{i} ; \mathbf{\theta}\right) 
\end{equation}

## Metoda największej wiarygodności -- przykład dla rozkładu Poissona


Funkcja wiatygodności dla rozkładu Poissona dana jest wzorem:

\begin{equation}
        L\left(x_{1}, \ldots, x_{n}; \lambda \right)=\prod_{i=1}^{n} \exp (-\lambda) \frac{1}{x_{i} !} \lambda^{x_{i}}.
\end{equation}

Natomiast logarytm funkcji wiarygodności dany jest


\begin{equation}
        \log L \left(x_{1}, \ldots, x_{n}; \lambda \right)=-n \lambda-\sum_{i=1}^{n} \ln \left(x_{i} !\right)+\ln (\lambda) \sum_{i=1}^{n} x_{i}
\end{equation}

Porównując pierwszą pochodną $\partial \log L/ \partial \lambda =0$ uzyskujemy oszacowanie $\lambda$, które w przypadku rozkładu Poissona jest średnią arytmetyczną po obserwaciach

\begin{equation}
        \hat{\lambda}_{MLE}=\frac{1}{n} \sum_{i=1}^{n} x_{i}.
\end{equation}

## MLE -- uwagi praktyczne

+ W zależności od rozkładu możemy uzyskać estymator analitycznie (analytic / closed from) $\mathbf{\theta}$, która wyrażona jest konkretnym wzorem (jak w przypadku rozkładu Poissona),
+ W innych przypadkach, należy zastosować metody numeryczne, które wymagają określenia gradientu (czyli pierwszych pochodnych) oraz hessianu (czyli drugich pochodnych). Wtedy zwykle stosuje się metodę Newtona-Raphson'a.
+ Programy statystyczne (jak R) czy biblioteki w ramach języków programowania (np. python scipy) implementują równiez rozwiązania nie wymagjące określania gradientu czy hessianu wykorzystując metody numeryczne do ich obliczenia. Warto spojrzeć na ten materiał przygotowany przez głównego developera probabilistycznego języka programowania stan Boba Carpenter'a: [Automatic Differentiation Handbook](https://github.com/bob-carpenter/ad-handbook/blob/master/ad-handbook-draft.pdf)).

W kolejnych krokach omówiono jak działa metoda Newtona-Raphson'a.

## Metoda Newtona-Raphson'a  dla jednego parametru

Dana jest funkcja $f$: $\mathbb{R}^1 \to \mathbb{R}^1 $, która musi być dwukrotnie różniczkowalna (istnieje skończona pierwsza i druga pochodna). Naszym zadaniem jest znalezienie miejsc zerowych tej funkcji (ang. roots), które są rozwiązaniem układu równań $f(x)=0$. Aby go rozwiązać zacznijmy od określenia punktu startowego oznaczonego prze $x_0=x_1$. 
    
W $k$-tym kroku, daną wartość $x_k$, obliczamy wykorzystując wynik z poprzedniego kroku $x_{k-1}$ oraz wartość funkcji f oraz jej pochodnej w tym punkcie:

\begin{equation}
        x_{k} = x_{k-1} - \frac{f(x_{k-1})}{f'(x_{k-1})}.
\end{equation} 
    
Powtarzamy to działanie aż spełniony zostanie warunek $|x_{k}-x_{k-1}| < \epsilon$, gdzie $\epsilon$ to odpowiednio mała różnica. Oczywiście są również inne warunki oraz kryterua warunków stopu.
    
Przykład działania ten procedury całkiem dobrze opisany jest tutaj: http://amsi.org.au/ESA_Senior_Years/SeniorTopic3/3j/3j_2content_2.html.


## Metoda Newtona-Raphson'a  -- wielowymiarowy wektor parametrów 

W przypadku wielowymiarowej wersji metody NR nalezy rozwiązać wielowymiarowy układ równań dany wzorem (zwykle porównujemy pochodną pierwszego rzędu dlatego tutaj użyto oznaczenia $\nabla \mathbf{f}$ co oznacza gradient czyli pierwsze pochodne):
    
\begin{equation}
        \nabla \mathbf{f}(\mathbf{x}) = \mathbf{0},
\end{equation}
    

który można rozwiązać w podobny sposób jak powyżej 

\begin{equation}
    \mathbf{x}_{k} = \mathbf{x}_{k-1} - \mathbf{H}(\mathbf{x}_{k-1})^{-1}\nabla \mathbf{f}(\mathbf{x}_{k-1}),
\end{equation}

gdzie $\nabla \mathbf{f}(\mathbf{x}_{k})$ jest gradientem and $\mathbf{H}(\mathbf{x}_{k})$ jest hessianem  funkcji $\mathbf{f}(\mathbf{x}_{k})$ (macierz pochodnych rzędu drugiego). 

## Procedury optymalizacji

Istnieje bardzo dużo różnych metod rozwiązywania układów równań (nie)liniowych czy szacowania parametrów metodą największej wiarygodności. Metody te, możemy zaklasyfikować według następującego wzorca:

 + nie wymagające gradientu (ang. gradient free)

    + Nelder-Mead
    + Simulated Annealing
    + Particle Swarm

+ wymagające gradient (ang. gradient required)
    + Conjugate Gradient Descent
    + Gradient Descent
    + (L-)BFGS

+ wymagjace hessianu (ang. hessian required)
    + Newton's Method
    + Newton's Method With a Trust Region

Aby dowiedzieć się więcej proszę spojrzeć na dokumentację:

+ **Optim.jl** --  https://julianlsolvers.github.io/Optim.jl 
+ **scipy.optimize** https://docs.scipy.org/doc/scipy/reference/tutorial/optimize.html.
+ **maxLik** -- https://cran.rstudio.com/web/packages/maxLik/
+ **PROC IML** i funkcje do rozwiązywania układów równań nieliowych -- https://documentation.sas.com/?cdcId=pgmsascdc&cdcVersion=9.4_3.4&docsetId=imlug&docsetTarget=imlug_nonlinearoptexpls_sect001.htm&locale=en 
+ **PROC NLP** -- https://support.sas.com/rnd/app/or/procedures/nlp.html

# Przykład #1 
 
## Zadanie

Załóżmy, że zmienna $X$ pochodzi z uciętego rozkładu Poissona, którego funkcja gęstości określona jest wzorem

$$
P(X=x, X>0; \lambda) = \frac{f(x; \lambda)}{1 - f(0;\lambda)} = \frac{\lambda^x e^{-\lambda}}{x!(1-e^{-\lambda})} =  \frac{\lambda^x}{(e^\lambda-1)x!}.
$$

Naszym zadaniem jest:

+ oszacowanie parametru $\lambda$ metodą największej wiarygodności,
+ aby tego dokonać musimy zdefiniować logarytm funkcji wiarygodnosci, jej gradient oraz hessian i zastosować odpowiednią procedurę (np. *optim* z pakietu R).


## Rozwiązanie

Zacznijmy od zdefiniowania funkcji wiarygodności

$$
L = \prod_i \frac{\lambda^x_i}{(e^\lambda-1)x_i!},
$$

następnie jej logarytmu

$$
    \log L = \log
    \left(
    \prod_i \frac{\lambda^x_i}{(e^\lambda-1)x_i!}
    \right) = 
    \sum_i \log 
    \left( 
    \frac{\lambda^x_i}{(e^\lambda-1)x_i!}
    \right),
$$ 

która po uproszczeniu ma następującą postać

$$
\log L = \sum_i x_i \log \lambda - \sum_i \log(e^\lambda-1) - \sum_i \log(x_i!).
$$ 

Aby oszacować parametr $\lambda$ musimy określić pierwszą pochodną

$$
\frac{\partial \log L}{\partial \lambda} = \frac{\sum_i x_i}{\lambda} - \frac{n e^\lambda}{e^\lambda - 1} = \frac{\sum_i x_i}{\lambda} - n \frac{e^\lambda}{e^\lambda - 1}. 
$$

Możemy również określić hessian

$$
\frac{\partial^2 \log L}{\partial \lambda^2} =  - \frac{\sum_i x_i}{\lambda^2} + n \frac{e^\lambda}{(e^\lambda-1)^2}.
$$

# Implementacja w R


In [None]:
install.packages(c("rootSolve", "maxLik", "extraDistr", "numDeriv", "rbenchmark"))

Installing packages into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘zoo’, ‘miscTools’, ‘sandwich’




In [None]:
library(maxLik) ## optymaizacja (maksymalizacja)
library(rootSolve) ## rozwiązywanie (nie)liniowych układów równań postaci f(x) = 0
library(extraDistr) ## ucięty rozkład poissona
library(numDeriv) ## numeryczne wyznaczanie gradienty
library(rbenchmark) ## benchmarki funkcji R 

$$
\log L = \sum_i x_i \log \lambda - \sum_i \log(e^\lambda-1)
$$ 

In [None]:
ll <- function(par, x) {
  m <- sum(x)*log(par)-length(x)*log(exp(par)-1)
  m
}

$$
\frac{\partial \log L}{\partial \lambda} = \frac{\sum_i x_i}{\lambda} - n \frac{e^\lambda}{e^\lambda - 1}. 
$$


In [None]:
grad <- function(par, x)  {
  g <- sum(x) / par - length(x)*exp(par)/(exp(par)-1)
  g
}

$$
\frac{\partial^2 \log L}{\partial \lambda^2} =  - \frac{\sum_i x_i}{\lambda^2} + n \frac{e^\lambda}{(e^\lambda-1)^2}.
$$

In [None]:
hess <- function(par, x) {
  h <- -sum(x)/par^2 + length(x)*exp(par)/(exp(par)-1)^2 
  h
}

Generujemy dane z uciętego rozkładu Poissona z $\lambda=2.5$. Przez argument `a` określamy punkt ucięcia. 

Te dane wykorzystamy do naszego badania zakładając, że nie znamy parametru $\lambda$ i musimy go oszacować.



In [None]:
set.seed(123)
x <- rtpois(10000, lambda = 2.5, a = 0)

Wykorzystujemy funkcję `maxLik` z pakietu o takiej samej nazwie. W argumencie `method="NR"` wskazujemy, że wybieramy metodę Newtona-Raphsona. **UWAGA** ta funkcja dokonuje **MAKSYMALIZACJI**, w przeciwieństwie do innych funkcji (np. `optim` czy `scipy.optimize`), które dokonują minimalizacji. 

W poniższym kodzie wykorzystujemy tylko funkcję wiarygodności (`ll`), nie podajemy gradientu ani hessianu.

In [None]:
res <- maxLik(logLik = ll, start = 1, x = x, method = "NR")
summary(res)

--------------------------------------------
Maximum Likelihood estimation
Newton-Raphson maximisation, 6 iterations
Return code 2: successive function values within tolerance limit (tol)
Log-Likelihood: 637.5431 
1  free parameters
Estimates:
     Estimate Std. error t value Pr(> t)    
[1,]  2.47732    0.01714   144.6  <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
--------------------------------------------

W tym podejściu podajemy zarówno gradient `grad` jak i hessian `hess`.

In [None]:
res2 <- maxLik(logLik = ll,  grad = grad, hess = hess, start = 1, x = x, method = "NR")
summary(res2)

--------------------------------------------
Maximum Likelihood estimation
Newton-Raphson maximisation, 6 iterations
Return code 1: gradient close to zero (gradtol)
Log-Likelihood: 637.5431 
1  free parameters
Estimates:
     Estimate Std. error t value Pr(> t)    
[1,]  2.47732    0.01713   144.6  <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
--------------------------------------------

Otrzymujemy dokładnie takie same wyniki. Dlaczego? Bo metoda `NR` w pakiecie `maxLik` wykorzystuje algorytm numerycznego przybliżenia gradientu i hessianu, które zwłaszcza w przypadku małych wymiarów (tu mamy jeden parametr) dają takie samw wyniki. 

## Przykład 2

Assume that $X$ follows Poisson distribution given by 

$$
P(X=x, \lambda_i) = \frac{\lambda^x e^{-\lambda}}{x!},
$$

where $\lambda_i = \theta_0 + \theta_1 \times z_i$, $\theta_0=1$, $\theta_1=1.5$, and $z_i \sim \text{Bern}(0.7)$ and number of observations is equal to $n=10,000$.

Tasks:

+ generate $z_i$,
+ generate $\lambda_i$ according to $\theta_0 + \theta_1 \times z_i$,
+ generate $X \sim Poisson(\lambda_i)$
+ derive log-likelihood, gradient and hessian,
+ obtain MLE of $\boldsymbol{\theta} = (\theta_0, \theta_1)$ using Newton-Raphson method. 

In [None]:
set.seed(123)
n <- 10000
z <- rbinom(n = n, prob = 0.7, size = 1)
theta_true <- c(1, 1.5)
lambda_true <- theta_true[1] + theta_true[2]*z
X <- rpois(n = n, lambda = lambda_true)
table(X)

X
   0    1    2    3    4    5    6    7    8    9   10   11 
1675 2554 2361 1633 1060  414  208   67   23    3    1    1 

Funkcja log-wiarygodności

$$
\log L(\theta_0, \theta_1; X_i, z_i) = -\lambda_i + x_i \log(\lambda_i) = -(\theta_0 + \theta_1z_i) + x_i \log(\theta_0 + \theta_1z_i)
$$

In [None]:
ll <- function(theta, z, X) {
  
  lam <- theta[1]+theta[2]*z
  l <- X*log(lam) - lam
  return(sum(l))
}

Gradient 

$$
\frac{\partial \log L}{\partial \mathbf{\theta}} = 
\begin{bmatrix}
\frac{\partial \log L}{\partial \theta_0} \\
\frac{\partial \log L}{\partial \theta_1}
\end{bmatrix} = 
\begin{bmatrix}
\sum_i \frac{x_i}{\theta_0 + \theta_1 z_i} - 1\\
\sum_i \frac{x_i z_i}{\theta_0 + \theta_1 z_i} - z_i
\end{bmatrix}
$$

In [None]:
ll_grad <- function(theta, z, X) {
  
  lam <- theta[1]+theta[2]*z
  l_g <- matrix(0, nrow = NROW(lam), ncol = 2)
  l_g[,1] <- X/lam - 1
  l_g[,2] <- X*z/lam - z
  return(colSums(l_g))
}

Hessian

$$
\frac{\partial^2 \log L}{\partial \mathbf{\theta}^2} = 
\begin{bmatrix}
\frac{\partial^2 \log L}{\partial \theta_0^2} & \frac{\partial^2 \log L}{\partial \theta_0 \partial\theta_1} \\
\frac{\partial^2 \log L}{\partial \theta_0 \partial\theta_1} & \frac{\partial^2 \log L}{\partial \theta_1^2} \\
\end{bmatrix} = 
\begin{bmatrix}
\sum_i \frac{-x_i}{(\theta_0+ \theta_1 z_i)^2} & \sum_i \frac{-x_i z_i}{(\theta_0+ \theta_1 z_i)^2} \\
\sum_i \frac{-x_i z_i}{(\theta_0+ \theta_1 z_i)^2} & \sum_i \frac{-x_i z_i^2}{(\theta_0+ \theta_1 z_i)^2} \\
\end{bmatrix}
$$

In [None]:
ll_hess <- function(theta, z, X) {
  
  lam <- theta[1]+theta[2]*z
  l_h <- matrix(0, nrow = 2, ncol = 2)
  l_h[1,1] <- sum(-X / lam^2)
  l_h[2,2] <- sum(-X * z^2 / lam^2)
  l_h[1,2] <- l_h[2,1] <- sum(-X * z/ lam^2)
  return(l_h)
}

In [None]:
solution <- maxLik(logLik = ll, start = c(1,1), z = z, X = X, method = "NR")
summary(solution)

--------------------------------------------
Maximum Likelihood estimation
Newton-Raphson maximisation, 4 iterations
Return code 8: successive function values within relative tolerance limit (reltol)
Log-Likelihood: -4465.706 
2  free parameters
Estimates:
     Estimate Std. error t value Pr(> t)    
[1,]  0.96816    0.01810   53.48  <2e-16 ***
[2,]  1.52560    0.02611   58.43  <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
--------------------------------------------

In [None]:
solution <- maxLik(logLik = ll, grad =  ll_grad, hess = ll_hess, start = c(1,1), z = z, X = X, method = "NR")
summary(solution)

--------------------------------------------
Maximum Likelihood estimation
Newton-Raphson maximisation, 4 iterations
Return code 1: gradient close to zero (gradtol)
Log-Likelihood: -4465.706 
2  free parameters
Estimates:
     Estimate Std. error t value Pr(> t)    
[1,]  0.96816    0.01811   53.46  <2e-16 ***
[2,]  1.52560    0.02611   58.43  <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
--------------------------------------------

Porównajmy jakie wartości uzyskujemy z gradientu i hessianu wyznaczonego analitycznie, a jakie z wyznaczonego numerycznie.

In [None]:
ll_grad(c(1,1), z=z, X=X)
numDeriv::grad(ll, c(1,1), z=z, X= X)

In [None]:
ll_hess(c(1,1), z=z, X=X)
numDeriv::hessian(ll, c(1,1), z=z, X=X)

0,1
-7252,-4394
-4394,-4394


0,1
-7252,-4394
-4394,-4394


Porównamy szybkość działania

In [None]:
## definiujemy sobie funkcje wcześniej
ll_grad_numeric <- function(theta, z, X) {
  numDeriv::grad(ll, theta, z=z, X=X)
}

ll_hess_numeric <- function(theta, z, X) {
  numDeriv::hessian(ll, theta, z=z, X=X)
}


In [None]:
benchmark(maxlik_bez = maxLik(logLik = ll, start = c(1,1), z = z, X = X, method = "NR"), 
          maxlik_analytic_grad = maxLik(logLik = ll, grad =  ll_grad, hess = ll_hess, start = c(1,1), z = z, X = X, method = "NR"),
          maxlik_analytic_grad_hess = maxLik(logLik = ll, grad =  ll_grad, start = c(1,1), z = z, X = X, method = "NR"),
          maxlik_numerical = maxLik(logLik = ll, grad =  ll_grad_numeric, hess = ll_hess_numeric, start = c(1,1), z = z, X = X, method = "NR"))

Unnamed: 0_level_0,test,replications,elapsed,relative,user.self,sys.self,user.child,sys.child
Unnamed: 0_level_1,<chr>,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
2,maxlik_analytic_grad,100,0.95,1.0,0.93,0.019,0,0
3,maxlik_analytic_grad_hess,100,1.856,1.954,1.797,0.05,0,0
1,maxlik_bez,100,4.344,4.573,4.268,0.066,0,0
4,maxlik_numerical,100,8.96,9.432,8.827,0.122,0,0


W przypadku `maxlik_numerical` problemem jest wielokrotne definiowane gradientu z funkcją `numDeriv::grad`. Można to rozwiązać stosując pakiet `calculus`.

## Rozwiązanie układu równań

Aby rozwiązać ten układ równań

\begin{equation}
        \nabla \mathbf{f}(\mathbf{x}) = \mathbf{0},
\end{equation}

możemy skorzystać z pakietu `rootSolve` i funkcji `multiroot`. W pythonie jest funkcja `scipy.optimize.root` (https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.root.html), a w Julii `NLsolve.jl` (https://github.com/JuliaNLSolvers/NLsolve.jl)

In [None]:
solve_root <- rootSolve::multiroot(ll_grad, start = c(1,1), z = z, X = X)
solve_root

In [None]:
solve_grad <- rootSolve::gradient(ll_grad, solve_root$root, z = z, X = X)
solve_grad

0,1
-5875.349,-2826.258
-2826.258,-2826.258


Jak otrzymać błędy standardowe? 



$$
se(\hat{\mathbf{\theta}}) = \sqrt{diag(H(\hat{\mathbf{\theta}})^{-1})}
$$

gdzie $H(\hat{\mathbf{\theta}})$ to Hessian wyznaczony dla wektora $\hat{\mathbf{\theta}}$.

In [None]:
sqrt(abs(diag(solve(solve_grad))))

Poniżej błędy standardowe wyznaczone na podstawie wyniku z obiektu `solution` utworzonego w wyniki `maxLik`

In [None]:
sqrt(diag(vcov(solution)))