**Materiály vznikají průběžně a jsou bez záruky - prosím o report chyb :-)**

In [1]:
import numpy as np
np.set_printoptions(precision=3)
from sympy import *
from scipy.stats import norm, uniform

# [Teorie odhadu](https://en.wikipedia.org/wiki/Estimation_theory) - bodové odhady


> **Definice ([Nestrannost odhadu](https://en.wikipedia.org/wiki/Bias_of_an_estimator))**
>
>Odhad $\hat \theta_n$ parametru $\theta$ se nazývá **nestranný** (**nevychýlený**), jestliže
>    
> $$\mathrm{E} \hat\theta_n(X_1,\dotsc,X_n) = \theta,\qquad \text{pro všechna}\ \theta\in \Theta.$$

Nestranný odhad není zatížen systematickou chybou, tj. ve střední hodnotě konverguje ke skutečné hodnotě parametru.

> **Definice ([Konzistence odhadu](https://en.wikipedia.org/wiki/Consistent_estimator))**
>
> Odhad $\hat \theta_n$ parametru $\theta$ se nazývá **konzistentní**, jestliže pro každé $\epsilon > 0$ a $\theta \in \Theta$ platí
>
> $$\lim_{n\to +\infty}\mathrm{P}\big(|\hat\theta_n(X_1,\dotsc,X_n) - \theta| \geq \epsilon\big) = 0.$$

Konzistence tedy znamená, že s rostoucím rozsahem výběru bude odhad blíže skutečné hodnotě parametru.

## Ilustrace z praxe

**Uvažujme, že stojíme před fakultou a zjišťujeme svou geografickou polohu pomocí GPS:**

![fit](img/fit-budova.jpg)
(zdroj: www.fit.cvut.cz)

Jinými slovy, máme **model** pro naši polohu, jehož **parametrem je naše skutečná poloha**. Tento parametr **neznáme**, ale budeme jej **odhadovat**.

Pokud budeme stát na místě, bude každé naše měření (realizace/pozorování náhodné veličiny) z GPS zatíženo **chybami** v důsledku interferencí, šumů v atmosféře, odrazů atd. Pokud získáme nové měření každých např. 100ms, tj. 10 měření za sekundu, a tato měření budeme průměrovat, můžeme očekávat, že odhad naší polohy se bude vylepšovat. Pokud bude odhad **konzistentní**, potom čím déle budeme budeme měření sbírat (hle, náhodný výběr), tím bude náš odhad přesnější a limitně bude nekonečně přesný. Do 1.5. 2000 byla přesnost GPS zatížena takzvanou SA ([Selective Availability](https://en.wikipedia.org/wiki/Error_analysis_for_the_Global_Positioning_System#Selective_availability)) chybou, která způsobovala inkonzistenci odhadu.

Pokud by byl odhad **vychýlený**, potom bychom systematicky dostávali polohu někde vedle.

**V angličtině:**

- rozlišujeme *odhad* "estimate" (číslo) a "estimator" (matematická formule)
- ne|vychýlený odhad - un|biased estimate, un|biased estimator, un|biasedness.

## Nejběžnější bodové odhady

- Výběrový průměr

$$
\bar{X_n} = \frac{1}{n} \sum_{i=1}^n X_i,
$$

- výběrový rozptyl nestranný (po [Besselově korekci](https://en.wikipedia.org/wiki/Bessel%27s_correction))

$$
s_n^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X_n})^2,
$$

- výběrová směrodatná odchylka

$$
s_n = \sqrt{s_n^2},
$$

- $k$. obecný výběrový moment

$$
\bar{X_n^k} = m_k = \frac{1}{n} \sum_{i=1}^n X_i^k,
$$

- dále pak výběrová kovariance, výběrový korelační koeficient atd.

## Momentová metoda ([MoM, Method of moments](https://en.wikipedia.org/wiki/Method_of_moments_(statistics&#41; ))

Pravděpodobným autorem momentové metody je Čebyšev. Pomocí této metody získáme odhady, jež jsou zpravidla konzistentní (podle limitních vět), ale často vychýlené. Shrňme si ji do několika málo bodů (pozn.: na přednášce byla vyložena s trochu jiným značením. Zde je to ekvivalentní, ale učte se z přednáškových materiálů.):

- **Cíl:** odhadnout $k$ parametrů $\theta_1, \ldots, \theta_k$ nějaké distribuce $F_X(x) = F_X(x; \theta_1,\ldots, \theta_k)$.
- Distribuce má **teoretické momenty** dané **nějakými** funkcemi parametrů $\theta_1,\ldots,\theta_k$, označme tyto funkce $g_1, g_2$ atd. Pro $k$ neznámých jich potřebujeme $k$:

$$
\begin{align}
\mathrm{E}X &= g_1(\theta_1, \ldots, \theta_k),\\
\mathrm{E}X^2 &= g_2(\theta_1, \ldots, \theta_k),\\
\vdots &\\
\mathrm{E}X^k &= g_k(\theta_1, \ldots, \theta_k),\\
\end{align}
$$

- Současně můžeme počítat **výběrové momenty** nezávislé na distribuci:

$$
\begin{align}
m_1 &= \frac{1}{n} \sum_{i=1}^n x_i = \bar{X_n}\\
m_2 &= \frac{1}{n} \sum_{i=1}^n x_i^2 = \bar{X_n^2}\\
\vdots & \\
m_k &= \frac{1}{n} \sum_{i=1}^n x_i^k = \bar{X_n^k}\\
\end{align}
$$

- MoM hledá odhady $\theta_1,\ldots,\theta_k$ označené $\hat{\theta}_1,\ldots,\hat{\theta}_k$ položením **rovnosti** mezi teoretickými a výběrovými momenty:
$$
\begin{align}
m_1 &= \mathrm{E}X = g_1(\hat{\theta}_1, \ldots, \hat{\theta}_k)\\
m_2 &= \mathrm{E}X^2 = g_2(\hat{\theta}_1, \ldots, \hat{\theta}_k)\\
\vdots & \\
m_k &= \mathrm{E}X^k = g_k(\hat{\theta}_1, \ldots, \hat{\theta}_k)\\
\end{align}
$$

Tedy např. pro distribuci s jedním parametrem $\theta$ máme

$$
m_1 = g_1(\theta) \Rightarrow \hat{\theta} = g_1^{-1}(m_1).
$$

### Příklad 9.1

**Předpokládejme, že délka transakce databázového serveru je náhodná veličina s exponenciálním rozdělením s parametrem $\lambda$. Délky transakcí jsou nezávislé.**

**a) Odvoďte odhad $\lambda$ momentovou metodou.**

Sepíšeme, co potřebujeme:

- Exponenciální distribuce má jediný parametr $\lambda\geq 0$ - budeme potřebovat jen jednu rovnici pro první moment.
- $\mathrm{E} X = \frac{1}{\lambda} = g_1(\lambda)$
- $m_1 = \bar{X_n}$

A řešíme:

$$
\begin{align}
m_1 &= g_1(\hat{\lambda}) \\
\bar{X_n} &= \frac{1}{\hat{\lambda}} \\
\hat{\lambda} &= \frac{1}{\bar{X_n}}
\end{align}
$$

Odhadem $\lambda$ je tedy převrácená hodnota aritmetického průměru.

**b) Z logu jsme zjistili, že délky posledních 5 transakcí byly: $5,\!4$; $15,\!6$; $9,\!3$; $0,\!5$ a $2,\!6$ ms. Určete číselnou hodnotu předchozího odhadu.**

In [2]:
X = np.array([5.4, 15.6, 9.3, 0.5, 2.6])
print('Odhad lambda je ', 1/X.mean())

Odhad lambda je  0.14970059880239522


## Maximálně věrohodný odhad ([MLE, Maximum likelihood estimation](https://en.wikipedia.org/wiki/Maximum_likelihood_estimation))

MLE je v současné době připisováno Britu [R.A. Fisherovi](https://en.wikipedia.org/wiki/Ronald_Fisher), který se postaral o rozšíření a popularizaci metody. Před ním už ale byla známa např. Gaussovi či Laplaceovi. 

Shrňme si ji rovněž do několika málo bodů:

- **Cíl:** hledáme odhad $\hat{\theta}$ parametru $\theta$ nějakého **statistického modelu**, tj. **distribuce**.
- Distribuce má **hustotu** $f_X(x) \equiv f_X(x; \theta)$.
- Budeme se ale zabývat [**věrohodností (likelihoodem)**](https://en.wikipedia.org/wiki/Likelihood_function) $\mathcal{L}(\theta) \equiv \mathcal{L}(\theta; X) "\equiv f_X(x; \theta)"$, kde ale **$X$ jsou fixována** (vzpomeňte, v hustotě jsme fixovali $\theta$), jinak je to "stejná funkce".
- zatímco hustota je tedy funkce $x$, likelihood je funkce $\theta$. 
- Pro $n$ pozorování máme **fixovaná data, neznámý parametr a jeho věrohodnost**

$$
f_X(X_1 = x_1; \theta) \cdot f_X(X_2=x_2; \theta) \cdots f_X(X_n=x_n;\theta) = f(x_1, x_2,\ldots, x_n; \theta) = f(x; \theta)
= \mathcal{L}(\theta; x)\
$$

- **MLE maximalizuje věrohodnost** přes celou množinu hodnot $\theta$ označenou $\Theta$:

$$
\hat{\theta} \in \left\{ \arg\max_{\theta\in\Theta} \mathcal{L}(\theta; x) \right\}.
$$

- V praxi se používá logaritmus věrohodnosti, tzv. loglikelihood

$$
\mathcal{l}(\theta) \equiv \mathcal{l}(\theta; x) = \ln \mathcal{L}(\theta; x).
$$

Dokážete uhodnout proč? 

- Nápověda 1: Mnoho hustot má v sobě exponenciální funkci.
- Nápověda 2: Jak hledáme maximum funkce?
- Nápověda 3: Likelihoody resp. hustoty jsou zpravidla dost malá čísla, menší než 1. Co když jich spoustu vynásobíme?

Řešení je níže :)

In [3]:
import codecs
codecs.encode('Ybtnevgzhf aáf čnfgb monií rkcbarapváyaí shaxpr, ivm cříxynq aížr. Yécr fr cnx cbčígá. '
              +'Ybtnevgzhf fbhčvah uhfgbg (yvxryvubbqů) wr fbhčrg ybtnevgzů gěpugb shaxpí. Bcěg fr yécr '
              +'cbčígá n ANIÍP wr gb ahzrevpxl zaburz fgnovyaěwší, arobť fbhčva zá graqrapr oeml fxbačvg '
              +'xiůyv xbarčaé cřrfabfgv cbčígnčr an ahyr', 'rot_13')

'Logaritmus nás často zbaví exponenciální funkce, viz příklad níže. Lépe se pak počítá. Logaritmus součinu hustot (likelihoodů) je součet logaritmů těchto funkcí. Opět se lépe počítá a NAVÍC je to numericky mnohem stabilnější, neboť součin má tendence brzy skončit kvůli konečné přesnosti počítače na nule'

## Metoda maximální věrohodnosti graficky

Uvažujme, že máme náhodný výběr o rozsahu $n=5$ s realizacemi $X_1=5.1, X_2=4.8, X_3 = 4.6, X_4=5, X_5=5.5$. Ten vygeneroval jednoduchoučký proces ve tvaru

$$
X_i \sim \mathcal{N}(a, 1),
$$

Máme odhadovat střední hodnotu $a$ metodou maximální věrohodnosti, ostatní parametry jsou známé. 
Připomeňme, že věrohodnost (likelihood) počítáme jako součin

$$
\mathcal{L}(a; x_1,\ldots,x_5) = \mathcal{L}(a;x) = f(x_1;a) \cdot f(x_2;a) \cdots f(x_5;a),
$$

Kdybychom postupovali metodou pokus-omyl, mohli bychom vidět např. toto:

![ml-graficky](img/ml-graficky.png)

MLE i MoM odhadem střední hodnoty je aritmetický průměr:

In [4]:
Y = np.array([5.1, 4.8, 4.6, 5, 5.4])
print("Průměr Y: {0}".format(Y.mean()))

Průměr Y: 4.9799999999999995


Někdy to ale nejde tak snadno, v mnohých složitějších modelech se počítá odhad maximalizací věrohodnosti (likelihoodu) numericky. Zkusíme to také, ve `scipy` je ale jen funkce `minimize()`, takže musíme minimalizovat věrohodnosti se záporným znaménkem. A pro numerickou stabilitu v obecných případech lépe než věrohodnosti to budou jejich logaritmy (loglikelihoody):

In [9]:
def negative_loglikelihood(a):
    loglikelihoods = norm.logpdf(Y, loc=a, scale=1)
    return -np.sum(loglikelihoods)

from scipy.optimize import minimize
res = minimize(negative_loglikelihood, x0=0, options={'disp': False})
print(res)

      fun: 4.778692666023371
 hess_inv: array([[0.2]])
      jac: array([-2.384e-07])
  message: 'Optimization terminated successfully.'
     nfev: 12
      nit: 3
     njev: 4
   status: 0
  success: True
        x: array([4.98])


### Příklad 9.3

**Předpokládejme, že délka transakce databázového serveru je náhodná veličina s exponenciálním rozdělením s parametrem $\lambda$. Délky transakcí jsou nezávislé.**

**a) Odvoďte odhad $\lambda$ metodou maximální věrohodnosti.**

Sepíšeme, co potřebujeme:

- Exponenciální distribuce má jediný parametr $\lambda\geq 0$ - budeme maximalizovat jen přes jeden parametr.
- $f(x) = \lambda e^{-\lambda x_i}$

Tedy

$$
\mathcal{L}(\lambda; x) = \mathcal{L}(\lambda; x_1, \ldots, x_n) = \prod_{i=1}^n f(x) = \prod_{i=1}^n \lambda e^{-\lambda x_i}
$$

Můžeme buď hledat maximum derivací likelihoodu, nebo si zlogaritmujeme

$$
\mathcal{l}(\lambda; x) = \ln \mathcal{L}(\lambda; x) = \sum_{i=1}^n \ln \lambda e^{-\lambda x_i} = n \ln \lambda - \lambda\sum_{i=1}^n x_i.
$$

Maximum dostaneme snadno derivací

$$
\frac{d\mathcal{l}(\lambda;x)}{d\lambda} = \frac{n}{\hat\lambda} - \hat\lambda \sum_{i=1}^n x_i = 0
\qquad \Longrightarrow \qquad \hat\lambda = \frac{n}{\sum_{i=1}^n x_i} = \frac{1}{\bar{X_n}}.
$$


Odhadem $\lambda$ je tedy opět převrácená hodnota aritmetického průměru.

**b) Z logu jsme zjistili, že délky posledních 5 transakcí byly: $5,\!4$; $15,\!6$; $9,\!3$; $0,\!5$ a $2,\!6$ ms. Určete číselnou hodnotu předchozího odhadu.**

In [5]:
X = np.array([5.4, 15.6, 9.3, 0.5, 2.6])
print('Odhad lambda je ', 1/X.mean())

Odhad lambda je  0.14970059880239522


# Příklady ze slajdů

## Příklad 9.2

**Nalezněte odhad parametrů $a, b\in\mathbb{R}$ spojitého rovnoměrného rozdělení $\mathcal{U}(a,b)$ momentovou metodou.**

Máme dva parametry, budeme potřebovat dvě rovnice, tedy první a druhé momenty. Víme, nebo si spočteme, že:

$$
\begin{align}
\mathrm{E}X &= \frac{1}{2}(a+b) \\
\mathrm{E}X^2 &= \frac{1}{3}(a^2 + ab + b^2).
\end{align}
$$

První dva momenty výběrové jsou stále stejné, tj. $m_1 = \bar{X_n}, m_2 = \bar{X_n^2}$.

Tedy máme soustavu

$$
\begin{align}
\bar{X_n} &= \frac{1}{2}(\hat a+\hat b) \\
\bar{X_n^2} &= \frac{1}{3}(\hat a^2 + \hat a\hat b + \hat b^2).
\end{align}
$$

jejíž řešením je

$$
\hat{a} = \bar{X_n} - \sqrt{3[\bar{X_n^2} - (\bar{X_n})^2]} = m_1 - \sqrt{3(m_2 - m_1^2)} \\
\hat{b} = \bar{X_n} + \sqrt{3[\bar{X_n^2} - (\bar{X_n})^2]} = m_1 + \sqrt{3(m_2 - m_1^2)}.
$$

(Pro jistotu jsou doplněny $m_1, m_2$, v těch průměrech je snadné se ztratit).

Tento odhad není konzistentní, může dávat $\hat{a}<a, \hat{b}>b$. Zkuste několikrát pustit následující kód, odhadující $[a,b] = [0,1]$.

In [6]:
x = uniform.rvs(size=10)
m1 = x.mean()
m2 = np.mean(x**2)
hat_a = m1 - np.sqrt(3 * (m2 - m1**2))
hat_b = m1 + np.sqrt(3 * (m2 - m1**2))
print('odhady a={0:.2f}, b={1:.2f}'.format(hat_a, hat_b))

odhady a=0.13, b=1.15


## Příklad 9.4

**Generátor náhodných čísel generuje hodnoty z rovnoměrného rozdělení na intervalu $[0,b]$, kde $b$ je neznámá horní mez.**

Už teď víme, že $\mathcal{U}(0, b)$ má na intervalu $[0, b]$ hustotu $f(x) = \frac{1}{b}$ a jinde 0. Parametr máme pouze jeden $\theta \equiv b$.

**a) Nalezněte odhad $b$ momentovou metodou.**

Budeme potřebovat jen jednu rovnici - pro první moment, sepišme si tedy teoretické a výběrové momenty:

$$
\begin{align}
\mathrm{E}X &= \frac{b}{2} \\
m_1 &= \bar{X_n}
\end{align}
$$

Z toho nám plyne, že

$$
m_1 = \bar{X_n} = \frac{\hat{b}}{2} \qquad \Longrightarrow \qquad \hat{b} = 2\bar{X_n}.
$$

**b) Nalezněte odhad $b$ metodou maximální věrohodnosti.**

Napišme si likelihood,

$$
\mathcal{L}(b; x) = \prod_{i=1}^n \frac{1}{b} = b^{-n}.
$$

Log-likelihood je

$$
\mathcal{l}(b; x) = \ln \mathcal{L}(b; x) = -n \log b,
$$

a jeho derivace pro hledání maxima

$$
\frac{d \mathcal{l}(b; x)}{db} = -\frac{n}{b}.
$$

Nebudeme to klást rovné nule, ale musíme se podívat na omezení:

1. $b>0$
2. Výsledek derivace je **klesající**. Maximum tedy bude dosaženo v $\max \{x_1, \ldots, x_n\}$. Tedy

$$
\hat{b} = \max \{x_1, \ldots, x_n\}.
$$

**c) Ověřte nestrannost předchozích odhadů.**

MoM odhad je nestranný, neboť

$$
\mathrm{E}\hat{b} = 2\mathrm{E}\bar{X_n} = 2 \frac{1}{n} \sum \mathrm{E}X_i = b
$$

MLE odhad není nestranný, neboť

$$
\mathrm{E}\hat{b} = \mathrm{E}\left[\max\{x_1, \ldots, x_n\} \right] = \max\{\mathrm{E}X_1, \ldots, \mathrm{E}X_n\} < b,
$$

protože pravděpodobnost $P(X=b)=0$ vzhledem ke spojitému rozdělení.

Uspořádejme si nyní $x_i$ podle velikosti a přeznačme je tak, aby $X_1 \leq X_2 \leq \ldots \leq X_n$. Jelikož jde o rovnoměrné rozdělení, jsou všechny intervaly mezi dvěma po sobě následujícími body stejně rozdělené a

$$
\mathrm{E}[X_1 - 0] = \mathrm{E}[X_2 - X_1] = \ldots = \mathrm{E}[X_n - X_{n-1}] = \mathrm{E}[b - X_n] = \frac{b}{n+1}.
$$

Tedy 

$$
\mathrm{E}[b - \max\{X_1, \ldots, X_n\}] = \frac{b}{n+1}\qquad \Longrightarrow \qquad b - \mathrm{E}\hat{b} = \frac{b}{n+1}
$$

a korigovaný nestranný odhad tedy je

$$
\hat{b}' = \frac{n+1}{n} \hat{b}. 
$$