In [None]:
from mwasis import *  # noqa: F403

# Wprowadzenie


## Metody

- **Estymatory**
- Modele statystyczne
- Wnioskowanie Bayesowskie
- Probabilistyczne języki programowania
- Modele "black box"


## Estymatory

- $X=(x_1, x_2, \ldots, x_n)$ obserwacje
- Rozkład $X_i \sim Dist(\theta)$. 
- $\theta$ - wektor parametrów np dla rozkładu normalnego $\theta=(\mu,\sigma)$.
- Estymata $\hat\theta$

## Własności

- Obciążenie: $B(\hat\theta)=E\hat\theta-\theta$
- Wariancja: $Var(\hat\theta)=E(\hat\theta-E\hat\theta)^2$
- Błąd standardowy $SE(\hat\theta)=\sqrt{Var(\hat\theta)}$
- Zgodność: jeżeli prawdopodobieństwo ze wartość estymowana jest bliska wartości prawdziwej wzrasta przy wzroście próby . 
- $MSE(\hat\theta)= E_{X}(\theta - \hat\theta)^2$ 
- Estymator efektywny: nieobciążony o najmniejszej wariancji

---

$$
MSE(\hat\theta)=Var(\hat\theta)+B^2(\hat\theta)
$$

### Wskazówka

$$MSE(\hat\theta) = E( \hat\theta \alert{-E\hat\theta+E\hat\theta} -\theta )^2$$
$$E(\hat\theta-E\hat\theta) =0$$

## Estymacja z momentów

- $EX=\overline{x}$
- $EX^2=\overline{x^2}$
- ...

Duża wariancja, co zrobić gdy $EX^2=\infty$ (Pareto)?


## MLE

### Intuicja

Prawdopodobieństwo obserwacji $X$ jest funkcją $\theta$.

### Estymator największej wiarygodności
$$
\hat\theta=\arg\max_{\theta} P(X, \theta)
$$

## Wiarygodość

### Funkcja wiarygodność $L$

1. Dla dyskretnych obserwacji - prawdopodobieństwo próbki
$L(\theta)=\prod_{i=1}^{n} P(x_i, \theta)$
1. Dla danych ciągłych- iloczyn funkcji gęstości w punktach obserwacji $L(\theta)=\prod_{i=1}^{n} f(x_i, \theta)$

### Logarytm

W praktyce stosujemy logarytm

- $\ell(\theta)=\sum_{i=1}^{n} \log P(x_i, \theta)$
- $\ell(\theta)=\sum_{i=1}^{n} \log f(x_i, \theta)$

$$
\hat\theta=\arg\max_{\theta} \ell(X, \theta)
$$

## MLE własności

### $n \to \infty$

- Zgodny
- Efektywny (najmniejsza wariancja)
- asymptotycznie normalny !

## Asymptotyczna normalność

Jeżeli spełnione są pewne "luźne"  warunki(\alert{Rao-Craméra}) ciągłości rozkładu, to
dla dużej próby, estymator ma rozkład normalny (w przybliżeniu): 

$${\hat{\theta}} {\dot\sim} N(\theta,\sqrt{I_{n}(\theta)^{-1}})$$

## Informacja Fishera

### Wynik analityczny

$$I_{n}(\theta)=E\left [-\frac{d^2}{d\theta^2}\ell(X,\theta)\right]$$

Dla IID mamy $I_{n}(\theta)=nI(\theta)$

\begin{example}
- Bernoulli:  $I(p)=\frac{1}{p(1-p)}$
- Wykładniczy: $I(\lambda)=\frac{1}{\lambda^2}$
\end{example}



### Obserwowana informacja Fishera

$$I(\theta)\sim-\frac{d^2}{d\theta^2}\ell(X,\theta)$$


## Przedział ufności

$$
\hat \theta \pm 1.96 \frac{1}{\sqrt{n I(\hat\theta)}}
$$

### Wiele parametrów

Estymator $\hat\theta$ asymptotycznie ma \alert{wielowymiarowy rozkład normalny}.

$$\mathbf I(\theta)\sim-\frac{\partial^{2}}{\partial\theta_{i}\partial\theta_{j}}\ell(\theta)
$$

<!-- $$
\hat \theta_i \pm 1.96 \frac{1}{\sqrt{n \mathbf I(\hat\theta)_{ii}}}
$$ -->

$$
\hat \theta_i \pm 1.96 \sqrt{\frac{\mathbf I(\hat\theta)^{-1}_{ii}}{n}}
$$


## Straty pakietów

Zaobserwowano straty pakietów

$$D=(0,0,1,0,0,1,1,0,0)$$

Jakie jest prawdopodobieństwo straty pakietu?

### Model

- $D_i\sim Bernoulli(p)$,$P(D_i=1)=p$
- $L=p^3(1-p)^6$
- $\hat p=\frac{3}{9}$




## Niepewność {.allowframebreaks}

In [None]:
np.random.seed(23424)
from scipy.stats import norm


p=0.333
n =9
f = plt.figure()
r = np.random.binomial(1,p, size=(n,10000))
phat=np.mean(r, axis=0)

sns.histplot(phat,stat='density',bins=9)
x=np.linspace(0.0,0.8,1000)
y=norm(loc=p, scale=np.sqrt(p*(1-p)/n)).pdf(x)
sns.lineplot(x=x,y=y, label=r'$npdf\left(p,\sqrt{\frac{p(1-p)}{n}}\right)$')
plt.title('Bernoulli n={}'.format(n));


In [None]:
np.random.seed(23424)
from scipy.stats import norm


p=0.333
n =90
f = plt.figure()
r = np.random.binomial(1,p, size=(n,10000))
phat=np.mean(r, axis=0)

sns.histplot(phat,stat='density',bins=9);
x=np.linspace(0.0,0.8,1000);
y=norm(loc=p, scale=np.sqrt(p*(1-p)/n)).pdf(x)
sns.lineplot(x=x,y=y, label=r'$npdf\left(p,\sqrt{\frac{p(1-p)}{n}}\right)$');
plt.title('Bernoulli n={}'.format(n));



<!-- ![alt text](Bernoulli_normal9.pdf)

## Niepewność 2

![alt text](Bernoulli_normal90.pdf)
 -->
## Odstępy

Zaobserwowano pakiety w odstępach

$$D=(0.1,0.15,0.3,0.04)$$

Jaka jest intensywność?

### Model
- $D_i\sim Exp(\lambda)$,$f_D(t)=\lambda e^{-\lambda t}$
- $L=\prod_1^4\lambda  e^{-\lambda \tau_i}=\lambda^4e^{\lambda\sum_1^4\tau_i}$
- $\hat \lambda=6.78$





## Niepewność {.allowframebreaks}

In [None]:
np.random.seed(23424)
from scipy.stats import norm


l=6.78
n=4
plt.figure()
r = np.random.exponential(1/l, size=(n,10000))
lhat=1/np.mean(r, axis=0)

#sns.distplot(lhat, norm_hist=True, kde=False, bins=10)
sns.histplot(lhat,stat='density',bins=10);
if n == 400:
    x=np.linspace(5.0,8,1000)
else:
    x=np.linspace(0.0,20,1000)
y=norm(loc=l, scale=np.sqrt(l**2/n)).pdf(x)
sns.lineplot(x=x,y=y, label=r'$npdf\left(\lambda,\sqrt{\frac{\lambda^2}{n}}\right)$');
plt.title('Wykładniczy $n=${}'.format(n));
#plt.show()

In [None]:
np.random.seed(23424)
from scipy.stats import norm


l=6.78
n=400
plt.figure()
r = np.random.exponential(1/l, size=(n,10000))
lhat=1/np.mean(r, axis=0)

#sns.distplot(lhat, norm_hist=True, kde=False, bins=10)
sns.histplot(lhat,stat='density',bins=10);
if n == 400:
    x=np.linspace(5.0,8,1000)
else:
    x=np.linspace(0.0,20,1000)
y=norm(loc=l, scale=np.sqrt(l**2/n)).pdf(x)
sns.lineplot(x=x,y=y, label=r'$npdf\left(\lambda,\sqrt{\frac{\lambda^2}{n}}\right)$');
plt.title('Wykładniczy $n=${}'.format(n));
#plt.show()

# Metody numeryczne

## Scipy {.allowframebreaks}

- `scipy.stats`
- `scipy.stats.fit`
- 

```python 
(scipy.stats.expon,[1,2,4.], bounds={'a':(0,10)})
```

In [None]:
import scipy.stats
from IPython.display import Markdown

fitable = [f'- `scipy.stats.{dn}.fit`' for dn in dir(scipy.stats) if hasattr(getattr(scipy.stats,dn),'fit')]

Markdown('\n'.join(fitable[1:]))

## TFP {.allowframebreaks}

```python
x= tf.convert_to_tensor([10,4,30.,2])
theta = tf.Variable(0.0)

def nll():
    d = tfd.Exponential(rate=tf.exp(theta))
    return -tf.reduce_sum(d.log_prob(x))

losses = tfp.math.minimize(
  nll,
  num_steps=1000,
  optimizer=tf.optimizers.Adam(0.1))

_, lhat = scipy.stats.expon.fit(x,floc=0)
```

In [None]:
import tensorflow as tf
x= tf.convert_to_tensor([10,4,30.,2])
theta = tf.Variable(0.0)

def nll():
    d = tfd.Exponential(rate=tf.exp(theta))
    return -tf.reduce_sum(d.log_prob(x))

losses = tfp.math.minimize(
  nll,
  num_steps=1000,
  optimizer=tf.optimizers.Adam(0.1))

_, lhat = scipy.stats.expon.fit(x,floc=0)

assert np.allclose(np.exp(theta),1/lhat)

plt.plot(losses)
plt.xlabel('krok');
plt.ylabel('nll');


## Bootstrap

1. Wybieramy $n$ losowych obserwacji \alert{(ze zwracaniem)}
1. Na wylosowanym zbiorze $X^{*1}$ estymujemy parametry $\hat\theta^{*1}$
1. Powtarzamy całość $B$ razy (99+)

### Estymator

$$\hat\theta=\frac{1}{B}\sum_r \hat\theta^{*r}$$
$$SE(\hat\theta)=\sqrt{\frac{1}{B-1}\sum_r \left(\hat\theta^{*r}-\frac{1}{B}\sum_r\hat\theta^{*r}\right)^2}$$

## Podsumowanie

- MLE jest polecanym estymatorem
- Funkcja wiarygodności z rozkładu
- Przedziały ufności z drugich pochodnych
- Metody nieparametryczne gdy brak wyników analitycznych

# {.standout}

Pytania