## Variables aléatoires

Si $x$ est distribué comme $f(x)$:
* $x \sim f(x)$ (fonction de densité)
* $P(a \leq x \leq b) = \int_{a}^b f(x) dx$
* $P(x \leq a) = \int_{-\infty}^a f(x) dx = F(a)$ (fonction cumulative)
* $\mathrm{E}[x] = \int_{-\infty}^{\infty} x f(x) dx = <x> = x_v$
* $\mathrm{Var}[x] = \mathrm{E}[(x-\mathrm{E}[x])^2] = \mathrm{E}[x^2] - \mathrm{E}[x]^2 = \int_{-\infty}^{\infty} (x-<x>)^2 f(x) dx = \sigma^2$ 

## Estimation sur des données

Mais $f(x)$ n'est pas toujours connu, il faut l'estimer à partir des données.
* Une série discrète avec $N$ événements
* Moyenne et variance empirique:

$$\bar{x} = \sum_i x_i P_i = \sum_i x_i \frac{1}{N} = \frac{1}{N} \sum_i x_i \neq <x> = x_v$$

$$s^2 = \sum_i P_i (x_i-<x>)^2 = \sum_i \frac{1}{N} (x_i-<x>)^2 \approx \sum_i \frac{1}{N} (x_i-\bar{x})^2 \neq \sigma^2$$

Cet estimateur est biaisé, car $\bar{x}$ au lieu de $<x>$. La version non-baisée est:

$$s^2 = \sum_i \frac{1}{N-1} (x_i-\bar{x})^2$$
* Notation pour les estimateurs: $\hat{\theta}$

## Estimateurs

Mais $\bar{x}$ et $s$ sont elles-mêmes des variables aléatoires.
* Prenons la série $x_i$ avec $N$ échantillions d'espérance $\mu$ et d'écart-type $\sigma$
* Alors

$$\mathrm{Var}[\bar{x}] = \mathrm{E}[\bar{x}^2]-\mathrm{E}[\bar{x}]^2 = \mathrm{E}\left[\left(\frac{1}{N} \sum_i x_i\right) \left(\frac{1}{N} \sum_j x_j\right)\right] - \mu^2 = \frac{1}{N^2} \sum_{i,j} \mathrm{E}\left[x_ix_j\right] - \mu^2$$

$\mathrm{E}[x_i^2] = \mu^2 + \sigma^2; \mathrm{E}[x_ix_j] = \mu^2$

$$\mathrm{Var}[\bar{x}] = \frac{1}{N^2} \left[(N^2 - N)\mu^2 + N(\mu^2 + \sigma^2)\right] - \mu^2 = \frac{\sigma^2}{N} \approx \frac{s^2}{N}$$

* Ceci nous donne l'incertitude sur la moyenne arithmétique sans ajustement.

## Hit & Miss

Il existe généralement un générateur uniforme en 0 et 1.

* $\varepsilon_1 \in [0;1[ \rightarrow y \in [0; y_{max}[, y = \varepsilon_1 y_{max}$
* $\varepsilon_2 \in [0;1[ \rightarrow x \in [x_{min}; x_{max}[, x = \varepsilon_2 (x_{max} - x_{min}) + x_{min}$

Si:

* $f(x) < y \Rightarrow \mathrm{Miss}$
* $f(x) \geq y \Rightarrow \mathrm{Hit}$

## Transformée inverse

Si $U \in [0; 1[$, alors $F^{-1}(U) = X$ et $X \sim f(X)$

On doit montrer que $P(X \leq x) = F(x)$

On va utiliser:

$$U_{\alpha,\beta} \rightarrow f_{\alpha,\beta}^U = \frac{1}{\beta-\alpha}$$
$$F_{\alpha,\beta}^U = \int_{\alpha}^{k} \frac{1}{\beta-\alpha} dx = \frac{k-\alpha}{\beta-\alpha}$$
$$F_{0,1}^U = k$$
$$P(U_{0,1} \leq k) = F_{0,1}^U = k$$

Et donc:

$$P(X \leq x) = P(F^{-1}(U_{0,1}) \leq x) = P(U_{0,1} \leq F(x)) = F(x)$$

## Moindres carrés

Soit une distribution avec $g(r|\theta)$ où $\theta$ est un paramètre à estimer.

$$\chi^2 = \sum_i \frac{\left(y_i - g(x_i|\theta)\right)^2}{\sigma_i^2}$$

Pour un histogramme:

$$\chi^2 = \sum_i^{N_{bins}} \frac{\left(n_i - n_i^{pred}\right)^2}{\sqrt{n_i}^2}$$

où $$n_i^{pred} = N \int_{x_c - \frac{\Delta x}{2}}^{x_c + \frac{\Delta x}{2}} g(x|\theta) dx \approx N g(x_c | \theta)\Delta x$$

## Maximum de vraisemblance

$$\mathcal{L} = \prod_{i=1}^N P(x_i) = \prod_{i=1}^N f(x_i|\mu,\sigma)$$

D'un point de vue computationnel, on préfère les sommes aux multiplications et les minimisations aux maximisations. On peut utiliser la vraisemblance réduite:

$$\mathcal{L}^{*} = - \log \mathcal{L} = - \sum_{i=1}^N \log P(x_i)$$

On peut montrer que $\hat{\theta}$ se comporte comme une variable aléatoire telle que:

$$\mathcal{L}(\theta) = \frac{1}{\sqrt{2\pi\sigma_{\hat{\theta}}}}\exp^{-\frac{1}{2}\frac{(\hat{\theta}-\theta)^2}{\sigma_{\hat{\theta}}^2}}$$

Ce qui donne:

$$\mathcal{L}^{*}(\theta) = -\log \mathcal{L}(\theta) = \frac{1}{2} \log \left(\sqrt{2\pi\sigma_{\hat{\theta}}}\right) + \frac{1}{2}\frac{(\hat{\theta}-\theta)^2}{\sigma_{\hat{\theta}}^2}$$

$$\Rightarrow \mathcal{L}^{*}(\theta = \hat{\theta}) = \frac{1}{2} \log \left(\sqrt{2\pi\sigma_{\hat{\theta}}}\right) = \mathcal{L}^{*}_{min}$$

$$\Rightarrow \mathcal{L}^{*}(\theta = \hat{\theta} \pm N\sigma_{\hat{\theta}}) = \mathcal{L}^{*}_{min} + \frac{N^2}{2}$$