# Propagazione degli errori

Se abbiamo stimato un parametro come 

$\theta = \hat{\theta}\pm \sigma_\hat{\theta}$

può succedere di aver bisogno di un altro parametro $\eta$ che si ottine tramite una trasformazione a partire da $\theta$:

$\eta = \varphi\,(\theta\,)$

La stima di $\eta$:

$\eta = \hat{\eta}\pm \sigma_\hat{\eta}$

La determinazione di $\hat{\eta}$ e in particolare del suo errore $\sigma_\hat{\eta}$ a partire da $\hat{\theta}\pm \sigma_\hat{\theta}$ è noto come *propagazione degli errori*.


## Evitare la propagazione degli errori

La scelta migliore, quando possibile, è sempre *evitare la propagazione degli errori*.

Si può, infatti, riparametrizzare la funzione di verosimiglianza in termini di $\eta$ anziché di $\theta$ e procedere con l'inferenza direttamente sulla variabile di interesse. La stima e la sua incertezza saranno fatte direttamente sul parametro di interesse.

In formule, andrà riscritta la funzione di verosimiglianza partendo da:

$p_\theta(x_1,\cdots,x_n;\theta)$

come:

$p_\eta(x_1,\cdots,x_n;\eta) = p_\theta(x_1,\cdots,x_n;\varphi^{-1}(\eta))$

## Propagazione degli errori con inferenza bayesiana

La distribuzione a posteriori per il parametro $\theta$ si scrive come:

$\displaystyle p(\theta;x_1,\cdots,x_n) = \frac{p(x_1, \cdots, x_n;\theta)\,\pi(\theta)}{\int p(x_1, \cdots, x_n;\theta^\prime)\,\pi(\theta^\prime)\,\mathrm{d}\theta^\prime}$

A questo punto, la distribuzione di $\eta=\varphi(\theta)$ si ottine con le usuali regole di trasformazione di variabile che abbiamo già visto. Ossia:

$\displaystyle p(\eta;x_1,\cdots,x_n) = \int_{-\infty}^{+\infty}\!\!\! \delta(\eta - \varphi(\theta))\,p(\theta;x_1,\cdots,x_n)\,\mathrm{d}\theta$

Nella pratica, non è necessario calcolare la funzione trasformata quanndo la stima di $\displaystyle p(\theta;x_1,\cdots,x_n)$ è fatta attraverso un metodo Monte Carlo. Il risultato del Monte Carlo, infatti, sarà una sequenza di valori $\theta^{(1)},\cdots,\theta^{(N)}$ distribuiti secondo la $\displaystyle p(\theta;x_1,\cdots,x_n)$. Basterà quindi trasformare tutti i valori della sequenza ed ottenere:  

$\eta^{(1)},\cdots,\eta^{(N)} = \varphi(\theta^{(1)}),\cdots,\varphi(\theta^{(N)})$

La sequenza sarà naturalmente distribuita secondo $\displaystyle p(\eta;x_1,\cdots,x_n)$, che potrà essere determinata interpolando l'istogramma dei valori, oppure con il metodo della *kernel density estimation*.

Da notare che **non è detto** che il valore più probabile di $\theta=\hat{\theta}$ corrisponda al valore più probabile di $\eta=\hat{\eta}$ attraverso la trasformazione $\hat{\eta}=\varphi(\hat{\theta})$.

Comunque, gli intervalli di credibilità si potranno calcolare sulla distribuzione a posteriori trasformata. 

## Propagazione degli errori con inferenza frequentista

Il metodo della massima verosimiglianza è invariante per riparametrizzazione. Il valore stimato $\theta=\hat{\theta}$ corrisponderà quindi alla stima $\eta=\hat{\eta}$ attraverso la trasformazione $\hat{\eta}=\varphi(\hat{\theta})$.

Se non c'è modo di calcolare la stima di massima verosimiglianza usando la funzione di verosimiglianza trasformata, bisognerà ricorrere a metodi approssimativi, in particolare sviluppando $\varphi(\theta)$ intorno al valore stimato $\hat{\theta}$:

$\displaystyle\eta = \varphi(\theta) \simeq \varphi(\hat{\theta}) + \frac{\partial \varphi}{\partial\theta}(\hat{\theta}) (\theta-\hat{\theta})+\cdots$

Da questa trasformazione lineare possiamo dedurre che l'intervallo $[\hat{\theta}-\sigma_\hat{\theta},\hat{\theta}+\sigma_\hat{\theta}]$ si trasformerà in $[\hat{\eta}-\sigma_\hat{\eta},\hat{\eta}+\sigma_\hat{\eta}]$

dove:

$\hat{\eta}=\varphi(\hat{\theta})$

e:

$\displaystyle\sigma_\hat{\eta} = \left|\frac{\partial \varphi}{\partial\theta}(\hat{\theta})\right|\sigma_\hat{\theta}$

Più in generale, in presenza di $k$ variabili $\theta_1,\cdots,\theta_k$ trasformate in $h$ variabili $\eta_1,\cdots,\eta_h$, abbiamo una regola di trasformazione della *matrice di covarianza* delle incertezze data da:


$\displaystyle H_{ij} = \sum_{l,m}\frac{\partial \varphi_i}{\partial\theta_l}\frac{\partial \varphi_j}{\partial\theta_m} \Theta_{lm} $

Dove $\Theta_{lm}$ e $H_{ij}$ sono le matrici di covarianza dei parametri $\theta_1,\cdots,\theta_k$ e $\eta_1,\cdots,\eta_h$.

Nel caso della trasformazione di due variabili $x, y$ in una variabile $z$ abbiamo:

$\displaystyle\sigma_z^2 = 
\left(\frac{\partial z}{\partial x}\right)^2\sigma_x^2+
\left(\frac{\partial z}{\partial y}\right)^2\sigma_y^2+
\left(\frac{\partial z}{\partial x}\right)\left(\frac{\partial z}{\partial y}\right)\mathbb{C}\mathrm{ov}(x,y)+
\left(\frac{\partial z}{\partial y}\right)\left(\frac{\partial z}{\partial x}\right)\mathbb{C}\mathrm{ov}(y,x)=\\
\displaystyle=\left(\frac{\partial z}{\partial x}\right)^2\sigma_x^2+
\left(\frac{\partial z}{\partial y}\right)^2\sigma_y^2+
2\left(\frac{\partial z}{\partial x}\right)\left(\frac{\partial z}{\partial y}\right)\mathbb{C}\mathrm{ov}(x,y)
$

In particolare, abbiamo:

$\displaystyle\sigma_{x\pm y}^2 = 
\sigma_x^2+
\sigma_y^2\pm
2\,\rho\,\sigma_x\sigma_y
$

$\displaystyle\left(\frac{\sigma_{xy}}{xy}\right)^2 = 
\left(\frac{\sigma_x}{x}\right)^2+
\left(\frac{\sigma_y}{y}\right)^2+
\frac{2\,\rho\,\sigma_x\sigma_y}{xy}
$

$\displaystyle\left(\frac{\sigma_{x/y}}{x/y}\right)^2 = 
\left(\frac{\sigma_x}{x}\right)^2+
\left(\frac{\sigma_y}{y}\right)^2-
\frac{2\,\rho\,\sigma_x\sigma_y}{x/y}
$

## Errori asimmetrici

Nel caso di inferenza bayesiana, la propagazione di una distribuzione a posteriori asimmetrica procede naturalmente come detto sopra.

Per il metodo di massima verosimiglianza, invece, non esiste una procedura consolidata per propagare incertezze asimmetriche. La questione è stata dibattuta a lungo. 

<span style="color: red">In particolare, per la combinazione di errori asimmetrici alla somma di due variabili:
</span>
$x = \hat{x}^{+\sigma_x^+}_{-\sigma_x^-}$, 
$y = \hat{y}^{+\sigma_y^+}_{-\sigma_y^-}$

<span style="color: red">In alcuni casi è stata suggerita la seguente prescrizione **errata** 
</span>

$\displaystyle \widehat{x+y} = (\hat{x}+\hat{y})^{+\sqrt{\sigma_x^{+2}+\sigma_y^{+2}}}_{-\sqrt{\sigma_x^{-2}+\sigma_y^{-2}}}$, 

<span style="color: red">**Questa prescrizione non ha alcuna base statistica.**
</span>

Per approfondimenti (che esulano dallo scopo di questo corso):

* [Asymmetric Errors](https://www.slac.stanford.edu/econf/C030908/papers/WEMT002.pdf), R. Barlow, PHYSTAT2003,  SLAC, Stanford, California, September 8-11, 2003
* [Asymmetric Statistical Errors](https://arxiv.org/abs/physics/0406120), R. Barlow, MAN/HEP/04/02, arXiv:physics/0406120, 24/6/2004
* [Asymmetric Systematic Errors](https://arxiv.org/abs/physics/0306138), R. Barlow, MAN/HEP/03/02, 3/6/2003, arXiv:physics/0306138

## Errori massimi

Esistono in letterature regole per la propagazione degli errori massimi. Sono utili per trovare i massimi intervalli di escursione a seguito della trasformazione di variabili. Gli errori massimi non hanno però alcuna proprietà statistica rilevante, per cui non ne parleremo in queste lezioni.

## Python

Esiste un pacchetto python, [```uncertainties```](https://pythonhosted.org/uncertainties/), che tratta la propagazione delle incertezze. Tuttavia, non è particolarmente usato tra i fisici.


# Spunti per esercizi

* Scrivere la formula di propagazione degli errori per $x^\alpha$

$x=\hat{x}\pm\sigma_{\hat{x}} \implies \widehat{x^\alpha} =\hat{x}^\alpha\pm |\alpha \hat{x}^{\alpha -1}| \sigma_{\hat{x}}$


* Scrivere la formula di propagazione degli errori per $\log{x}$

$\displaystyle x=\hat{x}\pm\sigma_{\hat{x}} \implies \widehat{\log x} =\log\hat{x}\pm \frac{1}{\hat{x}}\sigma_{\hat{x}}$

* Scrivere la formula di propagazione della matrice di covarianza per $x/y$

$\displaystyle \hat{x}, \hat{y}; C_{xy} \implies \widehat{x/y} = \frac{\hat{x}}{\hat{y}}$

$\displaystyle \frac{\partial x/y}{x} = \frac{1}{y}$

$\displaystyle \frac{\partial x/y}{y} = -\frac{x}{y^2}$

$\displaystyle \sigma_{\widehat{x/y}}^2 = \left(\frac{1}{\hat{y}}\right)^2\sigma_{\hat{x}}^2 +
\left(-\frac{\hat{x}}{\hat{y}^2}\right)^2\sigma_{\hat{y}}^2 +
2\left(\frac{1}{\hat{y}}\right)\left(-\frac{\hat{x}}{\hat{y}^2}\right)\mathbb{C}\mathrm{ov}(x,y)
$

$\displaystyle \left(\frac{\sigma_{\widehat{x/y}}}{\widehat{x/y}}\right)^2 = 
\left(\frac{\sigma_{\hat{x}}}{\hat{x}}\right)^2 +
\left(\frac{\sigma_{\hat{y}}}{\hat{y}}\right)^2
-2\frac{\mathbb{C}\mathrm{ov}(x,y)}{\hat{x}\hat{y}}
$