# Estimación de parámetros en física de altas energías

El mejor ajuste o __fitting__ es el ajuste más adecuado a los datos experimentales.

En física de altas energías, el proósito principal es identificar a las partículas que se producen en los experimentos, que consiste en:

1. Reconstrucción de las trazas que dejan las partículas, a partir de los datos crudos que proporciona un detector bien calibrado.

2. Analizar los datos reconstruidos

3. Ajuste a los datos (masa, anchura, etc.) que contienen tanto señal como background.

## Definición y propiedades de la estimación de parámetros

Dos ingredientes básicos:

1. __Estimación puntual__: Mejor estimación del valor de los parámetros reales (mejor conjetura).

2. __Estimación de las incertidumbres de los parámetros__ (intervalo de confianza): Ajuste de funciones a los datos y estimación de su desviación estándar.

Métodos utilizados:

1. __Máxima verosimilitud__.

2. __Mínimos cuadrados__.

3. __Método bayesiano__.

Características:

1. N valores de $x=(x_1, x_2,...x_N)$ independientes y descritas por una función de densidad de probabilidad $f(x)$

2. Estimar las características de $f(x)$ (valor medio, dispersión, etc.) o tener una hipótesis de la forma funcional de $f(x)$ con respecto a algún parámetro $\theta$, es decir, estimar $f(x;\theta)$ con $\theta=(\theta_q,\theta_2,...,\theta_N)$.

Ejemplo: $f(x;m,b)=mx+b$

__Estimador__: 

<!-- Función de los datos observados $x$ que nos dan valores $\hat{\theta}$ para el parámetro $\theta$. -->

__Propiedades de los estimadores__: 

1. Consistencia: Un estimador $\hat{\theta}$ es consistente si converge al valor real $\theta$ al aumentar el número de mediciones $N$

2. Parcialidad (o imparcialidad): Es la diferencia entre el valor de expectación del valor estimado y del parámetro real, es decir, $b=E[\hat{\theta}]-\theta$.

a. $E[\hat{\theta}]$ se toma de un conjunto de experimentos similares.

b. Imparcialidad si $b=0$.

c. Si $\hat{\theta}$ es parcial, se puede construir un nuevo estimador imparcial $\hat{\theta}'=\hat{\theta}-b$.

3. Eficiencia: Un estimador es eficiente si su varianza $V[\hat{\theta}]$ (desviación estándar) es pequeña.

__Límite de varianza mínimo (MVB)__

Condición de Rao-Cramér-Frechet: $V[\hat{\theta}] \le I(\theta)^{-1}$ con:

$I_{jk}=E\left[\sum_{i=0}^N \frac{\partial^2 ln f(x_i;\theta)}{\partial \theta_j \theta_k}\right]$

sumando sobre todos los datos la __matriz de información $I_{jk}$__

$I_{jk}=-N\int\frac{\partial^2 ln f(x_i;\theta)}{\partial \theta_j \theta_k} f dx = N\int\frac{1}{f}\frac{\partial f(x_i;\theta)}{\partial \theta_j}\frac{\partial f(x_i;\theta)}{\partial \theta_k}  dx$




## Método de máxima verosimilitud (Likelihood)

En un conjunto de $N$ datos con $x=(x_1, x_2,...x_N)$ independientes estadísticamente, que siguen la distribución de densidad de probabilidad $f(x;\theta)$ donde $\theta=(\theta_q,\theta_2,...,\theta_N)$ es un conjunto de parámetros a estimar.

La función de probabilidad de observar los valores $x$, está dada por la función de máxima verosimilitud.

$L(x;\theta)=\prod_{i=0}^N f(x_i|\theta)$

El estimador de máxima verosimilitud de los parámetros $\theta$, son los valores $\hat{\theta}$ para los cuales las función de verosimilitud tiene un máximo global.

### Solución de máxima verosimilitud.

La estimación de los parámetros $\hat{\theta}$ se obtine al maximizar la función de verosimilitud o su logaritmo,

$-ln L(x;\theta)=\prod_{i=0}^N ln f(x_i|\theta)$

que satisfaga que:

$-\frac{\partial ln L(x;\hat{\theta})}{\partial \theta_j}=0$

y la función de probabilidad normalizada:

$\int f(x;\theta)dx=1$ entonces $\int L(x;\theta)dx=1$; quiere decir que la integral de $L(x;\theta)$ no depende de $\theta$. 

### Propiedades del estimador de máxima verosimilitud

1. $\lim_{N\to\infty} \hat{\theta} = \theta$

2. Para $N$ finito es un estimador parcial de 1/N.

3. Invariante ante transformaiones de parámetros: $\psi=g(\theta)$, entonces, $\hat{\psi}=g(\hat{\theta})$.

### Máxima verosimilitud y método bayesiano.

La función de densidad de probabilidad a posteriori $p(\theta;x)$ involucra el producto de máxima verosimilitud $L(x;\theta)$ y la probabilidad a priori $\pi(\theta)$ (Teorema bayesiano)

$p(\theta;x)=\frac{L(x;\theta )\pi(\theta)}{\int L(x;\theta) \pi(\theta)} d\theta$

En la estadística bayesiana, el estimador de máxima verosimilitud da los parámetros que coinciden con el máximo de la función a posteriori.

#### Valor medio con error gaussiano

$N$ mediciones con parámtro $\theta$ dond $x_i$ tienen una distribución gaussiana

$f(x_i;\theta,\sigma) = \frac{1}{{\sigma_i\sqrt{2\pi}}}e^{-\frac{\left(x_i-\theta\right) ^2}{2\sigma_i^2}}$

Entonces:

$L(\theta)=\prod_{i=0}^N \frac{1}{\sigma_i \sqrt{2\pi}}e^{-\frac{\left(x_i-\theta\right)^2}{2\sigma_i^2}} = \frac{1}{({\sigma_i\sqrt{2\pi}})^N}e^{-\sum_{i=0}^N \frac{\left(x_i-\theta\right) ^2}{2\sigma_i^2}}$

$ln L(\theta) =-N ln (\sqrt{2\pi}-N ln(\sigma_i)-\sum_{i=0}^N \frac{(x_i-\theta)^2}{2\sigma_i^2}$

$\frac{\partial ln L(\theta)}{\partial \theta}=\sum_{i=0}^N \frac{(x_i-\theta)}{\sigma_i^2}$=0

Entonces:

$\sum_{i=0}^N x_i = N\theta$

Entonces:

$\theta=\sum_{i=0}^N \frac{x_i}{N}=\bar{x}$ __es el valor medio de los datos__

y haciendo el mismo cálculo para $\sigma$ tenemos que 

$\sigma^2=\sum_{i=0}^N \frac{(x_i-\bar{x})^2}{N}$ __es la varianza de los datos__

__Segunda derivada:__


$\frac{\partial}{\partial\theta}\frac{\partial ln L(\theta)}{\partial \theta}=\sum_{i=0}^N \frac{\partial}{\partial\theta}\frac{(x_i-\theta)}{\sigma_i^2}=-\sum_{i=0}^N \frac{1}{\sigma^2}=cte=h$

entonces, $\sigma_{\theta}=\frac{1}{h}$ por lo que la función de máxima verosimilitud se puede escribir como:

$ln L(\theta)=ln L(\hat{\theta}) -\frac{h}{2}(\theta-\hat{\theta})^2$

y por lo tanto:

$L(\theta) \propto exp(-\frac{h}{2}(\theta-\hat{\theta})^2$

$\hat{\theta}$ va a estar alrededor de $\theta$ con una varianza $1/h$ del máximo valor de $\sigma_{\theta}$ y decrece hasta 1/2

## Varianza del estimador de máxima verosimilitud

Cuando se incrementa el número de eventos, cualquier función de densidad de probabilidad, se aproxima a una distribución gaussiana multivariante. Entonces $L$ puedes escribirse como:

$L\propto exp(-\frac{1}{2}(\theta-\hat{\theta})^T H (\theta-\hat{\theta}))$

y la varianza:

$V[\hat{\theta}]\rightarrow I(\theta)^{-1}$ con

$I_{jk}=-E\left(\frac{\partial^2 ln L}{\partial \theta_j \partial \theta_k}\right)=H$

y la matriz de covarianza:

$\hat{V}(\hat{\theta})=\left[-\frac{\partial^2 ln L(x;\theta)}{\partial \theta^2}|_{\theta=\hat{\theta}}\right]^{-1}=H^{-1}$

y para cada parámetro $\hat{\theta_j}$:

$\hat{\sigma}_{\theta_j}=\sqrt{\hat{V}_{jj}(\hat{\theta})}$

También se puede utilizar el valor de $s\sigma$ ($1\sigma=68\%$):

$\Delta ln L(\theta)=-\frac{s^2}{2}$

entonces se calcula el valor mínimo $\theta_{low}=\hat{\theta}-\Delta\hat{\theta}_-$ y el valor máximo $\theta{max}=\hat{\theta}+\Delta\hat{\theta}_+$ para los cuales se cumpla la condición $\Delta ln L(\theta)=-\frac{1}{2}$ y entonce:

$\theta=\hat{\theta}_{\Delta\hat{\theta}_-}^{\Delta\hat{\theta}_+}=\hat{\theta}\pm\hat{\sigma}_{\theta}$

          
### Región de confianza con $\chi^2$

Para evaluar la región de confianza $\Delta ln L(\theta)=-\frac{s^2}{2}$ se define la razon de la función de máxima verosimilitud:

$\lambda(\theta)=\frac{L(x;\theta)}{L(x;\hat{\theta})}$


Para una muestra grande donde la función de máxima verosimilitud se aproxima a una distribución de probabilidad gaussiana, $-2 ln \lambda(\theta)$ se aproxima a una distribución $\chi^2$ para evaluar la región de confianza $1-\alpha$ donde $\alpha$ es el valor medio de la distribución.

Estos intervalos regulares (cuantiles $1-\alpha$) definen el crecimiento de $-2 ln \lambda(\theta)$ que corresponden a los valores de $\theta$ en los bordes de la región de confianza.

El valor de los cuantiles es de la forma $F_{\chi^2}^{-1}(1-\alpha,m)$ que es el inverso de la función acumulativa $F_{\chi^2}$ para la función $\chi^2$ con $m$ grados de 

### Perfil de verosimilitud

Si la función depende de varios parámetros, pero solo se quiere obtener uno de ellos:

$\lambda(\mu)=\frac{L(x;\mu,\hat{\hat{\theta}})}{L(x;\hat{\mu},\hat{\theta})}$

1. En el numerador el parámetro $\theta$ se ajuste mediante el estimador de máxima verosimilitud a $\hat{\hat{{\theta}}}$ para un valor dado de $\mu$.

2. En el denominador $\mu$ se ajusta con el estimador de máxima verosimilitud a los valores $ḩat{\mu}$ y $\hat{\theta}$

3. $-2 ln(\lambda(u))$ sigue una distibución $\chi^2$ y el intervalo de confianza de $\mu$ se obtine con $-\Delta L = -s^2/2$


