# 03: Test de hipótesis

En una tarea de la lección 1 intentábamos buscar los valores de ciertos coeficientes de Wilson que reprodujeran los valores experimentales de algunos observables. En aquella tarea nos limitamos a buscar una aproximación, pero ahora vamos a identificar la respuesta exacta. Para ello, deberemos:

* Cuantificar cómo de bueno es un conjunto de parámetros (en nuestro caso, coeficientes de Wilson) a la hora de describir los resultados experimentales.
* Obtener los parámetros que mejor describen los datos experimentales.
* Decidir si el resultado obtenido es significativamente mejor que el SM (hipótesis nula).

## Funciones de pérdida


Nuestro objetivo es determinar $n$ parámetros $\vec{\theta}$ definidos en una región $R \subseteq \mathbb{R}^n$. Estos parámetros los emplearemos en un modelo $f_i(\vec{\theta})$ para hacer predicciones $x_i = f_i(\vec{\theta})$ que contrastamos con las observaciones $y_i$.

En nuestro caso, los parámetros $\vec{\theta}$ serán los coeficientes de Wilson, el modelo será el SMEFT, los valores de $x_i$ serán ciertos observables ($R_{K^{(*)}}$, $R_{D^{(*)}}$, $R_{J/\psi}$, ...) que calcularemos mediante la función `np_prediction` de `flavio`, y las observaciones $y_i$ serán las mediciones experimentales para esos mismos observables.

Una función de pérdida o de coste sirve para cuantificar cómo de bien los parámetros $\vec{\theta}$ describen las observaciones $y_i$. Se trata de una función $L: R \to \mathbb{R}$ que tenga un mínimo cuando los valores predichos por el modelo sean iguales a las observaciones.

Una de las funciones de pérdida más comunes es la función cuadrática: $$L(\vec{\theta}) = \sum_i (x_i - y_i)^2 = \sum_i (f_i(\vec{\theta}) - y_i)^2.$$

Veamos la función cuadrática en acción. En este caso, incluiremos dos observables relacionados con los procesos $b\to s\ell\ell$, $R_K$ y $\frac{d\mathrm{BR}}{dq^2}(B\to K\mu^+\mu^-)$, ambos en el bin $q^2 \in [1.1,\ 6.0]\ \mathrm{GeV}^2$. El modelo tendrá dos parámetros $K_1$ y $K_2$, y en vez de usar el SMEFT, simplemente sumaremos $K_i$ a las predicciones del SM:

In [6]:
import flavio

RK_SM = flavio.sm_prediction("<Rmue>(B+->Kll)", 1.1, 6.0)
dBR_SM = flavio.sm_prediction("<dBR/dq2>(B+->Kmumu)", 1.1, 6.0)

RK_exp = flavio.combine_measurements(("<Rmue>(B+->Kll)", 1.1, 6.0)).central_value
dBR_exp = flavio.combine_measurements(("<dBR/dq2>(B+->Kmumu)", 1.1, 6.0)).central_value

In [9]:
def modelo(K1, K2):
    return RK_SM + K1, dBR_SM + K2


def loss(modelo, pars):
    y = (RK_exp, dBR_SM)

    return sum((xi-yi)**2 for xi, yi in zip(modelo(*pars), y))

Veamos el valor de la función de pérdida para $\vec{K} = (0.1, 0)$ y para $\vec{K} = (0, 0.1)$:

In [13]:
loss(modelo, (0.1, 0))

0.06303582803555643

In [14]:
loss(modelo, (0, 0.1))

0.0328219542413324

Según la función de pérdida que estamos usando, el segundo conjunto de parámetros es mejor que el primero, ya que tiene menor pérdida. Sin embargo, si examinamos las predicciones del modelo en ambos puntos:

In [15]:
modelo(0.1, 0)

(1.1007790786808298, 3.491200391085207e-08)

In [16]:
modelo(0, 0.1)

(1.0007790786808297, 0.10000003491200392)

En el primer caso, estamos modificando el valor de $R_K$ en un 10%, mientras que en el segundo, hemos aumentado el *branching ratio* diferencial en 7 órdenes de magnitud!

La función de pérdida que hemos empleado no funciona bien cuando tenemos observables que abarcan varios órdenes de magnitud. Podemos corregirla si normalizamos los observables. La elección natural para la normalización es la incertidumbre de cada observable.$$L(\vec{\theta}) = \sum_i \frac{(x_i - y_i)^2}{\sigma_i^2} = \sum_i \frac{(f_i(\vec{\theta}) - y_i)^2}{\sigma_i^2}.$$

En la práctica, asumiremos que la incertidumbre tiene dos componentes independientes, experimental y teórica, y que esta última se puede aproximar por la incertidumbre teórica en el SM:

In [17]:
RK_unc_SM = flavio.sm_uncertainty("<Rmue>(B+->Kll)", 1.1, 6.0)
dBR_unc_SM = flavio.sm_uncertainty("<dBR/dq2>(B+->Kmumu)", 1.1, 6.0)

RK_unc_exp = flavio.combine_measurements(("<Rmue>(B+->Kll)", 1.1, 6.0)).error_left
dBR_unc_exp = flavio.combine_measurements(("<dBR/dq2>(B+->Kmumu)", 1.1, 6.0)).error_left

In [18]:
def loss(modelo, pars):
    y = (RK_exp, dBR_SM)
    sigma2 = (RK_unc_SM**2+RK_unc_exp**2, dBR_unc_SM**2+dBR_unc_exp**2)

    return sum((xi-yi)**2/s2i for xi, yi, s2i in zip(modelo(*pars), y, sigma2))

Con esta nueva función de pérdida, obtenemos resultados más coherentes:

In [19]:
loss(modelo, (0.1, 0))

52.519297254552264

In [20]:
loss(modelo, (0, 0.1))

228238794229687.5

Una última complicación ocurre cuando varios observables no son estadísticamente independientes, ya sea porque su determinación teórica está relacionada (como por ejemplo $R_K$ y $\frac{d\mathrm{BR}}{dq^2}$) o porque las mediciones experimentales emplean el mismo análisis ($R_D$ y $R_{D^*}$). En estos casos, utilizar la desviación estadística de cada observable individualmente hará que se sobreestime la pérdida. En su lugar hay que usar la matriz de covarianza $C$,
$$L(\vec{\theta}) = \sum_{i,j} (x_i - y_i) C^{-1}_{ij} (x_j - y_j) = \sum_{i,j} (f_i(\vec{\theta}) - y_i)C^{-1}_{ij}(f_j(\vec{\theta}) - y_j).$$

La covariancia de dos variaables estadísticas se calcula como $C_{ij} = E[(x_i-E[x_i])(x_j-E[x_j])]$, donde $E[]$ denota el valor esperado. Por lo tanto, los elementos de la diagonal se corresponden con la varianza $C_{ii} = \sigma_i^2$, y en los casos en los que las variables $x_i$ y $x_j$ sean estadísticamente independientes, los términos fuera de la diagonal $C_{ij} = 0$ y la función de pérdida se reduce al caso anterior.

Relacionada con la covarianza se puede definir la correlación, $\mathrm{Corr}_{ij} = \frac{C_{ij}}{\sigma_i\sigma_j}$. Los elementos de la diagonal de la matriz de correlación siempre son iguales a 1, y el resto están comprendidos entre -1 y 1, siendo una correlación nula si las variables son estadísticamente independientes, y $\pm1$ si tienen una relación lineal $x_1 = m x_2$ ($+1$ si $m> 0$ y $-1$ si $m < 0$).

En `flavio` la covarianza en el SM de varios observables se calcula con la función `sm_covariance`, a la que hay que pasarle una lista con los observables:

In [24]:
cov_SM = flavio.sm_covariance([("<Rmue>(B+->Kll)", 1.1, 6.0), ("<dBR/dq2>(B+->Kmumu)", 1.1, 6.0)])

In [25]:
cov_SM[0,1]/(RK_unc_SM*dBR_unc_SM)

-0.3844541118682048

Vamos a calcular la nueva función de pérdida. Para hacer las operaciones con vectores y matrices usaremos `numpy`

In [42]:
import numpy as np

def loss(modelo, pars):
    inv_cov = np.matrix(cov_SM).I
    y = (RK_exp, dBR_SM)
    residuals = np.array([xi-yi for xi, yi in zip(modelo(*pars), y)])
    return float(residuals @ inv_cov @ residuals)

In [43]:
loss(modelo, (0.1, 0))

869484.9800030973

In [44]:
loss(modelo, (0, 0.1))

276193237137052.28