(datospp)=
# Datos pre-procesados
En la sección anterior, analizamos los datos públicados para las LHCO 2020 sin alteración. En esta sección, analizaremos los datos pre-procesados de estos conjuntos. 

Los datos pre-procesados se obtienen utilizando `build_features` de `benchtools.src.clustering`, que utiliza la librería `pyjet` para agrupar los jets y obtener variables cinemáticas de los dos jets más energéticos de cada evento. Los detalles del pre-procesamiento se encuentran en la {numref}`bench-pre`.

In [2]:
# Importamos las librerías principales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from myst_nb import glue
from PIL import Image
import os

# Funciones de benchtools
from benchtools.src.plotools import create_png, image_grid
from benchtools.src.clustering import build_features

# Definimos variables globales
PATH_IMAGES = '../../figuras/'

In [3]:
# Definimos donde están los datos
path_data_RnD = "../../../datos/events_anomalydetection.h5"
path_data_BB1 = "../../../datos/events_LHCO2020_BlackBox1.h5"
path_key_BB1 = "../../../datos/events_LHCO2020_BlackBox1.masterkey"

In [4]:
# Pre-procesamiento R&D
# Esta celda se corre una vez para pre-procesar los datos
# Una vez que el archivo existe no vuelve a correr
build_features(path_data=path_data_RnD, nbatch=11, outname='RnD-1100000', outdir='../../../datos/', chunksize=100000)

A file with that name already exists


In [5]:
# Pre-procesamiento BB1
# Esta celda se corre una vez para pre-procesar los datos
# Una vez que el archivo existe no vuelve a correr
build_features(path_data=path_data_BB1, nbatch=10, outname='BB1-1000000', path_label=path_key_BB1, outdir='../../../datos/', chunksize=100000)

A file with that name already exists


In [6]:
# Cargamos los datos
df_RnD = pd.read_csv("../../../datos/RnD-1100000.csv")
df_BB1 = pd.read_csv("../../../datos/BB1-1000000.csv")

glue("df-RnD", df_RnD.head(), display=False)

```{glue:figure} df-RnD
:figwidth: 700px
:name: "df-RnD"

Primeros 5 eventos de los datos R&D pre-procesados usando `benchtools`. Los eventos corresponden a los que se observan en la {numref}`df-raw`.
```
(datospp-dist)=
## Distribuciones
Son de interés las variables que posean diferencias entre eventos de señal y de fondo, puesto que, en principio, estas son las variables que los modelos van a utilizar para distinguir entre clases. 

In [7]:
variables = ['pT_j1','E_j1', 'm_j1','tau_21_j1']
lista_RnD = create_png(namedf='RnD', df=df_RnD, variables=variables, keyname='vardiff', path=PATH_IMAGES, nbins=50, type='distribution', title=True)
lista_BB1 = create_png(namedf='BB1', df=df_BB1, variables=variables, keyname='vardiff', path=PATH_IMAGES, nbins=50, type='distribution', title=True)
# Grid de imagenes para RnD y BB1
image_grid(rows=2, columns=2, images=lista_RnD, name='datospp-vardiff-RnD', path=PATH_IMAGES, remove=True)
image_grid(rows=2, columns=2, images=lista_BB1, name='datospp-vardiff-BB1', path=PATH_IMAGES, remove=True)

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

```{figure} ./../../figuras/datospp-vardiff-RnD.png
---
name: datospp-vardiff-RnD
width: 70%
---
Distribución de $p_T$, $E$, $m$ y $\tau_{21}$ del jet principal en el conjunto R&D.
```
En la {numref}`datospp-vardiff-RnD` observamos que la distribución del $p_T$ del fondo decae suavemente, lo que indica que los jets más energéticos de eventos de QCD tienden a tener un momento transverso menor a 1500 GeV. Los jets más energéticos de los eventos de señal poseen un $p_T$ mayor, entre 1500 y 2000 GeV. El mayor valor de $p_T$ en los jets de señal se debe a que se requiere una interacción con mayor transferencia de momento para generar la masa de la partícula $Z'$, interacción que, a su vez, resulta en un mayor $p_T$. Esta distribución de señal y fondo también se observa en las distribuciones de energía, donde los jets principales de eventos de señal son más energéticos que los de eventos de fondo, debido a lo explicado anteriormente.

La distribución de masa del jet principal también es diferente. Para el fondo los jets tienden a ser menos masivos y la distribución de masa también decaen suavemente. Sin embargo, en los eventos de señal se observan dos picos alrededor de 100 y 500 GeV. Estas son las masas de las partículas $X$ y $Y$ del evento $Z'\rightarrow XY$ para el conjunt R&D.

Finalmente, se observa diferencia en la distribución de la variable $\tau_{21}$. De acuerdo a su definición en la ec.{eq}`jets-ratio_subjettiness`, el valor de esta variable es menor cuando los jets son más consistentes con la subestructura de dos subjets. Por lo tanto, como la señal se agrupa hacia valores más pequeños, los jets de señal son más consistentes con la subestructura de dos subjets.

Ambos conjuntos presentan distribuciones similares en las variables mostradas.

```{figure} ./../../figuras/datospp-vardiff-BB1.png
---
name: datospp-vardiff-BB1
width: 70%
---
Distribución de $p_T$, $E$, $m$ y $\tau_{21}$ del jet principal en el conjunto BB1.
```
La diferencia principal se encuentra en la distribución de la masa del jet. Como se observa en {numref}`datospp-vardiff-BB1`, para el conjunto BB1 los picos de señal están alrededor de 380 y 750 GeV, cercano al valor de las masas de las partículas $X$ y $Y$ de este conjunto.

En las {numref}`datospp-vareq-RnD` y la {numref}`datospp-vareq-BB1`, vemos que las distribuciones de $\eta$ son más angostas para la señal porque los jets de señal se producen de forma más centrales en el detector, debido a que provienen de colisiones más energéticas. También observamos que el número de hadrones para la señal es mayor que para el fondo, debido a que los jets de QCD tienden a tener más divisiones en su evolución{cite}`Aad_2014`. El ángulo $\phi$ de los jets no presenta diferencias evidentes. 

En general, el bajo porcentaje de señal en el conjunto BB1 no permite observar con exactitud la distribución de la señal, pero es evidente la semejanza con el conjunto R&D.

In [8]:
variables = ['eta_j1', 'nhadrons_j1', 'phi_j1']
lista_RnD = create_png(namedf='RnD', df=df_RnD, variables=variables, keyname='vareq', path=PATH_IMAGES, nbins=50, type='distribution', title=True)
lista_BB1 = create_png(namedf='BB1', df=df_BB1, variables=variables, keyname='vareq', path=PATH_IMAGES, nbins=20, type='distribution', title=True)

# Grid de imagenes para RnD y BB1
image_grid(rows=1, columns=3, images=lista_RnD, name='datospp-vareq-RnD', path=PATH_IMAGES, remove=True)
image_grid(rows=1, columns=3, images=lista_BB1, name='datospp-vareq-BB1', path=PATH_IMAGES, remove=True)

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

```{figure} ./../../figuras/datospp-vareq-RnD.png
---
name: datospp-vareq-RnD
width: 100%
---
Distribución de $\eta$, *nro. de hadrones* y $\phi$ del jet principal para el conjunto R&D.
```

```{figure} ./../../figuras/datospp-vareq-BB1.png
---
name: datospp-vareq-BB1
width: 100%
---
Distribución de $\eta$, *nro. de hadrones* y $\phi$ del jet principal para el conjunto BB1.
```
Las distribuciones de las variables analizadas previamente poseen las mismas características para el jet secundario, como se evidencia en la {numref}`datospp-jet2-RnD` y la {numref}`datospp-jet2-BB1`. El jet secundario posee menor $p_T$ y $E$ que el jet principal, por definición. Las demas variables muestran las mismas distribuciones que las correspondientes al jet principal, explicadas anteriormente.

In [9]:
variables = ['pT_j2','E_j2', 'm_j2','tau_21_j2', 'eta_j2', 'nhadrons_j2', 'phi_j2']
lista_RnD = create_png(namedf='RnD', df=df_RnD, variables=variables, keyname='jet2', path=PATH_IMAGES, nbins=50, type='distribution', title=True)
lista_BB1 = create_png(namedf='BB1', df=df_BB1, variables=variables, keyname='jet2', path=PATH_IMAGES, nbins=20, type='distribution', title=True)

# Grid de imagenes para RnD y BB1
image_grid(rows=2, columns=4, images=lista_RnD, name='datospp-jet2-RnD', path=PATH_IMAGES, remove=True)
image_grid(rows=2, columns=4, images=lista_BB1, name='datospp-jet2-BB1', path=PATH_IMAGES, remove=True)

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

```{figure} ./../../figuras/datospp-jet2-RnD.png
---
name: datospp-jet2-RnD
width: 100%
---
Distribución de las variables del jet secundario para el conjunto R&D.
```

```{figure} ./../../figuras/datospp-jet2-BB1.png
---
name: datospp-jet2-BB1
width: 100%
---
Distribución de las variables del jet secundario para el conjunto BB1.
```
Por último, tenemos las variables que relacionan los dos jets principales, $\Delta R$ y $m_{jj}$, en la {numref}`datospp-jetrelations-RnD` y la {numref}`datospp-jetrelations-BB1`. En estas variables se observan diferencias entre las distribuciones de señal y de fondo.

In [10]:
lista_RnD = create_png(namedf='RnD', df=df_RnD, variables=['deltaR_j12','m_jj'], path=PATH_IMAGES, keyname='jetrelations', type='distribution', title=True)
lista_BB1 = create_png(namedf='BB1', df=df_BB1, variables=['deltaR_j12','m_jj'], path=PATH_IMAGES, keyname='jetrelations', type='distribution', title=True)

# Grid de imagenes para RnD y BB1
image_grid(rows=1, columns=2, images=lista_RnD, name='datospp-jetrelations-RnD', path=PATH_IMAGES, remove=True)
image_grid(rows=1, columns=2, images=lista_BB1, name='datospp-jetrelations-BB1', path=PATH_IMAGES, remove=True)

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

```{figure} ./../../figuras/datospp-jetrelations-RnD.png
---
name: datospp-jetrelations-RnD
width: 80%
---
Distribución de las variables $\Delta R$ y $m_{jj}$ para el conjunto R&D.
```

In [11]:
mjj_RnD = df_RnD.loc[df_RnD['label']==1]['m_jj'].mean()
glue('mjj-RnD', mjj_RnD, display=True)
mjj_BB1  = df_BB1.loc[df_BB1['label']==1]['m_jj'].mean()
glue('mjj-BB1', mjj_BB1, display=True)

3476.93849410142

3670.46231528546

La distribución de $\Delta R$ es más angosta para los eventos de señal. La masa invariante del fondo se encuentra entre 2000 y 3000 GeV, y decae suavemente, mientras que para la señal del conjunto R&D se observa un pico en {glue:text}`mjj-RnD:.0f` GeV, consistente con la masa del bosón $Z'$ de nueva física para el evento de este conjunto de datos. Para el conjunto BB1 se observa un pico en {glue:text}`mjj-BB1:.0f` GeV, cerca de la masa de el bosón $Z'$ para este conjunto.

```{figure} ./../../figuras/datospp-jetrelations-BB1.png
---
name: datospp-jetrelations-BB1
width: 80%
---
Distribución de las variables $\Delta R$ y $m_{jj}$ para el conjunto BB1.
```
Aunque las variables de masa poseen diferentes distribuciones para señal y fondo, y podrían ser de utilidad para que el modelo aprenda, no serán utilizadas para el entrenamiento ni la clasificación. La idea es que la búsqueda sea lo más libre de modelo posible, por lo que no se desea que los algoritmos aprendan la distribución de masa.
(datospp-correlaciones)=
## Correlaciones
La correlación de las variables que se utilizarán para entrenamiento se pueden observar en la {numref}`datospp-correlaciones-fondo` y la {numref}` datospp-correlaciones-señal`.

In [12]:
for label, intlabel in [('señal', 1), ('fondo', 0)]:
    # Queremos tener las correlaciones para la señal y el fondo en dataframes separados
    df_BB1_nm = df_BB1[df_BB1['label']==intlabel].drop(['label','m_jj','m_j1','m_j2'], axis=1)
    df_RnD_nm = df_RnD[df_RnD['label']==intlabel].drop(['label','m_jj','m_j1','m_j2'], axis=1)

    # Calculamos las correlaciones
    df_BB1_corr = df_BB1_nm.corr()
    df_RnD_corr = df_RnD_nm.corr()
    
    # Definimos figura y tamaño
    fig, axes = plt.subplots(figsize=[14,11], facecolor='white', nrows=1, ncols=2, sharey=True)
    fig.tight_layout() 
    # Para graficar el mapa de correlaciones:
    for ax, (name, corr) in zip(axes.flat, [('R&D', df_RnD_corr), ('BB1', df_BB1_corr)]):
        
        cax = ax.matshow(corr,cmap='coolwarm', vmin=-1, vmax=1)

        #Ejes
        ticks = np.arange(0,len(corr.columns),1)
        ax.set_xticks(ticks)
        ax.set_yticks(ticks)
        ax.set_xticklabels(corr.columns, rotation=90)
        ax.set_yticklabels(corr.columns)
        ax.xaxis.tick_top()
        ax.set_title('{}'.format(name), fontsize=16)
        
     
    # Mapa de color
    fig.colorbar(cax, ax=axes.ravel().tolist(), fraction=0.025, pad=0.04)
    # Título
    #fig.suptitle('Mapa de correlación de {}'.format(label), fontsize=25)
    
    #plt.show()
    plt.savefig('./../../figuras/datospp-correlaciones-{}'.format(label), bbox_inches='tight', facecolor=fig.get_facecolor(),edgecolor='none')
    plt.close()

```{figure} ./../../figuras/datospp-correlaciones-fondo.png
---
name: datospp-correlaciones-fondo
width: 80%
---
Mapa de correlaciones para los eventos de **fondo**.
```
```{figure} ./../../figuras/datospp-correlaciones-señal.png
---
name: datospp-correlaciones-señal
width: 80%
---
Mapa de correlaciones para los eventos de **señal**.
```

La mayoría de las variables no presentan una correlación importante, sobre 0.5 o menores a -0.5, a excepción del $p_T$ del jet principal con el $p_T$ jet secundario y $\phi$ del jet principal con $\phi$ del jet secundario, para la señal y el fondo ({numref}`datospp-correlaciones-fondo` y {numref}`datospp-correlaciones-señal`), y el $p_T$ de los jets principales con $\Delta R$, para la señal ({numref}`datospp-correlaciones-señal`). Estas correlaciones se observan en la {numref}`datospp-correlaciones-RnD` y la {numref}`datospp-correlaciones-BB1`.

In [13]:
variables = [('pT_j1', 'pT_j2'), ('phi_j1', 'phi_j2'), ('pT_j1', 'deltaR_j12'), ('pT_j2', 'deltaR_j12')]
lista_RnD = create_png(namedf='RnD', df=df_RnD, variables=variables, path=PATH_IMAGES, keyname='corr', type='scatter',title=True)
lista_BB1 = create_png(namedf='BB1', df=df_BB1, variables=variables, path=PATH_IMAGES, keyname='corr', type='scatter', title=True)

# Grid de imagenes para RnD y BB1
image_grid(rows=2, columns=2, images=lista_RnD, name='datospp-correlaciones-RnD', path=PATH_IMAGES, remove=True)
image_grid(rows=2, columns=2, images=lista_BB1, name='datospp-correlaciones-BB1', path=PATH_IMAGES, remove=True)

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

```{figure} ./../../figuras/datospp-correlaciones-RnD.png
---
name: datospp-correlaciones-RnD
width: 100%
---
Variables correlacionadas del conjunto R&D.
```

```{figure} ./../../figuras/datospp-correlaciones-BB1.png
---
name: datospp-correlaciones-BB1
width: 100%
---
Variables correlacionadas del conjunto BB1.
```
La correlación del $p_T$ del jet principal con el $p_T$ jet secundario es lineal por la naturaleza del evento y del agrupamiento. Se escogieron como jets principales los más energéticos, por lo que el $p_T$ de los jets secundarios puede ser a lo sumo igual que el de los jets principales. Además, el momento de la colisión se distribuye de acuerdo a los dos productos principales que se formen, manteniendo una relación entre sí. 

Los valores de $\phi$ del jet principal con $\phi$ del jet secundario también presentan una correlación positiva por la naturaleza del evento. En los eventos dijet, los jets se generan en direcciones opuestas, por lo que la dirección angular del jet principal se relaciona con la del jet secundario. Las demás correlaciones no son evidentes en los gráficos.

Para la señal del conjunto BB1, parece haber una correlación $\tau_{21}$ y $E$ del jet secundario con el $p_T$ del jet secundario, como se evidencia en la {numref}`datospp-correlaciones-senal-BB1`. Sin embargo, por la poca cantidad de señal, no es evidente en los gráficos.

In [14]:
lista_BB1 = create_png(namedf='BB1',df=df_BB1, variables=[('tau_21_j2','pT_j2'),('E_j2', 'pT_j2')], path=PATH_IMAGES, keyname='correlaciones-senal', type='scatter', title=True)

# Grid de imagenes para RnD y BB1
image_grid(rows=1, columns=2, images=lista_BB1, name='datospp-correlaciones-senal-BB1', path=PATH_IMAGES, remove=True)

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

```{figure} ./../../figuras/datospp-correlaciones-senal-BB1.png
---
name: datospp-correlaciones-senal-BB1
width: 100%
---
Correlaciones de la señal del conjunto BB1 que no se encuentran en el conjunto R&D.
```