(dGANAE)=
# Datos de GAN-AE
Las variables obtenidas en el pre-procesamiento de GAN-AE para los dos jets principales son{cite}`Vaslin_2020`:
- $p_T$, $\eta$, $\phi$, $m$ y $E$.
- El número de subjets inclusivos y exclusivos ($nsj_{inclusive}$, $nsj_{exclusive}$) del evento y el número de constituyentes.
- Subjettiness: $\tau_1$, $\tau_2$, $\tau_3$, $\tau_{32}$ y $\tau_{21}$
- Anillos de energía definidos como $\left(\sum E_{const}/E_{jet}\right)$ con $\Delta R(jet, constit) \in \left[R_{jet}(i/n);R_{jet}((i+1)/n)\right]$ y $n = 1,2,\dots,10$.

Y del evento:
- $m_{jj}$ y número de jets $n_{jets}$ con $p_T\geq20$ GeV

(dGANAE-dist)=
## Distribuciones
GAN-AE utiliza una gran cantidad de variables. Sin embargo, en la {numref}`dGANAE-dist-importance` se observan las distribuciones de las características más importantes para la clasificación de acuerdo con {cite}`Vaslin_2020`.

In [1]:
# Importamos librerias básicas
import pandas as pd
import h5py
import numpy as np
import matplotlib.pyplot as plt
import nexusformat.nexus as nx

# Funciones de benchtools
from benchtools.src.plotools import bkg_sig_hist, bkg_sig_scatter, create_png, image_grid

# Definimos el path de las imagenes
PATH_FIGURES = '../../figuras/'

In [2]:
# Cargamos los datos
df_bkg = pd.read_hdf('../../../datos/bkgHLF_merged_RnD.h5')
df_sig=pd.read_hdf('../../../datos/sigHLF_merged_RnD.h5')
# Agregamos las etiquetas de señal y fondo
df_bkg['label']=0
df_sig['label']=1
# Juntamos dfs
df = pd.concat([df_bkg, df_sig])

In [3]:
# Graficamos la distribución de variables
variables = ['mjj', 'm1', 'm2','pt1', 'pt2', '21tau1', '21tau2']
lista = create_png(namedf='GAN-AE', df=df, variables=variables, keyname='dist', path=PATH_FIGURES, nbins=50, type='distribution',title=True)
# Grid de imagenes
image_grid(rows=2, columns=4, images=lista, name='dGANAE-dist-importance', path=PATH_FIGURES, remove=True)

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

In [4]:
# Graficamos la distribución de variables
variables = ['nisj1', 'nisj2', '1tau2']
lista = create_png(namedf='GAN-AE', df=df, variables=variables, keyname='dist', path=PATH_FIGURES, nbins=50, type='distribution', title=True)
# Grid de imagenes
image_grid(rows=1, columns=3, images=lista, name='dGANAE-dist-importance-diff', path=PATH_FIGURES, remove=True)

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

```{figure} ./../../figuras/dGANAE-dist-importance.png
---
name: dGANAE-dist-importance
width: 100%
---
Distribución de las variables más importantes según {cite}`Vaslin_2020`. Masa invariante y masa, $p_T$ y $\tau_{21}$ de los dos jets principales.
```
Las distribuciones de la masa invariante, el $p_T$ de los dos jets principales y la masa de los dos jets principales en la {numref}`dGANAE-dist-importance` son iguales a las obtenidas en la {numref}`datospp-dist` para el conjunto R&D, el conjunto utilizado en este análisis. $\tau_{21}$ de los dos jets principales son similare a lo obtenido con `benchtools`. 

```{figure} ./../../figuras/dGANAE-dist-importance-diff.png
---
name: dGANAE-dist-importance-diff
width: 100%
---
Distribución de las variables más importantes según {cite}`Vaslin_2020`. Número de subjets inclusivos y $\tau_1$ para el jet secundario.
```
Por otra parte, en la {numref}`dGANAE-dist-importance-diff`, observamos que la distribución del número de subjets inclusivos de los dos jets principales es diferente para señal y fondo; en general, la señal posee menos subjets. Las distribuciones del fondo y la señal de $\tau_1$ para el jet secundario son similares, siendo la distribución de la señal un poco mas ancha.
(dGANAE-corr)=
## Correlaciones
Las correlaciones discutidas en la {numref}`datospp-correlaciones`, se observan también en los datos pre-procesados analizados en esta sección. En la {numref}`dGANAE-correlaciones`, la señal presenta algunas correlaciones que no se observan en el fondo, como entre el numero de subjets inclusivos del jet secundario con la masa del jet principal, o algunos anillos de energía.

In [5]:
# Queremos tener las correlaciones para la señal y el fondo en dataframes separados
df_sig = df[df['label']==1].drop(['label'], axis=1)
df_bkg = df[df['label']==0].drop(['label'], axis=1)

# Calculamos las correlaciones
df_sig_corr = df_sig.corr()
df_bkg_corr = df_bkg.corr()

# Definimos figura y tamaño
fig, axes = plt.subplots(figsize=[14,11], facecolor='white', nrows=1, ncols=2, sharey=True)
fig.tight_layout() 

# Para graficar el mapa de correlaciones:
for ax, (name, corr) in zip(axes.flat, [('Señal', df_sig_corr), ('Fondo', df_bkg_corr)]):
    
    cax = ax.matshow(corr,cmap='coolwarm', vmin=-1, vmax=1)

    #Ejes
    ticks = np.arange(0,len(corr.columns),1)
    ax.set_xticks(ticks)
    ax.set_yticks(ticks)
    ax.set_xticklabels(corr.columns, rotation=90)
    ax.set_yticklabels(corr.columns)
    ax.xaxis.tick_top()
    ax.set_title('{}'.format(name), fontsize=16) 
    
# Mapa de color
fig.colorbar(cax, ax=axes.ravel().tolist(), fraction=0.025, pad=0.04)
# Título
#fig.suptitle('Mapa de correlaciones', fontsize=25)

#plt.show()
plt.savefig('./../../figuras/dGANAE-correlaciones', bbox_inches='tight', facecolor=fig.get_facecolor(),edgecolor='none')
plt.close()

```{figure} ./../../figuras/dGANAE-correlaciones.png
---
name: dGANAE-correlaciones
width: 85%
---
Correlaciones de las variables pre-procesadas para GAN-AE.
```
Sin embargo, las correlaciones en los eventos de señal no son evidentes en la {numref}`dGANAE-corr-scatter`.

In [6]:
# Graficamos las correlaciones de algunas variables
variables = [('nisj2', 'm1'), ('eRing3_1', 'E1')]
lista = create_png(namedf='GANAE', df=df, variables=variables, keyname='corr', path=PATH_FIGURES, type='scatter', title=True)
image_grid(rows=1, columns=2, images=lista, name='dGANAE-corr-scatter', path=PATH_FIGURES, remove=True)

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

```{figure} ./../../figuras/dGANAE-corr-scatter.png
---
name: dGANAE-corr-scatter
width: 100%
---
Correlación de el número de jets inclusivos del jet secundario con la masa del jet principal y el tercer anillo de energía y la energía del jet principal.
```