(dGANAE)=
# Datos de GAN-AE
Las variables obtenidas en el preprocesamiento de GAN-AE para los dos jets principales son{cite}`Vaslin_2020`:
- $pT$, $\eta$, $\phi$, $m$ y $E$.
- El número de subjets inclusivos y exclusivos del evento y el número de constituyentes.
- Subjettiness: $\tau_1$, $\tau_2$, $\tau_3$, $\tau_{32}$ y $\tau_{21}$
- Anillos de energía definidos como $\left(\sum E_{const}/E_{jet}\right)$ con $\Delta R(jet, constit) \in \left[R_{jet}(i/n);R_{jet}((i+1)/n)\right]$ y $n = 1,2,\dots,10$.

Y del evento:
- $m_{jj}$ y número de jets $n_{jets}$ con $pT\geq20$ GeV

(dGANAE-dist)=
## Distribuciones
GAN-AE utiliza una gran cantidad de variables. En la {numref}`dGANAE-dist-importance` se muestran las distribuciones de las características más importantes para la clasificación de acuerdo con {cite}`Vaslin_2020`.

In [1]:
# Importamos librerias básicas
import pandas as pd
import h5py
import numpy as np
import matplotlib.pyplot as plt
import nexusformat.nexus as nx
import os

# Funciones de benchtools
from benchtools.src.plotools import bkg_sig_hist, bkg_sig_scatter, create_png, image_grid

# Definimos el path de las imagenes
PATH_FIGURES = '../../figuras/'

In [2]:
# Cargamos los datos
df_bkg = pd.read_hdf('../../../datos/bkgHLF_merged_RnD.h5')
df_sig=pd.read_hdf('../../../datos/sigHLF_merged_RnD.h5')
# Agregamos las etiquetas de señal y fondo
df_bkg['label']=0
df_sig['label']=1
# Juntamos dfs
df = pd.concat([df_bkg, df_sig])

In [18]:
# Graficamos la distribución de variables
# Definimos los datos para graficar separados por jet principal y jet secundario
#variables = ['mjj', 'm1', 'm2','pt1', 'pt2', '21tau1', '21tau2']
variables1 = ['m1','pt1','21tau1']
variables2 = ['m2','pt2','21tau2']
variables3 = ['mjj']

xlabels12 = [r'$m$', r'$pT$', r'$\tau_{21}$']
xlabels3 = [r'$m_{jj}$']

# Graficamos
lista=[]
for variables, jet, xlabels in zip([variables1, variables2, variables3],['jet principal', 'jet secundario', None],[xlabels12, xlabels12, xlabels3]):
    lista_imagenes = create_png(namedf='GAN-AE', df=df, variables=variables, keyname='dist', path=PATH_FIGURES, 
                                xlabels=xlabels, ylabels=['Densidad de eventos']*3,jet=jet, nbins=50, type='distribution',title=True)
    for filename in lista_imagenes:
        lista.append(filename)
    
# Grid de imagenes
image_grid(rows=2, columns=4, images=lista, name='dGANAE-dist-importance', path=PATH_FIGURES, remove=True)

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

In [4]:
# Graficamos la distribución de variables
variables = ['nisj1', 'nisj2', '1tau2']
xlabels = ['n. subjets inclusivos del jet principal', 'n. subjets inclusivos del jet secundario', r'$\tau_1$ del jet secundario']

# Definimos las funciones aquí porque necesito cambiar los bins de señal y fondo solo para estos plots
def bkg_sig_hist(df, variable, label, xlabel=None, ylabel='Events density', n_bins_sig=50, n_bins_bkg=50):
    # Getting the labels
    labels = df[label].unique()
    colors = ['b','r','y']
    
    fig = plt.figure()
    ax = fig.add_subplot(1, 1, 1)
    
    for integer, color in zip(labels, colors):
    # Plotting the histogramas
        df_plot = df.loc[df.loc[:,label]==integer]
        df_plot = df_plot[variable]
        if len(labels)==2:
            if integer == 0:
                df_plot.plot.hist(bins=n_bins_bkg, facecolor=color, alpha=0.2, label='background'.format(integer), density=True)
            else:
                df_plot.plot.hist(bins=n_bins_sig, facecolor=color, alpha=0.2, label='signal'.format(integer), density=True)
    
    # Adding information to the plot
    if xlabel != None:
        plt.xlabel(xlabel)
    else: 
        plt.xlabel(variable)
        
    plt.ylabel(ylabel)
    plt.legend(loc='upper right')
    plt.title('Distribution of {}'.format(variable))
    
    return ax

def create_png_esp(namedf, df, variables, keyname, path, xlabels, ylabels, jet=None , nbins_bkg=50, nbins_sig=50, type='distribution', title=False):
    list_images= []
    for variable, xlabel, ylabel in zip(variables, xlabels, ylabels):
        # Plotting
        fig = plt.figure(facecolor='white')
        bkg_sig_hist(df, variable=variable, label='label', xlabel=xlabel, ylabel=ylabel, n_bins_sig=nbins_sig, n_bins_bkg=nbins_bkg)
        if title is True:
            # Title (in spanish but can be changed)
            if jet != None:
                plt.title('{}: distribución de '.format(namedf)+ xlabel+' del '+ jet)
            else:
                plt.title('{}: distribución de '.format(namedf)+ xlabel)
        # Defining path and name of the files
        filename = os.path.join(path,'{}-{}-{}.png'.format(keyname,namedf,variable))
        # Saving the path of each file
        list_images.append(filename)
        # Saving the figure as a png
        plt.savefig(filename, bbox_inches='tight', facecolor=fig.get_facecolor(),edgecolor='none')
        plt.close()
    return list_images



lista = create_png_esp(namedf='GAN-AE', df=df, variables=variables, keyname='dist', path=PATH_FIGURES, 
                   xlabels=xlabels, ylabels=ylabels, nbins_sig=50, nbins_bkg=67, type='distribution', title=True)
# Grid de imagenes
image_grid(rows=1, columns=3, images=lista, name='dGANAE-dist-importance-diff', path=PATH_FIGURES, remove=True)

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

```{figure} ./../../figuras/dGANAE-dist-importance.png
---
name: dGANAE-dist-importance
width: 100%
---
Distribución de las variables más importantes según {cite}`Vaslin_2020`. Masa invariante y masa, $pT$ y $\tau_{21}$ de los dos jets principales.
```
Las distribuciones de la masa invariante, el $pT$ de los dos jets principales y la masa de los dos jets principales en la {numref}`dGANAE-dist-importance` son iguales a las obtenidas en la {numref}`datospp-dist` para el conjunto R&D, el conjunto utilizado en este análisis. $\tau_{21}$ de los dos jets principales son similares a lo obtenido con `benchtools`. 

```{figure} ./../../figuras/dGANAE-dist-importance-diff.png
---
name: dGANAE-dist-importance-diff
width: 100%
---
Distribución de las variables más importantes según {cite}`Vaslin_2020`. Número de subjets inclusivos del jet principal y secundario y $\tau_1$ del jet secundario.
```
Por otra parte, en la {numref}`dGANAE-dist-importance-diff`, observamos que la distribución del número de subjets inclusivos de los dos jets principales es diferente para señal y fondo; en general, la señal posee menos subjets. Las distribuciones del fondo y la señal de $\tau_1$ para el jet secundario son similares, siendo la distribución de la señal un poco mas ancha, porque los jets de fondo son más consistentes con la subestructura de un jet, como se discutió en la {numref}`datospp`.

(dGANAE-corr)=
## Correlaciones
Las correlaciones discutidas en la {numref}`datospp-correlaciones`, se observan también en los datos preprocesados analizados en esta sección. En la {numref}`dGANAE-correlaciones`, la señal presenta algunas correlaciones que no se observan en el fondo, como entre el numero de subjets inclusivos del jet secundario con la masa del jet principal, o algunos anillos de energía.

In [10]:
# Queremos tener las correlaciones para la señal y el fondo en dataframes separados
df_sig = df[df['label']==1].drop(['label'], axis=1)
df_bkg = df[df['label']==0].drop(['label'], axis=1)

# Calculamos las correlaciones
df_sig_corr = df_sig.corr()
df_bkg_corr = df_bkg.corr()

# Nombres de las etiquetas
nombres = [r'$pT_{j1}$', r'$\eta_{j1}$', '$\phi_{j1}$', r'$E_{j1}$', r'$m_{j1}$', r'nro. hadrones ${j1}$', 'nro. jets incl ${j1}$', 
           'nro. jets excl ${j1}$', r'$\tau_{1,j1}$', r'$\tau_{2,j1}$', r'$\tau_{3,j1}$', r'$\tau_{32,j1}$', r'$\tau_{21,j1}$',
          r'$pT_{j2}$', r'$\eta_{j2}$', '$\phi_{j2}$', r'$E_{j2}$', r'$m_{j2}$', r'nro. hadrones ${j2}$', 'nro. jets incl ${j2}$', 
           'nro. jets excl ${j2}$', r'$\tau_{1,j2}$', r'$\tau_{2,j2}$', r'$\tau_{3,j2}$', r'$\tau_{32,j2}$', r'$\tau_{21,j2}$',
          r'anillo de E. 0 j1',r'anillo de E. 1 j1', r'anillo de E. 2 j1 ', r'anillo de E. 3 j1', r'anillo de E. 4 j1',
          r'anillo de E. 5 j1', r'anillo de E. 6 j1', r'anillo de E. 7 j1', r'anillo de E. 8 j1', r'anillo de E. 9 j1',
          r'anillo de E. 0 j2',r'anillo de E. 1 j2', r'anillo de E. 2 j2', r'anillo de E. 3 j2', r'anillo de E. 4 j2',
          r'anillo de E. 5 j2', r'anillo de E. 6 j2', r'anillo de E. 7 j2', r'anillo de E. 8 j2', r'anillo de E. 9 j2',
          r'$m_{jj}$', 'nro. jets', r'$m_{jjj}$']

# Definimos figura y tamaño
fig, axes = plt.subplots(figsize=[14,11], facecolor='white', nrows=1, ncols=2, sharey=True)
fig.tight_layout() 

# Para graficar el mapa de correlaciones:
for ax, (name, corr) in zip(axes.flat, [('Señal', df_sig_corr), ('Fondo', df_bkg_corr)]):
    
    cax = ax.matshow(corr,cmap='coolwarm', vmin=-1, vmax=1)

    #Ejes
    ticks = np.arange(0,len(corr.columns),1)
    ax.set_xticks(ticks)
    ax.set_yticks(ticks)
    corr.columns=nombres
    ax.set_xticklabels(corr.columns, rotation=90)
    ax.set_yticklabels(corr.columns)
    ax.xaxis.tick_top()
    ax.set_title('{}'.format(name), fontsize=16) 
    
# Mapa de color
fig.colorbar(cax, ax=axes.ravel().tolist(), fraction=0.025, pad=0.04)
# Título
#fig.suptitle('Mapa de correlaciones', fontsize=25)

#plt.show()
plt.savefig('./../../figuras/dGANAE-correlaciones', bbox_inches='tight', facecolor=fig.get_facecolor(),edgecolor='none')
plt.close()

```{figure} ./../../figuras/dGANAE-correlaciones.png
---
name: dGANAE-correlaciones
width: 85%
---
Correlaciones de las variables preprocesadas para GAN-AE.
```
Sin embargo, las correlaciones en los eventos de señal no son evidentes en la {numref}`dGANAE-corr-scatter`.

In [7]:
# Graficamos las correlaciones de algunas variables
variables = [('nisj2', 'm1'), ('eRing3_1', 'E1')]
xlabels = ['nro. subjets inclusivos del jet secundario', 'anillo de E. 3 del jet principal']
ylabels = ['m del jet principal', 'E del jet principal']
lista = create_png(namedf='GAN-AE', df=df, variables=variables, keyname='corr', path=PATH_FIGURES, 
                   xlabels=xlabels, ylabels=ylabels, type='scatter', title=True)
image_grid(rows=1, columns=2, images=lista, name='dGANAE-corr-scatter', path=PATH_FIGURES, remove=True)

<Figure size 432x288 with 0 Axes>

<Figure size 432x288 with 0 Axes>

```{figure} ./../../figuras/dGANAE-corr-scatter.png
---
name: dGANAE-corr-scatter
width: 100%
---
Correlación del número de jets inclusivos del jet secundario y la masa del jet principal y del tercer anillo de energía y la energía del jet principal.
```