# Algoritmos simples de clasificación
Para analizar los algoritmos del LHCO 2020 empezaremos implementando y caracterizando algoritmos simples de clasificación.

# Pre-procesamiento
Inicialmente debemos tabular las variables con las que los algoritmos podrían realizar la clasificación

In [None]:
# Importamos las librerías a utilizar
import h5py                             # Para manejar los archivos .h5
import numpy as np                      # Manejo de matrices
import matplotlib.pyplot as plt         # Plots
import pyjet as fj                      # Clustering de los jets
import pandas as pd                     # Manejo de tablas
import os.path                          # Manejo de directorios
from os import path

In [None]:
## VER COMO USAR ESTO ##
def generador(nombre_archivo, chunksize=512,total_size=1100000):

    m = 0
    
    while True:

        yield pd.read_hdf(nombre_archivo,start=m*chunksize, stop=(m+1)*chunksize)

        m+=1
        if (m+1)*chunksize > total_size:
            m=0

In [None]:
df = pd.read_hdf("../../events_anomalydetection.h5")

In [None]:
n_eventos = 100000

In [None]:
dfsample = df.sample(n=n_eventos)

# Los guardamos en un archivo .h5 para tener la muestra en la que se haga el análisis
if path.exists("events_anomalydetection_tiny_{}.h5".format(n_eventos))!= True: 
    dfsample.to_hdf("events_anomalydetection_tiny_{}.h5".format(n_eventos), key='df', mode='w',complevel=5,complib='blosc')

In [None]:
#eventos_tiny = pd.read_hdf("events_anomalydetection_tiny_{}.h5".format(n_eventos))
eventos_tiny = dfsample

In [None]:
np.shape(eventos_tiny)

### Funciones para calcular variables

In [None]:
def deltaR(x, y):
    return ((x.phi-y.phi)**2 + (x.eta-y.eta)**2)**0.5

def subjettiness(cndts, cnsts):
    d0 = sum(c.pt for c in cnsts)
    ls = []
    for c in cnsts:
        dRs = [deltaR(c,cd) for cd in cndts]
        ls += [c.pt * min(dRs)]
    return sum(ls)/d0

def tau21(jet,subR=0.2):
    '''Input: jet from the jet clustering result '''
    jet_substruct_features = {}        
    seq = fj.cluster(jet, R=subR, algo='kt')
    cnsts = jet.constituents()
    cndts1 = seq.exclusive_jets(1)
    tau1 = subjettiness(cndts1, cnsts)
    if (len(cnsts)>1):
        cndts2 = seq.exclusive_jets(2)
        tau2 = subjettiness(cndts2, cnsts)
    else: 
        tau2 = 0
        
    if tau1 == 0: return 0    
    else: return tau2/tau1

### Clustering

In [None]:
def tabla(datos):
#senal = eventos_tiny.loc[eventos_tiny.iloc[:,-1] == 1]
#senal_ss = senal.iloc[:,:-1]
    n_eventos = datos.shape[0]              # número de eventos (1000)
    n_hadrones_gen = int((datos.shape[1])/3)  # número de hadrones (700) 
                                                   # [-1 para eliminar la columna señal, /3 por las 3 caracteristicas de cada hadron]

    df = pd.DataFrame(columns=['pT_j1', 'm_j1', 'eta_j1', 'phi_j1', 'E_j1', 'tau_21_j1',  
                                'pT_j2', 'm_j2', 'eta_j2', 'phi_j2', 'E_j2', 'tau_21_j2',
                                'm_jj', 'deltaR_j12'])

    for evento in range(n_eventos):
        if (evento%1000==0):
                print(evento)
                pass

        pseudojets_input = np.zeros(len([data for data in datos.iloc[evento,::3] if data > 0]), dtype= fj.DTYPE_PTEPM) 

        for hadron in range(n_hadrones_gen):
            if (datos.iloc[evento,hadron*3] > 0): ## si pT > 0 

                ## Llenamos el arreglo con pT, eta y phi de cada "partícula"
                pseudojets_input[hadron]['pT'] = datos.iloc[evento,hadron*3] 
                pseudojets_input[hadron]['eta'] = datos.iloc[evento,hadron*3+1]
                pseudojets_input[hadron]['phi'] = datos.iloc[evento,hadron*3+2]

                pass
            pass

        ## Devuelve una "ClusterSequence" (un tipo de lista de pyjet)
        ## ** No sé en verdad que está haciendo la función. clustering con anti-kt? o con que? que es p? ## 
        secuencia = fj.cluster(pseudojets_input, R=1.0, p=-1) 

        ## Con inclusive_jets accedemos a todos los jets que fueron clusterizados
        ## y filtramos los que tienen pT mayor que 20fj.
        ## Hacemos una lista con objetos PseudoJet
        jets = secuencia.inclusive_jets(ptmin=20) 

        # Agrega el pT, eta y phi del jet principal
        # ** No sé cómo están en orden **
        pT_j1 = jets[0].pt
        m_j1 = np.abs(jets[0].mass)
        eta_j1 = jets[0].eta
        phi_j1 = jets[0].phi
        E_j1 = jets[0].e
        tau_21_j1= tau21(jets[0])

        try:
            pT_j2 = jets[1].pt
            m_j2 = np.abs(jets[1].mass)
            eta_j2 = jets[1].eta
            phi_j2 = jets[1].phi
            E_j2 = jets[1].e
            tau_21_j2= tau21(jets[1])
        except IndexError:
            pT_j2 = 0
            m_j2 = 0
            eta_j2 = 0
            phi_j2 = 0
            E_j2 = 0
            tau_21_j2 = 0

        deltaR_j12 = deltaR(jets[0], jets[1])
        mjj = m_j1 + m_j2
        n_hadrones = senal_ss.iloc[evento,:].astype(bool).sum(axis=0)/3

        entry = pd.DataFrame([[pT_j1, m_j1, eta_j1, phi_j1, E_j1, tau_21_j1,  
                                pT_j2, m_j2, eta_j2, phi_j2, E_j2, tau_21_j2, 
                                mjj,deltaR_j12, n_hadrones]],
                            columns=['pT_j1', 'm_j1', 'eta_j1', 'phi_j1', 'E_j1', 'tau_21_j1',  
                                    'pT_j2', 'm_j2', 'eta_j2', 'phi_j2', 'E_j2', 'tau_21_j2',
                                    'm_jj', 'deltaR_j12', 'n_hadrones'])
        df = df.append(entry)
    return df

In [None]:
senal = eventos_tiny.loc[eventos_tiny.iloc[:,-1] == 1]
senal_ss = senal.iloc[:,:-1]
df_senal = tabla(senal_ss)
df_senal.head()

In [None]:
fondo = eventos_tiny.loc[eventos_tiny.iloc[:,-1] == 0]
fondo_ss = fondo.iloc[:,:-1]
df_fondo = tabla(fondo_ss)
df_fondo.head()