## Proyecto ML - Diego Barón - 1214719232



# Explorando las colisiones a TeV de LHC usando Machine learning.









**Tabla de contenidos:**
1. Introduccion
2. Marco conceptual
    1. Tensorflow y DNN. 
    2. CMS en el LHC.
    3. Modelo a estudiar.
    4. Base de Datos.
3. Implementacion computacional.
    1. Preparacion de los datos.
    2. ML con NN.
    3. ML con DNN.
4. Resultados y Conclusiones.
5. Bibliografía.


# 1. Introducción.

La física de partículas es la ciencia que estudia los constituyentes fundamentales de la naturaleza y las interacciones que hay entre los mismos, en particular se distinguen dos ramas: la física teórica de particulas (THEP) y la física de particulas experimental (EHEP). Los físicos de partículas experimentales son los encargados de poner a prueba los modelos de sus compañeros los teóricos, esto se traduce en encontrar las nuevas partículas e interacciones propuestas en los modelos y la herramienta más poderosa que se tiene hoy en día para alcanzar este fin son los colisionadores. 

A día de hoy el colisionador que logra las reacciones subatómicas más energéticas es el Gran Colisionador de Hadrones (LHC) (7 TeV por haz), sin embargo, aún cuando estas escalas de energía nos permiten acceder a nueva física (el primer éxito del LHC fue el descubrimiento en 2012 del boson de Higgs [REFERNCIA HIGGS PAPER]), no es para nada sencillo el proceso de descubrimiento de una nueva partícula. El LHC produce grandes cantidades de datos, aproximadamente 1 PB/s, estos deben ser filtrados, por ejemplo: el LHC produce $10^{11}$ colisiones por hora, de las cuales solo 300 involucran a bosones de Higgs. Además los datos deben ser analizados a la luz de las restricciones que provienen de los modelos teóricos, mediante algoritmos de selección, que determinan que eventos provienen de procesos diferentes a los del modelo estándar.

Este parece el panorama ideal para utilizar métodos de machine learning (ML): grandes cantidades de datos y tareas de clasificación. Esta no es una idea nueva y previamente se han implementado métodos de ML, como el de redes neuronales (NN) para realizar estas tareas de clasificación, sin embargo hasta hace unos años existían problemas como el problema del desvanecimiento del gradiente, que no permitían el entrenamiento eficiente de redes neuronales profundas (DNN), en este trabajo pretendendo utilizar algunas de las técnicas más recientes que permiten resolver algunos problemas de entrenamiento de DNN y comparar con trabajos que ya los han utilizado [REFERENCIA PAPER PRINCIPAL]. De hecho como conclusión de estos recientes estudios, se esgrime la idea de que las técnicas de ML son más eficientes que las actuales técnicas usadas en física de partículas.

Para el entrenamiento de las DNN usaremos la libreria TensorFlow [REFERENCIA TENSORFLOW], que fue liberada en 2015 por Google, esta libreria soporta el uso de GPUS y sus operaciones internas se basan en gráficos de flujo.

# 2. Marco conceptual.

# A. Tensorflow y DNN.

Tensorflow es una libreria de código abierto para computación numérica, está especificamente diseñada para aprendizaje automático. Su principio de operación es basico: mediante Python creamos un gráfico de cálculos a realizar y luego Tensorflow interpreta el gráfico y lo corre eficientemente usando rutinas optimizadas de C++.

Es muy importante decir que el gráfico se puede dividir en pequeñas secciones que pueden ser ejecutadas independientemente en varias CPU o GPU, esto permite entrenar redes neuronales muy grandes, con millones de instancias utilizando multiples servidores. Tensorflow fue desarrollado por Google y está detras de proyectos como Google Fotos, Google Busqueda, Google dictado.

Algunas caracteríticas interesantes de Tensorflow son:

* No solo corre en sistemas operativos de computadoras sino también dispositivos móviles como Android y iOs.
* Provee una API que lo hace compatible con Scikit-Learn.
* Contiene funciones muy eficientes implementadas en C++ para su uso en la construcción de redes neuronales.
* Utiliza el método de diferenciación automática para calcular gradientes.
* Posee una interfaz de visualización llamada *Tensor Board* que permite buscar en el gráfico computacional y ver curvas de aprendizaje, entre otras cosas.





# B. CMS en el LHC.

El Gran Colisionador de Hadrones (LHC) es el acelerador de partículas más grande y energético operado actualmente por la Organización Europea para la Investigación Nuclear (CERN), el LHC usa el mismo tunel de 27 km, cavado en promedio a 100 m de profundidad, del antiguo Gran Colisionador Electrón-Positrón (LEP). EL LHC es capaz de colisionar protones e iones de Plomo con una energía por haz de 7 TeV, sin embargo a día de hoy se hace a 6.5 TeV.


En el LHC están ubicados 4 experimentos principales: LHC-b, ALICE, ATLAS y CMS. Estos últimos dos son detectores de proposito general, es decir, fueron diseñados para detectar señales de nueva física en estados finales de partículas como electrones, fotones, muones y jets de hadrones. El LHC esta dividido en dos partes: la cadena de aceleración y el anillo principal. En la cadena de aceleración los protones son extraídos y pasados por una serie de aceleradores que los llevan hasta una energía de 450 GeV, momento en que son inyectados en el anillo principal. Este está compuesto de dos anillos que llevan los protones en direcciones opuestas,los anillos están construidos por 2090 imanes de 15 m, enfriados a 1.9 K y con un vacío de $10^{-9}$mbar, cada uno capaz de producir un campo magnético de 8,33 T. Además de estos imanes dipolares, el LHC también cuenta con 520 cuadrupolos, 2464 sextupolos y 1232 octupolos usados para colimar el haz. [REFERENCIA TESIS JOSE]


El Solenoide Compacto de Muones (CMS) es, en tamaño, el segundo experimento más grande del LHC despues de ATLAS, debe su nombre (solenoide compacto) a que varios de los sistemas de detección se encuentran dentro del su gran imán superconductor, capaz de producir un campo magnético uniforme en su interior de 3.8 T y (de muones) debido a que posee un sistema de detección de muones muy preciso y eficiente. CMS es un detector con forma cilíndrica, mide aproximadamente 30 m de largo por 15 m de diámetro, pesa 14000 Ton (esto lo convierte en el experimento más pesado del LHC) y la colaboración se compone de aproximadamente 3500 personas de 182 institutos de física en 41 países. Una representación tres dimensional del detector se puede ver en la siguiente figura.

 <img src="F2.png",width=800,height=800>

El imán del CMS tiene 13 m de largo y 6 m de diametro, es capaz de generar un campo magnético uniforme de 4 T en su interior y está construido por 4 capas de espiras de NbTi a 4.45K para que se alcance el estado superconductor, este imán está rodeado por 5 barriles y 3 discos de hierro que tienen el objetivo de devolver el campo magnético generando un campo exterior de 2 T,  esta configuración de campos magnéticos es responsable de curvar las trayectorias de las partículas cargadas.


Dentro del solenoide se encuentra el Tracker System, un sistema de detección diseñado con dos tecnologías: Pixeles y tiras de silicio, está diseñado para identificar los vertices de las colisiones con una precisión de 9 $\mu$m y una eficiencia del 98\% (que se degrada con la luminosidad integrada), cuando una partícula cargada pasa se crean pares electrón-hueco en el material y esto genera una señal eléctrica que luego es amplificada, este sistema fue construido para ser bastante resistente a la radiación y se espera que dure 10 años.


Luego de este sistema se encuentra el calorímetro electromagnético (ECAL), este fue construido para detener electrones y fotones y medir su energía, el sistema está compuesto por cristales de tungstato de plomo, el cual fue escogido por su corta profundidad de radiación, alta densidad y rápido centelleo (25 ns), la unica desventaja del mismo es su alta sensibilidad de respuesta a la temperatura (2\%/C). Los cristales van perdiendo transparencia con la luminosidad integrada y por tanto esta tiene que ser corregida constantemente por un sistema de láser. El sistema cuenta con 61200 cristales en el barril y 7324 en las tapas del calorímetro.

Para detener y detectar los jets hadrónicos se diseñó el calorímetro hadrónico (HCAL), de este sistema cierta parte se encuentra dentro del solenoide (Hadron Endcap Calorimeter y Hadron Barrel Calorimeter) y fuera están el Outer Calorimeter y el Hadron Forward Calorimeter (estos permiten extender el rango angular de detección), los calorímetros tienen el objetivo de detectar los hadrones y lo hacen de la siguiente manera: el sistema tiene intercalados placas de acero con cristales centelladores, las placas de acero generan las duchas de hadrones y cuando estos pasan por los centelladores, la luz generada es convertida en corrientes eléctricas por fotodiodos híbridos (HPDs), estas corrientes permiten medir la energía de los hadrones. Es importante mencionar que debido a la posición del Forward Calorimeter, este recibe mucha radiación comparado a los otros calorìmetros hadrónicos y esto es debido a que está en la dirección del haz incidente y por tanto, los centelladores fueron construidos de un material centellador más resistente a la radiación como lo es el cuarzo.

Finalmente en la parte más externa del detector están ubicados los detectores de muones, esto se debe a que estas partículas tienen un gran poder de penetración. Las cámaras de deteccion están hechas de 3 tecnologías diferentes: Drift Tube Chambers (DT), Cathode Strip Chambers(CSC) y Resistive Plate Chambers (RPC), sin embargo las 3 están basadas en la ionización de gases: al paso de partículas cargadas se generan corrientes de deriva. En la figura se muestra una recreación a un corte transversal del detector.

 <img src="F3.png",width=800,height=800>
 
 # C. Modelo a estudiar.
 
 Una pregunta vital que hay que responder es si el bosón de Higgs descubierto en 2012 es el del modelo estándar o hace parte de un sector de bosones escalares como el propuesto por modelos como el modelo minimo estándar supersimétrico (MSSM), ya hay trabajos que han tratado de responder esta pregunta [REFERENCIA A PAPER ATLAS] y en lo que sigue presentaremos el modelo.
 

El modelo se compone básicamente del modelo estandar y un doblete de Higgs adicional que se compone de dos bosones pesados y cargados $H^{\pm}$ y un estado neutral más pesado $H^0$, el bosón ya descubierto se llama $h^{0}$.

El proceso que representa la **señal** es el siguiente: Dos gluones se fusionan en un boson de Higgs $H^0$, que a su vez decae en un bosón de Higgs cargado $H^{\pm}$ y en un W, el $H^{\pm}$ luego decae en otro W y el boson de Higgs ligero $h^{0}$, finalmente este decae en un par de quarks bottom, el proceso entonces es:

$ gg\rightarrow H^0 \rightarrow W^{\mp}H^{\pm}\rightarrow W^{\pm}W^{\mp}h^0\rightarrow W^{\pm}W^{\mp}b\bar{b}$

Para el **background**, es decir el proceso que imita los mismos estados finales, tenemos la producción de dos quarks top , cada uno decayendo en un W y un quark bottom. En la figura se pueden ver los procesos mencionados, arriba la señal y abajo el background.

 <img src="F4.png",width=600,height=600>
 
 En este caso se analiza el modo de decaimiento semi-leptonico: un bosón W decae en un par neutrino-leptón ($l\nu$) y el otro W decae en un par de jets ($jj$), dando unos productos de decaimiento: $l\nu jj bb$. Normalmente se utiliza el método cinemático de la masa invariante para clasificar los eventos, este se basa en el hecho de que si una particula A decae en un par de particulas B y C, se debe cumplir que:
 
$m^{2}_{A}=m^{2}_{B+C}=(E_B+E_C)^2-(\vec{p_B}+\vec{p_C})^2$,

por tanto se espera lo siguiente en este caso:

Para la **señal**:

* $W\rightarrow l\nu$ de un pico en la distribucion $m_{l\nu}$ a la masa del W.

* $W\rightarrow jj$ de un pico en la distribucion $m_{jj}$ a la masa del W.

* $h^0\rightarrow b\bar{b}$ de un pico en la distribucion $m_{b\bar{b}}$ a la masa del $h^0$.

* $H^\pm\rightarrow Wh^0$ de un pico en la distribucion $m_{b\bar{b}}$ a la masa del $H^\pm$.

* $H^0\rightarrow WH^\pm$ de un pico en la distribucion $m_{WWb\bar{b}}$ a la masa del $H^0$.


Para el **background**:


* $W\rightarrow l\nu$ de un pico en la distribucion $m_{l\nu}$ a la masa del W.

* $W\rightarrow jj$ de un pico en la distribucion $m_{jj}$ a la masa del W.

* $t\rightarrow Wb$ de un pico en la distribucion $m_{jl\nu}$ y $m_{jbb}$ a la masa del quark top.

# D. Base de datos.

En el lenguaje de ML tenemos que los datos se componen de 11 MILLONES de instancias (eventos) cada uno con 29 atributos, el archivo csv es de aproximadamente 8 GB, estos datos han sido generados utilizando simulaciones de MonteCarlo utilizando el generador de eventos MADGRAPH5 asumiendo una energía de colisión en el centro de masa de 8 TeV, el proceso de hadronización ha sido simulado con el software PYTHIA y la respuesta del detector con DELPHES, en este caso $m_{H^0}=425$ GeV y $m_{H^0}=325$ GeV. 

La primera columna de los datos es la etiqueta: 1 para la señal y 0 para el background. Los siguientes 21 datos atributos de bajo nivel (medidos directamente por el detector) y los 7 restantes atributos de alto nivel (funciones de los atributos de bajo nivel).

Para este trabajo sin embargo hemos utilizado solo el 1% de los datos (100.000 eventos), por cuestiones de capacidad de cómputo.

# 3. Implementación computacional.

   # A. Preparación de los datos.
   
Debido a que el fichero original pesa aproximadament 8 GB y contiene 11 millones de instancias, vamos a usar una versión reducida del mismo, que contiene 100000 instancias, esto con el objetivo de que el entrenamiento sea mucho más rápido ya que no contamos con los recursos computacionales suficientes para procesar los datos originales.
   
   

In [28]:
# IMPORTAMOS LAS LIBRERIAS COMUNMENTE UTILIZADAS Y FIJAMOS LOS PARÁMETROS INICIALES

%pylab

import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import sklearn.linear_model

np.random.seed(42)


# CARGAMOS LOS DATOS 

dataO= pd.read_csv("Datos_Reducidos.csv")

# ELIMINA PRIMERA COLUMNA INNECESARIA

del dataO['Unnamed: 0']

# CREANDO LISTA PARA CAMBIAR LOS NOMBRES DE CADA COLUMNA EL LOS DATOS
labels=["Evento"]
for i in range(1,29):
    if i<22:
        labels+=["LL"+str(i)]
    else :
        labels+=["HL"+str(i-21)]
        
# CAMBIO NOMBRE DE COLUMNAS EN dataO

dataO.columns=labels

# OBTENIENDO UNA DESCRIPCIÓN DE LA DATA 

dataO.describe()

Using matplotlib backend: TkAgg
Populating the interactive namespace from numpy and matplotlib


Unnamed: 0,Evento,LL1,LL2,LL3,LL4,LL5,LL6,LL7,LL8,LL9,...,LL19,LL20,LL21,HL1,HL2,HL3,HL4,HL5,HL6,HL7
count,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,...,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0,100000.0
mean,0.52833,0.990366,-0.003806,-0.001636,0.995061,-0.007612,0.987112,-0.003017,0.000441,0.998344,...,-0.007598,-0.004017,0.99269,1.032607,1.02315,1.050193,1.010197,0.973076,1.031874,0.959203
std,0.499199,0.56184,1.00484,1.00619,0.595359,1.006996,0.47312,1.008705,1.008427,1.027402,...,1.0092,1.007096,1.396776,0.652454,0.371611,0.164857,0.398275,0.523557,0.363395,0.313258
min,0.0,0.274697,-2.434976,-1.742508,0.001283,-1.743944,0.139976,-2.968735,-1.741237,0.0,...,-2.497265,-1.742691,0.0,0.110875,0.303144,0.133012,0.295983,0.048125,0.30335,0.350939
25%,0.0,0.590936,-0.741244,-0.868047,0.575656,-0.881465,0.676336,-0.688483,-0.867542,0.0,...,-0.725017,-0.877028,0.0,0.791306,0.846627,0.985775,0.767261,0.673789,0.81917,0.769964
50%,1.0,0.854835,-0.002976,0.000971,0.890283,-0.011024,0.892163,-2.5e-05,-0.003822,1.086538,...,-0.010455,-0.009698,0.0,0.8956,0.950707,0.989742,0.917302,0.874004,0.947037,0.871038
75%,1.0,1.236776,0.735292,0.86822,1.290881,0.865868,1.167809,0.683233,0.871223,2.173076,...,0.71077,0.869386,3.101961,1.025914,1.083218,1.020762,1.141654,1.139816,1.139032,1.057479
max,1.0,7.805887,2.433894,1.743236,7.998711,1.743229,7.064657,2.969674,1.741454,2.173076,...,2.498009,1.743372,3.101961,18.428827,10.038273,4.565248,7.442589,11.994177,7.318191,6.015647


In [29]:
# MUESTRA UN EJEMPLO DE COMO LUCEN LOS DATOS
dataO.head()

Unnamed: 0,Evento,LL1,LL2,LL3,LL4,LL5,LL6,LL7,LL8,LL9,...,LL19,LL20,LL21,HL1,HL2,HL3,HL4,HL5,HL6,HL7
0,1.0,0.907542,0.329147,0.359412,1.49797,-0.31301,1.095531,-0.557525,-1.58823,2.173076,...,-1.13893,-0.000819,0.0,0.30222,0.833048,0.9857,0.978098,0.779732,0.992356,0.798343
1,1.0,0.798835,1.470639,-1.635975,0.453773,0.425629,1.104875,1.282322,1.381664,0.0,...,1.128848,0.900461,0.0,0.909753,1.10833,0.985692,0.951331,0.803252,0.865924,0.780118
2,0.0,1.344385,-0.876626,0.935913,1.99205,0.882454,1.786066,-1.646778,-0.942383,0.0,...,-0.678379,-1.360356,0.0,0.946652,1.028704,0.998656,0.728281,0.8692,1.026736,0.957904
3,1.0,1.105009,0.321356,1.522401,0.882808,-1.205349,0.681466,-1.070464,-0.921871,0.0,...,-0.373566,0.113041,0.0,0.755856,1.361057,0.98661,0.838085,1.133295,0.872245,0.808487
4,0.0,1.595839,-0.607811,0.007075,1.81845,-0.111906,0.84755,-0.566437,1.581239,2.173076,...,-0.654227,-1.274345,3.101961,0.823761,0.938191,0.971758,0.789176,0.430553,0.961357,0.957818


In [40]:
# SEPARAMOS INSTACIAS Y ETIQUETAS 

Y=dataO["Evento"]
X_L_H= dataO.iloc[:,1:]

In [46]:
# SEPARAMOS LAS INSTANCIAS EN INSTANCIAS CON ATRIBUTOS DE ALTO NIVEL Y INSTANCIAS CON ATRIBUTOS DE BAJO NIVEL

X_H=X_L_H.iloc[:,21:]
X_L=X_L_H.iloc[:,:21]

In [53]:
# SEPARAMOS ESTOS DATOS EN UN CONJUNTO DE ENTRENAMIENTO DE 80.000 INSTANCIAS Y 20.000 PARA PRUEBA

Y_train=Y.iloc[:80000]
Y_test=Y.iloc[80000:]
X_L_H_train=X_L_H.iloc[:80000,:]
X_L_H_test=X_L_H.iloc[80000:,:]
X_L_train=X_L.iloc[:80000,:]
X_L_test=X_L.iloc[80000:,:]
X_H_train=X_H.iloc[:80000,:]
X_H_test=X_H.iloc[80000:,:]
