## Lectura de datos

Montamos google colab con el siguiente codigo:

In [1]:
from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


Cargamos las distintas rutas de los archivos

In [2]:
# Cambiar el directorio de trabajo
%cd '/content/drive/My Drive/tfg/tfg/'

# Mostrar el directorio actual para confirmar el cambio
directorio_actual = %pwd
print("Directorio actual:", directorio_actual)

/content/drive/My Drive/tfg/tfg
Directorio actual: /content/drive/My Drive/tfg/tfg


In [3]:
import os
import pandas as pd
path_actual = os.getcwd()
subdirectorio = 'datas'
file_kaons = 'data_kaons.csv'
file_pions = 'data_pions.csv'
path_kaons = os.path.join(path_actual, subdirectorio, file_kaons)
path_pions = os.path.join(path_actual, subdirectorio, file_pions)

In [4]:
def leer_cvs_datos(path_csv):
    # Primero leemos solo la primera línea para obtener los nombres de las columnas
    with open(path_csv, 'r') as f:
        columns = f.readline().strip().split(',')

    # Ahora leemos los datos del archivo, especificando el delimitador de espacio y los nombres de las columnas
    df = pd.read_csv(path_csv, delim_whitespace=True, names=columns, skiprows=1)
    return df

In [5]:
df_kaons = leer_cvs_datos(path_kaons)
df_pions = leer_cvs_datos(path_pions)

In [6]:
df_kaons

Unnamed: 0,eventID,PDGcode,trueE,hitX,hitY,hitZ,hitTime,hitInteg
0,0,321,0.501967,-100.0090,0.254887,150.199,1701.68,1067.3300
1,0,321,0.501967,-99.9863,0.419374,150.244,1705.14,296.7030
2,0,321,0.501967,-100.0040,0.416409,150.263,1698.37,1238.9200
3,0,321,0.501967,-99.9800,0.393612,150.274,1698.68,212.5160
4,0,321,0.501967,-99.9794,0.552678,150.313,1702.07,445.3430
...,...,...,...,...,...,...,...,...
9853795,19999,321,0.511779,-126.7600,9.418950,195.739,1362.47,1825.6700
9853796,19999,321,0.511779,-126.8500,9.433140,195.757,1358.16,1862.7900
9853797,19999,321,0.511779,-126.8780,9.510590,196.057,1360.96,1586.2400
9853798,19999,321,0.511779,-126.9210,9.521400,196.063,1357.25,388.8380


In [7]:
df_pions

Unnamed: 0,eventID,PDGcode,trueE,hitX,hitY,hitZ,hitTime,hitInteg
0,0,211,0.258707,-100.0020,-0.173207,150.200,1704.94,318.992
1,0,211,0.258707,-100.0000,0.000000,150.500,1704.96,346.856
2,0,211,0.258707,-99.9976,0.000000,150.700,1704.99,592.421
3,0,211,0.258707,-99.9933,-0.346409,150.700,1698.51,1070.020
4,0,211,0.258707,-99.9964,-0.519616,150.800,1698.47,889.101
...,...,...,...,...,...,...,...,...
6663307,19949,211,0.238765,-100.2660,-0.493720,176.119,1695.01,1968.920
6663308,19949,211,0.238765,-100.3610,-0.491816,176.248,1700.34,1252.850
6663309,19949,211,0.238765,-100.4550,-0.485548,176.549,1699.14,1995.050
6663310,19949,211,0.238765,-100.4220,-0.482445,176.704,1693.01,2897.580


Con los dos dataFrame anteriores `df_kaons` y `df_pions` creamos un dataFrame completo, pero le añadimos una columna más para donde indicaremos la clase: 0 para los pions y 1 para los kations

In [8]:
df_kaons['label'] = 1
df_pions['label'] = 0
df = pd.concat([df_pions, df_kaons], ignore_index=True)
df

Unnamed: 0,eventID,PDGcode,trueE,hitX,hitY,hitZ,hitTime,hitInteg,label
0,0,211,0.258707,-100.0020,-0.173207,150.200,1704.94,318.9920,0
1,0,211,0.258707,-100.0000,0.000000,150.500,1704.96,346.8560,0
2,0,211,0.258707,-99.9976,0.000000,150.700,1704.99,592.4210,0
3,0,211,0.258707,-99.9933,-0.346409,150.700,1698.51,1070.0200,0
4,0,211,0.258707,-99.9964,-0.519616,150.800,1698.47,889.1010,0
...,...,...,...,...,...,...,...,...,...
16517107,19999,321,0.511779,-126.7600,9.418950,195.739,1362.47,1825.6700,1
16517108,19999,321,0.511779,-126.8500,9.433140,195.757,1358.16,1862.7900,1
16517109,19999,321,0.511779,-126.8780,9.510590,196.057,1360.96,1586.2400,1
16517110,19999,321,0.511779,-126.9210,9.521400,196.063,1357.25,388.8380,1


Elimino los dataFrame de kations y pions para evitar tener cargado en RAM lo mismo

In [9]:
del df_kaons
del df_pions

A continuación detallaremos cada una de las features del dataFrame
*   **eventID**: entero que actua como contador. En este caso no nos sirve para la clasificacion
*   **PDG**: Codigo de particula primaria. 211 para el pions y 321 para el kaons
*   **trueE**: Energia de entrada de la particula. No se puede usar para entrenar el modelo, pero sí para evaluar si la selección es mejor a una u otra energia
*   **hitX, hitY, hitZ**: Coordenadas espaciales a los sucesos del hits del evento. Las coordenadas iniciales son (-100, 0, 150) se pueden sustraer y poner en función del eje de coordenadas (0,0,0).
*   **hitTime**: Tiempo del hist en nanosegundos.Útil para reordenarlos cronológicamente si fuera necesario
*   **hitInge**: integral de la señal del hit en el plano de colección. Las unidades son ADC x tick, que equivalen aproximadamente a 1.9 keV de energía

Analizamos variable a variable para ver que todos los valores sean correctos y no tengamos valores fueras de rango o valores nulos

EventID

In [10]:
# Calcular el valor máximo de eventID para cada grupo de label
maximos_por_label = df.groupby('label')['eventID'].max()
print('Valor máximo de eventID por label:')
print(maximos_por_label)

# Calcular el valor mínimo de eventID para cada grupo de label
minimos_por_label = df.groupby('label')['eventID'].min()
print('Valor mínimo de eventID por label:')
print(minimos_por_label)

valores_nulos = df['eventID'].isnull().sum()
print('Número de valores nulos en eventID:', valores_nulos)

Valor máximo de eventID por label:
label
0    19949
1    19999
Name: eventID, dtype: int64
Valor mínimo de eventID por label:
label
0    0
1    0
Name: eventID, dtype: int64
Número de valores nulos en eventID: 0


Como podemos ver se producen 50 eventos más para la clase 1 que para la clase 0. No tenemos valores nulos dentro de esta feature

PDG

In [11]:
# Filtrar casos donde label == 1 pero PDGcode no es 211
casos_incorrectos_1 = df[(df['label'] == 1) & (df['PDGcode'] != 321)]

# Filtrar casos donde label == 0 pero PDGcode no es 321
casos_incorrectos_0 = df[(df['label'] == 0) & (df['PDGcode'] != 211)]

# Verificar si hay casos incorrectos y mostrar la cantidad
print('Número de casos incorrectos para label 1 (PDGcode != 211):', casos_incorrectos_1.shape[0])
print('Número de casos incorrectos para label 0 (PDGcode != 321):', casos_incorrectos_0.shape[0])

# Opcional: mostrar los casos incorrectos
if casos_incorrectos_1.shape[0] > 0:
    print("\nCasos incorrectos para label 1:")
    print(casos_incorrectos_1)

if casos_incorrectos_0.shape[0] > 0:
    print("\nCasos incorrectos para label 0:")
    print(casos_incorrectos_0)


valores_nulos = df['PDGcode'].isnull().sum()
print('Número de valores nulos en PDGcode:', valores_nulos)


Número de casos incorrectos para label 1 (PDGcode != 211): 0
Número de casos incorrectos para label 0 (PDGcode != 321): 0
Número de valores nulos en PDGcode: 0


Como podemos ver, es correcto toda la columna, a cada caso de kaons y pions le corresponde su identificador de codigo de particula primaria. En este caso tampoco tenemos valores nulos dentro de esta columna. Los valores a predecir en la clasificación binaria que realizaremos será esta variable `codePDG` para ser consistentes. Por ese motivo eliminaremos la columna `label`

In [12]:
df = df.drop('label',axis=1)


In [13]:
df.columns

Index(['eventID', 'PDGcode', 'trueE', 'hitX', 'hitY', 'hitZ', 'hitTime',
       'hitInteg'],
      dtype='object')

trueE

In [14]:
df['trueE'].describe()

count    1.651711e+07
mean     5.430237e-01
std      1.392049e-01
min      1.395700e-01
25%      4.937420e-01
50%      5.478510e-01
75%      6.399310e-01
max      7.769550e-01
Name: trueE, dtype: float64

Con el resumen mostrado de la variable trueE podemos ver como no hay ningún valor nulo o valores fuera del rango. Por tanto podemos decir que todos los valores de esta columna son correctos, dentro del experimento que se realizó para conseguir todas las muestras.

hitX, hitY, hitZ

In [15]:
print('Descripcion de los valores de hitX')
print(df['hitX'].describe())


Descripcion de los valores de hitX
count    1.651711e+07
mean    -9.954213e+01
std      1.804539e+01
min     -2.017180e+02
25%     -1.036220e+02
50%     -9.999550e+01
75%     -9.600020e+01
max      1.838310e+02
Name: hitX, dtype: float64


El experimento empieza con la posicion inicial en el punto x=-100, el valor minimo que muestra en este caso es -201.71 y el valor maximo 183.83. Por tanto podemos decir que se encentra dentro de los margenes establecidos y que ningún valor no es real

In [16]:
print('Descripcion de los valores de hitY')
print(df['hitY'].describe())

Descripcion de los valores de hitY
count    1.651711e+07
mean    -1.310142e-01
std      1.941624e+01
min     -2.352990e+02
25%     -4.487940e+00
50%      0.000000e+00
75%      4.330130e+00
max      2.036890e+02
Name: hitY, dtype: float64


Pasa lo mismo para los valores de y. La posición inicial de $y_0$ es $y_0$=0, el valor maximo es $y_{max}=203.68$ y el valor mínimo es $y_{min}=-235.29$. Por tanto la variable y se encuentra dentro del rango logico que deberian dar estos valores.

In [17]:
print('Descripcion de los valores de hitZ')
print(df['hitZ'].describe())

Descripcion de los valores de hitZ
count    1.651711e+07
mean     1.776367e+02
std      3.530213e+01
min     -1.336750e+01
25%      1.550950e+02
50%      1.705730e+02
75%      1.942150e+02
max      5.041000e+02
Name: hitZ, dtype: float64


Para la variable que representa la posicion z tienen como posicion inicial $Z_{0}=150$, como valor maximo $Z_{max}=504.1$ y como valor minimo $Z_{min}=-133.67$.

hitTime

In [18]:
print('Descripcion de la variable hitTime')
print(df['hitTime'].describe())

Descripcion de la variable hitTime
count    1.651711e+07
mean     1.707052e+03
std      2.260969e+02
min      3.965680e+02
25%      1.655550e+03
50%      1.702950e+03
75%      1.753240e+03
max      3.399000e+03
Name: hitTime, dtype: float64


La variable hitTime indica el tiempo del hit en nanosegundos. Vemos como valor minimo $hitTime_{min}=396.56$ y como $hitTime_{max}=3399.0$ por lo que indica que el tiempo que dura el experimento desde que recibe el primer hit hasta que recibe el ultimo hits es de $hitTime_{max}-hitTime_{min}=3002.44$ nanosegundos $≈0,0003$ segundos

hitInteg

In [19]:
print('Descripcion de la variable hitInteg')
print(df['hitInteg'].describe())

Descripcion de la variable hitInteg
count    1.651711e+07
mean     7.823906e+02
std      7.452574e+02
min      1.189000e+00
25%      4.028720e+02
50%      5.937430e+02
75%      9.127530e+02
max      5.518260e+04
Name: hitInteg, dtype: float64


La variable hitInteg indica la integral de la señal del hit en el plano de la colección expresada en ADC$*$tick, equivalente aproximadamente a 1.9 keV. Vemos como su valor minimo es $hitInteg_{min}=1.189$ y su valor maximo es $hitInteg_{max}=55182.6$.

## Transformación de los datos

En nuestro caso, los valores de los datos no se normalizaran en ninguna escala debido a que son datos con significado inherente. A continuación detallaremos cada una de las diferentes variables:
*   **eventID:** Identificador para el evento registrado en el experimento. Esto permite diferenciar y referenciar especificamente cada eventro observado.
*   **PDGcode:** El codigo de Grupo de Datos de Particulas es un numero que identifica el numero de partícula subatómica involucrada. Proporcina estándares para la clasificación de partículas, y estos códigos son usados internacionalmente. Esta variable la usaremos como etiqueta para predecir el tipo de particula de la que nos encontramos
*   **trueE:** Muestra la energia verdadera de la particula. Se refiere a la energía total que tenia la particula en el momento de la detección. Es una medida clave para entender las propiedades del evento.
*   **hitX, hitY, hitZ:** Muestra las coordenadas en los ejes X,Y,Z donde se produce el experimento. Su punto de partida es el punto $P_{0}=(-100,0,150)$, podremos cambiar todas las coordenadas del evento como si el punto $P_{0}$ fuera el $P_{0}=(0,0,0)$. Por tanto a todos los puntos del eje X le sumaremos 100 y a todos los puntos del eje Z le restaremos 150.
*   **hitTime:** Tiempo en el que se detecto el golpe o impacto de la particula en el detector expresada en nanosegundos.
*   **hitInteg:** Muestra la integral de la señal del hit en el plano de colección. Es una medida de fuerza. Por tanto esta medida es clave para entender las propiedades del evento.


A continuación, separemos los datos en train, validation y test para evitar hacer DataSnooping. Recurrir a esta esta técnica es un error común dentro del uso de estadisticas. Ya que se supone que nuestros modelos entrenan con los datos de train y comprueban sus metricas con los datos de validación, y al final mostraremos los resultados en test. En ningún caso se tomará ninguna medida al respecto según los resulados en el test, ya que supondremos que no disponemos de los datos hasta el final del experiemento.

[Enlace](https://web.ma.utexas.edu/users/mks/statmistakes/datasnooping.html)

Para la función `train_test_split`de la biblioteca sklearn que nos dividirá los datos en train, valid y test. Esta separación de los datos será reproducible dado que en la cabecerá de la función podemos fijar la semilla a 42 que es como viene por defecto para que la reproducción de esta separación sea siempre la misma

Para separar los datos debemos de separalos por eventos, es decir, si el evento 0 tiene 20 hits esos 20 hits deben de estar en el mismo conjunto de datos. Para ello veremos el numero de hits que tenemos por cada particula.

In [20]:
grouped = df.groupby('PDGcode')['eventID'].unique()
eventIDs_por_PDGcode = grouped.to_dict()
eventos_pions=eventIDs_por_PDGcode[211]
eventos_kaons=eventIDs_por_PDGcode[321]

In [21]:
from sklearn.model_selection import train_test_split

#Pondremos 70 para entrenamieno
#20 para validacion
#10 para test

eventos_pions_train, eventos_pions_temp = train_test_split(eventos_pions, test_size=0.3, random_state=42)
eventos_pions_valid, eventos_pions_test = train_test_split(eventos_pions_temp, test_size=0.3333, random_state=42)


In [22]:
# De forma similar lo haremos para los kaons
eventos_kaons_train, eventos_kaons_temp = train_test_split(eventos_kaons, test_size=0.3, random_state=42)
eventos_kaons_valid, eventos_kaons_test = train_test_split(eventos_kaons_temp, test_size=0.3333, random_state=42)


Una vez conocemos los indices de los eventos que iran para train, los que iran para validacion y los que iran para test, diviremos el dataFrame que contiene todos los datos en tres, df_train, df_valid y df_test. Eliminaremos el df para evitar colapsar la RAM en la ejecución y asi ser consistentes para cambios en los datos futuros.

In [23]:
# DataFrame para train
#Seleccionamos las filas que corresponda
df_train_pions = df[df['eventID'].isin(eventos_pions_train)]
df_train_kaons = df[df['eventID'].isin(eventos_kaons_train)]

#Concatenamos
df_train = pd.concat([df_train_pions, df_train_kaons], ignore_index=True)

#Eliminamos los dataFrame temporales
del df_train_pions
del df_train_kaons

In [24]:
# DataFrame para valid
#Seleccionamos las filas que corresponda
df_valid_pions = df[df['eventID'].isin(eventos_pions_valid)]
df_valid_kaons = df[df['eventID'].isin(eventos_kaons_valid)]

#Concatenamos
df_valid = pd.concat([df_valid_pions, df_valid_kaons], ignore_index=True)

#Eliminamos los dataFrame temporales
del df_valid_pions
del df_valid_kaons

In [25]:
# DataFrame para test
#Seleccionamos las filas que corresponda
df_test_pions = df[df['eventID'].isin(eventos_pions_test)]
df_test_kaons = df[df['eventID'].isin(eventos_kaons_test)]

#Concatenamos
df_test = pd.concat([df_test_pions, df_test_kaons], ignore_index=True)

#Eliminamos los dataFrame temporales
del df_test_pions
del df_test_kaons

In [26]:
df_test

Unnamed: 0,eventID,PDGcode,trueE,hitX,hitY,hitZ,hitTime,hitInteg
0,3,211,0.237378,-99.9596,-0.115262,149.829,1705.48,49.014
1,3,211,0.237378,-99.9961,-0.118761,149.996,1698.47,358.434
2,3,211,0.237378,-100.0120,-0.118435,150.071,1701.65,339.193
3,3,211,0.237378,-99.9916,-0.116283,150.141,1705.07,316.184
4,3,211,0.237378,-100.0050,-0.110550,150.453,1704.90,368.939
...,...,...,...,...,...,...,...,...
3249454,19989,321,0.713634,-106.1960,-38.024400,236.515,1619.12,847.315
3249455,19989,321,0.713634,-108.2700,-37.954400,239.577,1599.12,220.798
3249456,19989,321,0.713634,-108.3100,-37.948500,239.747,1598.61,311.458
3249457,19989,321,0.713634,-108.2100,-37.946000,239.818,1599.89,557.398


In [27]:
df_valid

Unnamed: 0,eventID,PDGcode,trueE,hitX,hitY,hitZ,hitTime,hitInteg
0,0,211,0.258707,-100.0020,-0.173207,150.2,1704.94,318.992
1,0,211,0.258707,-100.0000,0.000000,150.5,1704.96,346.856
2,0,211,0.258707,-99.9976,0.000000,150.7,1704.99,592.421
3,0,211,0.258707,-99.9933,-0.346409,150.7,1698.51,1070.020
4,0,211,0.258707,-99.9964,-0.519616,150.8,1698.47,889.101
...,...,...,...,...,...,...,...,...
6516707,19997,321,0.500785,-98.0528,-12.124400,154.7,1726.72,357.400
6516708,19997,321,0.500785,-98.0318,-12.817200,154.7,1723.61,338.582
6516709,19997,321,0.500785,-97.9946,-12.470800,154.7,1727.47,333.317
6516710,19997,321,0.500785,-98.3889,-13.683200,154.8,1719.04,368.375


In [28]:
df_train

Unnamed: 0,eventID,PDGcode,trueE,hitX,hitY,hitZ,hitTime,hitInteg
0,1,211,0.381965,-86.4078,2.85275,131.938,1872.38,1655.0600
1,1,211,0.381965,-86.1730,2.79629,132.107,1878.77,340.1960
2,1,211,0.381965,-86.3254,2.74496,132.323,1876.82,4047.6200
3,1,211,0.381965,-86.4564,2.71796,132.420,1878.30,1234.5500
4,1,211,0.381965,-86.6744,2.72527,132.458,1868.97,1394.2800
...,...,...,...,...,...,...,...,...
23001567,19999,321,0.511779,-126.7600,9.41895,195.739,1362.47,1825.6700
23001568,19999,321,0.511779,-126.8500,9.43314,195.757,1358.16,1862.7900
23001569,19999,321,0.511779,-126.8780,9.51059,196.057,1360.96,1586.2400
23001570,19999,321,0.511779,-126.9210,9.52140,196.063,1357.25,388.8380


A todas las casillas de hitX le sumamos 100 y a todas las casillas de hitZ le restamos -150

In [29]:
# Normalizamos las posiciones X en el eje
df_train['hitX'] = df_train['hitX'] + 100
df_valid['hitX'] = df_valid['hitX'] + 100
df_test['hitX'] = df_test['hitX'] + 100

# Normalizamos las posicion Y en el eje
df_train['hitZ'] = df_train['hitZ'] - 150
df_valid['hitZ'] = df_valid['hitZ'] - 150
df_test['hitZ'] = df_test['hitZ'] - 150

In [30]:
df_test

Unnamed: 0,eventID,PDGcode,trueE,hitX,hitY,hitZ,hitTime,hitInteg
0,3,211,0.237378,0.0404,-0.115262,-0.171,1705.48,49.014
1,3,211,0.237378,0.0039,-0.118761,-0.004,1698.47,358.434
2,3,211,0.237378,-0.0120,-0.118435,0.071,1701.65,339.193
3,3,211,0.237378,0.0084,-0.116283,0.141,1705.07,316.184
4,3,211,0.237378,-0.0050,-0.110550,0.453,1704.90,368.939
...,...,...,...,...,...,...,...,...
3249454,19989,321,0.713634,-6.1960,-38.024400,86.515,1619.12,847.315
3249455,19989,321,0.713634,-8.2700,-37.954400,89.577,1599.12,220.798
3249456,19989,321,0.713634,-8.3100,-37.948500,89.747,1598.61,311.458
3249457,19989,321,0.713634,-8.2100,-37.946000,89.818,1599.89,557.398


Una vez hemos terminado con el procesamiento de datos comenzamos en otro notebook con el analisis de los datos.
Para ello escribimos los datos en memoria para poder leerlos desde otro notebook

In [31]:
df_train.to_csv('datas/df_train.csv', index=False)
df_valid.to_csv('datas/df_valid.csv', index=False)
df_test.to_csv('datas/df_test.csv', index=False)