In [1]:
# import libs
import os
import pandas as pd

In [2]:
print(os.listdir('../JUNO/Datasets/'))

['train_lpmt_hits.h5', 'spmt_pos.csv', 'train_lpmt_n_hits.csv', 'train_spmt_n_hits.csv', 'train_info.csv', 'train_spmt_hits.h5', 'lpmt_pos.csv']


# Data Description

**lpmt** — большие ФЭУ, **spmt** — маленькие, **hits** — зарегистрированные фото-электроны (не все фотоны выбивают фото-электрон, и не всякий фото-электрон регистрируется). Каждый hit имеет 3 характеристики: номер ФЭУ (pmtID), время от физического события в детекторе (hitTime) и происхождение (isDN=0 для нормальных хитов, isDN=1 для шума в самих ФЭУ).
В каждом физическом событии может быть переменное количество хитов. Количество хитов сохранено в переменной nHits. Технически nHits — это длина массивов pmtID, hitTime и isDN в каждом событии.
В **train_info** записаны данные, которые нельзя напрямую измерить, но можно предсказывать: E — энергия в МэВ; x,y,z,R — координаты в мм (R^2 = x^2+y^2+z^2). События в деревьях соответствуют друг другу по порядковому номеру: певрое из **train_info** соответствует первому из **lpmt_hits** и первому из **spmt_hits**.
lpmt_pos и spmt_pos — это координаты ФЭУ (x, y, z в миллиметрах).

In [3]:
Datasets = dict()
for file in os.listdir("../JUNO/Datasets"):
    if file.split('.')[1] == 'csv':
        Datasets[file.split('.')[0]] = pd.read_csv('../JUNO/Datasets/' + str(file))
    elif file.split('.')[1] == 'h5':
        Datasets[file.split('.')[0]] = pd.read_hdf('../JUNO/Datasets/' + str(file), mode='r')
        
    

In [4]:
# TOP 5 string from DataFrames
for file in Datasets:
    print('File Name: ', file)
    print(Datasets[file].head(), end='\n')
#     print(Datasets[file].describe(), end='\n')
    print()

File Name:  train_lpmt_hits
   event     hitTime   isDN  pmtID
0      0  249.992615  False  14175
1      0   40.010311  False  17319
2      0  162.123199  False  16882
3      0   51.875614  False  14951
4      0   79.817497  False  10947

File Name:  spmt_pos
   pmt_id         pmt_x       pmt_y      pmt_z
0  300000  1.384810e+03   244.17944  19148.438
1  300001  1.217782e+03   703.08670  19148.438
2  300002  9.038709e+02  1077.19130  19148.438
3  300003  4.809396e+02  1321.37070  19148.438
4  300004  8.610328e-14  1406.17330  19148.438

File Name:  train_lpmt_n_hits
   event_id  nHits
0         0   8902
1         1   7305
2         3   6718
3         4   5966
4         5  12744

File Name:  train_spmt_n_hits
   event_id  nHits
0         0    212
1         1    191
2         3    162
3         4    180
4         5    310

File Name:  train_info
          E          R  evtID           x           y            z
0  4.747791  14610.378      0   8290.7790  11995.6180    911.74286
1  3.91972

In [5]:
# rename columns for joining
Datasets['train_lpmt_n_hits'].rename(index=str, columns={"event_id": "event"}, inplace=True)
Datasets['train_spmt_n_hits'].rename(index=str, columns={"event_id": "event"}, inplace=True)
;

''

In [6]:
# myDataFrame = pd.merge(Datasets['train_lpmt_hits'], Datasets['train_lpmt_n_hits'], how='inner', on='event')

## Посчитаем процент нормальных хитов от общего кол-ва хитов для каждого детектора

In [35]:
# train_lpmt_n_hits: Добавляем кол-во нормальных хитов для каждого детектора
myDataFrame1 = pd.DataFrame(
    Datasets['train_lpmt_hits'][Datasets['train_lpmt_hits'].isDN == True].groupby('pmtID').size(),
    columns=['nHitsTrue']
)
myDataFrame1.reset_index(inplace=True)
# Datasets['train_lpmt_n_hits'] = pd.merge(
#     myDataFrame, 
#     Datasets['train_lpmt_n_hits'], 
#     how='inner', on='event'
# )
# Datasets['train_lpmt_n_hits']['procTrue'] = Datasets['train_lpmt_n_hits'].apply(
#     lambda row: row.nHitsTrue/row.nHits,
#     axis=1
# )
myDataFrame2 = pd.DataFrame(
    Datasets['train_lpmt_hits'].groupby('pmtID').size(),
    columns=['nHits']
)
myDataFrame2.reset_index(inplace=True)
Datasets['info_lpmt_det'] = pd.merge(
    myDataFrame1, 
    myDataFrame2, 
    how='inner', on='pmtID'
)
Datasets['info_lpmt_det']['procTrue'] = myDataFrame3.apply(
    lambda row: row.nHitsTrue/row.nHits,
    axis=1
)

In [40]:
Datasets['info_lpmt_det'].sort_values(by='procTrue', ascending=False)

Unnamed: 0,pmtID,nHitsTrue,nHits,procTrue
11,11,520,4131,0.125878
10,10,535,4288,0.124767
6,6,495,4092,0.120968
2,2,529,4437,0.119225
9,9,497,4241,0.117189
1,1,488,4198,0.116246
10434,10434,584,5034,0.116011
9278,9278,563,4870,0.115606
26,26,538,4658,0.115500
11526,11526,587,5111,0.114850


In [37]:
# train_lpmt_n_hits: Добавляем кол-во нормальных хитов для каждого детектора
myDataFrame1 = pd.DataFrame(
    Datasets['train_spmt_hits'][Datasets['train_spmt_hits'].isDN == True].groupby('pmtID').size(),
    columns=['nHitsTrue']
)
myDataFrame1.reset_index(inplace=True)
# Datasets['train_lpmt_n_hits'] = pd.merge(
#     myDataFrame, 
#     Datasets['train_lpmt_n_hits'], 
#     how='inner', on='event'
# )
# Datasets['train_lpmt_n_hits']['procTrue'] = Datasets['train_lpmt_n_hits'].apply(
#     lambda row: row.nHitsTrue/row.nHits,
#     axis=1
# )
myDataFrame2 = pd.DataFrame(
    Datasets['train_spmt_hits'].groupby('pmtID').size(),
    columns=['nHits']
)
myDataFrame2.reset_index(inplace=True)
Datasets['info_spmt_det'] = pd.merge(
    myDataFrame1, 
    myDataFrame2, 
    how='inner', on='pmtID'
)
Datasets['info_spmt_det']['procTrue'] = myDataFrame3.apply(
    lambda row: row.nHitsTrue/row.nHits,
    axis=1
)

In [39]:
Datasets['info_spmt_det'].sort_values(by='procTrue', ascending=False)

Unnamed: 0,pmtID,nHitsTrue,nHits,procTrue
11,300011,7,79,0.125878
10,300010,7,73,0.124767
6,300006,3,86,0.120968
2,300002,3,95,0.119225
9,300009,4,71,0.117189
1,300001,7,83,0.116246
10434,315813,2,92,0.116011
9278,314034,8,97,0.115606
26,300071,2,85,0.115500
11526,317059,6,85,0.114850


In [21]:
# Datasets['train_lpmt_n_hits'].sort_values(by='procTrue',ascending=False)
# Datasets['train_lpmt_hits'][Datasets['train_lpmt_hits'].event == 3201]


In [15]:
# train_spmt_n_hits: Добавляем кол-во нормальных хитов для каждого детектора
myDataFrame = pd.DataFrame(
    Datasets['train_spmt_hits'][Datasets['train_spmt_hits'].isDN == True].groupby('event').size(),
    columns=['nHitsTrue']
)
myDataFrame.reset_index(inplace=True)
Datasets['train_spmt_n_hits'] = pd.merge(
    myDataFrame, 
    Datasets['train_spmt_n_hits'], 
    how='inner', on='event'
)