# Data retrieval met python
## Inleiding
In dit notebook wordt beschreven hoe HiSPARC data met de HiSPARC sapphire module voor python op te halen is. De installatie van sapphire is beschreven op:

[http://docs.hisparc.nl/sapphire/installation.html#installing-the-prerequisites](http://docs.hisparc.nl/sapphire/installation.html#installing-the-prerequisites)

Nadat deze installatie is voltooid, kan de sapphire module in python geladen worden. (Klik met de muis in de onderstaande code-cel en druk op shift-enter):

In [1]:
import sapphire

Boven deze regel staat als het goed is de code-cel met "`import sapphire`". Wordt een foutcode afgebeeld, dan is de installatie niet gelukt. De sapphire module bevat de "`esd`" klasse. Deze klasse maakt het mogelijk om data (meetgegevens) uit de HiSPARC data-server op te halen. (Dit doen we weer door in de code-cel te klikken en op shift-enter te drukken)

In [2]:
from sapphire import esd
data = esd.quick_download(102)

100%|############################################################|Time: 0:00:06


Na enige tijd verschijnt er een regel met 
"`100%|############################################################|Time: 0:00:06`". De variabele "`data`" bevat nu een set meetgegevens. Deze set is af te drukken. 

In [3]:
print data

data1.h5 (File) ''
Last modif.: 'Tue Nov 17 10:07:28 2015'
Object Tree: 
/ (RootGroup) ''
/s102 (Group) ''
/s102/events (Table(45393,)) ''



## Het data format
De naam van het bestand waarnaar de variabele "`data` wijst, eindigt met "`.h5`". Om dit data bestand te openen, maken we gebruik van "`pytables`".

In [15]:
import tables

Als "`h5py`" is geinstalleerd, staat boven deze regel geen foutmelding. Anders is "`h5py`" te installeren met met "`pip install h5py`". Met de onderstaande opdracht is te testen of de installatie gelukt is, **_let op: dit duurt wel een tijdje!_**:

In [17]:
tables.test()

-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=
PyTables version:    3.2.0
HDF5 version:        1.8.13
NumPy version:       1.10.1
Numexpr version:     2.4.3 (not using Intel's VML/MKL)
Zlib version:        1.2.5 (in Python interpreter)
BZIP2 version:       1.0.6 (6-Sept-2010)
Blosc version:       1.4.4 (2015-05-05)
Blosc compressors:   blosclz (1.0.2.1), lz4 (1.2.0), lz4hc (1.2.0), snappy (1.1.1), zlib (1.2.8)
Cython version:      0.19.2
Python version:      2.7.10 (default, Jul 13 2015, 12:05:58) 
[GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)]
Platform:            Darwin-15.0.0-x86_64-i386-64bit
Byte-ordering:       little
Detected cores:      4
Default encoding:    ascii
Default FS encoding: utf-8
Default locale:      (en_US, UTF-8)
-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=


......................................................................................................................................................................................................................................................................................................................................................................................................................................................................ssss.........

Performing only a light (yet comprehensive) subset of the test suite.
If you want a more complete test, try passing the --heavy flag to this script
(or set the 'heavy' parameter in case you are using tables.test() call).
The whole suite will take more than 4 hours to complete on a relatively
modern CPU and around 512 MB of main memory.
-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=


........................................................................................................................................sssss..................................................................................................................................................................................................................................................................................................................................................................................................................................................................ssssssssssssssssssssssssssssssssssssssssssssssssss.......................................................................................................................................................................................................................................................................................................................................................................

0

Als er geen fouten zijn, kunnen we verder. Anders wordt het zoeken op: 
[http://www.pytables.org/usersguide/installation.html](http://www.pytables.org/usersguide/installation.html)

Het commando "`tables?`" laat (in een pop up) zien wat "`tables`" doet.

In [18]:
tables?

De opdracht "`print data`" had een resultaat in de vorm van:

```
data1.h5 (File) ''
Last modif.: 'Tue Nov 17 10:07:28 2015'
Object Tree: 
/ (RootGroup) ''
/s102 (Group) ''
/s102/events (Table(45393,)) ''
```
Het "`data`" bestand heeft een hierarchise opbouw. In "`data`" zit een RootGroup, deze is te benaderen met "`data.root`". Hierin zit weer een groep "`s102`", deze is te benaderen met "`data.root.s102`" Hierin zitten weer "`events`".

In [20]:
print data.root.s102.events

/s102/events (Table(45393,)) ''


De informatie van het eerste event is op te halen met:

In [21]:
print data.root.s102.events[0]

(0L, 1447632002, 423833973L, 1447632002423833973L, [284, 49, -1, -1], [2969, 355, -1, -1], 1.0023000240325928, 0.13359999656677246, -1.0, -1.0, 2460.0, 972.5, -1.0, -1.0, -999.0)


De informatie in een event bestaat uit een lijst getallen. Deze getallen hebben de volgende betekenis:

1. event_id: Het unieke nummer van het event in deze dataset.
1. timestamp: De tijd in hele seconden (GPS) waarop de trigger van het event plaatsvond. 
1. nanoseconds: De tijd in nanoseconden waarop de trigger van het event plaatsvond.
1. ext_timestamp: Dit getal is vrij groot, namelijk de twee vorige achter elkaar.
1. pulseheights: Een array met pulshoogten, "`-1`" betekent dat er geen detectie was.
1. integrals: Een array met pulsoppervlakten, "`-1`" betekent ook hier dat er geen detectie was.
1. n1-n4: Het aantal MIPS's (Minimal Ionising Particles) dat is gereconstrueerd.
1. t1-t4: De gereconstrueerde detectietijden.
1. t_trigger: De triggertijd.

Let op, computers tellen vanaf "`0`" en niet vanaf "`1`", Het aantal gereconstrueerde deeltjes in detector 1 bij het eerste event is dus te vinden met:

In [27]:
print data.root.s102.events[0][6]

1.0023


Een array met pulshoogten is in dit geval te vinden met:

In [28]:
print data.root.s102.events[0][4]

[284  49  -1  -1]


De eerste pulshoogte is te vinden met:

In [29]:
print data.root.s102.events[0][4][0]

284
