# 1 Python data retrieval
## Inleiding
Het notebook 'Data retrieval met python' is het eerste notebook van een serie. In dit notebook wordt beschreven hoe HiSPARC data met de HiSPARC sapphire module voor python op te halen is. De installatie van sapphire is beschreven op:

[http://docs.hisparc.nl/sapphire/installation.html#installing-the-prerequisites](http://docs.hisparc.nl/sapphire/installation.html#installing-the-prerequisites)

Nadat deze installatie is voltooid, kan de sapphire module in python geladen worden. (Klik met de muis in de onderstaande code-cel en druk op shift-enter):

In [1]:
import sapphire

Boven deze regel staat als het goed is de code-cel met "`import sapphire`". Wordt een foutcode afgebeeld, dan is de installatie niet gelukt. De sapphire module bevat onder andere de "`quick_download`" functie. Deze functie maakt het mogelijk om data (meetgegevens) uit de HiSPARC data-server op te halen. 

Aan de functie wordt het stationsnummer als parameter meegegeven. Hieronder wordt data voor station 102 opgehaald. Uiteraard is deze opdracht aan te passen zodat er data van een andere station opgehaald wordt. (Dit doen we weer door in de code-cel te klikken en op shift-enter te drukken). 

In [2]:
from sapphire import quick_download
data = quick_download(102)

100%|############################################################|Time: 0:00:03


Na enige tijd verschijnt hierboven een regel zoals:

"`100%|############################################################|Time: 0:00:06`"

Soms is de download zo snel dat deze regel niet wordt afgedrukt.

De variabele "`data`" bevat nu een set meetgegevens. Deze set is af te drukken. 

In [3]:
print data

data5.h5 (File) ''
Last modif.: 'Tue Dec  1 10:39:50 2015'
Object Tree: 
/ (RootGroup) ''
/s102 (Group) ''
/s102/events (Table(42295,)) ''



## Het data format
De naam van het bestand waarnaar de variabele "`data`" wijst, eindigt met "`.h5`". Om dit data bestand te openen, maken we gebruik van "`pytables`".

In [4]:
import tables

Als "`pytables`" is geinstalleerd, staat boven deze regel geen foutmelding. Anders is "`pytables`" te installeren met met "`pip install pytables`". Als "`# `" aan het begin van de opdracht wordt verwijderd, is met de onderstaande opdracht te testen of de installatie gelukt is. **_Let op: dit duurt wel een tijdje!_**:

In [5]:
# tables.test()

Als er geen fouten zijn, kunnen we verder. Anders wordt het zoeken op:

[http://www.pytables.org/usersguide/installation.html](http://www.pytables.org/usersguide/installation.html)

De opdracht "`print data`" had een resultaat in de vorm van:

```
data1.h5 (File) ''
Last modif.: 'Tue Nov 17 10:07:28 2015'
Object Tree: 
/ (RootGroup) ''
/s102 (Group) ''
/s102/events (Table(45393,)) ''
```
Het "`data`" bestand heeft een hierarchise opbouw. In "`data`" zit een RootGroup, deze is te benaderen met "`data.root`". Hierin zit weer een groep "`s102`", deze is te benaderen met "`data.root.s102`". Hierin zit een tabel "`events`".

In [6]:
print data.root.s102.events

/s102/events (Table(42295,)) ''


De informatie van het eerste event is op te halen met:

In [7]:
print data.root.s102.events[0]

(0L, 1448841601, 1820799L, 1448841601001820799L, [56, 94, -1, -1], [331, 528, -1, -1], 0.10530000180006027, 0.2011999934911728, -1.0, -1.0, 985.0, 1482.5, -1.0, -1.0, -999.0)


De informatie in een event bestaat uit een lijst getallen. Deze getallen hebben de volgende betekenis:

1. event_id: Het unieke nummer van het event in deze dataset.
1. timestamp: De tijd in hele seconden (GPS) waarop de trigger van het event plaatsvond. 
1. nanoseconds: De tijd in nanoseconden waarop de trigger van het event plaatsvond.
1. ext_timestamp: Dit getal is vrij groot, namelijk de twee vorige achter elkaar.
1. pulseheights: Een array met pulshoogten, "`-1`" betekent dat er geen detector was.
1. integrals: Een array met pulsoppervlakten, "`-1`" betekent ook hier dat er geen detector was.
1. n1: Het aantal MIPS's (Minimal Ionising Particles) dat in detector 1 is gereconstrueerd.
1. n2
1. n3
1. n4
1. t1: De gereconstrueerde detectietijden vanaf het begin van het opgeslagen signaal voor detector 1.
1. t2
1. t3
1. t4
1. t_trigger: Het moment van de GPS-tijdstempel vanaf het begin van het opgeslagen signaal.

In dit geval staat er bij "`t_trigger`" -999.0, dit betekent dat de reconstructie niet gelukt is.

In het werkblad [http://docs.hisparc.nl/infopakket/pdf/traces.pdf](http://docs.hisparc.nl/infopakket/pdf/traces.pdf) wordt de natuurkundige betekenis van deze getallen beschreven.  De afbeeldingen in dit werkblad zijn afkomstig uit het interactieve werkblad [http://data.hisparc.nl/media/jsparc/jsparc.html](http://data.hisparc.nl/media/jsparc/jsparc.html).

Let op, computers tellen vanaf "`0`" en niet vanaf "`1`", Het aantal gereconstrueerde deeltjes in detector 1 (het zevende getal) bij het eerste event is dus te vinden met:

In [8]:
print data.root.s102.events[0][10]

985.0


Een array met pulshoogten in ADC-waarden is in dit geval te vinden met:

In [9]:
print data.root.s102.events[0][4]

[56 94 -1 -1]


De eerste pulshoogte is te vinden met:

In [10]:
print data.root.s102.events[0][4][0]

56
