# Un exemple d'utilisation d'hdf5 en python

## Jupyter notebooks

Un "notebook" est une feuille de travail interactive, dans laquelle vous allez pouvoir exécuter des
commandes, décrite dans "cases", les cellules.

Plusieurs environnements sont disponibles (menu kernel ci-dessus -->change kernel). On travaillera ici avec Python3.

Dans notre cas, chaque cellule pourra contenir soit du code python, soit des commentaires, du texte en markdown.

Voici un résumé des principaux raccourcis:

* Editer une cellule : Enter
* Exécuter le contenu d'une cellule : Shift + Enter
* Exécuter toutes les cellules : menu kernel (haut de la page) --> Run all
* Effacer une cellule : DD
* Ajouter une cellule : Ctrl-mb
* Afficher les raccourcis : Ctrl-m h
* Liste des "magic commands" python : exécuter %lsmagic dans une cellule

Plus d'infos :  https://jupyter-notebook-beginner-guide.readthedocs.io/en/latest/what_is_jupyter.html#references

Attention: chaque cellule peut-être exécutée indépendamment des autres mais les résultats d'exécution sont conservées.
Pour repartir de zero il faut soit faire appel à "%reset" ou à restart dans le menu kernel

## Import du package hdf5

Pour utiliser hdf5 en python, nous aurons besoin du package h5py.

Nous aurons également besoin de numpy qui est le package standard de calcul scientifique en python, http://www.numpy.org.

Nous l'utiliserons pour manipuler des matrices et des vecteurs.

In [1]:
import h5py
import numpy as np

Pour obtenir des infos sur un package ou une fonction, il suffit d'utiliser
"?", et la doc apparait en bas du navigateur.

L'objectif de cette démo/TP est d'illustrer les concepts de base d'hdf5, à travers la création d'un exemple simple.
Nous allons sauvegarder dans un fichier hdf5 des champs scalaires représentant certaines grandeurs physiques sur une grille 3D (sous forme de tableau numpy), puis les visualiser, les relire etc.

## Definition des variables

Pour commencer, on crée un tableau 3D de dimension Nx X Ny X Nz, rempli aléatoirement, grâce à numpy (np).

In [2]:
# Resolution du champ
Nx = Ny = Nz = 256
resolution = (Nx, Ny, Nz)

# Deux champs scalaires, initialisés aléatoirement
vx = np.random.random_sample(resolution)
temperature = np.random.random_sample(resolution)

Dans numpy, l'accès aux valeurs du tableau se fait comme suit 

(pour plus de détails voir un des nombreux tuto disponibles en ligne, par exemple,
https://docs.scipy.org/doc/numpy-dev/user/quickstart.html)

In [3]:
# un exemple de manipulation de tableau ...
small_tab = np.random.random((4,6))
# un élement:
print(small_tab[3, 3])
# une "ligne"
print(small_tab[2, :])
# une sous-partie du tableau:   
print(small_tab[2:4, 2:4])

0.6716746851776874
[0.71640469 0.50838259 0.81869901 0.86250276 0.58697174 0.25576814]
[[0.81869901 0.86250276]
 [0.02303176 0.67167469]]


## 1 - Le "fichier" hdf5

Le "fichier" hdf5 est l'objet principal qui permettra de stocker vos données et leurs attributs. On parlera à la fois
de "fichier" pour le fichier sur le disque (extension .h5, .hdf5 ou .he5) et pour l'objet manipulé dans le code.

Il s'agit d'une sorte de container de **datasets** (les structures de données, voir plus bas) qui peut également être organisé en **groupes** et sous-groupes. 

**TP** - *Créez un "fichier" hdf5 en mode 'écriture'. Il faudra pour cela faire appel à la fonction
h5py.File*

Rappel : pour accèder à la doc, il suffit de taper
?h5py.NOM_FONCTION.

In [None]:
# Affichage de la documentation de la fonction
?h5py.File

In [4]:
filename = 'demo_v0.h5'
# Création/ouverture en mode 'ecriture'
mode = 'w'
hdf_file = h5py.File(filename, mode)

Quand toutes les données auront été sauvegardées, il sera nécessaire de fermer le fichier, pour
valider l'écriture sur le disque, via la fonction close().

*Vérifiez que le fichier a bien été créé. Notez au passage que dans ipython notebook vous avez accès à certaines commandes du terminal*

In [5]:
ls -altr

total 120
-rw-r--r--@  1 Franck  staff   6148  5 fév  2018 .DS_Store
-rw-r--r--   1 Franck  staff   2882  5 fév  2018 demo_hdf5.py
-rw-r--r--   1 Franck  staff   4404  5 fév  2018 xdmf.py
-rw-r--r--   1 Franck  staff    847  6 fév  2018 demo_io.cxx
-rw-r--r--   1 Franck  staff    720  6 fév  2018 demo_io.py
-rw-r--r--   1 Franck  staff  18241 11 fév 17:08 demo_hdf5.ipynb
-rw-r--r--   1 Franck  staff   5384 11 fév 17:08 tp_part1.ipynb
drwxr-xr-x  22 Franck  staff    704 20 fév 15:41 [34m..[m[m/
drwxr-xr-x   3 Franck  staff     96 15 mar 14:58 [34m.ipynb_checkpoints[m[m/
drwxr-xr-x  11 Franck  staff    352 28 mar 10:25 [34m.[m[m/
-rw-r--r--   1 Franck  staff     96 28 mar 10:25 demo_v0.h5


Dans la mesure ou h5py.File est une classe, on peut avoir accès à ses attributs et méthodes.

Dans le notebook il suffit d'utiliser la complétion pour avoir une liste complète des attributs:

nom_class. + TAB

*Affichage du nom du fichier sur le disque et le nom de l'objet file:*

In [7]:
print(hdf_file.name)
print(hdf_file.filename)

/
demo_v0.h5


## Création de datasets: des tableaux dans le fichiers hdf5

Dans un fichier hdf, les "données" sont stockées sous forme de dataset.
Un dataset est un tableau multi-dimensionnel contenant des données d'un même type.

**TP** *Créez deux datasets dans le fichier hdf5, pour stocker les deux champs scalaires définis plus haut:*

* *un dataset 'data_velo' vide et de même résolution que vx*
* *un dataset 'data_tp' qui contient une copie de temperature*



In [9]:
# Création de dataset : 
?h5py.Dataset

[0;31mInit signature:[0m [0mh5py[0m[0;34m.[0m[0mDataset[0m[0;34m([0m[0mbind[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m      Represents an HDF5 dataset
[0;31mInit docstring:[0m
Create a new Dataset object by binding to a low-level DatasetID.
        
[0;31mFile:[0m           /anaconda3/lib/python3.7/site-packages/h5py/_hl/dataset.py
[0;31mType:[0m           type
[0;31mSubclasses:[0m     


In [10]:
# Paramètres : nom, shape, type
data_velo = hdf_file.create_dataset('velocity', resolution, dtype=np.float64)
# Paramètres : un tableau numpy
data_tp = hdf_file.create_dataset('temperature', data=temperature)

## Manipulation des datasets

Les datasets peuvent être manipulés comme des tableaux numpy:

In [11]:
print(data_tp)
print(data_velo)
print(data_tp.shape)
# A ce stade, data_tp contient les mêmes valeurs que temperature tandis que tous les éléments de data_velo sont nuls.
print(np.allclose(data_tp, temperature))
print(temperature[1,5,3])
print(data_velo[1:10, 1,3])

<HDF5 dataset "temperature": shape (256, 256, 256), type "<f8">
<HDF5 dataset "velocity": shape (256, 256, 256), type "<f8">
(256, 256, 256)
True
0.5643377532174662
[0. 0. 0. 0. 0. 0. 0. 0. 0.]


ou par l'intermédiaire du fichier hdf5, via leur nom:

In [12]:
print(hdf_file['velocity'])

<HDF5 dataset "velocity": shape (256, 256, 256), type "<f8">


La modification du contenu de chaque dataset est similaire à celle d'un tableau numpy.
Nous allons maintenant remplir data_velo en calculant le cosinus de vx:

In [14]:
data_velo[...] = np.cos(vx)



## Les groupes

Il est donc possible de l'organiser en groupes et sous-groupes contenant des datasets, via la fonction
create_group.

**TP ** *Créez un groupe 'champs' et un groupe 'infos' contenant un sous-groupe  'diverses'.*

Remarque: l'objet fichier hdf5 possède a une structure arborescente, à la manière d'un système de fichier classique.
Nous avons vu plus haut que le nom de l'objet hdf_file est '/'. Cela se traduit également dans la manière de nommer les groupes. le groupe 'diverses' apparaitra ainsi:

/infos/diverses.


In [15]:
?h5py.File.create_group

[0;31mSignature:[0m [0mh5py[0m[0;34m.[0m[0mFile[0m[0;34m.[0m[0mcreate_group[0m[0;34m([0m[0mself[0m[0;34m,[0m [0mname[0m[0;34m,[0m [0mtrack_order[0m[0;34m=[0m[0;32mNone[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Create and return a new subgroup.

Name may be absolute or relative.  Fails if the target name already
exists.

track_order
    Track dataset/group/attribute creation order under this group
    if True. If None use global default h5.get_config().track_order.
[0;31mFile:[0m      /anaconda3/lib/python3.7/site-packages/h5py/_hl/group.py
[0;31mType:[0m      function


In [16]:
# Creation d'un groupe 'champs'
g1 = hdf_file.create_group('champs')
# Puis d'un groupe infos/diverses
hdf_file.create_group('/infos/diverses/')

<HDF5 group "/infos/diverses" (0 members)>

L'accès aux données et attributs se fait de manière classique:

In [17]:
print(hdf_file['champs'])
print(hdf_file['infos'])

<HDF5 group "/champs" (0 members)>
<HDF5 group "/infos" (1 members)>


Nous sommes maintenant en mesure de créer un dataset dans le groupe champs

In [18]:
g1.create_dataset('density', resolution, dtype=np.float64)

<HDF5 dataset "density": shape (256, 256, 256), type "<f8">

On peut balayer tous les éléments du groupe

In [20]:
for it in hdf_file.items():
    print(it)
for it in hdf_file['champs'].items():
    print("groupe champs ...")
    print(it)

('champs', <HDF5 group "/champs" (1 members)>)
('infos', <HDF5 group "/infos" (1 members)>)
('temperature', <HDF5 dataset "temperature": shape (256, 256, 256), type "<f8">)
('velocity', <HDF5 dataset "velocity": shape (256, 256, 256), type "<f8">)
groupe champs ...
('density', <HDF5 dataset "density": shape (256, 256, 256), type "<f8">)


Ou également supprimer un groupe avec la fonction python del

In [21]:
del hdf_file['/infos/diverses']

In [22]:
print(g1['density'])

<HDF5 dataset "density": shape (256, 256, 256), type "<f8">


## Attributs

Un autre intérêt du format hdf5 est de pouvoir associer aux datasets et groupes des méta-données, i.e. des informations sous formes d'attributs.

Voici quelques exemples:

In [24]:
hdf_file['velocity'].attrs['année'] = 2015
hdf_file['velocity'].attrs['commentaires'] = 'Valeurs experimentales du champs de vitesse'
g1['density'].attrs['description'] = u"une description du champs"

Puis afficher les caractéristiques d'un dataset:

In [25]:
for it in hdf_file['velocity'].attrs.values():
    print(it)

2015
Valeurs experimentales du champs de vitesse


## Ecriture et fermeture du fichier :

Nous sommes maintenant en mesure de fermer le fichier.

La visualisation des données peut se faire par différentes méthodes:

* h5dump
* hdfview
* un logiciel capable de lire du hdf5 (visit ...)


**TD** *Visualisez le contenu du fichier avec hdfview et hdfdump, dans votre terminal*

In [26]:
hdf_file.close()

Nous allons maintenant repartir de zero et charger des données d'un fichier hdf5

## Lecture d'un fichier hdf5

**TP** *Créez un tableau 'new_field' à partir du champs temperature du fichier hdf5 'demo_v0.h5'*

* ouvrir le fichier demo_v0.h5
* créer le tableau numpy à partir du dataset temperature

Notes : 
* la lecture se fait simplement en créant un objet fichier en mode 'lecture'
* il faudra utiliser la fonction np.asarray pour assurer la conversion du dataset vers le tableau numpy
 
 tab_numpy = np.asarray(dataset)


In [None]:
# Remise à zero de l'environnement ...
%reset
import h5py
import numpy as np

In [None]:
# Lecture du fichier hdf5
filename = 'demo_v0.h5'
in_file = h5py.File(filename, 'r')

Affichage du contenu du fichier ...

Notez au passage l'intérêt du format hdf5 : le fichier est 'auto-suffisant': toutes les informations
nécessaires à la comprehension de son contenu sont disponibles (noms des variables, dimensions des tableaux ...)

In [None]:
# On balaies tout le contenu du fichier (datasets et groupes)
for keys in in_file:
    print(keys, in_file[keys])
    # Dans chaque cas, on affiche la liste des attributs
    for it in in_file[keys].attrs.items():
        print('-->', it)

In [None]:
# Création d'un nouveau tableau
new_field = np.asarray(in_file['velocity'])
print(new_field[1:10, 1:10, 3])
print(new_field.shape)
print(new_field.dtype)

In [None]:
# Ne pas oublier de fermer le fichier!
in_file.close()

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline
plt.plot(new_field[1:100, 1, 1])

# Un exemple d'utilisation de XDMF et HDF5

Paraview n'est (malheureusement) pas capable de lire directement du hdf5.
Il faut le convertir en xmf. Nous vous proposons ici un exemple avec une fonction python capable de
faire cette conversion.


In [None]:
# On recupère la fonction permettant d'écrire l'entête xdmf
from xdmf import XDMFWriter

##### Cette fonction est un exemple de génération de la partie 'ASCII' du fichier xdmf, en fonction de la  géométrie du domaine et de la grille.

In [None]:
help(XDMFWriter)

In [None]:
# Description du domaine, de la grille
origin = [0.,] * 3
space_step = [0.1,] * 3
resolution = new_field.shape
filename = 'demo_v0.h5'
wr = XDMFWriter(filename, 3, resolution, origin, space_step, ['velocity', 'temperature'], 1, 0.0)

##### Le fichier peut maintenant être lu par Paraview.