<a href="https://colab.research.google.com/github/tbeucler/2024_UNIL_Geoinformatique/blob/main/Geoinformatique_I/IP/Tutoriel_IP/S3_IP_tutoriel.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Tutoriel 3: Structure de données

Dans cette section, nous aborderons les points suivants:

1. File I/O
2. List
3. Tuples
4. Sets
5. Dictionnaires


## File I/O
Dans cette section, nous présenterons les fonctions de base que nous pouvons utiliser pour stocker et récupérer des données à partir de fichiers de différents formats.

Pour les projets en sciences de l'environnement, les données de recherche sont le plus souvent stockées dans les formats suivants :
1.   Fichiers texte (`TXT`)
2.   Fichiers tabulaires (par exemple, `CSV`, `XLS`)
3.   Données structurées / dictionnaires Python, etc. (par exemple, `Pickle`, `dill`, `JSON`)
4.   Données maillées (par exemple, `HDF5`, `NetCDF`)

Nous allons maintenant voir comment nous pouvons utiliser Python et différents paquets Python pour récupérer les données stockées dans ces formats, et comment sauvegarder vos données dans différents formats pour une utilisation ultérieure.

Référence:
*   CUSP UCSL bootcamp 2017 (https://github.com/Mohitsharma44/ucsl17)
*   Python 3 tutorial (https://docs.python.org/3/tutorial/inputoutput.html)
*   GSFC Python Bootcamp (https://github.com/astg606/py_materials/blob/master/useful_modules/)
*   Working on JSON Data in Python (https://realpython.com/python-json/)
*   PyHOGS (http://pyhogs.github.io/intro_netcdf4.html)

Commençons par importer quelques paquets...

In [None]:
import csv
import netCDF4
import pickle
import pandas as pd
import xarray as xr
import numpy as np

### Fichiers TXT
Nous allons maintenant apprendre à écrire des informations dans un fichier .TXT et à les relire à l'aide de fonctions Python intégrées. Les données utilisées dans cette partie du tutoriel seront très simples. Dans les prochains exercices, nous présenterons également les commandes des paquets communautaires qui nous permettent de lire et de stocker des données plus complexes.

#### Ouverture de fichiers :
Les fichiers peuvent être ouverts en utilisant la fonction intégrée de Python `open()`. Cette fonction crée un objet fichier pour les opérations suivantes. Utilisez la syntaxe suivante pour lire un fichier TXT : \\
`fhandler = open(file_name, access mode, encoding)`

- `nom_du_fichier` : Le nom du fichier sur lequel vous souhaitez effectuer vos opérations d'E/S. \
Notez qu'il s'agit du chemin d'accès complet au fichier (par exemple, $\text{\\home\\Documents\\file.txt}$ )
- `encodage` : Schéma d'encodage à utiliser pour convertir le flux d'octets en texte. (Standard=`utf-8`)
- `access_mode` : La façon dont un fichier est ouvert, les choix disponibles pour cette option incluent :

|access_mode | Its Function|
|:------|------------:|
|r	|Ouvre un fichier en lecture seule|
|rb	|Ouvre un fichier en lecture seule au format binaire|
|r+	|Ouvre un fichier pour la lecture et l'écriture|
|rb+	|Ouvre un fichier pour la lecture et l'écriture au format binaire|
|w	|Ouvre un fichier en écriture uniquement|
|wb	|Ouvre un fichier en écriture uniquement au format binaire|
|w+	|Ouvre un fichier en lecture et en écriture|
|wb+	|Ouvre un fichier pour l'écriture et la lecture au format binaire|
|a	|Ouvre un fichier pour l'ajouter|
|ab	|Ouvre un fichier pour l'ajouter en binaire|
|a+	|Ouvre un fichier pour l'ajout et la lecture|
|ab+	|Ouvre un fichier pour l'ajout et la lecture au format binaire|

Dans l'exemple ci-dessous, nous allons essayer de stocker plusieurs phrases dans un nouveau fichier TXT, et utiliser la fonction `open()` pour voir si le code fonctionne comme prévu.

In [None]:
fhandler = open('test.txt', 'w', encoding="utf-8")
fhandler.write('Hello World!\n')
fhandler.write('I am a UNIL Master Student.\n')
fhandler.write('I am learning how to code!\n')
fhandler.close()

```{note}
In the code above, we use the `open()` command to create a *write-only* (`access_mode='w'`) file `test.txt`. The open command creates a file object (`fhandler`) on which we can perform extra operations.

We then try to add three sentences to the TXT file using the `.write()` operation on the file object.

Remember to close the file with `.close()` command so that the changes can be finalized!

If the code is writing, we should see a `test.txt` file created in the same path as this notebook. Let's see if that's the case!
```

In [None]:
! ls .

In [None]:
! cat test.txt

Hourra ! Ça marche ! 😀

Mais n'avons-nous pas dit que nous voulions le relire ? 🤨

Essayons de lire le fichier alors ! Pouvez-vous penser à des façons de le faire ?

Voici quelques-unes des fonctions que vous pourriez utiliser.

1.   `.close()` : Ferme le fichier actuellement ouvert.
2.   `.readline([size])` : Lit les chaînes de caractères d'un fichier jusqu'à ce qu'il atteigne le caractère de nouvelle ligne `\n` si le paramètre `size` est vide. Sinon, il lira la chaîne de caractères de la taille donnée.
3.   `.readlines([size])` : Appelle répétitivement `.readline()` jusqu'à la fin du fichier.
4.   `.write(str)` : Écrit la chaîne de caractères str dans le fichier.
5.   `.writelines([list])` : Ecrit une séquence de chaînes de caractères dans un fichier. Aucune nouvelle ligne n'est ajoutée automatiquement.

In [None]:
fhandler = open('test.txt','r',encoding='utf-8')
fhandler.readlines()

Et si nous voulions ajouter du texte au fichier ?

In [None]:
with open('test.txt', 'r+') as fhandler:
  print(fhandler.readlines())
  fhandler.writelines(['Now,\n', 'I am trying to', ' add some stuff.'])
  # Go to the starting of file
  fhandler.seek(0)
  # Print the content of file
  print(fhandler.readlines())

Ici, nous utilisons une autre méthode pour ouvrir et écrire le fichier de données.
En utilisant l'instruction `with` pour ouvrir le fichier TXT, nous nous assurons que les données sont automatiquement fermées après l'opération finale. Nous n'avons plus besoin d'écrire l'instruction `fhandler.close()`.

### Fichiers tabulaires
Que feriez-vous si vous aviez des données joliment organisées dans le format ci-dessous ?
```
Données1, Données2, Données3
Exemple01, Exemple02, Exemple03
Exemple11, Exemple12, Exemple13
```
Lorsque vous ouvrez un fichier de ce type dans Excel, voici à quoi il ressemble :

||||
|:--|:--|:--|
|Donnée1	|Donnée2	|Donnée3|
|Exemple1	|Exemple2	|Exemple3|

Il s'agit d'un fichier tabulaire _séparé par des virgules_. Les fichiers de ce type sont généralement enregistrés avec l'extension `.csv`. Les fichiers `.csv` peuvent ensuite être ouverts et visualisés à l'aide d'un tableur, tel que Google Sheets, Numbers ou Microsoft Excel.

Mais qu'en est-il si nous voulons utiliser les données dans Python ?

#### Ouverture des fichiers :
Heureusement, il existe des paquets communautaires qui peuvent vous aider à importer et à récupérer vos données tabulaires avec un minimum d'effort. Nous présentons ici deux de ces packages : CSV et Pandas.

##### Lire des fichiers CSV avec le paquetage `CSV`

`reader()` peut être utilisé pour créer un objet qui est utilisé pour lire les données d'un fichier CSV. Le lecteur peut être utilisé comme un itérateur pour traiter les lignes du fichier dans l'ordre. Voyons un exemple :

In [None]:
import pooch
import urllib.request
datafile = pooch.retrieve('https://unils-my.sharepoint.com/:x:/g/personal/tom_beucler_unil_ch/ETDZdgCkWbZLiv_LP6HKCOAB2NP7H0tUTLlP_stknqQHGw?download=1',
                          known_hash='c7676360997870d00a0da139c80fb1b6d26e1f96050e03f2fed75b921beb4771')

In [None]:
row = []
# https://unils-my.sharepoint.com/:x:/g/personal/tom_beucler_unil_ch/ETDZdgCkWbZLiv_LP6HKCOAB2NP7H0tUTLlP_stknqQHGw?e=N541Yq
with open(datafile, 'r') as fh:
  reader = csv.reader(fh)
  for info in reader:
    row.append(info)

In [None]:
print(row[0])

In [None]:
print(row[1])

``{tip}
Dans le code ci-dessus, nous utilisons la méthode `csv.reader()` pour lire itérativement chaque ligne du fichier CSV.

Nous ajoutons une nouvelle ligne à une liste vide à chaque itération.

Nous utilisons la fonction `print()` pour voir ce qui a été écrit dans la liste. Nous avons constaté que la première ligne contient des informations sur les noms de variables, tandis que la deuxième ligne contient des données à un pas de temps donné.
```

#### Extraire les données et les écrire dans un nouveau fichier CSV :
Le fichier CSV que nous venons d'importer contient en fait les données des stations météorologiques de janvier 2022 à août 2022. Que se passe-t-il si nous ne voulons que les données des cinq premières lignes ? Pouvons-nous extraire les données et les enregistrer dans un nouveau fichier CSV ?

In [None]:
with open('testsmall.csv', 'w') as fh:
  writer = csv.writer(fh)
  for num in range(5):
    writer.writerow(row[num])

```{note}

En fait, il existe un meilleur paquetage pour les données tabulaires. Cette bibliothèque s'appelle `Pandas`. Nous présenterons ce paquetage plus en détail la semaine prochaine. Pour l'instant, nous allons simplement démontrer que nous pouvons utiliser pandas pour faire la même procédure FileI/O que nous avons faite plus tôt avec CSV.

Ici, nous lisons la grande feuille de données de la station météorologique `datafile` avec la fonction pandas `.read_csv()`.
```

In [None]:
# importer fichier CSV avec pandas
ALOdatasheet = pd.read_csv(datafile)

In [None]:
# Exporter les cinq premières lignes du cadre de données Pandas vers un fichier CSV
ALOdatasheet[0:5].to_csv('./testsmall_pd.csv')

### Sérialisation et désérialisation avec Pickle
(Réécrit à partir du GSFC Python Bootcamp)

Pickle est un format interne de Python qui permet d'écrire des données arbitraires dans un fichier de manière à pouvoir les relire, intactes.
* `pickle` "sérialise" d'abord l'objet avant de l'écrire dans un fichier.
* Le décapage (sérialisation) est un moyen de convertir un objet Python (liste, dict, etc.) en un flux de caractères qui contient toutes les informations nécessaires pour reconstruire l'objet dans un autre script Python.

Les types suivants peuvent être sérialisés et désérialisés en utilisant le module `pickle` :
* Tous les types de données natifs supportés par Python (booléens, None, entiers, flottants, nombres complexes, chaînes de caractères, octets, tableaux d'octets).
* Dictionnaires, ensembles, listes et tuples - tant qu'ils contiennent des objets sélectionnables.
* Les fonctions (décryptées par leur nom de référence, et non par leur valeur) et les classes qui sont définies au niveau supérieur d'un module.

Les fonctions principales de `pickle` sont :

* `dump()` : récupère des données en acceptant des données et un objet fichier.
* `load()` : prend un objet fichier, reconstruit les objets à partir de la représentation décapée, et les renvoie.
* `dumps()` : renvoie les données décryptées sous forme de chaîne de caractères.
* `loads()` : lit les données extraites d'une chaîne.

`dump()`/`load()` sérialise/désérialise les objets à travers des fichiers mais `dumps()`/`loads()` sérialise/désérialise les objets à travers une représentation sous forme de chaîne de caractères.

In [None]:
# Exemple de dictionnaire Python
data_org = { 'mydata1':np.linspace(0,800,801), 'mydata2':np.linspace(0,60,61)}

In [None]:
# Enregistrer un dictionnaire Python dans un fichier pickle
with open('pickledict_sample.pkl', 'wb') as fid:
     pickle.dump(data_org, fid)
# Deserialize saved pickle file
with open('pickledict_sample.pkl', 'rb') as fid:
     data3 = pickle.load(fid)

In [None]:
for strg in data_org.keys():
  print(f"Variable {strg} is the same in data_org and data3: {(data_org[strg]==data3[strg]).all()}")

## **Bonus**

Nous avons déjà abordé un grand nombre de sujets en une journée, mais votre professeur a également rédigé des instructions sur la lecture et l'écriture de données dans d'autres formats ! Le tutoriel suivant sera donc laissé à votre disposition pour que vous puissiez l'expérimenter chez vous.

### Données structurées avec JSON
JSON est un format populaire pour les données structurées qui peut être utilisé dans Python et Perl, entre autres langages.
Le format JSON est construit sur une collection de paires nom/valeur. Les informations sur le nom peuvent être un objet, un enregistrement, un dictionnaire, une table de hachage, une liste à clés ou un tableau associatif. La valeur associée au nom peut être un tableau, un vecteur, une liste ou une séquence.

Nous pouvons utiliser le paquetage `json` pour les entrées-sorties. La syntaxe du paquet est très similaire à celle de `pickle` :

* `dump()` : écriture d'une chaîne encodée dans un fichier.
* `load()` : Décodage lors de la lecture d'un fichier JSON.
* `dumps()` : encodage en objets JSON
* `loads()` : Décode la chaîne JSON.

**Exemple de données JSON**

```python
{
    "stations" : [
        {
            "acronyme" : "BLD",
            "nom" : "Boulder Colorado",
            "latitude" : 40.00,
            "longitude" : -105.25
        },
        {
            "acronyme" : "BHD",
            "name" : "Baring Head Wellington New Zealand",
            "latitude" : -41.28,
            "longitude" : 174.87
        }
    ]
}
```

Essayons de lire ce cadre de données JSON avec `json` !

In [3]:
import json
json_data = '{"stations": [{"acronym": "BLD", \
                                "nom": "Boulder Colorado", \
                            "latitude": 40.00, \
                            "longitude": -105.25}, \
                            {"acronym": "BHD", \
                             "nom": "Baring Head Wellington New Zealand",\
                             "latitude": -41.28, \
                             "longitude": 174.87}]}'

python_obj = json.loads(json_data)

In [4]:
for x in python_obj['stations']:
    print(x["nom"])

Boulder Colorado
Baring Head Wellington New Zealand


### Convertir python_obj en JSON
print(json.dumps(python_obj, sort_keys=True, indent=4))

Nous allons maintenant essayer de convertir un objet python en JSON et de l'écrire dans un fichier.
La syntaxe pour la sérialisation et la désérialisation dans le paquet `json` est presque la même que celle de `pickle`

In [6]:
# Convertir les objets python en JSON
x = {
  "prénom" : "John",
  "âge" : 30,
  "marié" : True,
  "divorcé" : False,
  "enfants" : ("Ann", "Billy"),
  "animaux" : None,
  "voitures" : [
    {"modèle" : "BMW 230", "mpg" : 27.5},
    {"Modèle" : "Ford Edge", "mpg" : 24.1}
  ]
}

In [7]:
# Sérialisation
with open('./pythonobj.json','w') as sid :
  json.dump(x,sid)
# Désérialisation
with open('./pythonobj.json', 'r') as sid :
  z = json.load(sid)

print(z)

{'prénom': 'John', 'âge': 30, 'marié': True, 'divorcé': False, 'enfants': ['Ann', 'Billy'], 'animaux': None, 'voitures': [{'modèle': 'BMW 230', 'mpg': 27.5}, {'Modèle': 'Ford Edge', 'mpg': 24.1}]}


### Données quadrillées à N dimensions avec NetCDF4
Les jeux de données géoscientifiques contiennent souvent plusieurs dimensions. Par exemple, les résultats des modèles climatiques contiennent généralement 4 dimensions : le temps (t), le niveau vertical (z), la longitude (lon) et la latitude (lat). Ces données sont trop complexes pour être stockées dans des tableaux.

Développé par _Unidata_ (une filiale de UCAR), le format NetCDF contient une structure hiérarchique qui permet une meilleure organisation et un meilleur stockage de grands ensembles de données multidimensionnelles, d'informations sur les axes et d'autres métadonnées. Il est bien adapté à la gestion de grands ensembles de données numériques, car il permet aux utilisateurs d'accéder à des parties d'un ensemble de données sans avoir à le charger entièrement en mémoire.

Nous pouvons utiliser le paquetage `netCDF4` pour créer, lire et stocker des données dans NetCDF4. Un autre paquetage, `xarray`, est également disponible pour ce format de données.

#### **Voici comment vous créez et stockez normalement des données dans un fichier netCDF:**


1.   Ouvrez/créez un jeu de données netCDF.
2.   Définissez les dimensions des données.
3.   Construire des variables netCDF en utilisant les dimensions définies.
4.   Transférer les données dans les variables netCDF.
5.   Ajouter des attributs aux variables et à l'ensemble de données (facultatif mais recommandé).
6.   Fermez le jeu de données netCDF.

##### **Ouvrir un jeu de données netCDF4**

In [None]:
ncfid = netCDF4.Dataset('sample_netcdf.nc', mode='w', format='NETCDF4')

`modeType` a les options suivantes :
* 'w' : pour créer un nouveau fichier
* 'r+' : pour lire et écrire dans un fichier existant
* 'r' : pour lire (uniquement) un fichier existant
* 'a' : pour ajouter un fichier à un fichier existant

`fileFormat` a les options suivantes :
* 'NETCDF3_CLASSIC' : Format netCDF original     
* 'NETCDF3_64BIT_OFFSET' : Utilisé pour alléger les restrictions de taille des fichiers netCDF classiques.
* 'NETCDF4_CLASSIC'
* 'NETCDF4' : Offre de nouvelles fonctionnalités telles que les groupes, les types composés, les tableaux de longueur variable, les nouveaux types d'entiers non signés, l'accès parallèle aux E/S, etc.
* 'NETCDF3_64BIT_DATA'

##### **Création de dimensions dans un fichier netCDF</font>**
* Déclarez les dimensions avec `.createDimension(size)`
* Pour des dimensions illimitées, utilisez `None` ou `0` comme taille.
* Les dimensions de taille illimitée doivent être déclarées avant ("à gauche de") les autres dimensions.

In [None]:
# Définir les dimensions des données
time = ncfid.createDimension('time', None)
lev = ncfid.createDimension('lev', 72)
lat = ncfid.createDimension('lat', 91)
lon = ncfid.createDimension('lon', 144)

In [None]:
##########################################################################################
# Créer des variables de dimension et des variables de données pré-remplies avec fill_value
##########################################################################################
# Variables de dimension
times = ncfid.createVariable('time','f8',('time',))
levels = ncfid.createVariable('lev','i4',('lev',))
latitudes = ncfid.createVariable('lat','f4',('lat',))
longitudes = ncfid.createVariable('lon','f4',('lon',))
# Variable de données pré-remplie
temp = ncfid.createVariable('temp','f4',
                            ('time', 'lev', 'lat', 'lon',),
                            fill_value=1.0e15)

##### **Ajouter des attributs variables</font>**

In [None]:
import datetime
latitudes.long_name = 'latitude'
latitudes.units = 'degrés nord'

longitudes.nom_long = 'longitude'
longitudes.units = 'degrés est'

levels.long_name = 'niveaux verticaux'
levels.units = 'hPa'
levels.positive = 'down'

beg_date = datetime.datetime(year=2019, month=1, day=1)
times.long_name = 'temps'
times.units = beg_date.strftime('heures depuis %Y-%m-%d %H:%M:%S')
times.calendar = 'gregorian'

temp.long_name = 'température'
temp.units = 'K'
temp.nom_standard = 'température_atmosphérique'

##### **Écrire des données dans un fichier**

In [None]:
latitudes[ :] = np.arange(-90,91,2.0)
longitudes[ :] = np.arange(-180,180,2.5)
levels[ :] = np.arange(0,72,1)

out_frequency = 3 # fréquence de sortie en heures
num_records = 5
dates = [beg_date + n*datetime.timedelta(hours=out_frequency) for n in range(num_records)]
times[ :] = netCDF4.date2num(dates, units=times.units, calendar=times.calendar)
for i in range(num_records) :
    temp[i, :,:, :] = np.random.uniform(size=(levels.size,
                                            latitudes.size,
                                            longitudes.size))

In [None]:
ncfid.close()

#### Nous allons maintenant lire le fichier netCDF4 stocké pour voir ce que nous venons de faire.

In [None]:
databank = netCDF4.Dataset('./sample_netcdf.nc', mode='r')

In [None]:
# Nous imprimons les noms des variables dans le fichier `sample_netcdf.nc`.
print(databank.variables.keys())

In [None]:
# Nous pouvons lire les données comme suit
time   = ncfid.variables['time'][:]
lev    = ncfid.variables['lev'][:]
lat    = ncfid.variables['lat'][:]
lon    = ncfid.variables['lon'][:]
temp   = ncfid.variables['temp'][:]

```{important}

Lors de la lecture de données à partir d'un fichier :

- Si vous n'incluez pas `[ :]` à la fin de `variables[var_name]`, vous obtenez un objet variable.
- Si vous incluez `[ :]` (ou `[ :,:]`, `[0, i:j, :]`, etc.) à la fin de `variables[var_name]`, vous obtenez le tableau Numpy contenant les données.
```

In [None]:
print(lat)

## List

## Tuples

## Sets

## Dictionnaires