<a href="https://colab.research.google.com/github/tbeucler/2024_UNIL_Geoinformatique/blob/main/Geoinformatique_I/IP/Tutoriel_IP/S3_IP_tutoriel.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Tutoriel 3: Structure de donn√©es

Dans cette section, nous aborderons les points suivants:

1. File I/O
2. List
3. Tuples
4. Sets
5. Dictionnaires


## File I/O
Dans cette section, nous pr√©senterons les fonctions de base que nous pouvons utiliser pour stocker et r√©cup√©rer des donn√©es √† partir de fichiers de diff√©rents formats.

Pour les projets en sciences de l'environnement, les donn√©es de recherche sont le plus souvent stock√©es dans les formats suivants :
1.   Fichiers texte (`TXT`)
2.   Fichiers tabulaires (par exemple, `CSV`, `XLS`)
3.   Donn√©es structur√©es / dictionnaires Python, etc. (par exemple, `Pickle`, `dill`, `JSON`)
4.   Donn√©es maill√©es (par exemple, `HDF5`, `NetCDF`)

Nous allons maintenant voir comment nous pouvons utiliser Python et diff√©rents paquets Python pour r√©cup√©rer les donn√©es stock√©es dans ces formats, et comment sauvegarder vos donn√©es dans diff√©rents formats pour une utilisation ult√©rieure.

R√©f√©rence:
*   CUSP UCSL bootcamp 2017 (https://github.com/Mohitsharma44/ucsl17)
*   Python 3 tutorial (https://docs.python.org/3/tutorial/inputoutput.html)
*   GSFC Python Bootcamp (https://github.com/astg606/py_materials/blob/master/useful_modules/)
*   Working on JSON Data in Python (https://realpython.com/python-json/)
*   PyHOGS (http://pyhogs.github.io/intro_netcdf4.html)

Commen√ßons par importer quelques paquets...

In [None]:
import csv
import netCDF4
import pickle
import pandas as pd
import xarray as xr
import numpy as np

### Fichiers TXT
Nous allons maintenant apprendre √† √©crire des informations dans un fichier .TXT et √† les relire √† l'aide de fonctions Python int√©gr√©es. Les donn√©es utilis√©es dans cette partie du tutoriel seront tr√®s simples. Dans les prochains exercices, nous pr√©senterons √©galement les commandes des paquets communautaires qui nous permettent de lire et de stocker des donn√©es plus complexes.

#### Ouverture de fichiers :
Les fichiers peuvent √™tre ouverts en utilisant la fonction int√©gr√©e de Python `open()`. Cette fonction cr√©e un objet fichier pour les op√©rations suivantes. Utilisez la syntaxe suivante pour lire un fichier TXT : \\
`fhandler = open(file_name, access mode, encoding)`

- `nom_du_fichier` : Le nom du fichier sur lequel vous souhaitez effectuer vos op√©rations d'E/S. \
Notez qu'il s'agit du chemin d'acc√®s complet au fichier (par exemple, $\text{\\home\\Documents\\file.txt}$ )
- `encodage` : Sch√©ma d'encodage √† utiliser pour convertir le flux d'octets en texte. (Standard=`utf-8`)
- `access_mode` : La fa√ßon dont un fichier est ouvert, les choix disponibles pour cette option incluent :

|access_mode | Its Function|
|:------|------------:|
|r	|Ouvre un fichier en lecture seule|
|rb	|Ouvre un fichier en lecture seule au format binaire|
|r+	|Ouvre un fichier pour la lecture et l'√©criture|
|rb+	|Ouvre un fichier pour la lecture et l'√©criture au format binaire|
|w	|Ouvre un fichier en √©criture uniquement|
|wb	|Ouvre un fichier en √©criture uniquement au format binaire|
|w+	|Ouvre un fichier en lecture et en √©criture|
|wb+	|Ouvre un fichier pour l'√©criture et la lecture au format binaire|
|a	|Ouvre un fichier pour l'ajouter|
|ab	|Ouvre un fichier pour l'ajouter en binaire|
|a+	|Ouvre un fichier pour l'ajout et la lecture|
|ab+	|Ouvre un fichier pour l'ajout et la lecture au format binaire|

Dans l'exemple ci-dessous, nous allons essayer de stocker plusieurs phrases dans un nouveau fichier TXT, et utiliser la fonction `open()` pour voir si le code fonctionne comme pr√©vu.

In [None]:
fhandler = open('test.txt', 'w', encoding="utf-8")
fhandler.write('Hello World!\n')
fhandler.write('I am a UNIL Master Student.\n')
fhandler.write('I am learning how to code!\n')
fhandler.close()

```{note}
In the code above, we use the `open()` command to create a *write-only* (`access_mode='w'`) file `test.txt`. The open command creates a file object (`fhandler`) on which we can perform extra operations.

We then try to add three sentences to the TXT file using the `.write()` operation on the file object.

Remember to close the file with `.close()` command so that the changes can be finalized!

If the code is writing, we should see a `test.txt` file created in the same path as this notebook. Let's see if that's the case!
```

In [None]:
! ls .

In [None]:
! cat test.txt

Hourra ! √áa marche ! üòÄ

Mais n'avons-nous pas dit que nous voulions le relire ? ü§®

Essayons de lire le fichier alors ! Pouvez-vous penser √† des fa√ßons de le faire ?

Voici quelques-unes des fonctions que vous pourriez utiliser.

1.   `.close()` : Ferme le fichier actuellement ouvert.
2.   `.readline([size])` : Lit les cha√Ænes de caract√®res d'un fichier jusqu'√† ce qu'il atteigne le caract√®re de nouvelle ligne `\n` si le param√®tre `size` est vide. Sinon, il lira la cha√Æne de caract√®res de la taille donn√©e.
3.   `.readlines([size])` : Appelle r√©p√©titivement `.readline()` jusqu'√† la fin du fichier.
4.   `.write(str)` : √âcrit la cha√Æne de caract√®res str dans le fichier.
5.   `.writelines([list])` : Ecrit une s√©quence de cha√Ænes de caract√®res dans un fichier. Aucune nouvelle ligne n'est ajout√©e automatiquement.

In [None]:
fhandler = open('test.txt','r',encoding='utf-8')
fhandler.readlines()

Et si nous voulions ajouter du texte au fichier ?

In [None]:
with open('test.txt', 'r+') as fhandler:
  print(fhandler.readlines())
  fhandler.writelines(['Now,\n', 'I am trying to', ' add some stuff.'])
  # Go to the starting of file
  fhandler.seek(0)
  # Print the content of file
  print(fhandler.readlines())

Ici, nous utilisons une autre m√©thode pour ouvrir et √©crire le fichier de donn√©es.
En utilisant l'instruction `with` pour ouvrir le fichier TXT, nous nous assurons que les donn√©es sont automatiquement ferm√©es apr√®s l'op√©ration finale. Nous n'avons plus besoin d'√©crire l'instruction `fhandler.close()`.

### Fichiers tabulaires
Que feriez-vous si vous aviez des donn√©es joliment organis√©es dans le format ci-dessous ?
```
Donn√©es1, Donn√©es2, Donn√©es3
Exemple01, Exemple02, Exemple03
Exemple11, Exemple12, Exemple13
```
Lorsque vous ouvrez un fichier de ce type dans Excel, voici √† quoi il ressemble :

||||
|:--|:--|:--|
|Donn√©e1	|Donn√©e2	|Donn√©e3|
|Exemple1	|Exemple2	|Exemple3|

Il s'agit d'un fichier tabulaire _s√©par√© par des virgules_. Les fichiers de ce type sont g√©n√©ralement enregistr√©s avec l'extension `.csv`. Les fichiers `.csv` peuvent ensuite √™tre ouverts et visualis√©s √† l'aide d'un tableur, tel que Google Sheets, Numbers ou Microsoft Excel.

Mais qu'en est-il si nous voulons utiliser les donn√©es dans Python ?

#### Ouverture des fichiers :
Heureusement, il existe des paquets communautaires qui peuvent vous aider √† importer et √† r√©cup√©rer vos donn√©es tabulaires avec un minimum d'effort. Nous pr√©sentons ici deux de ces packages : CSV et Pandas.

##### Lire des fichiers CSV avec le paquetage `CSV`

`reader()` peut √™tre utilis√© pour cr√©er un objet qui est utilis√© pour lire les donn√©es d'un fichier CSV. Le lecteur peut √™tre utilis√© comme un it√©rateur pour traiter les lignes du fichier dans l'ordre. Voyons un exemple :

In [None]:
import pooch
import urllib.request
datafile = pooch.retrieve('https://unils-my.sharepoint.com/:x:/g/personal/tom_beucler_unil_ch/ETDZdgCkWbZLiv_LP6HKCOAB2NP7H0tUTLlP_stknqQHGw?download=1',
                          known_hash='c7676360997870d00a0da139c80fb1b6d26e1f96050e03f2fed75b921beb4771')

In [None]:
row = []
# https://unils-my.sharepoint.com/:x:/g/personal/tom_beucler_unil_ch/ETDZdgCkWbZLiv_LP6HKCOAB2NP7H0tUTLlP_stknqQHGw?e=N541Yq
with open(datafile, 'r') as fh:
  reader = csv.reader(fh)
  for info in reader:
    row.append(info)

In [None]:
print(row[0])

In [None]:
print(row[1])

``{tip}
Dans le code ci-dessus, nous utilisons la m√©thode `csv.reader()` pour lire it√©rativement chaque ligne du fichier CSV.

Nous ajoutons une nouvelle ligne √† une liste vide √† chaque it√©ration.

Nous utilisons la fonction `print()` pour voir ce qui a √©t√© √©crit dans la liste. Nous avons constat√© que la premi√®re ligne contient des informations sur les noms de variables, tandis que la deuxi√®me ligne contient des donn√©es √† un pas de temps donn√©.
```

#### Extraire les donn√©es et les √©crire dans un nouveau fichier CSV :
Le fichier CSV que nous venons d'importer contient en fait les donn√©es des stations m√©t√©orologiques de janvier 2022 √† ao√ªt 2022. Que se passe-t-il si nous ne voulons que les donn√©es des cinq premi√®res lignes ? Pouvons-nous extraire les donn√©es et les enregistrer dans un nouveau fichier CSV ?

In [None]:
with open('testsmall.csv', 'w') as fh:
  writer = csv.writer(fh)
  for num in range(5):
    writer.writerow(row[num])

```{note}

En fait, il existe un meilleur paquetage pour les donn√©es tabulaires. Cette biblioth√®que s'appelle `Pandas`. Nous pr√©senterons ce paquetage plus en d√©tail la semaine prochaine. Pour l'instant, nous allons simplement d√©montrer que nous pouvons utiliser pandas pour faire la m√™me proc√©dure FileI/O que nous avons faite plus t√¥t avec CSV.

Ici, nous lisons la grande feuille de donn√©es de la station m√©t√©orologique `datafile` avec la fonction pandas `.read_csv()`.
```

In [None]:
# importer fichier CSV avec pandas
ALOdatasheet = pd.read_csv(datafile)

In [None]:
# Exporter les cinq premi√®res lignes du cadre de donn√©es Pandas vers un fichier CSV
ALOdatasheet[0:5].to_csv('./testsmall_pd.csv')

### S√©rialisation et d√©s√©rialisation avec Pickle
(R√©√©crit √† partir du GSFC Python Bootcamp)

Pickle est un format interne de Python qui permet d'√©crire des donn√©es arbitraires dans un fichier de mani√®re √† pouvoir les relire, intactes.
* `pickle` "s√©rialise" d'abord l'objet avant de l'√©crire dans un fichier.
* Le d√©capage (s√©rialisation) est un moyen de convertir un objet Python (liste, dict, etc.) en un flux de caract√®res qui contient toutes les informations n√©cessaires pour reconstruire l'objet dans un autre script Python.

Les types suivants peuvent √™tre s√©rialis√©s et d√©s√©rialis√©s en utilisant le module `pickle` :
* Tous les types de donn√©es natifs support√©s par Python (bool√©ens, None, entiers, flottants, nombres complexes, cha√Ænes de caract√®res, octets, tableaux d'octets).
* Dictionnaires, ensembles, listes et tuples - tant qu'ils contiennent des objets s√©lectionnables.
* Les fonctions (d√©crypt√©es par leur nom de r√©f√©rence, et non par leur valeur) et les classes qui sont d√©finies au niveau sup√©rieur d'un module.

Les fonctions principales de `pickle` sont :

* `dump()` : r√©cup√®re des donn√©es en acceptant des donn√©es et un objet fichier.
* `load()` : prend un objet fichier, reconstruit les objets √† partir de la repr√©sentation d√©cap√©e, et les renvoie.
* `dumps()` : renvoie les donn√©es d√©crypt√©es sous forme de cha√Æne de caract√®res.
* `loads()` : lit les donn√©es extraites d'une cha√Æne.

`dump()`/`load()` s√©rialise/d√©s√©rialise les objets √† travers des fichiers mais `dumps()`/`loads()` s√©rialise/d√©s√©rialise les objets √† travers une repr√©sentation sous forme de cha√Æne de caract√®res.

In [None]:
# Exemple de dictionnaire Python
data_org = { 'mydata1':np.linspace(0,800,801), 'mydata2':np.linspace(0,60,61)}

In [None]:
# Enregistrer un dictionnaire Python dans un fichier pickle
with open('pickledict_sample.pkl', 'wb') as fid:
     pickle.dump(data_org, fid)
# Deserialize saved pickle file
with open('pickledict_sample.pkl', 'rb') as fid:
     data3 = pickle.load(fid)

In [None]:
for strg in data_org.keys():
  print(f"Variable {strg} is the same in data_org and data3: {(data_org[strg]==data3[strg]).all()}")

## **Bonus**

Nous avons d√©j√† abord√© un grand nombre de sujets en une journ√©e, mais votre professeur a √©galement r√©dig√© des instructions sur la lecture et l'√©criture de donn√©es dans d'autres formats ! Le tutoriel suivant sera donc laiss√© √† votre disposition pour que vous puissiez l'exp√©rimenter chez vous.

### Donn√©es structur√©es avec JSON
JSON est un format populaire pour les donn√©es structur√©es qui peut √™tre utilis√© dans Python et Perl, entre autres langages.
Le format JSON est construit sur une collection de paires nom/valeur. Les informations sur le nom peuvent √™tre un objet, un enregistrement, un dictionnaire, une table de hachage, une liste √† cl√©s ou un tableau associatif. La valeur associ√©e au nom peut √™tre un tableau, un vecteur, une liste ou une s√©quence.

Nous pouvons utiliser le paquetage `json` pour les entr√©es-sorties. La syntaxe du paquet est tr√®s similaire √† celle de `pickle` :

* `dump()` : √©criture d'une cha√Æne encod√©e dans un fichier.
* `load()` : D√©codage lors de la lecture d'un fichier JSON.
* `dumps()` : encodage en objets JSON
* `loads()` : D√©code la cha√Æne JSON.

**Exemple de donn√©es JSON**

```python
{
    "stations" : [
        {
            "acronyme" : "BLD",
            "nom" : "Boulder Colorado",
            "latitude" : 40.00,
            "longitude" : -105.25
        },
        {
            "acronyme" : "BHD",
            "name" : "Baring Head Wellington New Zealand",
            "latitude" : -41.28,
            "longitude" : 174.87
        }
    ]
}
```

Essayons de lire ce cadre de donn√©es JSON avec `json` !

In [3]:
import json
json_data = '{"stations": [{"acronym": "BLD", \
                                "nom": "Boulder Colorado", \
                            "latitude": 40.00, \
                            "longitude": -105.25}, \
                            {"acronym": "BHD", \
                             "nom": "Baring Head Wellington New Zealand",\
                             "latitude": -41.28, \
                             "longitude": 174.87}]}'

python_obj = json.loads(json_data)

In [4]:
for x in python_obj['stations']:
    print(x["nom"])

Boulder Colorado
Baring Head Wellington New Zealand


### Convertir python_obj en JSON
print(json.dumps(python_obj, sort_keys=True, indent=4))

Nous allons maintenant essayer de convertir un objet python en JSON et de l'√©crire dans un fichier.
La syntaxe pour la s√©rialisation et la d√©s√©rialisation dans le paquet `json` est presque la m√™me que celle de `pickle`

In [6]:
# Convertir les objets python en JSON
x = {
  "pr√©nom" : "John",
  "√¢ge" : 30,
  "mari√©" : True,
  "divorc√©" : False,
  "enfants" : ("Ann", "Billy"),
  "animaux" : None,
  "voitures" : [
    {"mod√®le" : "BMW 230", "mpg" : 27.5},
    {"Mod√®le" : "Ford Edge", "mpg" : 24.1}
  ]
}

In [7]:
# S√©rialisation
with open('./pythonobj.json','w') as sid :
  json.dump(x,sid)
# D√©s√©rialisation
with open('./pythonobj.json', 'r') as sid :
  z = json.load(sid)

print(z)

{'pr√©nom': 'John', '√¢ge': 30, 'mari√©': True, 'divorc√©': False, 'enfants': ['Ann', 'Billy'], 'animaux': None, 'voitures': [{'mod√®le': 'BMW 230', 'mpg': 27.5}, {'Mod√®le': 'Ford Edge', 'mpg': 24.1}]}


### Donn√©es quadrill√©es √† N dimensions avec NetCDF4
Les jeux de donn√©es g√©oscientifiques contiennent souvent plusieurs dimensions. Par exemple, les r√©sultats des mod√®les climatiques contiennent g√©n√©ralement 4 dimensions : le temps (t), le niveau vertical (z), la longitude (lon) et la latitude (lat). Ces donn√©es sont trop complexes pour √™tre stock√©es dans des tableaux.

D√©velopp√© par _Unidata_ (une filiale de UCAR), le format NetCDF contient une structure hi√©rarchique qui permet une meilleure organisation et un meilleur stockage de grands ensembles de donn√©es multidimensionnelles, d'informations sur les axes et d'autres m√©tadonn√©es. Il est bien adapt√© √† la gestion de grands ensembles de donn√©es num√©riques, car il permet aux utilisateurs d'acc√©der √† des parties d'un ensemble de donn√©es sans avoir √† le charger enti√®rement en m√©moire.

Nous pouvons utiliser le paquetage `netCDF4` pour cr√©er, lire et stocker des donn√©es dans NetCDF4. Un autre paquetage, `xarray`, est √©galement disponible pour ce format de donn√©es.

#### **Voici comment vous cr√©ez et stockez normalement des donn√©es dans un fichier netCDF:**


1.   Ouvrez/cr√©ez un jeu de donn√©es netCDF.
2.   D√©finissez les dimensions des donn√©es.
3.   Construire des variables netCDF en utilisant les dimensions d√©finies.
4.   Transf√©rer les donn√©es dans les variables netCDF.
5.   Ajouter des attributs aux variables et √† l'ensemble de donn√©es (facultatif mais recommand√©).
6.   Fermez le jeu de donn√©es netCDF.

##### **Ouvrir un jeu de donn√©es netCDF4**

In [None]:
ncfid = netCDF4.Dataset('sample_netcdf.nc', mode='w', format='NETCDF4')

`modeType` a les options suivantes :
* 'w' : pour cr√©er un nouveau fichier
* 'r+' : pour lire et √©crire dans un fichier existant
* 'r' : pour lire (uniquement) un fichier existant
* 'a' : pour ajouter un fichier √† un fichier existant

`fileFormat` a les options suivantes :
* 'NETCDF3_CLASSIC' : Format netCDF original     
* 'NETCDF3_64BIT_OFFSET' : Utilis√© pour all√©ger les restrictions de taille des fichiers netCDF classiques.
* 'NETCDF4_CLASSIC'
* 'NETCDF4' : Offre de nouvelles fonctionnalit√©s telles que les groupes, les types compos√©s, les tableaux de longueur variable, les nouveaux types d'entiers non sign√©s, l'acc√®s parall√®le aux E/S, etc.
* 'NETCDF3_64BIT_DATA'

##### **Cr√©ation de dimensions dans un fichier netCDF</font>**
* D√©clarez les dimensions avec `.createDimension(size)`
* Pour des dimensions illimit√©es, utilisez `None` ou `0` comme taille.
* Les dimensions de taille illimit√©e doivent √™tre d√©clar√©es avant ("√† gauche de") les autres dimensions.

In [None]:
# D√©finir les dimensions des donn√©es
time = ncfid.createDimension('time', None)
lev = ncfid.createDimension('lev', 72)
lat = ncfid.createDimension('lat', 91)
lon = ncfid.createDimension('lon', 144)

In [None]:
##########################################################################################
# Cr√©er des variables de dimension et des variables de donn√©es pr√©-remplies avec fill_value
##########################################################################################
# Variables de dimension
times = ncfid.createVariable('time','f8',('time',))
levels = ncfid.createVariable('lev','i4',('lev',))
latitudes = ncfid.createVariable('lat','f4',('lat',))
longitudes = ncfid.createVariable('lon','f4',('lon',))
# Variable de donn√©es pr√©-remplie
temp = ncfid.createVariable('temp','f4',
                            ('time', 'lev', 'lat', 'lon',),
                            fill_value=1.0e15)

##### **Ajouter des attributs variables</font>**

In [None]:
import datetime
latitudes.long_name = 'latitude'
latitudes.units = 'degr√©s nord'

longitudes.nom_long = 'longitude'
longitudes.units = 'degr√©s est'

levels.long_name = 'niveaux verticaux'
levels.units = 'hPa'
levels.positive = 'down'

beg_date = datetime.datetime(year=2019, month=1, day=1)
times.long_name = 'temps'
times.units = beg_date.strftime('heures depuis %Y-%m-%d %H:%M:%S')
times.calendar = 'gregorian'

temp.long_name = 'temp√©rature'
temp.units = 'K'
temp.nom_standard = 'temp√©rature_atmosph√©rique'

##### **√âcrire des donn√©es dans un fichier**

In [None]:
latitudes[ :] = np.arange(-90,91,2.0)
longitudes[ :] = np.arange(-180,180,2.5)
levels[ :] = np.arange(0,72,1)

out_frequency = 3 # fr√©quence de sortie en heures
num_records = 5
dates = [beg_date + n*datetime.timedelta(hours=out_frequency) for n in range(num_records)]
times[ :] = netCDF4.date2num(dates, units=times.units, calendar=times.calendar)
for i in range(num_records) :
    temp[i, :,:, :] = np.random.uniform(size=(levels.size,
                                            latitudes.size,
                                            longitudes.size))

In [None]:
ncfid.close()

#### Nous allons maintenant lire le fichier netCDF4 stock√© pour voir ce que nous venons de faire.

In [None]:
databank = netCDF4.Dataset('./sample_netcdf.nc', mode='r')

In [None]:
# Nous imprimons les noms des variables dans le fichier `sample_netcdf.nc`.
print(databank.variables.keys())

In [None]:
# Nous pouvons lire les donn√©es comme suit
time   = ncfid.variables['time'][:]
lev    = ncfid.variables['lev'][:]
lat    = ncfid.variables['lat'][:]
lon    = ncfid.variables['lon'][:]
temp   = ncfid.variables['temp'][:]

```{important}

Lors de la lecture de donn√©es √† partir d'un fichier :

- Si vous n'incluez pas `[ :]` √† la fin de `variables[var_name]`, vous obtenez un objet variable.
- Si vous incluez `[ :]` (ou `[ :,:]`, `[0, i:j, :]`, etc.) √† la fin de `variables[var_name]`, vous obtenez le tableau Numpy contenant les donn√©es.
```

In [None]:
print(lat)

## List

## Tuples

## Sets

## Dictionnaires