# Pr√©sentation de Jupyter Notebook

Vous √™tes en train de consulter et d'ex√©cuter un **notebook Jupyter**. C'est un √©diteur hybride, permettant d'√©crire de la documentation et d'ex√©cuter du code (ici du code Python). Les notebooks Jupyter ou d√©riv√©s sont tr√®s utilis√©s en data engineering et en data science.

L'√©diteur fonctionne √† base de cellules, et elles sont de 2 types :
- des cellules de texte, dites "Markdown". En double-cliquant dessus, on √©dite directement le code Markdown. Ce formalisme permet de d√©corer le texte avec du formatage l√©ger : gras, italique, listes √† puces, ch√¢sse fixe pour y mettre des extraits de code, formules math√©matiques, ...
- des cellules de code, pour ex√©cuter des instructions Python. Les variables et fonctions d√©clar√©es dans les cellules de code sont disponibles dans l'ensemble du notebook, on peut y faire r√©f√©rence d'une cellule √† l'autre. Un simple clic permet de les modifier.

## Edition du contenu
Apr√®s avoir modifi√© une cellule, on la valide en faisant **\[Shift+Enter\]**. Une cellule de texte sera affich√©e en appliquant le formatage Markdown, et une cellule de code ex√©cutera effectivement le code Python qui est dedans. Le focus passera √† la cellule suivante.

Parfois on a besoin d'ajouter ou supprimer une cellule en plein milieu du document. Voici les commandes pour le faire :
- ajouter une cellule **au-dessus** de la cellule active : appuyer d'abord sur **\[Esc\]** pour sortir du mode d'√©dition, puis la touche **\[A\]** (pour _above_). Menu correspondant de la barre d'outils contextuelle : _Insert Cell Above_
- ajouter une cellule **au-dessous** de la cellule active : appuyer d'abord sur **\[Esc\]**, puis la touche **\[B\]** (pour _below_). Menu correspondant : _Insert Cell Below_, ou le bouton \[‚úö\] de la barre d'outils principale
- supprimer la cellule active : appuyer d'abord sur **\[Esc\]**, puis 2 fois la touche **\[D\]**. Menu correspondant : _Edit_ > _Delete Cells_
- pour changer le type de la cellule active (texte / code) : d'abord **\[Esc\]**, puis ensuite **\[M\]** pour du texte, ou **\[Y\]** pour du code. On peut aussi utiliser la petite liste de la barre d'outils, entre _Markdown_ (texte) et _Code_. Les autres types de cellule sont inutiles ici.
- annuler une fausse manip sur les cellules (une suppression par exemple) : **\[Esc\]** puis **\[Z\]**
- des fonctions de copier/couper-coller de cellules enti√®res sont aussi possibles, via les touches **\[X\]** (couper), **\[C\]** (copier) et **\[V\]** (coller), ou via le menu _Edit_. Pensez √† faire **\[Esc\]** √† chaque fois avant si vous √™tes en mode √©dition.

## Quelques conseils
- pensez √† sauver r√©guli√®rement le notebook (bouton \[üñ´\]) : cela ne garde pas les variables et fonctions Python qui sont en m√©moire, mais tout le contenu texte & code du notebook, que l'on peut r√©ex√©cuter pour "recr√©er" les variables & fonctions √† un autre moment
- veillez √† garder un ordre logique entre les cellules de code : si une variable ou une fonction est d√©finie quelque part, il faut l'utiliser dans la m√™me cellule, ou une des suivantes. Evitez d'√©crire du code qui d√©pende de l'ex√©cution pr√©alable d'une cellule qui se trouve plus loin, car je ne saurai pas dans quel ordre ex√©cuter les cellules !
- de temps en temps, et en particulier quand on pense que tout est au point, il est utile de tout r√©ex√©cuter d'un coup, au moyen de la commande ad√©quate (bouton avec le symbole \[üûÇüûÇ\]). Cela va vider la m√©moire Python et tout relancer dans l'ordre d'√©criture du notebook. Si vous avez des probl√®mes d'ordre d'ex√©cution des cellules, cela se verra √† ce moment-l√† !
- n'h√©sitez pas √† commenter vos choix et votre code, soit dans les cellules Python avec la syntaxe `# Un commentaire blablabla`, soit avec des cellules de texte bien plac√©es. Le r√©sultat d'un travail sur notebbok doit √™tre une sorte de mini-rapport m√©langeant r√©flexions autour du probl√®me et code d'impl√©mentation de la solution.

**L'interface et ses raccourcis claviers peuvent √™tre un peu d√©routants au d√©but, si vous avez peur d'avoir fait une fausse manip et ne savez pas comment la r√©parer, demandez-moi et on r√®glera √ßa ensemble**

# Description du cas

Cet exercice a pour but la manipulation de donn√©es structur√©es au format Parquet.

Nous allons traiter les donn√©es d'une entreprise industrielle fictive, Blabla Inc. Les donn√©es concernent 2 **sites** (usines) de l'entreprise : Naves et Villemomble.

Chaque site comporte plusieurs **ateliers** (_workshops_), et chaque atelier poss√®de une ou plusieurs **machines**.

Enfin, chaque machine enregistre son √©tat √† une fr√©quence donn√©e, √©tat constitu√© d'une ou plusieurs mesures, selon son type. Ainsi, √† chaque machine est associ√©e un certain nombre de **s√©ries temporelles**.

## Ce qui est demand√©

Il est demand√© de lire les donn√©es d'entr√©e (JSON et CSV), de les traiter en m√©moire (elles sont peu volumineuses), et de les mettre en forme avant de les stocker au **format Parquet** selon un mod√®le attendu.

Le notebook va vous guider dans cette t√¢che. Voyons d'abord les donn√©es √† manipuler.

Lorsque vous voyez un marqueur du type `### CHANGE ME ###` dans le code, ou dans un commentaire, c'est qu'il y a quelque chose √† compl√©ter pour accomplir une t√¢che.

## Les donn√©es

Les donn√©es se trouvent dans le r√©pertoire `data/` de votre notebook.

### L'organisation des sites et ateliers

L'organisation de Blabla Inc. est d√©crite de mani√®re hi√©rarchique dans le fichier `equipments.json`, qui contient un objet `organization` avec la structure suivante :
- `name` : nom de l'entreprise
- `sites` : liste des sites de l'entreprise, avec pour chacun :
  - `name` : nom du site
  - `workshops` : liste des ateliers, avec pour chacun :
    - `name` : nom de l'atelier
    - `machines` : liste des ID de machines pr√©sentes dans l'atelier (de 1 √† 3 machines selon le site et l'atelier)

<u>Extrait du fichier :</u>
```
{
	"organization": {
		"name": "Blabla Inc.",
		"sites": [
			{
				"name": "Naves",
				"workshops": [
					{"name": "Pr√©paration", "machines": ["NP1"]},
					{"name": "Usinage", "machines": ["NU1", "NU2", "NU3"]},
                    ...
				]
			},
            ...
		]
	}
}
```

### Les "mappings" de noms de machines

Les ID de machines qui sont dans le fichier d'organisation, sont des noms codifi√©s qu'un utilisateur final aurait du mal √† interpr√©ter. Dans l'exercice, il est demand√© de mettre √† la place les noms "lisibles" des machines ; pour cela il faut une correspondance.

La table de correspondance est dans le fichier `mapping.csv`, qui liste toutes les machines avec pour chacune :
- `machine_id` : ID de la machine (m√™me nomenclature que dans `equipments.json`)
- `machine_name` : nom lisible de la machine (celui √† reprendre dans les fichier de sortie)

<u>Extrait du fichier :</u>
```
machine_id;machine_name
NP1;Golgoth 3000
NU1;Fraisator-1
NU2;Fraisator-2
NU3;Fraisator-3
NA1;Lego_A
...
```

### Les s√©ries temporelles

Les s√©ries sont des groupes de fichiers, dans le r√©pertoire `data/ts/`, √† raison de plusieurs fichiers par machine. Concr√®tement, les fichiers sont nomm√©s `ID_n.csv`, o√π `ID` est l'ID de machine, et `n` le num√©ro de s√©quence du fichier, de 1 √† 26. En effet, les s√©ries couvrent une p√©riode d'environ 1 semaine, et sont d√©coup√©es par blocs de 8h.

La structure de chaque fichier CSV est la suivante :
- `timestamp` : la date et l'heure du point de mesure (format aaaa-mm-jj hh:mm:ss)
- un champ par type de mesure, en fonction de l'atelier o√π se trouve la machine :
  - "Pr√©paration" : `scanned_products` est un entier donnant le nombre de produits point√©s √† l'√©tape de pr√©paration
  - "Usinage" : `rotation_x`, `rotation_y` et `rotation_z` sont 3 flottants indiquant l'orientation de la t√™te d'usinage, en degr√©s
  - "Assemblage" : `products` est un entier donnant le nombre de produits assembl√©s
  - "Four" : `temperature` est la temp√©rature du four (en ¬∞C), `humidity` son degr√© d'hygrom√©trie (en %)
  - "M√©trologie" : `products` est un entier donnant le nombre de produits finis contr√¥l√©s, et `width`, `length` et `height` (en cm) le r√©sultat de la derni√®re mesure

Noter que les timestamps sont irr√©guliers : pour un atelier donn√©, la fr√©quence de mesure est √† peu pr√®s constante mais il y a toujours un peu de d√©calage (ex. pour une mesure toutes les 30 secondes, cela peut √™tre 08:10:01, 08:10:33, 08:10:59, ...). Les fr√©quences ne sont pas les m√™mes d'un atelier √† l'autre.

Tous les fichiers ont les noms de champs en en-t√™te.

<u>Exemple pour un four :</u>
```
timestamp,temperature,humidity
2024-01-28 00:00:07,812,93
2024-01-28 00:00:17,812,93
2024-01-28 00:00:27,812,93
...
```

# Imports de packages Python
Nous aurons besoin de ces packages pour manipuler les fichiers.

- `pandas` : manipulation de dataframes en m√©moire
- `json` : pour la lecture des donn√©es JSON
- `glob` : √©num√©ration des fichiers de donn√©es dans un r√©pertoire
- `os` : nous utiliserons ici les fonctions de manipulation de chemins de fichiers

In [None]:
import pandas as pd
import json
import glob
import os

# Lecture des donn√©es

## Organisation
C'est un fichier JSON que nous pouvons lire directement, ce qui donne un dictionnaire Python.

In [None]:
with open('data/equipments.json', 'r') as f:
    equipments = json.load(f)
    
equipments

## Mapping des noms de machines
C'est un fichier CSV, mais nous avons besoin de le transformer en dictionnaire donnant, pour chaque ID de machine, son nom. Nous l'enrichissons ensuite avec d'autres infos de l'√©quipement, qui indiquent o√π se trouve la machine (site, atelier).

Nous utilisons la fonction `read_csv()` de Pandas, qui permet de lire un fichier √† partir de son nom / chemin, en pr√©cisant le caract√®re (`sep`) qui s√©pare les champs.

In [None]:
# 1. Lecture du fichier sous forme de dataframe
#
# Attendu : un dataframe de la forme (ordre des lignes indiff√©rent, et ne pas tenir compte de l'index de ligne (nombres en gras) qui s'afficheront en sortie) :
#
# +------------+--------------+
# | machine_id | machine_name |
# +------------+--------------+
# |        NP1 | Golgoth 3000 |
# |        NU1 |  Fraisator-1 |
# |        NU2 |  Fraisator-2 |
# |        ... |          ... |
# |        VM1 |     Sherlock |
# +------------+--------------+

mapping = pd.read_csv('### CHANGE ME ###', sep='### CHANGE ME ###')

mapping

In [None]:
# 2. Transformation en dictionnaire Python, en it√©rant sur les lignes du dataframe
# On fait un dictionnaire de petits dictionnaires {'machine_name': xxx}, pour pouvoir l'enrichir dans l'√©tape d'apr√®s
#
# Attendu : un dictionnaire de la forme :
#
# {'NP1': {'machine_name': 'Golgoth 3000'},
#  'NU1': {'machine_name': 'Fraisator-1'},
#  'NU2': {'machine_name': 'Fraisator-2'},
#  'NU3': {'machine_name': 'Fraisator-3'},
#  'NA1': {'machine_name': 'Lego_A'},
#  ...
#  'VP2': {'machine_name': 'Cleanomatic-2'}]

mapping = {
    row['machine_id']: { ### CHANGE ME ### }
    for _, row in mapping.iterrows()
}

mapping

In [None]:
# 3. Enrichissement avec les donn√©es d'√©quipement
# A l'issue de cette √©tape, chaque ID de machine est associ√© √† toutes les infos de la machine
#
# Attendu : un dictionnaire de la forme :
#
# {'NP1': {'machine_name': 'Golgoth 3000', 'site': 'Naves', 'workshop': 'Pr√©paration'},
#  'NU1': {'machine_name': 'Fraisator-1', 'site': 'Naves', 'workshop': 'Usinage'},
#  'NU2': {'machine_name': 'Fraisator-2', 'site': 'Naves', 'workshop': 'Usinage'},
#  'NU3': {'machine_name': 'Fraisator-3', 'site': 'Naves', 'workshop': 'Usinage'},
#  'NA1': {'machine_name': 'Lego_A', 'site': 'Naves', 'workshop': 'Assemblage'},
#  ...
#  'VM1': {'machine_name': 'Sherlock', 'site': 'Villemomble', 'workshop': 'M√©trologie'}}
 
for site in equipments['### CHANGE ME ###']['### CHANGE ME ###']:
    for workshop in site['### CHANGE ME ###']:
        for machine_id in workshop['### CHANGE ME ###']:
            mapping_machine = mapping[machine_id]
            ### CHANGE ME ### (ajouter le nom du site, le nom du workshop)

mapping

## S√©ries temporelles

Les s√©ries sont dans plusieurs fichiers CSV, qu'on va regrouper sous forme d'un unique dataframe par machine (rep√©r√©e par son ID, pr√©sent dans le nom de chaque fichier).

In [None]:
# 1. Enum√©ration des fichiers de s√©ries, dans le r√©pertoire correspondant
ts_filenames = glob.glob('data/ts/*.csv')
print(f'{len(ts_filenames)} fichiers de s√©ries')

Ceci vous sera utile pour √©crire le bout de code manquant :
- un param√®tre suppl√©mentaire √† la fonction `read_csv()` : `parse_dates`
  - la plupart du temps, la fonction va d√©tecter le type des donn√©es pr√©sentes dans le fichier, et les m√©moriser dans les m√©tadonn√©es du dataframe. Cependant, cela est valable pour les nombres et cha√Ænes de caract√®re. Pour les dates et heures (ou timestamps) il faut l'aider un petit peu en lui donnant le nom des champs qui en contiennent
  - concr√®tement, il vous faudra ajouter un param√®tre `parse_dates=['nom de champ']` pour lui dire quoi interpr√©ter
- la fonction `concat()` de Pandas (`pd.concat()`) qui permet de mettre bout √† bout 2 dataframes pour en cr√©er un unique. On lui passe en param√®tre une liste de dataframes √† concat√©ner, ex. `[df1, df2, df3, ...]`

In [None]:
# 2. Agr√©gation des s√©ries. Pour chaque fichier CSV de s√©rie temporelle :
# - extraction de l'ID de machine, √† partir du nom du fichier
# - lecture du fichier CSV dans un petit dataframe
# - concat√©nation avec le dataframe pr√©c√©dent de la machine
# Le tout est stock√© dans un dictionnaire de dataframes, |dataframes_per_machine`
#
# Type de sortie attendue √† la fin (ordre indiff√©rent) :
#
# Machine NP1: 25397 √©chantillons
# Machine NU1: 166442 √©chantillons
# Machine NU2: 166357 √©chantillons
# Machine NU3: 166364 √©chantillons
# ...
# Machine VM1: 9423 √©chantillons
#
# +---------------------+-------------+------------+------------+
# |           timestamp | rotationx_x | rotation_y | rotation_z |
# +---------------------+-------------+------------+------------+
# | 2024-01-29 16:00:03 |   88.763247 | -49.428614 | 133.959195 |
# | 2024-01-29 16:00:08 |   90.583300 | -49.193791 | 134.367569 |
# | 2024-01-29 16:00:13 |   88.727491 | -52.121831 | 136.238264 |
# |                 ... |         ... |        ... |        ... |
# | 2024-01-26 15:59:56 | -174.516082 | 52.336152  |  79.645205 |
# +---------------------+-------------+------------+------------+


# Initialise le dictionnaire avec des dataframes vides
dataframes_per_machine = {
    machine_id: pd.DataFrame()
    for machine_id in mapping
}


# Parcourt les fichiers
for filename in ts_filenames:
    # Extraction de l'ID de machine
    machine_id = os.path.basename(filename).split('_')[0]
          
    small_dataframe = ### CHANGE ME ###
    dataframes_per_machine[machine_id] = ### CHANGE ME ###

for machine_id, machine_dataframe in dataframes_per_machine.items():
    print(f'Machine {machine_id}: {len(machine_dataframe)} √©chantillons')
    
dataframes_per_machine['NU2']

Pour ajouter une nouvelle colonne √† un dataframe `df`, on peut utiliser la syntaxe suivante : `df['nouvelle_colonne'] = valeur`.

In [None]:
# 3. Ajout au dataframe des infos de nom de machine, de site et d'atelier
#
# Attendu un dataframe enrichi :
# +---------------------+-------------+------------+------------+--------------+-------+----------+
# |           timestamp | rotationx_x | rotation_y | rotation_z | machine_name |  site | workshop |
# +---------------------+-------------+------------+------------+--------------+-------+----------+
# | 2024-01-29 16:00:03 |   88.763247 | -49.428614 | 133.959195 |  Fraisator-2 | Naves | Usinage  |
# | 2024-01-29 16:00:08 |   90.583300 | -49.193791 | 134.367569 |  Fraisator-2 | Naves | Usinage  |
# | 2024-01-29 16:00:13 |   88.727491 | -52.121831 | 136.238264 |  Fraisator-2 | Naves | Usinage  |
# |                 ... |         ... |        ... |        ... |  Fraisator-2 | Naves | Usinage  |
# | 2024-01-26 15:59:56 | -174.516082 | 52.336152  |  79.645205 |  Fraisator-2 | Naves | Usinage  |
# +---------------------+-------------+------------+------------+--------------+-------+----------+

for machine_id, df in dataframes_per_machine.items():
    ### CHANGE ME ###
    
dataframes_per_machine['NU2']

# Ecriture du r√©sultat brut
On sauvegarde chaque dataframe de machine dans le r√©pertoire de sortie, en it√©rant sur le dictionnaire cr√©√© pr√©c√©demment.

Pandas a des fonctions `read_xxx()` (ex. `read_csv()`) pour la lecture, et √† l'inverse, des fonctions `to_xxx()` (ex. `to_parquet()`) pour les √©critures de dataframes en m√©moire.

Le param√®tre `index=False` emp√™che l'√©criture des index de lignes (nombres en gras) dans le fichier, car dans notre cas ils n'ont pas de signification.

In [None]:
for machine_id, machine_dataframe in dataframes_per_machine.items():
    machine_dataframe.to_parquet(f'data/ts_parquet/{machine_id}.parquet', index=False)

Vous pouvez consulter le r√©pertoire `data/ts_parquet` dans le bandeau de gauche, pour constater que les fichiers ont bien √©t√© cr√©√©s (un par machine).

# Ecriture du r√©sultat - avec partitionnement

Ci-dessous, on extrait le jour du timestamp :
- la fonction `.dt.strftime(format)` transforme un champ date de Pandas en cha√Æne de caract√®res, en appliquant un format de repr√©sentation
- on ajoute une colonne virtuelle au dataframe `machine_dataframe` via la m√©thode `.assign(day=day)`. Contrairement √† la notation `df['nouvelle_colonne'] = valeur`, le dataframe n'est pas modifi√©, mais les m√©thodes qu'on applique sur le r√©sultat -- et uniquement celles-ci -- tiennent compte de cette colonne virtuelle
- noter que `day` n'est pas une valeur constante, mais une s√©rie, c'est-√†-dire une liste de valeurs analogue √† une colonne de dataframe (ce qui fait qu'on peut la lui assigner)

Puis on √©crit le fichier partitionn√© comme il faut.

In [None]:
for machine_id, machine_dataframe in dataframes_per_machine.items():
    day = machine_dataframe.timestamp.dt.strftime('%Y-%m-%d')
    machine_dataframe.assign(day=day).to_parquet(f'data/ts_parquet_part/{machine_id}', index=False, partition_cols=[### CHANGE ME ###])

Vous pouvez aller consulter le r√©pertoire `data/ts_parquet_part` pour voir comment Pandas (et son partenaire PyArrow) stockent les fichiers Parquet partitionn√©s.

NB : si vous essayez plusieurs fois l'√©criture partitionn√©e, les fichiers vont s'accumuler ; il faudrait normalement les supprimer avant mais nous ne le faisons pas ici, par simplicit√©.