# <h1 align="center"> THEME 4 - Données tabulaires </h1>

### 🎯 Objectifs

- Manipuler des données tabulaires
- Effectuer de l'analyse statistique

### 📚 Notions 

- [Exemple 1](#ex1):
    - Créer un Dataframe à partir d'un dictionnaire
    - Indexer des données
    - Filtrer les données par masque binaire
    - Trier des colonnes numériques
- [Exemple 2](#ex2):
    - Ouvrir un fichier de données (CSV, etc...) et créer un Dataframe
    - Groupy et aggregation de données
    - Renommer des colonnes
    - Filtrer des colonnes textuelles par mots clés
- [Exemple 3](#ex3):
    - Retirer et remplacer des valeurs nulles
    - Detecter et retirer des lignes dupliquées
    - Créer un index à partir d'une colonne
    - Joindre deux Dataframes en fonction d'une clé commune

Un [lexique](#lexique) avec l'ensemble des fonctions qui ont été vues est disponible à la fin du notebook.

### 🧰 Librairies

- **Pandas**: est une librairie libre-source Python largement utilisée dans la science des données, l'analyse des données et l'apprentissage machine. Il est construit au-dessus de la librairie Numpy ce qui lui offre une interface similaire et permet l'interopérabilité avec des fonctions numpy.

### 🔗 Référence

- [Documentation Polars](https://pola-rs.github.io/polars/py-polars/html/reference/)

### ⚙️ Installation

`pip install pandas`

## <a name="ex1"><h2 align="center"> Exemple 1 - Fleurs Iris </h2></a>

### 📝 Contexte

L'Iris est un genre de plantes vivaces de la famille des Iridacées. Il existe une large variété d'espèces que l'on retrouve au Québec. L'Iris Versicolor est d'ailleur l'un des emblèmes officiels du Quebec et se trouve le drapeau.

<center> <img width=400px src="assets/iris.jpg" /> </center>


La fleur peut être violette, bleue ou pourpre et plus rarement blanche. Elle est constituée de trois pétales minces et relevés disposés à l'intérieur de la fleur et de trois sépales plus longs et plus larges en forme de spatule et situés à l'extérieur. 

### ⭐ Objectif

- Créer un jeu de données à partir d'un dictionnaire Python contenant les données de fleurs d'iris.
- Indexer et filtrer les données.

### 💻 Code

Un `DataFrame` est une structure de données tabulaires qui permet de stocker et manipuler des données de façon intuitive. Les données tabulaires sont organisées sous forme de lignes avec des colonnes communes. 

La façon la plus simple de créer un `DataFrame` est de partir d'un objet Python. La nature de cet objet change en fonction du format des données:

- Données colonnes: L'objet est un dictionnaire où les clés sont les noms des colonnes, et où les valeurs sont des listes de même taille qui vont constituer les colonnes. C'est le format qui sera utilisé dans cet exemple.
- Données lignes: L'objet est une liste de dictionnaires, où chaque dictionnaire ont les mêmes clés et possède une seule valeur par clé.

Ces deux formats sont interchangeables en fonction de l'application et ont chacun des forces et faiblesses. 

In [None]:
import pandas as pd
import numpy as np
import pprint as pp

# Création d'un DataFrame (df) à partir d'un dict
df_iris = pd.DataFrame(
    {
        "Date": pd.to_datetime("2022-06-15"),  # Conversion d'un texte en date
        "Location": "Quebec",  # Colonne location avec une valeur qui sera repétée
        "Espèce": ["Versicolor", "Versicolor", "Setosa", "Setosa", "Virginica"],  # Liste python de mots
        "Petale_long": [5.1, 4.7, 1.5, 1.6, 5.5],  # Liste python de nombres
        "Petale_larg": np.array([1.2, 1.2, 0.2, 0.3, 2.1]),  # Numpy array
    },
    index=["fleur_0", "fleur_1", "fleur_2", "fleur_3", "fleur_4"],
)

# Afficher le df
df_iris

Une fois le `DataFrame` créé, il est possible d'obtenir des informations sur ses colonnes.

In [None]:
print(df_iris.shape)  # Forme du df (lignes, colonnes)
print(df_iris.columns)  # Liste des colonnes du df
print(df_iris.dtypes["Petale_long"])  # Type de données d'une colonne

L'indexation des données dans pandas est assez délicate puisqu'il existe 3 forme d'indexation:

- Directe des colonnes: `df[<nom_colonne>]`. Utile pour selectionner **une seule** colonne et pour de la filtration. 

In [None]:
df_iris["Espèce"]  # Selectionner une colonne

- Avec `df.loc[<no_ligne>, <nom_colonne>]`. Utile pour selectionner **plusieurs** colonnes et lignes en même temps.

In [None]:
df_iris.loc["fleur_0", "Espèce"]  # Selectionner la première ligne de la colonne "Espèce"

In [None]:
df_iris.loc[
    :, ["Petale_long", "Petale_larg"]
]  # Selectionner toutes les lignes des colonnes "Petale_long" et "Petale_larg"

- Avec `df.iloc[<no_ligne>, <no_colonne>]`. Similaire à `.loc` mais utilise **uniquement** des indices numériques. Cette méthode est similaire à l'indexation d'une matrice dans Numpy.

In [None]:
df_iris.iloc[0, -1]  # Selectionner la première ligne de la dernière colonne

In [None]:
df_iris.iloc[:3, -2:]  # Selectionner les 3 premières lignes des 2 dernières colonnes

On utilise un `DataFrame` généralement lorsque l'on veut analyser un sous-ensemble de données avec une caractéristique particulière. Cette caractéristique peut être isolée en filtrant les données. L'une des méthodes est l'utilisation de masques binaires, similaires à ceux employés avec les Numpy arrays.

In [None]:
filtre = df_iris["Espèce"] == "Setosa"
filtre

In [None]:
df_iris.loc[filtre]

In [None]:
# Prendre les iris avec une largeur de petale supérieure à 1 et une longueur de petale inférieure à 5.2, et selectionner
# uniquement les colonnes  Espèce, Petale_long et Petale_larg
# Attention: ne pas oublier les parentheses entre chaque masque binaire
filtre2 = (df_iris["Petale_larg"] > 1) & (df_iris["Petale_long"] < 5.2)
df_iris.loc[filtre2, ["Espèce", "Petale_long", "Petale_larg"]]

On utilise `.isin` pour isoler les lignes d'une colonne qui contient l'une des valeurs possibles d'une liste.

In [None]:
df_iris.loc[df_iris["Espèce"].isin(["Setosa", "Virginica"])]  # Selectionner les iris de type "Setosa" ou "Versicolor"

On peut aussi trier les données avec une ou plusieurs colonnes.

In [None]:
# Trier le tableau par les valeurs de la colonne "Petale_long" en ordre decroissant
df_iris.sort_values(by="Petale_long", ascending=False)

In [None]:
# Trier le tableau par les valeurs des colonnes "Petale_long" et "Petale_larg" en ordre croissant
df_iris.sort_values(by=["Petale_long", "Petale_larg"])

Une fois que les opérations sont complétés sur le `DataFrame`, il est simple de le convertir en dictionnaire avec la méthode `to_dict()` pour l'exporter par exemple. 

In [None]:
# Selectionner les fleurs de type "Setosa" et "Versicolor" et les trier par ordre croissant de largeur de pétale
new_df = df_iris[df_iris["Espèce"].isin(["Setosa", "Versicolor"])].sort_values(by="Petale_larg")

df_dict = new_df.to_dict("list")  # "List" pour format colonne et "records" pour format ligne

pp.pprint(df_dict)  # Afficher le dictionnaire résultant

Pour des opérations matricielles, on peut aussi utiliser la méthode `to_numpy()` pour convertir des colonnes du DataFrame en matrice Numpy.

In [None]:
mat_petales = df_iris.loc[:, ["Petale_long", "Petale_larg"]].to_numpy()
print(mat_petales)

## <a name="ex2"><h2 align="center"> Exemple 2 - Transestérification du canola en biodiesel </h2></a>

### 📝 Contexte
La transestérification est une méthode de production de biodiesel à partir de la réaction entre une huile végétale et de l'alcool. Dans cet exemple, l'huile végétale utilisée est le canola et la réaction est la suivante:

<center>
<img width=500px src="assets/reaction_biodiesel.png" />
</center>

Les triglycérides du canola réagissent avec l'alcool et produisent du biodiesel et du glycérol. Une chromatographie est effectuée à la suite de la réaction pour analyser son contenu chimique.

<center>
<img width=500px src="assets/chromato_biodiesel.png" />
</center>

Enfin, une analyse numérique dans le logiciel de chromatographie permet d'extraire les données des pics les plus importants. 

### ⭐ Objectif

TBD

### 💻 Code

Les données que l'on analyse sont d'habitude stockées sur un disque dans un fichier. Il existe une multitude de formats qui existent et les plus utilisés sont: `CSV`, `JSON`, `IPC`, `HDF5` et `Parquet`. 

Dans Pandas, il y a [plusieurs](https://pandas.pydata.org/docs/reference/io.html) fonctions qui permettent de ouvrir ces fichiers et les convertir facilement en `DataFrame`. 

Pour cet exemple, on utilise le format de base: `CSV`. 

In [None]:
# Lecture du fichier CSV avec un séparateur ";"
df_bio = pd.read_csv("assets/biodiesel.csv", sep=";")

df_bio

Dans la sience des données, l'un des outils fondamentaux est l'aggregation de données qui permet de regrouper les données appartenant à un même sous-groupe et en tirer plus facilement des résultats numériques. 

Avec pandas, cela se fait avec la méthode `groupby` pour regrouper les données sur une ou plusieurs colonnes et `agg` pour spécifier la méthode d'aggregation employée, très souvent sur les données numériques. Après l'aggregation, il bonne pratique de renommer les colonnes pour mieux representer les nouvelles colonnes, avec pandas on peut faire cela avec la méthode `rename`.

Les opérations d'aggregation possible sont:

| Opération        | Description              |
| ---------------- | ------------------------ |
| `mean`, `median` | Moyenne, Médiane         |
| `count`          | Nombre d'éléments        |
| `first`, `last`  | Premier, Dernier élément |
| `std`, `var`     | Ecart-type, Variance     |
| `min`, `max`     | Minimum, Maximum         |
| `sum`, `prod`    | Somme, Produit           |


In [None]:
# Les colonnes sont renommées en utilisant un dictionnaire où les clés sont les anciens noms et les valeurs sont
# les nouveaux noms
new_col = {"Time": "Avg Time", "Area": "Total Area"}

# Manipulation du df
# -------------------------------------------------
# Les étapes peuvent être également écrites sur une seule ligne
df_new_bio = (
    df_bio.groupby("Name")  # Regrouper les lignes par "Name", mettre as_index=False est recommandé
    .agg({"Time": "mean", "Area": "sum"})  # Spécifier l'opération d'aggregation sur les colonnes non-regroupées
    .rename(columns=new_col)  # Renommer les colonnes
)

df_new_bio

Pour pouvoir filtrer les lignes qui correspondent à une molécule de biodiesel, on peut utiliser `.str.contains(<critère>)` sur une colonne ou un index de texte pour isoler les lignes qui contiennent un bout de texte. Dans notre cas, on remarque que les molécules de biodiesel contiennent un "C".  

In [None]:
df_new_bio.loc[df_new_bio.index.str.contains("C")]

## <a name="ex3"><h2 align="center"> Exemple 3 - Émissions écoinvent </h2></a>


### 📝 Contexte

Ecoinvent est une association à but non lucratif qui met à disposition des données de haute qualité reliées aux émissions de divers procédés industriels. À partir de leur base de données, des données ont été extraites dans un fichier [parquet](https://en.wikipedia.org/wiki/Apache_Parquet) avec:

- Le ID du procédé
- Le nom de la particule émise
- Le numéro CAS de cette particule
- L'unité utilisée pour mesurer l'émission
- Le milieu d'émission
- Le sous-milieu d'émission 

À partir de liste des numéros CAS uniques, les compositions chimiques de chaque molécules ont été extraites dans un autre fichier parquet. Cette extraction a été possible grace aux librairies python open source: 

- [cirpy](https://github.com/mcs07/CIRpy) pour convertir le numéro CAS en représentation chimique.
- [chempy](https://github.com/bjodah/chempy) pour obtenir les compositions chimiques. 

Ce fichier contient donc une colonne avec le numéro CAS et 118 colonnes pour chaque élément atomique et sa quantité dans la molécule.

### ⭐ Objectif

- Ouvrir ces fichiers xlsx comme `DataFrame`.
- Rejoindre les deux tableaux grace au numéro CAS.

### 💻 Code

On commence par ouvrir les fichiers parquet en utilisant la méthode `read_parquet()` de Pandas.

In [None]:
df_ecoinvent = pd.read_parquet("assets/ecoinvent.parquet")
df_chempy = pd.read_parquet("assets/chempy.parquet")

df_ecoinvent

In [None]:
pd.set_option("display.precision", 2)  # Pour une meilleure clartée on affiche le df avec 2 chiffres après la virgule

df_chempy

On remarque que le DataFrame `chempy` contient beaucoup de valeurs `NaN` qui correspondent à des valeurs nulles. Il est très probable que certaines colonnes sont complètement vide en raison de l'absence de cet élément atomique dans la liste des particules, on peut donc retirer ces colonnes. 

Par la suite, pour éviter d'avoir des erreurs lors d'un calcul de somme par exemple, il est préférable de remplacer les valeurs `NaN` par zéro.

Pour une manipulation plus simple, la plupart des opérations sont effectuées `inplace=True` pour modifier le DataFrame directement sans créer des copies inutiles. Cela est équivalent à faire `df = df.<methode>`. 

In [None]:
# Supprimer les colonnes (axis=1) qui contiennent que des valeurs nulles (how=all)
df_chempy.dropna(axis=1, how="all", inplace=True)

# Remplacer toutes les valeurs nulles par 0
df_chempy.fillna(0, inplace=True)

df_chempy

Généralement, lors de la manipulation de données tabulaire, il est souvent très possible d'être en présence de lignes dupliquées. On peut vérifier ça avec la méthode `.duplicated()` qui renvoie un masque binaire avec `True` pour les lignes dupliquées.

In [None]:
filtre3 = df_chempy["CAS"].duplicated()  # Trouver les lignes avec un CAS dupliqué
df_chempy.loc[filtre3].sort_values(by="CAS")  # Appliquer le filtre et trier par ordre croissant du CAS

On voit donc qu'il y a 152 lignes qui sont des doublons. On peut les retirer du DataFrame avec la méthode `drop_duplicates()`. 

In [None]:
df_chempy.drop_duplicates(["CAS"])

Pour calculer la masse totale de la particule, on peut utiliser une fonction Lambda. Cette fonction permet d'évaluer une expression mathématique sur chaque ligne du DataFrame.

In [None]:
# Ajouter la table de la masse des éléments atomiques ??

df_chempy["Masse Totale"] = pd.Series(np.zeros(len(df_chempy)))
df_chempy["Masse Totale"] = df_chempy.loc[:, df_chempy.columns != "CAS"].sum(axis=1)

df_chempy

Rejoindre plusieurs tableaux de données est une autre opération fondamentale dans la science des données. Pour des données de type relationnelles, comme celles que l'on a, des tableaux peuvent être joints à partir d'une ou plusieurs clés communes entre les deux tables. Dans notre cas, la clé commune est le numéro CAS. 

Dans pandas, cette opération se fait avec la méthode `.join()`. Il existe plusieurs types de join que l'on peut faire: `inner`, `outer`, `left` et `right`, une explication complète avec des exemples est disponible [ici](https://learnsql.com/blog/sql-joins-types-explained/).

In [None]:
# Avec Pandas, un join doit se faire entre 2 indexes avec le même nom, il faut donc renommer la colonne CAS de df_chempy
# et créer un index pour les deux df.
# -------------------------------------------------
df_chempy.rename(columns={"CAS": "cas"}, inplace=True)
df_chempy.set_index("cas", inplace=True)
df_ecoinvent.set_index("cas", inplace=True)
df_joined = df_ecoinvent.join(df_chempy, on="cas", how="left")

df_joined

In [None]:
# concat ?
# pivot ?
# query ?
# reset index ?

### 💡 Astuces

- Lors de la manpulation des `DataFrame`, par souci de performance, il est important de comprendre l'ordre des opérations qui sont effectuées. Généralement, il faut commencer par tout filtrage des données et retirer les lignes ou colonnes que l'on veut exclure avant de faire une opération mathématique.
- Dans la plupart des cas, les données utilisées dépassent rarement le million de lignes. Cependant, dans le cas contraire, il faut commencer à prendre en compte la taille des données et ce que ça implique en terme d'utilisation de la mémoire. Très souvent cela consiste à limiter le nombre de copies que l'on fait ainsi que adopter une structure de tableau plus compacte afin de diminuer sa taille. C'est un sujet un peu plus avancé mais tout de même interessant à savoir si on a l'intention de travailler avec du Big Data et construire des algorithmes qui roulent en temps réel par exemple.

## <a name="lexique"><h2 align="center"> Lexique </h2></a>

### 📚 Terminologie

- `DataFrame` ou `df`: structure de données tabulaires en mémoire qui permet de stocker et manipuler les colonnes et lignes de données.

### ✔️ Vu dans l'exemple 1

- `pd.DataFrame`: créé un DataFrame à partir d'un objet Python comme une liste de dictionnaires ou un dictionnaire de listes.
- `df.shape`: renvoie la taille du DataFrame.
- `df.columns`: renvoie la liste des noms des colonnes.
- `df.dtypes`: renvoie le type de données d'une colonne.
- `df.loc`: indexation de plusieurs lignes et colonnes par noms et avec des masques binaires. 
- `df.iloc`: indexation par numéros de lignes et colonnes.
- `df.isin`: masque binaire qui renvoie `True` pour les lignes qui contiennent une valeur dans une liste de valeurs possibles.
- `df.sort_values`: trie les données par ordre croissant ou décroissant.
- `df.to_dict`: convertit un DataFrame en objet Python.
- `df.to_numpy`: convertit un DataFrame en matrice NumPy.

### ✔️ Vu dans l'exemple 2

- `pd.read_csv`: lit un fichier CSV et renvoie un DataFrame.
- `df.groupby`: groupe les lignes d'un DataFrame par une ou des colonnes.
- `df.agg`: spécifie la méthode d'aggregation lors d'un groupby.
- `df.rename`: renomme les colonnes d'un DataFrame.
- `df.str.contains`: renvoie un masque binaire pour chaque ligne qui contient un ou plusieurs mots.

### ✔️ Vu dans l'exemple 3

- `pd.read_parquet`: lit un fichier parquet et renvoie un DataFrame.
- `df.dropna`: retire les lignes ou colonnes qui contiennent des valeurs nulles.
- `df.fillna`: remplace les valeurs nulles par une valeur.
- `df.duplicated`: renvoie un masque binaire pour les lignes qui sont dupliquées.
- `df.drop_duplicates`: retire les lignes dupliquées.
- `df.set_index`: définit la clé primaire d'un DataFrame.
- `df.join`: joint deux DataFrames en fonction d'une clé commune.