# <h1 align="center"> THEME 4 - Données tabulaires </h1>

### 🎯 Objectifs

- Manipuler des données tabulaires
- Effectuer de l'analyse statistique

### 📚 Notions 

- [Exemple 1](#ex1):
    - Créer un Dataframe à partir d'un dictionnaire
    - Indexer des données
    - Filtrer les données par masque binaire
    - Trier des colonnes numériques
- [Exemple 2](#ex2):
- [Exemple 3](#ex3):
- [Exemple 4](#ex4):

Un [lexique](#lexique) avec l'ensemble des fonctions qui ont été vues est disponible à la fin du notebook.

### 🧰 Librairies

- **Pandas**: est une librairie libre-source Python largement utilisée dans la science des données, l'analyse des données et l'apprentissage machine. Il est construit au-dessus de la librairie Numpy ce qui lui offre une interface similaire et permet l'interopérabilité avec des fonctions numpy.

### 🔗 Référence

- [Documentation Polars](https://pola-rs.github.io/polars/py-polars/html/reference/)

### ⚙️ Installation

`pip install pandas`

## <a name="ex1"><h2 align="center"> Exemple 1 - Fleurs Iris </h2></a>

### 📝 Contexte

L'Iris est un genre de plantes vivaces de la famille des Iridacées. Il existe une large variété d'espèces que l'on retrouve au Québec. L'Iris Versicolor est d'ailleur l'un des emblèmes officiels du Quebec et se trouve le drapeau.

<center> <img width=400px src="assets/iris.jpg" /> </center>


La fleur peut être violette, bleue ou pourpre et plus rarement blanche. Elle est constituée de trois pétales minces et relevés disposés à l'intérieur de la fleur et de trois sépales plus longs et plus larges en forme de spatule et situés à l'extérieur. 

### ⭐ Objectif

- Créer un jeu de données à partir d'un dictionnaire Python contenant les données de fleurs d'iris.
- Indexer et filtrer les données.

### 💻 Code

Un `DataFrame` est une structure de données tabulaires qui permet de stocker et manipuler des données de façon intuitive. Les données tabulaires sont organisées sous forme de lignes avec des colonnes communes. 

La façon la plus simple de créer un `DataFrame` est de partir d'un objet Python. La nature de cet objet change en fonction du format des données:

- Données colonnes: L'objet est un dictionnaire où les clés sont les noms des colonnes, et où les valeurs sont des listes de même taille qui vont constituer les colonnes. C'est le format qui sera utilisé dans cet exemple.
- Données lignes: L'objet est une liste de dictionnaires, où chaque dictionnaire ont les mêmes clés et possède une seule valeur par clé.

Ces deux formats sont interchangeables en fonction de l'application et ont chacun des forces et faiblesses. 

In [None]:
import pandas as pd
import numpy as np

# Création d'un DataFrame (df) à partir d'un dict
df = pd.DataFrame(
    {
        "Date": pd.to_datetime("2022-06-15"),  # Conversion d'un texte en date
        "Location": "Quebec",  # Colonne location avec une valeur qui sera repétée
        "Espèce": ["Versicolor", "Versicolor", "Setosa", "Setosa", "Virginica"],  # Liste python de mots
        "Petale_long": [5.1, 4.7, 1.5, 1.6, 5.5],  # Liste python de nombres
        "Petale_larg": np.array([1.2, 1.2, 0.2, 0.3, 2.1]),  # Numpy array
    }
)

# Afficher le df
df

Une fois le `DataFrame` créé, il est possible d'obtenir des informations sur ses colonnes.

In [None]:
print(df.shape)  # Forme du df (lignes, colonnes)
print(df.columns)  # Liste des colonnes du df
print(df.dtypes["Petale_long"])  # Type de données d'une colonne

L'indexation des données dans pandas est assez délicate puisqu'il existe 3 forme d'indexation:

- Directe des colonnes: `df[<nom_colonne>]`. Utile pour selectionner **une seule** colonne et pour de la filtration. 

In [None]:
df["Espèce"]  # Selectionner une colonne

- Avec `df.loc[<no_ligne>, <nom_colonne>]`. Utile pour selectionner **plusieurs** colonnes et lignes en même temps.

In [None]:
df.loc[0, "Espèce"]  # Selectionner la première ligne de la colonne "Espèce"

In [None]:
df.loc[:, ["Petale_long", "Petale_larg"]]  # Selectionner toutes les lignes des colonnes "Petale_long" et "Petale_larg"

- Avec `df.iloc[<no_ligne>, <no_colonne>]`. Similaire à `.loc` mais utilise **uniquement** des indices numériques. Cette méthode est similaire à l'indexation d'une matrice dans Numpy.

In [None]:
df.iloc[0, -1]  # Selectionner la première ligne de la dernière colonne

In [None]:
df.iloc[:3, -2:]  # Selectionner les 3 premières lignes des 2 dernières colonnes

On utilise un `DataFrame` généralement lorsque l'on veut analyser un sous-ensemble de données avec une caractéristique particulière. Cette caractéristique peut être isolée en filtrant les données. L'une des méthodes est l'utilisation de masques binaires, similaires à ceux employés avec les Numpy arrays.

In [None]:
df[df["Espèce"] == "Setosa"]  # Selectionner les iris de type "Setosa"

In [None]:
# Prendre les iris avec une largeur de petale supérieure à 1 et une longueur de petale inférieure à 5.2, et selectionner
# uniquement les colonnes  Espèce, Petale_long et Petale_larg
# Attention: ne pas oublier les parentheses entre chaque masque binaire
df[(df["Petale_larg"] > 1) & (df["Petale_long"] < 5.2)].loc[:, ["Espèce", "Petale_long", "Petale_larg"]]

On utilise `.isin` pour isoler les lignes d'une colonne qui contient l'une des valeurs possibles d'une liste.

In [None]:
df[df["Espèce"].isin(["Setosa", "Virginica"])]  # Selectionner les iris de type "Setosa" ou "Versicolor"

On peut aussi trier les données avec une ou plusieurs colonnes.

In [None]:
# Trier le tableau par les valeurs de la colonne "Petale_long" en ordre decroissant
df.sort_values(by="Petale_long", ascending=False)

In [None]:
# Trier le tableau par les valeurs des colonnes "Petale_long" et "Petale_larg" en ordre croissant
df.sort_values(by=["Petale_long", "Petale_larg"])

Une fois que les opérations sont complétés sur le `DataFrame`, il est simple de le convertir en dictionnaire avec la méthode `to_dict()` pour l'exporter par exemple. 

In [None]:
# Selectionner les fleurs de type "Setosa" et "Versicolor" et les trier par ordre croissant de largeur de pétale
new_df = df[df["Espèce"].isin(["Setosa", "Versicolor"])].sort_values(by="Petale_larg")
df_dict = new_df.to_dict("list")  # "List" pour format colonne et "records" pour format ligne
print(df_dict)

## <h2 align="center" id='ex1'> Exemple 2 - Transestérification du canola en biodiesel</h2>

### 📝 Contexte
La transestérification est une méthode de production de biodiesel à partir de la réaction entre une huile végétale et de l'alcool. Dans cet exemple, l'huile végétale utilisée est le canola et la réaction est la suivante:

<center>
<img width=500px src="assets/reaction_biodiesel.png" />
</center>

Les triglycérides du canola réagissent avec l'alcool et produisent du biodiesel et du glycérol. Une chromatographie est effectuée à la suite de la réaction pour analyser son contenu chimique.

<center>
<img width=500px src="assets/chromato_biodiesel.png" />
</center>

Enfin, une analyse numérique dans le logiciel de chromatographie permet d'extraire les données des pics les plus importants. 

### ⭐ Objectif

TBD

### 💻 Code

Les données que l'on analyse sont d'habitude stockées sur un disque dans un fichier. Il existe une multitude de formats qui existent et les plus utilisés sont: `CSV`, `JSON`, `IPC`, `HDF5` et `Parquet`. 

Dans Pandas, il y a [plusieurs](https://pandas.pydata.org/docs/reference/io.html) fonctions qui permettent de ouvrir ces fichiers et les convertir facilement en `DataFrame`. 

Pour cet exemple, on utilise le format de base: `CSV`. 

In [None]:
# Lecture du fichier CSV avec un séparateur ";"
df = pd.read_csv("assets/biodiesel.csv", sep=";")

df  # Afficher le tableau

Dans la sience des données, l'un des outils fondamentaux est l'aggregation de données qui permet de regrouper les données appartenant à un même sous-groupe et en tirer plus facilement des résultats numériques. 

Avec pandas, cela se fait avec la méthode `groupby` pour regrouper les données sur une ou plusieurs colonnes et `agg` pour spécifier la méthode d'aggregation employée, très souvent sur les données numériques. Après l'aggregation, il bonne pratique de renommer les colonnes pour mieux representer les nouvelles colonnes, avec pandas on peut faire cela avec la méthode `rename`.

Les opérations d'aggregation possible sont:

| Opération        | Description              |
| ---------------- | ------------------------ |
| `mean`, `median` | Moyenne, Médiane         |
| `count`          | Nombre d'éléments        |
| `first`, `last`  | Premier, Dernier élément |
| `std`, `var`     | Ecart-type, Variance     |
| `min`, `max`     | Minimum, Maximum         |
| `sum`, `prod`    | Somme, Produit           |


In [None]:
# Les colonnes sont renommées en utilisant un dictionnaire où les clés sont les anciens noms et les valeurs sont
# les nouveaux noms
new_col = {"Time": "Avg Time", "Area": "Total Area"}

# Manipulation du df
# -------------------------------------------------
# Les étapes peuvent être également écrites sur une seule ligne
(
    df.groupby("Name", as_index=False)  # Regrouper les lignes par "Name", mettre as_index=False est recommandé
    .agg({"Time": "mean", "Area": "sum"})  # Spécifier l'opération d'aggregation sur les colonnes non-regroupées
    .rename(columns=new_col)  # Renommer les colonnes
)

In [None]:
df[df["Name"].str.contains("C")]

In [None]:
df.assign(Product=lambda x: x["Time"] * x["Area"])

## <h2 align="center" id='ex1'> Exemple 3 - TBD</h2>

### 📝 Contexte

In [None]:
# Joins
# More groupby