# <h1 align="center"> THEME 4 - Donn√©es tabulaires </h1>

### üéØ Objectifs

- Manipuler des donn√©es tabulaires
- Effectuer de l'analyse statistique

### üìö Notions 

- [Exemple 1](#ex1):
    - Cr√©er un Dataframe √† partir d'un dictionnaire
    - Indexer des donn√©es
    - Filtrer les donn√©es par masque binaire
    - Trier des colonnes num√©riques
- [Exemple 2](#ex2):
- [Exemple 3](#ex3):
- [Exemple 4](#ex4):

Un [lexique](#lexique) avec l'ensemble des fonctions qui ont √©t√© vues est disponible √† la fin du notebook.

### üß∞ Librairies

- **Pandas**: est une librairie libre-source Python largement utilis√©e dans la science des donn√©es, l'analyse des donn√©es et l'apprentissage machine. Il est construit au-dessus de la librairie Numpy ce qui lui offre une interface similaire et permet l'interop√©rabilit√© avec des fonctions numpy.

### üîó R√©f√©rence

- [Documentation Polars](https://pola-rs.github.io/polars/py-polars/html/reference/)

### ‚öôÔ∏è Installation

`pip install pandas`

## <a name="ex1"><h2 align="center"> Exemple 1 - Fleurs Iris </h2></a>

### üìù Contexte

L'Iris est un genre de plantes vivaces de la famille des Iridac√©es. Il existe une large vari√©t√© d'esp√®ces que l'on retrouve au Qu√©bec. L'Iris Versicolor est d'ailleur l'un des embl√®mes officiels du Quebec et se trouve le drapeau.

<center> <img width=400px src="assets/iris.jpg" /> </center>


La fleur peut √™tre violette, bleue ou pourpre et plus rarement blanche. Elle est constitu√©e de trois p√©tales minces et relev√©s dispos√©s √† l'int√©rieur de la fleur et de trois s√©pales plus longs et plus larges en forme de spatule et situ√©s √† l'ext√©rieur. 

### ‚≠ê Objectif

- Cr√©er un jeu de donn√©es √† partir d'un dictionnaire Python contenant les donn√©es de fleurs d'iris.
- Indexer et filtrer les donn√©es.

### üíª Code

Un `DataFrame` est une structure de donn√©es tabulaires qui permet de stocker et manipuler des donn√©es de fa√ßon intuitive. Les donn√©es tabulaires sont organis√©es sous forme de lignes avec des colonnes communes. 

La fa√ßon la plus simple de cr√©er un `DataFrame` est de partir d'un objet Python. La nature de cet objet change en fonction du format des donn√©es:

- Donn√©es colonnes: L'objet est un dictionnaire o√π les cl√©s sont les noms des colonnes, et o√π les valeurs sont des listes de m√™me taille qui vont constituer les colonnes. C'est le format qui sera utilis√© dans cet exemple.
- Donn√©es lignes: L'objet est une liste de dictionnaires, o√π chaque dictionnaire ont les m√™mes cl√©s et poss√®de une seule valeur par cl√©.

Ces deux formats sont interchangeables en fonction de l'application et ont chacun des forces et faiblesses. 

In [None]:
import pandas as pd
import numpy as np

# Cr√©ation d'un DataFrame (df) √† partir d'un dict
df = pd.DataFrame(
    {
        "Date": pd.to_datetime("2022-06-15"),  # Conversion d'un texte en date
        "Location": "Quebec",  # Colonne location avec une valeur qui sera rep√©t√©e
        "Esp√®ce": ["Versicolor", "Versicolor", "Setosa", "Setosa", "Virginica"],  # Liste python de mots
        "Petale_long": [5.1, 4.7, 1.5, 1.6, 5.5],  # Liste python de nombres
        "Petale_larg": np.array([1.2, 1.2, 0.2, 0.3, 2.1]),  # Numpy array
    }
)

# Afficher le df
df

Une fois le `DataFrame` cr√©√©, il est possible d'obtenir des informations sur ses colonnes.

In [None]:
print(df.shape)  # Forme du df (lignes, colonnes)
print(df.columns)  # Liste des colonnes du df
print(df.dtypes["Petale_long"])  # Type de donn√©es d'une colonne

L'indexation des donn√©es dans pandas est assez d√©licate puisqu'il existe 3 forme d'indexation:

- Directe des colonnes: `df[<nom_colonne>]`. Utile pour selectionner **une seule** colonne et pour de la filtration. 

In [None]:
df["Esp√®ce"]  # Selectionner une colonne

- Avec `df.loc[<no_ligne>, <nom_colonne>]`. Utile pour selectionner **plusieurs** colonnes et lignes en m√™me temps.

In [None]:
df.loc[0, "Esp√®ce"]  # Selectionner la premi√®re ligne de la colonne "Esp√®ce"

In [None]:
df.loc[:, ["Petale_long", "Petale_larg"]]  # Selectionner toutes les lignes des colonnes "Petale_long" et "Petale_larg"

- Avec `df.iloc[<no_ligne>, <no_colonne>]`. Similaire √† `.loc` mais utilise **uniquement** des indices num√©riques. Cette m√©thode est similaire √† l'indexation d'une matrice dans Numpy.

In [None]:
df.iloc[0, -1]  # Selectionner la premi√®re ligne de la derni√®re colonne

In [None]:
df.iloc[:3, -2:]  # Selectionner les 3 premi√®res lignes des 2 derni√®res colonnes

On utilise un `DataFrame` g√©n√©ralement lorsque l'on veut analyser un sous-ensemble de donn√©es avec une caract√©ristique particuli√®re. Cette caract√©ristique peut √™tre isol√©e en filtrant les donn√©es. L'une des m√©thodes est l'utilisation de masques binaires, similaires √† ceux employ√©s avec les Numpy arrays.

In [None]:
df[df["Esp√®ce"] == "Setosa"]  # Selectionner les iris de type "Setosa"

In [None]:
# Prendre les iris avec une largeur de petale sup√©rieure √† 1 et une longueur de petale inf√©rieure √† 5.2, et selectionner
# uniquement les colonnes  Esp√®ce, Petale_long et Petale_larg
# Attention: ne pas oublier les parentheses entre chaque masque binaire
df[(df["Petale_larg"] > 1) & (df["Petale_long"] < 5.2)].loc[:, ["Esp√®ce", "Petale_long", "Petale_larg"]]

On utilise `.isin` pour isoler les lignes d'une colonne qui contient l'une des valeurs possibles d'une liste.

In [None]:
df[df["Esp√®ce"].isin(["Setosa", "Virginica"])]  # Selectionner les iris de type "Setosa" ou "Versicolor"

On peut aussi trier les donn√©es avec une ou plusieurs colonnes.

In [None]:
# Trier le tableau par les valeurs de la colonne "Petale_long" en ordre decroissant
df.sort_values(by="Petale_long", ascending=False)

In [None]:
# Trier le tableau par les valeurs des colonnes "Petale_long" et "Petale_larg" en ordre croissant
df.sort_values(by=["Petale_long", "Petale_larg"])

Une fois que les op√©rations sont compl√©t√©s sur le `DataFrame`, il est simple de le convertir en dictionnaire avec la m√©thode `to_dict()` pour l'exporter par exemple. 

In [None]:
# Selectionner les fleurs de type "Setosa" et "Versicolor" et les trier par ordre croissant de largeur de p√©tale
new_df = df[df["Esp√®ce"].isin(["Setosa", "Versicolor"])].sort_values(by="Petale_larg")
df_dict = new_df.to_dict("list")  # "List" pour format colonne et "records" pour format ligne
print(df_dict)

## <h2 align="center" id='ex1'> Exemple 2 - Transest√©rification du canola en biodiesel</h2>

### üìù Contexte
La transest√©rification est une m√©thode de production de biodiesel √† partir de la r√©action entre une huile v√©g√©tale et de l'alcool. Dans cet exemple, l'huile v√©g√©tale utilis√©e est le canola et la r√©action est la suivante:

<center>
<img width=500px src="assets/reaction_biodiesel.png" />
</center>

Les triglyc√©rides du canola r√©agissent avec l'alcool et produisent du biodiesel et du glyc√©rol. Une chromatographie est effectu√©e √† la suite de la r√©action pour analyser son contenu chimique.

<center>
<img width=500px src="assets/chromato_biodiesel.png" />
</center>

Enfin, une analyse num√©rique dans le logiciel de chromatographie permet d'extraire les donn√©es des pics les plus importants. 

### ‚≠ê Objectif

TBD

### üíª Code

Les donn√©es que l'on analyse sont d'habitude stock√©es sur un disque dans un fichier. Il existe une multitude de formats qui existent et les plus utilis√©s sont: `CSV`, `JSON`, `IPC`, `HDF5` et `Parquet`. 

Dans Pandas, il y a [plusieurs](https://pandas.pydata.org/docs/reference/io.html) fonctions qui permettent de ouvrir ces fichiers et les convertir facilement en `DataFrame`. 

Pour cet exemple, on utilise le format de base: `CSV`. 

In [None]:
# Lecture du fichier CSV avec un s√©parateur ";"
df = pd.read_csv("assets/biodiesel.csv", sep=";")

df  # Afficher le tableau

Dans la sience des donn√©es, l'un des outils fondamentaux est l'aggregation de donn√©es qui permet de regrouper les donn√©es appartenant √† un m√™me sous-groupe et en tirer plus facilement des r√©sultats num√©riques. 

Avec pandas, cela se fait avec la m√©thode `groupby` pour regrouper les donn√©es sur une ou plusieurs colonnes et `agg` pour sp√©cifier la m√©thode d'aggregation employ√©e, tr√®s souvent sur les donn√©es num√©riques. Apr√®s l'aggregation, il bonne pratique de renommer les colonnes pour mieux representer les nouvelles colonnes, avec pandas on peut faire cela avec la m√©thode `rename`.

Les op√©rations d'aggregation possible sont:

| Op√©ration        | Description              |
| ---------------- | ------------------------ |
| `mean`, `median` | Moyenne, M√©diane         |
| `count`          | Nombre d'√©l√©ments        |
| `first`, `last`  | Premier, Dernier √©l√©ment |
| `std`, `var`     | Ecart-type, Variance     |
| `min`, `max`     | Minimum, Maximum         |
| `sum`, `prod`    | Somme, Produit           |


In [None]:
# Les colonnes sont renomm√©es en utilisant un dictionnaire o√π les cl√©s sont les anciens noms et les valeurs sont
# les nouveaux noms
new_col = {"Time": "Avg Time", "Area": "Total Area"}

# Manipulation du df
# -------------------------------------------------
# Les √©tapes peuvent √™tre √©galement √©crites sur une seule ligne
(
    df.groupby("Name", as_index=False)  # Regrouper les lignes par "Name", mettre as_index=False est recommand√©
    .agg({"Time": "mean", "Area": "sum"})  # Sp√©cifier l'op√©ration d'aggregation sur les colonnes non-regroup√©es
    .rename(columns=new_col)  # Renommer les colonnes
)

In [None]:
df[df["Name"].str.contains("C")]

In [None]:
df.assign(Product=lambda x: x["Time"] * x["Area"])

## <h2 align="center" id='ex1'> Exemple 3 - TBD</h2>

### üìù Contexte

In [None]:
# Joins
# More groupby