# <h1 align="center"> THEME 4 - Donn√©es tabulaires </h1>

### üéØ Objectifs

- Manipuler des donn√©es tabulaires
- Effectuer de l'analyse statistique

### üìö Notions 

- [Exemple 1](#ex1):
    - Cr√©er un Dataframe √† partir d'un dictionnaire
    - Indexer des donn√©es
    - Filtrer les donn√©es par masque binaire
    - Trier des colonnes num√©riques
- [Exemple 2](#ex2):
    - Ouvrir un fichier de donn√©es (CSV, etc...) et cr√©er un Dataframe
    - Groupy et aggregation de donn√©es
    - Renommer des colonnes
    - Filtrer des colonnes textuelles par mots cl√©s
- [Exemple 3](#ex3):
    - Retirer et remplacer des valeurs nulles
    - Detecter et retirer des lignes dupliqu√©es
    - Cr√©er un index √† partir d'une colonne
    - Joindre deux Dataframes en fonction d'une cl√© commune

Un [lexique](#lexique) avec l'ensemble des fonctions qui ont √©t√© vues est disponible √† la fin du notebook.

### üß∞ Librairies

- **Pandas**: est une librairie libre-source Python largement utilis√©e dans la science des donn√©es, l'analyse des donn√©es et l'apprentissage machine. Il est construit au-dessus de la librairie Numpy ce qui lui offre une interface similaire et permet l'interop√©rabilit√© avec des fonctions numpy.

### üîó R√©f√©rence

- [Documentation Polars](https://pola-rs.github.io/polars/py-polars/html/reference/)

### ‚öôÔ∏è Installation

`pip install pandas`

## <a name="ex1"><h2 align="center"> Exemple 1 - Fleurs Iris </h2></a>

### üìù Contexte

L'Iris est un genre de plantes vivaces de la famille des Iridac√©es. Il existe une large vari√©t√© d'esp√®ces que l'on retrouve au Qu√©bec. L'Iris Versicolor est d'ailleur l'un des embl√®mes officiels du Quebec et se trouve le drapeau.

<center> <img width=400px src="assets/iris.jpg" /> </center>


La fleur peut √™tre violette, bleue ou pourpre et plus rarement blanche. Elle est constitu√©e de trois p√©tales minces et relev√©s dispos√©s √† l'int√©rieur de la fleur et de trois s√©pales plus longs et plus larges en forme de spatule et situ√©s √† l'ext√©rieur. 

### ‚≠ê Objectif

- Cr√©er un jeu de donn√©es √† partir d'un dictionnaire Python contenant les donn√©es de fleurs d'iris.
- Indexer et filtrer les donn√©es.

### üíª Code

Un `DataFrame` est une structure de donn√©es tabulaires qui permet de stocker et manipuler des donn√©es de fa√ßon intuitive. Les donn√©es tabulaires sont organis√©es sous forme de lignes avec des colonnes communes. 

La fa√ßon la plus simple de cr√©er un `DataFrame` est de partir d'un objet Python. La nature de cet objet change en fonction du format des donn√©es:

- Donn√©es colonnes: L'objet est un dictionnaire o√π les cl√©s sont les noms des colonnes, et o√π les valeurs sont des listes de m√™me taille qui vont constituer les colonnes. C'est le format qui sera utilis√© dans cet exemple.
- Donn√©es lignes: L'objet est une liste de dictionnaires, o√π chaque dictionnaire ont les m√™mes cl√©s et poss√®de une seule valeur par cl√©.

Ces deux formats sont interchangeables en fonction de l'application et ont chacun des forces et faiblesses. 

In [None]:
import pandas as pd
import numpy as np
import pprint as pp

# Cr√©ation d'un DataFrame (df) √† partir d'un dict
df_iris = pd.DataFrame(
    {
        "Date": pd.to_datetime("2022-06-15"),  # Conversion d'un texte en date
        "Location": "Quebec",  # Colonne location avec une valeur qui sera rep√©t√©e
        "Esp√®ce": ["Versicolor", "Versicolor", "Setosa", "Setosa", "Virginica"],  # Liste python de mots
        "Petale_long": [5.1, 4.7, 1.5, 1.6, 5.5],  # Liste python de nombres
        "Petale_larg": np.array([1.2, 1.2, 0.2, 0.3, 2.1]),  # Numpy array
    },
    index=["fleur_0", "fleur_1", "fleur_2", "fleur_3", "fleur_4"],
)

# Afficher le df
df_iris

Une fois le `DataFrame` cr√©√©, il est possible d'obtenir des informations sur ses colonnes.

In [None]:
print(df_iris.shape)  # Forme du df (lignes, colonnes)
print(df_iris.columns)  # Liste des colonnes du df
print(df_iris.dtypes["Petale_long"])  # Type de donn√©es d'une colonne

L'indexation des donn√©es dans pandas est assez d√©licate puisqu'il existe 3 forme d'indexation:

- Directe des colonnes: `df[<nom_colonne>]`. Utile pour selectionner **une seule** colonne et pour de la filtration. 

In [None]:
df_iris["Esp√®ce"]  # Selectionner une colonne

- Avec `df.loc[<no_ligne>, <nom_colonne>]`. Utile pour selectionner **plusieurs** colonnes et lignes en m√™me temps.

In [None]:
df_iris.loc["fleur_0", "Esp√®ce"]  # Selectionner la premi√®re ligne de la colonne "Esp√®ce"

In [None]:
df_iris.loc[
    :, ["Petale_long", "Petale_larg"]
]  # Selectionner toutes les lignes des colonnes "Petale_long" et "Petale_larg"

- Avec `df.iloc[<no_ligne>, <no_colonne>]`. Similaire √† `.loc` mais utilise **uniquement** des indices num√©riques. Cette m√©thode est similaire √† l'indexation d'une matrice dans Numpy.

In [None]:
df_iris.iloc[0, -1]  # Selectionner la premi√®re ligne de la derni√®re colonne

In [None]:
df_iris.iloc[:3, -2:]  # Selectionner les 3 premi√®res lignes des 2 derni√®res colonnes

On utilise un `DataFrame` g√©n√©ralement lorsque l'on veut analyser un sous-ensemble de donn√©es avec une caract√©ristique particuli√®re. Cette caract√©ristique peut √™tre isol√©e en filtrant les donn√©es. L'une des m√©thodes est l'utilisation de masques binaires, similaires √† ceux employ√©s avec les Numpy arrays.

In [None]:
filtre = df_iris["Esp√®ce"] == "Setosa"
filtre

In [None]:
df_iris.loc[filtre]

In [None]:
# Prendre les iris avec une largeur de petale sup√©rieure √† 1 et une longueur de petale inf√©rieure √† 5.2, et selectionner
# uniquement les colonnes  Esp√®ce, Petale_long et Petale_larg
# Attention: ne pas oublier les parentheses entre chaque masque binaire
filtre2 = (df_iris["Petale_larg"] > 1) & (df_iris["Petale_long"] < 5.2)
df_iris.loc[filtre2, ["Esp√®ce", "Petale_long", "Petale_larg"]]

On utilise `.isin` pour isoler les lignes d'une colonne qui contient l'une des valeurs possibles d'une liste.

In [None]:
df_iris.loc[df_iris["Esp√®ce"].isin(["Setosa", "Virginica"])]  # Selectionner les iris de type "Setosa" ou "Versicolor"

On peut aussi trier les donn√©es avec une ou plusieurs colonnes.

In [None]:
# Trier le tableau par les valeurs de la colonne "Petale_long" en ordre decroissant
df_iris.sort_values(by="Petale_long", ascending=False)

In [None]:
# Trier le tableau par les valeurs des colonnes "Petale_long" et "Petale_larg" en ordre croissant
df_iris.sort_values(by=["Petale_long", "Petale_larg"])

Une fois que les op√©rations sont compl√©t√©s sur le `DataFrame`, il est simple de le convertir en dictionnaire avec la m√©thode `to_dict()` pour l'exporter par exemple. 

In [None]:
# Selectionner les fleurs de type "Setosa" et "Versicolor" et les trier par ordre croissant de largeur de p√©tale
new_df = df_iris[df_iris["Esp√®ce"].isin(["Setosa", "Versicolor"])].sort_values(by="Petale_larg")

df_dict = new_df.to_dict("list")  # "List" pour format colonne et "records" pour format ligne

pp.pprint(df_dict)  # Afficher le dictionnaire r√©sultant

Pour des op√©rations matricielles, on peut aussi utiliser la m√©thode `to_numpy()` pour convertir des colonnes du DataFrame en matrice Numpy.

In [None]:
mat_petales = df_iris.loc[:, ["Petale_long", "Petale_larg"]].to_numpy()
print(mat_petales)

## <a name="ex2"><h2 align="center"> Exemple 2 - Transest√©rification du canola en biodiesel </h2></a>

### üìù Contexte
La transest√©rification est une m√©thode de production de biodiesel √† partir de la r√©action entre une huile v√©g√©tale et de l'alcool. Dans cet exemple, l'huile v√©g√©tale utilis√©e est le canola et la r√©action est la suivante:

<center>
<img width=500px src="assets/reaction_biodiesel.png" />
</center>

Les triglyc√©rides du canola r√©agissent avec l'alcool et produisent du biodiesel et du glyc√©rol. Une chromatographie est effectu√©e √† la suite de la r√©action pour analyser son contenu chimique.

<center>
<img width=500px src="assets/chromato_biodiesel.png" />
</center>

Enfin, une analyse num√©rique dans le logiciel de chromatographie permet d'extraire les donn√©es des pics les plus importants. 

### ‚≠ê Objectif

TBD

### üíª Code

Les donn√©es que l'on analyse sont d'habitude stock√©es sur un disque dans un fichier. Il existe une multitude de formats qui existent et les plus utilis√©s sont: `CSV`, `JSON`, `IPC`, `HDF5` et `Parquet`. 

Dans Pandas, il y a [plusieurs](https://pandas.pydata.org/docs/reference/io.html) fonctions qui permettent de ouvrir ces fichiers et les convertir facilement en `DataFrame`. 

Pour cet exemple, on utilise le format de base: `CSV`. 

In [None]:
# Lecture du fichier CSV avec un s√©parateur ";"
df_bio = pd.read_csv("assets/biodiesel.csv", sep=";")

df_bio

Dans la sience des donn√©es, l'un des outils fondamentaux est l'aggregation de donn√©es qui permet de regrouper les donn√©es appartenant √† un m√™me sous-groupe et en tirer plus facilement des r√©sultats num√©riques. 

Avec pandas, cela se fait avec la m√©thode `groupby` pour regrouper les donn√©es sur une ou plusieurs colonnes et `agg` pour sp√©cifier la m√©thode d'aggregation employ√©e, tr√®s souvent sur les donn√©es num√©riques. Apr√®s l'aggregation, il bonne pratique de renommer les colonnes pour mieux representer les nouvelles colonnes, avec pandas on peut faire cela avec la m√©thode `rename`.

Les op√©rations d'aggregation possible sont:

| Op√©ration        | Description              |
| ---------------- | ------------------------ |
| `mean`, `median` | Moyenne, M√©diane         |
| `count`          | Nombre d'√©l√©ments        |
| `first`, `last`  | Premier, Dernier √©l√©ment |
| `std`, `var`     | Ecart-type, Variance     |
| `min`, `max`     | Minimum, Maximum         |
| `sum`, `prod`    | Somme, Produit           |


In [None]:
# Les colonnes sont renomm√©es en utilisant un dictionnaire o√π les cl√©s sont les anciens noms et les valeurs sont
# les nouveaux noms
new_col = {"Time": "Avg Time", "Area": "Total Area"}

# Manipulation du df
# -------------------------------------------------
# Les √©tapes peuvent √™tre √©galement √©crites sur une seule ligne
df_new_bio = (
    df_bio.groupby("Name")  # Regrouper les lignes par "Name", mettre as_index=False est recommand√©
    .agg({"Time": "mean", "Area": "sum"})  # Sp√©cifier l'op√©ration d'aggregation sur les colonnes non-regroup√©es
    .rename(columns=new_col)  # Renommer les colonnes
)

df_new_bio

Pour pouvoir filtrer les lignes qui correspondent √† une mol√©cule de biodiesel, on peut utiliser `.str.contains(<crit√®re>)` sur une colonne ou un index de texte pour isoler les lignes qui contiennent un bout de texte. Dans notre cas, on remarque que les mol√©cules de biodiesel contiennent un "C".  

In [None]:
df_new_bio.loc[df_new_bio.index.str.contains("C")]

## <a name="ex3"><h2 align="center"> Exemple 3 - √âmissions √©coinvent </h2></a>


### üìù Contexte

Ecoinvent est une association √† but non lucratif qui met √† disposition des donn√©es de haute qualit√© reli√©es aux √©missions de divers proc√©d√©s industriels. √Ä partir de leur base de donn√©es, des donn√©es ont √©t√© extraites dans un fichier [parquet](https://en.wikipedia.org/wiki/Apache_Parquet) avec:

- Le ID du proc√©d√©
- Le nom de la particule √©mise
- Le num√©ro CAS de cette particule
- L'unit√© utilis√©e pour mesurer l'√©mission
- Le milieu d'√©mission
- Le sous-milieu d'√©mission 

√Ä partir de liste des num√©ros CAS uniques, les compositions chimiques de chaque mol√©cules ont √©t√© extraites dans un autre fichier parquet. Cette extraction a √©t√© possible grace aux librairies python open source: 

- [cirpy](https://github.com/mcs07/CIRpy) pour convertir le num√©ro CAS en repr√©sentation chimique.
- [chempy](https://github.com/bjodah/chempy) pour obtenir les compositions chimiques. 

Ce fichier contient donc une colonne avec le num√©ro CAS et 118 colonnes pour chaque √©l√©ment atomique et sa quantit√© dans la mol√©cule.

### ‚≠ê Objectif

- Ouvrir ces fichiers xlsx comme `DataFrame`.
- Rejoindre les deux tableaux grace au num√©ro CAS.

### üíª Code

On commence par ouvrir les fichiers parquet en utilisant la m√©thode `read_parquet()` de Pandas.

In [None]:
df_ecoinvent = pd.read_parquet("assets/ecoinvent.parquet")
df_chempy = pd.read_parquet("assets/chempy.parquet")

df_ecoinvent

In [None]:
pd.set_option("display.precision", 2)  # Pour une meilleure clart√©e on affiche le df avec 2 chiffres apr√®s la virgule

df_chempy

On remarque que le DataFrame `chempy` contient beaucoup de valeurs `NaN` qui correspondent √† des valeurs nulles. Il est tr√®s probable que certaines colonnes sont compl√®tement vide en raison de l'absence de cet √©l√©ment atomique dans la liste des particules, on peut donc retirer ces colonnes. 

Par la suite, pour √©viter d'avoir des erreurs lors d'un calcul de somme par exemple, il est pr√©f√©rable de remplacer les valeurs `NaN` par z√©ro.

Pour une manipulation plus simple, la plupart des op√©rations sont effectu√©es `inplace=True` pour modifier le DataFrame directement sans cr√©er des copies inutiles. Cela est √©quivalent √† faire `df = df.<methode>`. 

In [None]:
# Supprimer les colonnes (axis=1) qui contiennent que des valeurs nulles (how=all)
df_chempy.dropna(axis=1, how="all", inplace=True)

# Remplacer toutes les valeurs nulles par 0
df_chempy.fillna(0, inplace=True)

df_chempy

G√©n√©ralement, lors de la manipulation de donn√©es tabulaire, il est souvent tr√®s possible d'√™tre en pr√©sence de lignes dupliqu√©es. On peut v√©rifier √ßa avec la m√©thode `.duplicated()` qui renvoie un masque binaire avec `True` pour les lignes dupliqu√©es.

In [None]:
filtre3 = df_chempy["CAS"].duplicated()  # Trouver les lignes avec un CAS dupliqu√©
df_chempy.loc[filtre3].sort_values(by="CAS")  # Appliquer le filtre et trier par ordre croissant du CAS

On voit donc qu'il y a 152 lignes qui sont des doublons. On peut les retirer du DataFrame avec la m√©thode `drop_duplicates()`. 

In [None]:
df_chempy.drop_duplicates(["CAS"])

Pour calculer la masse totale de la particule, on peut utiliser une fonction Lambda. Cette fonction permet d'√©valuer une expression math√©matique sur chaque ligne du DataFrame.

In [None]:
# Ajouter la table de la masse des √©l√©ments atomiques ??

df_chempy["Masse Totale"] = pd.Series(np.zeros(len(df_chempy)))
df_chempy["Masse Totale"] = df_chempy.loc[:, df_chempy.columns != "CAS"].sum(axis=1)

df_chempy

Rejoindre plusieurs tableaux de donn√©es est une autre op√©ration fondamentale dans la science des donn√©es. Pour des donn√©es de type relationnelles, comme celles que l'on a, des tableaux peuvent √™tre joints √† partir d'une ou plusieurs cl√©s communes entre les deux tables. Dans notre cas, la cl√© commune est le num√©ro CAS. 

Dans pandas, cette op√©ration se fait avec la m√©thode `.join()`. Il existe plusieurs types de join que l'on peut faire: `inner`, `outer`, `left` et `right`, une explication compl√®te avec des exemples est disponible [ici](https://learnsql.com/blog/sql-joins-types-explained/).

In [None]:
# Avec Pandas, un join doit se faire entre 2 indexes avec le m√™me nom, il faut donc renommer la colonne CAS de df_chempy
# et cr√©er un index pour les deux df.
# -------------------------------------------------
df_chempy.rename(columns={"CAS": "cas"}, inplace=True)
df_chempy.set_index("cas", inplace=True)
df_ecoinvent.set_index("cas", inplace=True)
df_joined = df_ecoinvent.join(df_chempy, on="cas", how="left")

df_joined

In [None]:
# concat ?
# pivot ?
# query ?
# reset index ?

### üí° Astuces

- Lors de la manpulation des `DataFrame`, par souci de performance, il est important de comprendre l'ordre des op√©rations qui sont effectu√©es. G√©n√©ralement, il faut commencer par tout filtrage des donn√©es et retirer les lignes ou colonnes que l'on veut exclure avant de faire une op√©ration math√©matique.
- Dans la plupart des cas, les donn√©es utilis√©es d√©passent rarement le million de lignes. Cependant, dans le cas contraire, il faut commencer √† prendre en compte la taille des donn√©es et ce que √ßa implique en terme d'utilisation de la m√©moire. Tr√®s souvent cela consiste √† limiter le nombre de copies que l'on fait ainsi que adopter une structure de tableau plus compacte afin de diminuer sa taille. C'est un sujet un peu plus avanc√© mais tout de m√™me interessant √† savoir si on a l'intention de travailler avec du Big Data et construire des algorithmes qui roulent en temps r√©el par exemple.

## <a name="lexique"><h2 align="center"> Lexique </h2></a>

### üìö Terminologie

- `DataFrame` ou `df`: structure de donn√©es tabulaires en m√©moire qui permet de stocker et manipuler les colonnes et lignes de donn√©es.

### ‚úîÔ∏è Vu dans l'exemple 1

- `pd.DataFrame`: cr√©√© un DataFrame √† partir d'un objet Python comme une liste de dictionnaires ou un dictionnaire de listes.
- `df.shape`: renvoie la taille du DataFrame.
- `df.columns`: renvoie la liste des noms des colonnes.
- `df.dtypes`: renvoie le type de donn√©es d'une colonne.
- `df.loc`: indexation de plusieurs lignes et colonnes par noms et avec des masques binaires. 
- `df.iloc`: indexation par num√©ros de lignes et colonnes.
- `df.isin`: masque binaire qui renvoie `True` pour les lignes qui contiennent une valeur dans une liste de valeurs possibles.
- `df.sort_values`: trie les donn√©es par ordre croissant ou d√©croissant.
- `df.to_dict`: convertit un DataFrame en objet Python.
- `df.to_numpy`: convertit un DataFrame en matrice NumPy.

### ‚úîÔ∏è Vu dans l'exemple 2

- `pd.read_csv`: lit un fichier CSV et renvoie un DataFrame.
- `df.groupby`: groupe les lignes d'un DataFrame par une ou des colonnes.
- `df.agg`: sp√©cifie la m√©thode d'aggregation lors d'un groupby.
- `df.rename`: renomme les colonnes d'un DataFrame.
- `df.str.contains`: renvoie un masque binaire pour chaque ligne qui contient un ou plusieurs mots.

### ‚úîÔ∏è Vu dans l'exemple 3

- `pd.read_parquet`: lit un fichier parquet et renvoie un DataFrame.
- `df.dropna`: retire les lignes ou colonnes qui contiennent des valeurs nulles.
- `df.fillna`: remplace les valeurs nulles par une valeur.
- `df.duplicated`: renvoie un masque binaire pour les lignes qui sont dupliqu√©es.
- `df.drop_duplicates`: retire les lignes dupliqu√©es.
- `df.set_index`: d√©finit la cl√© primaire d'un DataFrame.
- `df.join`: joint deux DataFrames en fonction d'une cl√© commune.