# <h1 align="center"> THEME 4 - Donn√©es tabulaires </h1>

### üéØ Objectifs

- Manipuler des donn√©es tabulaires
- Effectuer de l'analyse statistique

### üìö Notions 

- [Exemple 1](#ex1):
    - Cr√©er un Dataframe √† partir d'un dictionnaire
    - Concatener des donn√©es
    - Indexer des donn√©es
    - Filtrer les donn√©es par masque binaire
    - Trier des colonnes num√©riques
- [Exemple 2](#ex2):
    - Ouvrir un fichier de donn√©es (CSV, etc...) et cr√©er un Dataframe
    - Groupy et aggregation de donn√©es
    - Renommer des colonnes
    - Filtrer des colonnes textuelles par mots cl√©s
- [Exemple 3](#ex3):
    - Retirer et remplacer des valeurs nulles
    - Detecter et retirer des lignes dupliqu√©es
    - Cr√©er un index √† partir d'une colonne
    - Effectuer des op√©rations matricielles
    - Joindre deux Dataframes en fonction d'une cl√© commune
    - Retirer des lignes et colonnes

Un [lexique](#lexique) avec l'ensemble des fonctions qui ont √©t√© vues est disponible √† la fin du notebook.

### üß∞ Librairies

- **Pandas**: est une librairie libre-source Python largement utilis√©e dans la science des donn√©es, l'analyse des donn√©es et l'apprentissage machine. Il est construit au-dessus de la librairie Numpy ce qui lui offre une interface similaire et permet l'interop√©rabilit√© avec des fonctions numpy.

### üîó R√©f√©rence

- [R√©f√©rence API Pandas](https://pandas.pydata.org/docs/reference/index.html)

### ‚öôÔ∏è Installation

`pip install pandas`

## <a name="ex1"><h2 align="center"> Exemple 1 - Fleurs Iris </h2></a>

### üìù Contexte

L'Iris est un genre de plantes vivaces de la famille des Iridac√©es. Il existe une large vari√©t√© d'esp√®ces que l'on retrouve au Qu√©bec. L'Iris Versicolor est d'ailleur l'un des embl√®mes officiels du Quebec et se trouve le drapeau.

<center> <img width=400px src="assets/iris.jpg" /> </center>


La fleur peut √™tre violette, bleue ou pourpre et plus rarement blanche. Elle est constitu√©e de trois p√©tales minces et relev√©s dispos√©s √† l'int√©rieur de la fleur et de trois s√©pales plus longs et plus larges en forme de spatule et situ√©s √† l'ext√©rieur. 

### ‚≠ê Objectif

- Cr√©er un jeu de donn√©es √† partir d'un dictionnaire Python contenant les donn√©es de fleurs d'iris.
- Indexer et filtrer les donn√©es.

### üíª Code

Un `DataFrame` est une structure de donn√©es tabulaires qui permet de stocker et manipuler des donn√©es de fa√ßon intuitive. Les donn√©es tabulaires sont organis√©es sous plusieurs colonnes avec plusieurs entr√©es qui forment des lignes. Dans Pandas, une colonne de donn√©es est aussi appel√©e une `Series`.

Il y a aussi la possibilit√© de cr√©er un index. Grossi√®rement, un index est une colonne sp√©ciale qui contient les identifiants des lignes. Par d√©faut, si on ne sp√©cifie pas un index lors de la cr√©ation d'un `DataFrame`, celui-ci est cr√©√© automatiquement et correspond au num√©ro de ligne. Ce num√©ro est associ√© directement √† une ligne, cela veut dire que si on trie une colonne du `DataFrame`, l'index sera aussi tri√©.

La fa√ßon la plus simple de cr√©er un `DataFrame` est de partir d'un objet Python. La nature de cet objet change en fonction du format des donn√©es:

- *Donn√©es colonnes*: L'objet est un dictionnaire o√π les cl√©s sont les noms des colonnes, et o√π les valeurs sont des listes de m√™me taille qui vont constituer les colonnes. C'est le format qui sera utilis√© dans cet exemple.
- *Donn√©es lignes*: L'objet est une liste de dictionnaires, o√π chaque dictionnaire ont les m√™mes cl√©s et poss√®de une seule valeur par cl√©.

Ces deux formats sont interchangeables en fonction de l'application et ont chacun des forces et faiblesses. 

In [None]:
import pandas as pd
import numpy as np
import pprint as pp  # Pretty Print un objet Python comme un dictionnaire

# Cr√©ation d'un DataFrame (df) √† partir d'un dictionnaire Python
# ---------------------------------------------------------------
# Pour cr√©er un DataFrame √† partir d'un dictionnaire, les cl√©s doivent contenir des listes de donn√©es, si une seule
# valeur est associ√©e √† une cl√©, la valeur est dupliqu√©e pour chaque ligne du DataFrame (ici c'est le cas pour Location)
df_iris = pd.DataFrame(
    {
        "Date": pd.to_datetime("2022-06-15"),  # Conversion d'un texte en date
        "Location": "Canada",  # Colonne location avec une valeur qui sera rep√©t√©e
        "Esp√®ce": ["Versicolor", "Setosa", "Setosa", "Virginica"],  # Liste python de mots
        "Petale_long": [5.1, 1.5, 1.6, 5.5],  # Liste python de nombres
        "Petale_larg": np.array([1.2, 0.2, 0.3, 2.1]),  # Numpy array
    },
    index=["fleur_0", "fleur_1", "fleur_2", "fleur_3"],  # D√©finir l'index (facultatif)
)

# Afficher le df (fonctionne seulement sur un notebook jupyter)
df_iris

Une fois le `DataFrame` cr√©√©, il est possible d'obtenir des informations sur son contenu.

In [None]:
print(df_iris.shape)  # Forme du df (lignes, colonnes)
print(df_iris.columns)  # Liste des colonnes du df
print(df_iris.index)  # Liste des index du df
print(df_iris.dtypes["Petale_long"])  # Type de donn√©es d'une colonne

Une fois un `DataFrame` cr√©√©, il est possible d'y ajouter des lignes ou colonnes avec la m√©thode `pd.concat()`. Cette m√©thode prend en param√®tre une liste de `DataFrame` √† concatener sur un axe. Dans le cas d'une simple concatenation d'une seule colonne, on peut passer en argument une `Series` √©galement. 

In [None]:
# Concater une nouvelle fleur dans le tableau
# ---------------------------------------------------------------
# Cr√©ation du df qui contient les infos de la nouvelle fleur
df_iris_0 = pd.DataFrame(
    {
        "Date": pd.to_datetime("2020-01-23"),
        "Location": "Malte",
        "Esp√®ce": "Pseudacorus",
        "Petale_long": 5.4,
        "Petale_larg": 2.2,
    },
    index=["fleur_4"],
)

df_iris = pd.concat([df_iris, df_iris_0], axis=0)  # Concat√©nation sur les lignes

df_iris

In [None]:
# Ajouter une nouvelle colonne pour la couleur
# ---------------------------------------------------------------
# Cr√©er une Serie avec la liste des couleurs (m√™me taile que le nb de lignes de df_iris)
series_color = pd.Series(
    ["Violet", "Violet", "Violet", "Violet", "Jaune"],  # Donn√©es de la colonne
    name="Couleur",  # Nom de la colonne/S√©rie
    index=df_iris.index,  # D√©finir l'index, ici n√©c√©ssaire pour la concat√©nation
)

df_iris = pd.concat([df_iris, series_color], axis=1)  # Concat√©nation sur les colonnes

df_iris

L'indexation des donn√©es dans pandas est assez d√©licate puisqu'il existe 3 formes d'indexation.

- Indexation directe des colonnes: `df[<nom_col>]` ou `df[[<nom_col1>, <nom_col2>, ...]]`. Permet de selectionner l'enti√®ret√© d'une ou plusieurs colonnes.

In [None]:
df_iris["Esp√®ce"]  # Selectionner une colonne (retourne une S√©rie)

- Avec `df.loc[<index ou liste>, <nom_colonne ou liste>]`. Utile pour indexer une ou plusieurs colonnes avec un index particulier.

In [None]:
df_iris.loc["fleur_0", "Esp√®ce"]  # Esp√®ce de la fleur_0

In [None]:
df_iris.loc[:, ["Petale_long", "Petale_larg"]]  # Toutes les lignes des colonnes "Petale_long" et "Petale_larg"

- Avec `df.iloc[<no_ligne>, <no_colonne>]`. Similaire √† `.loc` mais utilise **uniquement** des indices num√©riques. Cette m√©thode est similaire √† l'indexation d'une matrice dans Numpy (vu dans le Th√®me 2).

In [None]:
df_iris.iloc[0, -1]  # Selectionner la premi√®re ligne de la derni√®re colonne

In [None]:
df_iris.iloc[:3, -2:]  # Selectionner les 3 premi√®res lignes des 2 derni√®res colonnes

On utilise un `DataFrame` g√©n√©ralement lorsque l'on veut analyser un sous-ensemble de donn√©es avec une caract√©ristique particuli√®re. Cette caract√©ristique peut √™tre isol√©e en filtrant les donn√©es. L'une des m√©thodes est l'utilisation de masques binaires, similaires √† ceux employ√©s avec les Numpy arrays.

In [None]:
filtre = df_iris["Esp√®ce"] == "Setosa"  # Masque binaire issu de l'√©valuation de la condition "Esp√®ce == "Setosa"
filtre

In [None]:
df_iris.index[filtre]  # Voir les index des lignes qui respectent le masque binaire

In [None]:
df_iris.loc[filtre, :]  # Appliquer le masque au df

In [None]:
# Prendre les iris avec une largeur de petale sup√©rieure √† 1 ET une longueur de petale inf√©rieure √† 5.2, et selectionner
# uniquement les colonnes  Esp√®ce, Petale_long et Petale_larg
# ----------------------------------------------------------------------------------------------------------------------
# Rappel: ET = &, OU = |
# Attention: ne pas oublier les parentheses entre chaque masque binaire
filtre2 = (df_iris["Petale_larg"] > 1) & (df_iris["Petale_long"] < 5.2)
df_iris.loc[filtre2, ["Esp√®ce", "Petale_long", "Petale_larg"]]

Plutot que d'enchainer plusieurs masques binaires pour √©valuer plusieurs √©galit√©s, on peut utiliser `.isin` pour isoler les lignes d'une colonne qui contiennent l'une des valeurs possibles d'une liste.

In [None]:
df_iris.loc[
    df_iris["Esp√®ce"].isin(["Setosa", "Virginica"]), :
]  # Selectionner les iris de type "Setosa" ou "Versicolor"

On peut aussi trier les donn√©es avec une ou plusieurs colonnes.

In [None]:
# Trier le tableau par les valeurs de la colonne "Petale_long" en ordre decroissant
df_iris.sort_values(by="Petale_long", ascending=False)

In [None]:
# Trier le tableau par les valeurs des colonnes "Petale_long" et "Petale_larg" en ordre croissant
df_iris.sort_values(by=["Petale_long", "Petale_larg"])

Pour calculer la surface rectangulaire occup√©e par une p√©tale, on peut utiliser une fonction Lambda. Cette fonction permet d'√©valuer une expression math√©matique sur chaque ligne du DataFrame. Avec la fonction `df.assign(<nom_col> = lambda x: <expression x>)` on ajoute une colonne qui contient la valeur calcul√©e pour la ligne `x` par la fonction Lambda.

In [None]:
df_iris = df_iris.assign(Aire=lambda x: x["Petale_long"] * x["Petale_larg"])
df_iris

Une fois que les op√©rations sont compl√©t√©s sur le `DataFrame`, il est simple de le convertir en dictionnaire avec la m√©thode `to_dict()` pour l'exporter par exemple. 

In [None]:
# Selectionner les fleurs de type "Setosa" et "Versicolor" et les trier par ordre croissant de largeur de p√©tale
new_df = df_iris.loc[df_iris["Esp√®ce"].isin(["Setosa", "Versicolor"]), :].sort_values(by="Petale_larg")

df_dict = new_df.to_dict("list")  # "List" pour format colonne et "records" pour format ligne

pp.pprint(df_dict)  # Afficher le dictionnaire r√©sultant (eq. √† print(df_dict) mais plus lisible)

Pour des op√©rations matricielles, on peut aussi utiliser la m√©thode `to_numpy()` pour convertir des colonnes du DataFrame en matrice Numpy.

In [None]:
mat_petales = df_iris.loc[:, ["Petale_long", "Petale_larg"]].to_numpy()
print(mat_petales)

## <a name="ex2"><h2 align="center"> Exemple 2 - Transest√©rification du canola en biodiesel </h2></a>

### üìù Contexte
La transest√©rification est une m√©thode de production de biodiesel √† partir de la r√©action entre une huile v√©g√©tale et de l'alcool. Dans cet exemple, l'huile v√©g√©tale utilis√©e est le canola et la r√©action est la suivante:

<center>
<img width=500px src="assets/reaction_biodiesel.png" />
</center>

Les triglyc√©rides du canola r√©agissent avec l'alcool et produisent du biodiesel et du glyc√©rol. Une chromatographie est effectu√©e √† la suite de la r√©action pour analyser son contenu chimique.

<center>
<img width=500px src="assets/chromato_biodiesel.png" />
</center>

Enfin, une analyse num√©rique dans le logiciel de chromatographie permet d'extraire les donn√©es des pics les plus importants. 

### ‚≠ê Objectif

Faire la synth√®se des donn√©es exp√©rimentales grace √† une aggr√©gation.

### üíª Code

Les donn√©es que l'on analyse sont d'habitude stock√©es sur un disque dans un fichier. Il existe une multitude de formats qui existent et les plus utilis√©s sont: `CSV`, `JSON`, `IPC`, `HDF5` et `Parquet`. 

Dans Pandas, il y a [plusieurs](https://pandas.pydata.org/docs/reference/io.html) fonctions qui permettent de ouvrir ces fichiers et les convertir facilement en `DataFrame`. 

Pour ouvir un fichier la m√©thode est de la forme `pd.read_<format>(<fichier>)` et pour enregistrer un `DataFrame` dans un fichier, la m√©thode est de la forme `df.to_<format>(<fichier>)`.

Pour cet exemple, on utilise le format de base: `CSV`. 

In [None]:
# Lecture du fichier CSV avec un s√©parateur ";"
df_bio = pd.read_csv("data/biodiesel.csv", sep=";")

df_bio

Dans la sience des donn√©es, l'un des outils fondamentaux est l'aggregation de donn√©es qui permet de regrouper les donn√©es appartenant √† un m√™me sous-groupe et en tirer plus facilement des r√©sultats num√©riques. 

Avec pandas, cela se fait avec la m√©thode `groupby` pour regrouper les donn√©es sur une ou plusieurs colonnes et `agg` pour sp√©cifier la m√©thode d'aggregation employ√©e, tr√®s souvent sur les donn√©es num√©riques. Apr√®s l'aggregation, il bonne pratique de renommer les colonnes pour mieux representer les nouvelles colonnes, avec pandas on peut faire cela avec la m√©thode `rename`.

Les op√©rations d'aggregation possible sont:

<a name="operations"></a>
| Op√©ration        | Description              |
| ---------------- | ------------------------ |
| `mean`, `median` | Moyenne, M√©diane         |
| `count`          | Nombre d'√©l√©ments        |
| `first`, `last`  | Premier, Dernier √©l√©ment |
| `std`, `var`     | Ecart-type, Variance     |
| `min`, `max`     | Minimum, Maximum         |
| `sum`, `prod`    | Somme, Produit           |

Ces op√©rations peuvent √™tre aussi directement √™tre utilis√©es sur un df (ou sur certaines lignes/colonnes) comme par exemple `df.mean(axis=1)` pour calculer la moyenne de chaque ligne.

In [None]:
# Les colonnes sont renomm√©es en utilisant un dictionnaire o√π les cl√©s sont les anciens noms et les valeurs sont
# les nouveaux noms
new_col = {"Time": "Avg Time", "Area": "Total Area"}

# Manipulation du df
# -------------------------------------------------
# Les √©tapes peuvent √™tre √©galement √©crites sur une seule ligne
df_grouped_bio = (
    df_bio.groupby("Name", as_index=True)  # Regrouper les lignes par "Name", avec le nom comme index (facultatif)
    .agg({"Time": "mean", "Area": "sum"})  # Sp√©cifier l'op√©ration d'aggregation sur les colonnes non-regroup√©es
    .rename(columns=new_col)  # Renommer les colonnes
)

df_grouped_bio

Pour pouvoir filtrer les lignes qui correspondent √† une mol√©cule de biodiesel, on peut utiliser `df[<nom_col>].str.contains(<crit√®re>)` sur une colonne ou `df.index.str.contains(<crit√®re>)` sur un index de texte pour isoler les lignes qui contiennent une sous-chaine de charact√®res. Dans notre cas, on remarque que les mol√©cules de biodiesel contiennent un "C", ce sera donc le crit√®re choisi.    

In [None]:
# Selectionner les index qui contiennent la lettre "C"
df_grouped_bio.loc[df_grouped_bio.index.str.contains("C")]

In [None]:
df_grouped_bio_noidx = df_grouped_bio.reset_index()  # Cr√©er une copie du df avec l'index remis comme par d√©faut

df_grouped_bio_noidx.loc[df_grouped_bio_noidx["Name"].str.contains("C")]

### üí° Astuces

Le format CSV existe depuis tr√®s longtemps et sa simplicit√© le permet d'√™tre tr√®s souvent disponible comme format d'exportation de donn√©es dans plusieurs logiciels. Cependant, il est loin d'√™tre tr√®s efficace et pr√©sente beaucoup de d√©savantages: lecture lente d'une colonne sp√©cifique, pas de compression par d√©faut, faible support pour les caract√®res sp√©ciaux et l'h√©t√©rog√©n√©it√© des types de donn√©es. Pour une faible quantit√© de donn√©es, le format CSV reste tr√®s pratique, toutefois, si l'on manipule une grande quantit√© de donn√©es, il est recommand√© d'utiliser le format [Parquet](https://en.wikipedia.org/wiki/Apache_Parquet). C'est un format moderne et tr√®s performant qui permet de stocker des donn√©es en prenant 2-10x moins de place et avec une vitesse de lecture 10-100x plus rapide. Parquet est int√©gr√© √† Pandas et peut √™tre utilis√© avec les m√©thodes `pd.read_parquet()` et `df.to_parquet()`.

## <a name="ex3"><h2 align="center"> Exemple 3 - √âmissions √©coinvent </h2></a>


### üìù Contexte

Ecoinvent est une association √† but non lucratif qui met √† disposition des donn√©es de haute qualit√© reli√©es aux √©missions de divers proc√©d√©s industriels. √Ä partir de leur base de donn√©es, des donn√©es ont √©t√© extraites dans un fichier csv avec:

- Le ID du proc√©d√©
- Le nom de la particule √©mise
- Le num√©ro CAS de cette particule
- L'unit√© utilis√©e pour mesurer l'√©mission
- Le milieu d'√©mission
- Le sous-milieu d'√©mission 

√Ä partir de liste des num√©ros CAS uniques, les ratios massique pour chaque mol√©cule ont √©t√© extraites dans un autre fichier csv. Cette extraction a √©t√© possible grace aux librairies python open source: 

- [cirpy](https://github.com/mcs07/CIRpy) pour convertir le num√©ro CAS en repr√©sentation chimique.
- [chempy](https://github.com/bjodah/chempy) pour obtenir les compositions chimiques. 

Ce fichier contient donc une colonne avec le num√©ro CAS et 118 colonnes pour chaque √©l√©ment atomique et son ratio massique dans la mol√©cule.

### ‚≠ê Objectif

- Ouvrir ces fichiers xlsx comme `DataFrame`.
- Rejoindre les deux tableaux grace au num√©ro CAS.

### üíª Code

#### Partie 1

On commence par ouvrir les fichiers csv.

In [None]:
df_ecoinvent = pd.read_csv("data/ecoinvent.csv", sep=";")
df_chempy = pd.read_csv("data/chempy.csv", sep=";")

df_ecoinvent

In [None]:
pd.set_option("display.precision", 2)  # Pour une meilleure clart√©e on affiche le df avec 2 chiffres apr√®s la virgule

df_chempy

On remarque que le DataFrame `chempy` contient beaucoup de valeurs `NaN` qui correspondent √† des valeurs nulles. Pour √©viter d'avoir des erreurs lors d'un calcul de somme par exemple, il est pr√©f√©rable de remplacer les valeurs `NaN` par z√©ro.

Pour une manipulation plus optimale, la plupart des op√©rations sont effectu√©es `inplace=True` pour modifier le DataFrame directement sans cr√©er des copies inutiles. Cela est √©quivalent √† faire `df = df.<methode>`. 

In [None]:
# Remplacer toutes les valeurs nulles par 0
df_chempy.fillna(0, inplace=True)

df_chempy

G√©n√©ralement, lors de la manipulation de donn√©es tabulaire, il est souvent tr√®s possible d'√™tre en pr√©sence de lignes dupliqu√©es. On peut v√©rifier √ßa avec la m√©thode `.duplicated()` qui renvoie un masque binaire avec `True` pour les lignes dupliqu√©es en trop. Dans notre cas, cette m√©thode est √©valu√©e uniquement sur les lignes de la colonne "cas". 

In [None]:
filtre3 = df_chempy["cas"].duplicated()  # Trouver les lignes avec un CAS dupliqu√©
df_chempy.loc[filtre3, :].sort_values(by="cas")  # Appliquer le filtre et trier par ordre croissant du CAS

On voit donc qu'il y a 16 dupliqu√©es en trop dans le tableau. On peut les retirer du DataFrame avec la m√©thode `drop_duplicates()`. 

In [None]:
df_chempy.drop_duplicates(["cas"], inplace=True)

#### Partie 2

Pour calculer la quantit√© molaire par gramme de substance, on doit multiplier les fractions massiques par l'inverse de la masse molaire de l'√©l√©ment. Les masses molaires des √©l√©ments atomiques se trouvent dans un autre fichier csv: `table_periodique.csv`.

In [None]:
df_tbl_period = pd.read_csv("data/table_periodique.csv", sep=";")

df_tbl_period

L'op√©ration que l'on veut faire est principalement une multiplication matricitielle entre 2 matrices: A x B, sauf que ici on a des `DataFrame` plutot que des matrices. La particularit√© qui explique que l'utilisation d'un `DataFrame` est plus judicieuse, est que la multiplication matricielle est effectu√©e uniquement entre les m√™mes √©l√©ments atomiques. Pandas s'occupe de l'alignement entre les colonnes du df A et les index du df B. Cependant, avant d'effectuer la multiplication, il faut s'assurer que les deux df sont de dimensions compatibles c'est √† dire que le nombre de colonnes de A est √©gal au nombre de lignes de B.

On peut commencer par conditionner notre df B qui va contenir les masses molaires des √©l√©ments atomiques. On veut obtenir un df avec une seule colonne qui contient les masses molaires et les symboles des √©l√©ments comme index.

In [None]:
# Dans le df_tbl_period, isoler les lignes des √©l√©ments qui sont pr√©sents dans le df_chempy
df_tbl_period = df_tbl_period.loc[df_tbl_period["Symbol"].isin(df_chempy.columns[df_chempy.columns != "cas"]), :]

# Utiliser la colonne "Symbol" comme index
df_tbl_period.set_index("Symbol", inplace=True)

# Selectionner uniquement la colonne des masses atomiques et l'inverser pour compl√©ter la cr√©ation du df B
df_B = 1 / df_tbl_period["AtomicMass"]

df_B

Le df A n'est tout simplement que les colonnes des fractions massiques du `df_chempy`. 

In [None]:
df_A = df_chempy.loc[:, df_chempy.columns != "cas"]

df_A

Dans Pandas, les op√©rations matricielles utilisent les m√™mes symboles qu'avec Numpy, cela veut dire que pour la multiplication matricielle on utilise `@`.

In [None]:
# Cr√©er une nouvelle serie appel√©e qte avec le r√©sultat de la multiplication
series_mass = pd.Series(df_A @ df_B, name="mass")

series_mass

Enfin, on peut concat√©ner notre nouvelle serie √† `df_chempy`.

In [None]:
# Concatener le long des colonnes (axis=1)
df_chempy = pd.concat([df_chempy, series_mass], axis=1)

# On peut renommer une colonne avec la m√©thode df.rename
# -------------------------------------------------
#  On passe un dictionnaire avec comme cl√©s les anciens noms et comme valeurs les nouveaux noms de colonnes
df_chempy.rename(columns={"mass": "mol/g"}, inplace=True)

#### Partie 3

Rejoindre plusieurs tableaux de donn√©es est une autre op√©ration fondamentale dans la science des donn√©es. Pour des donn√©es de type relationnelles, comme celles que l'on a, des tableaux peuvent √™tre joints √† partir d'une ou plusieurs cl√©s communes entre les deux tables. Dans notre cas, la cl√© commune est le num√©ro CAS. 

Dans pandas, cette op√©ration se fait avec la m√©thode `.merge()`. Il existe plusieurs types de merge que l'on peut faire: `inner`, `outer`, `left` et `right`, une explication compl√®te avec des exemples est disponible [ici](https://learnsql.com/blog/sql-joins-types-explained/).

In [None]:
# Faire un merge de type "left" entre la df_ecoinvent (gauche) et la df_chempy (droite).
# -------------------------------------------------
# Explication: Cela veut dire que toutes les colonnes de df_chempy, sauf celle qui a servit de cl√© pour le merge, soit
#              la colonne "cas", sont annex√©es √† la df_ecoinvent pour former le nouveau df: df_merged
# Type "left": Chaque ligne du df_ecoinvent est associ√©e √† la ligne du df_chempy qui a le m√™me CAS et dans le cas ou le
#              CAS n'existe pas dans df_chempy, la ligne devient vide.
df_joined = pd.merge(
    df_ecoinvent,
    df_chempy,
    left_on="cas",
    right_on="cas",
    how="left",
)

df_joined

Pour retirer des lignes ou colonnes non voulues ou vides, Pandas met √† disposition les m√©thodes `df.drop()` et `df.dropna()`.

In [None]:
# Retirer les lignes avec un CAS sp√©cifique
df_joined.drop(index=df_joined.index[df_joined["cas"] == "001912-24-9"], inplace=True)

# Retirer une colonne
df_joined.drop(columns=["unit"], inplace=True)

# Retirer les lignes avec au moins une valeur nulle
df_joined.dropna(
    axis=0,  # lignes = 0, colonnes = 1
    how="any",  # 'any' ou 'all'
    thresh=None,  # Si 'any', nombre de valeurs n√©cessaires pour que la ligne soit supprim√©e
)

### üí° Astuces

- Lors de la manpulation des `DataFrame`, par souci de performance, il est important de comprendre l'ordre des op√©rations qui sont effectu√©es. G√©n√©ralement, il faut commencer par tout filtrage des donn√©es et retirer les lignes ou colonnes que l'on veut exclure avant de faire une op√©ration math√©matique.
- Dans la plupart des cas, les donn√©es utilis√©es d√©passent rarement le million de lignes. Cependant, dans le cas contraire, il faut commencer √† prendre en compte la taille des donn√©es et ce que √ßa implique en terme d'utilisation de la m√©moire. Tr√®s souvent cela consiste √† limiter le nombre de copies que l'on fait ainsi que adopter une structure de tableau plus compacte afin de diminuer sa taille. C'est un sujet un peu plus avanc√© mais tout de m√™me interessant √† savoir si on a l'intention de travailler avec du Big Data et construire des algorithmes qui roulent en temps r√©el par exemple.

## <a name="lexique"><h2 align="center"> Lexique </h2></a>

### üìö Terminologie

- `DataFrame` ou `df`: structure de donn√©es tabulaires en m√©moire qui permet de stocker et manipuler les colonnes et lignes de donn√©es.

### ‚úîÔ∏è Vu dans l'exemple 1

- `pd.DataFrame`: cr√©√© un DataFrame √† partir d'un objet Python comme une liste de dictionnaires ou un dictionnaire de listes.
- `df.shape`: renvoie la taille du DataFrame.
- `df.columns`: renvoie la liste des noms des colonnes.
- `df.index`: renvoie les index des lignes.
- `df.dtypes`: renvoie le type de donn√©es d'une colonne.
- `pd.Series`: cr√©√© une Series (colonne d'un df) √† partir d'une liste de donn√©es. 
- `pd.concat`: concat√®ne plusieurs DataFrames sur les lignes ou colonnes.
- `df.loc`: indexation de plusieurs lignes et colonnes par noms et avec des masques binaires.
- `df.iloc`: indexation par num√©ros de lignes et colonnes.
- `df.isin`: masque binaire qui renvoie `True` pour les lignes qui contiennent une valeur dans une liste de valeurs possibles.
- `df.sort_values`: trie les donn√©es par ordre croissant ou d√©croissant.
- `df.to_dict`: convertit un DataFrame en objet Python.
- `df.to_numpy`: convertit un DataFrame en matrice NumPy.

### ‚úîÔ∏è Vu dans l'exemple 2

- `pd.read_csv`: lit un fichier CSV et renvoie un DataFrame.
- `df.groupby`: groupe les lignes d'un DataFrame par une ou des colonnes.
- `df.agg`: sp√©cifie la m√©thode d'aggregation lors d'un groupby.
- `df.rename`: renomme les colonnes d'un DataFrame.
- `df.str.contains`: renvoie un masque binaire pour chaque ligne qui contient un ou plusieurs mots.
- `df.reset_index`: remet les index √† la valeur par d√©faut.

### ‚úîÔ∏è Vu dans l'exemple 3

- `df.fillna`: remplace les valeurs nulles par une valeur.
- `df.duplicated`: renvoie un masque binaire pour les lignes qui sont dupliqu√©es.
- `df.drop_duplicates`: retire les lignes dupliqu√©es.
- `df.set_index`: d√©finit la cl√© primaire d'un DataFrame.
- `df.merge`: joint deux DataFrames en fonction d'une cl√© commune.
- `df.dropna`: retire les lignes ou colonnes qui contiennent des valeurs nulles.
- `df.drop`: retire les lignes/colonnes sp√©cifi√©es d'un DataFrame.