# <h1 align="center"> THEME 4 - Données tabulaires </h1>

### 🎯 Objectifs

- Manipuler des données tabulaires
- Effectuer de l'analyse statistique

### 📚 Notions 

- [Exemple 1](#ex1):
    - Créer un Dataframe à partir d'un dictionnaire
    - Concaténer des données
    - Indexer des données
    - Filtrer les données par masque binaire
    - Trier des colonnes numériques
- [Exemple 2](#ex2):
    - Ouvrir un fichier de données (CSV, etc...) et créer un Dataframe
    - Groupy et agrégation de données
    - Renommer des colonnes
    - Filtrer des colonnes textuelles par mots clés
- [Exemple 3](#ex3):
    - Retirer et remplacer des valeurs nulles
    - Detecter et retirer des lignes dupliquées
    - Créer un index à partir d'une colonne
    - Effectuer des opérations matricielles
    - Joindre deux Dataframes en fonction d'une clé commune
    - Retirer des lignes et colonnes

Un [lexique](#lexique) avec l'ensemble des fonctions qui ont été vues est disponible à la fin du notebook.

### 🧰 Librairies

- **Pandas**: est une librairie libre-source Python largement utilisée dans la science des données, l'analyse des données et l'apprentissage machine. Il est construit au-dessus de la librairie Numpy ce qui lui offre une interface similaire et permet l'interopérabilité avec des fonctions numpy.

### 🔗 Référence

- [Référence API Pandas](https://pandas.pydata.org/docs/reference/index.html)

### ⚙️ Installation

`pip install pandas`

## <a name="ex1"><h2 align="center"> Exemple 1 - Fleurs Iris </h2></a>

### 📝 Contexte

L'Iris est un genre de plantes vivaces de la famille des Iridacées. Il existe une large variété d'espèces que l'on retrouve au Québec. L'Iris Versicolor est d'ailleurs l'un des emblèmes officiels du Québec et se retrouve sur son drapeau.

<center> <img width=400px src="assets/iris.jpg" /> </center>


La fleur peut être violette, bleue ou pourpre et plus rarement blanche. Elle est constituée de trois pétales minces et relevées disposées à l'intérieur de la fleur et de trois sépales plus longues et plus larges en forme de spatule et situées à l'extérieur. 

### ⭐ Objectif

- Créer un jeu de données à partir d'un dictionnaire Python contenant les données de fleurs d'iris.
- Indexer et filtrer les données.

### 💻 Code

Un `DataFrame` est une structure de données tabulaires qui permet de stocker et manipuler des données de façon intuitive. Les données tabulaires sont organisées sous plusieurs colonnes avec plusieurs entrées qui forment des lignes. Dans Pandas, une colonne de données est aussi appelée une `Series`.

Il y a aussi la possibilité de créer un index. Grossièrement, un index est une colonne spéciale qui contient les identifiants des lignes. Par défaut, si on ne spécifie pas un index lors de la création d'un `DataFrame`, celui-ci est créé automatiquement et correspond au numéro de ligne. Ce numéro est associé directement à une ligne, cela veut dire que si on trie une colonne du `DataFrame`, l'index sera aussi trié.

La façon la plus simple de créer un `DataFrame` est de partir d'un objet Python. La nature de cet objet change en fonction du format des données:

- *Données colonnes*: L'objet est un dictionnaire où les clés sont les noms des colonnes, et où les valeurs sont des listes de même taille qui vont constituer les colonnes. C'est le format qui sera utilisé dans cet exemple.
- *Données lignes*: L'objet est une liste de dictionnaires, où chaque dictionnaire ont les mêmes clés et possède une seule valeur par clé.

Ces deux formats sont interchangeables en fonction de l'application et ont chacun des forces et faiblesses. 

In [None]:
import pandas as pd
import numpy as np
import pprint as pp  # Pretty Print un objet Python comme un dictionnaire

# Création d'un DataFrame (df) à partir d'un dictionnaire Python
# ---------------------------------------------------------------
# Pour créer un DataFrame à partir d'un dictionnaire, les clés doivent contenir des listes de données, si une seule
# valeur est associée à une clé, la valeur est dupliquée pour chaque ligne du DataFrame (ici c'est le cas pour Location)
df_iris = pd.DataFrame(
    {
        "Date": pd.to_datetime("2022-06-15"),  # Conversion d'un texte en date
        "Location": "Canada",  # Colonne location avec une valeur qui sera repétée
        "Espèce": ["Versicolor", "Setosa", "Setosa", "Virginica"],  # Liste python de mots
        "Petale_long": [5.1, 1.5, 1.6, 5.5],  # Liste python de nombres
        "Petale_larg": np.array([1.2, 0.2, 0.3, 2.1]),  # Numpy array
    },
    index=["fleur_0", "fleur_1", "fleur_2", "fleur_3"],  # Définir l'index (facultatif)
)

# Afficher le df (fonctionne seulement sur un notebook jupyter)
df_iris

Une fois le `DataFrame` créé, il est possible d'obtenir des informations sur son contenu.

In [None]:
print(df_iris.shape)  # Forme du df (lignes, colonnes)
print(df_iris.columns)  # Liste des colonnes du df
print(df_iris.index)  # Liste des index du df
print(df_iris.dtypes["Petale_long"])  # Type de données d'une colonne

Une fois un `DataFrame` créé, il est possible d'y ajouter des lignes ou colonnes avec la méthode `pd.concat()`. Cette méthode prend en paramètre une liste de `DataFrame` à concatener sur un axe. Dans le cas d'une simple concatenation d'une seule colonne, on peut passer en argument une `Series` également. 

In [None]:
# Concater une nouvelle fleur dans le tableau
# ---------------------------------------------------------------
# Création du df qui contient les infos de la nouvelle fleur
df_iris_0 = pd.DataFrame(
    {
        "Date": pd.to_datetime("2020-01-23"),
        "Location": "Malte",
        "Espèce": "Pseudacorus",
        "Petale_long": 5.4,
        "Petale_larg": 2.2,
    },
    index=["fleur_4"],
)

df_iris = pd.concat([df_iris, df_iris_0], axis=0)  # Concaténation sur les lignes

df_iris

In [None]:
# Ajouter une nouvelle colonne pour la couleur
# ---------------------------------------------------------------
# Créer une Serie avec la liste des couleurs (même taile que le nb de lignes de df_iris)
series_color = pd.Series(
    ["Violet", "Violet", "Violet", "Violet", "Jaune"],  # Données de la colonne
    name="Couleur",  # Nom de la colonne/Série
    index=df_iris.index,  # Définir l'index, ici nécéssaire pour la concaténation
)

df_iris = pd.concat([df_iris, series_color], axis=1)  # Concaténation sur les colonnes

df_iris

L'indexation des données dans pandas est assez délicate puisqu'il existe 3 formes d'indexation.

- Indexation directe des colonnes: `df[<nom_col>]` ou `df[[<nom_col1>, <nom_col2>, ...]]`. Permet de selectionner l'entièreté d'une ou plusieurs colonnes.

In [None]:
df_iris["Espèce"]  # Selectionner une colonne (retourne une Série)

- Avec `df.loc[<index ou liste>, <nom_colonne ou liste>]`. Utile pour indexer une ou plusieurs colonnes avec un index particulier.

In [None]:
df_iris.loc["fleur_0", "Espèce"]  # Espèce de la fleur_0

In [None]:
df_iris.loc[:, ["Petale_long", "Petale_larg"]]  # Toutes les lignes des colonnes "Petale_long" et "Petale_larg"

- Avec `df.iloc[<no_ligne>, <no_colonne>]`. Similaire à `.loc` mais utilise **uniquement** des indices numériques. Cette méthode est similaire à l'indexation d'une matrice dans Numpy (vu dans le Thème 2).

In [None]:
df_iris.iloc[0, -1]  # Selectionner la première ligne de la dernière colonne

In [None]:
df_iris.iloc[:3, -2:]  # Selectionner les 3 premières lignes des 2 dernières colonnes

On utilise un `DataFrame` généralement lorsque l'on veut analyser un sous-ensemble de données avec une caractéristique particulière. Cette caractéristique peut être isolée en filtrant les données. L'une des méthodes est l'utilisation de masques binaires, similaires à ceux employés avec les Numpy arrays.

In [None]:
filtre = df_iris["Espèce"] == "Setosa"  # Masque binaire issu de l'évaluation de la condition "Espèce" == "Setosa"
filtre

In [None]:
df_iris.index[filtre]  # Voir les index des lignes qui respectent le masque binaire

In [None]:
df_iris.loc[filtre, :]  # Appliquer le masque au df

In [None]:
# Prendre les iris avec une largeur de petale supérieure à 1 ET une longueur de petale inférieure à 5.2, et selectionner
# uniquement les colonnes "Espèce", "Petale_long" et "Petale_larg"
# ----------------------------------------------------------------------------------------------------------------------
# Rappel: ET = &, OU = |
# Attention: ne pas oublier les parenthèses entre chaque masque binaire
filtre2 = (df_iris["Petale_larg"] > 1) & (df_iris["Petale_long"] < 5.2)
df_iris.loc[filtre2, ["Espèce", "Petale_long", "Petale_larg"]]

Plutôt que d'enchaîner plusieurs masques binaires pour évaluer plusieurs égalités, on peut utiliser `.isin` pour isoler les lignes d'une colonne qui contiennent l'une des valeurs possibles d'une liste.

In [None]:
df_iris.loc[
    df_iris["Espèce"].isin(["Setosa", "Virginica"]), :
]  # Selectionner les iris de type "Setosa" ou "Versicolor"

On peut aussi trier les données avec une ou plusieurs colonnes grâce à `sort_values`.

In [None]:
# Trier le tableau par les valeurs de la colonne "Petale_long" en ordre décroissant
df_iris.sort_values(by="Petale_long", ascending=False)

In [None]:
# Trier le tableau par les valeurs des colonnes "Petale_long" et "Petale_larg" en ordre croissant
df_iris.sort_values(by=["Petale_long", "Petale_larg"])

Pour calculer la surface rectangulaire occupée par une pétale, on peut utiliser une fonction Lambda. Cette fonction permet d'évaluer une expression mathématique sur chaque ligne du DataFrame. Avec la fonction `df.assign(<nom_col> = lambda x: <expression x>)` on ajoute une colonne qui contient la valeur calculée pour la ligne `x` par la fonction Lambda.

In [None]:
df_iris = df_iris.assign(Aire=lambda x: x["Petale_long"] * x["Petale_larg"])
df_iris

Une fois que les opérations sont complétés sur le `DataFrame`, il est simple de le convertir en dictionnaire avec la méthode `to_dict()` pour l'exporter par exemple. 

In [None]:
# Selectionner les fleurs de type "Setosa" et "Versicolor" et les trier par ordre croissant de largeur de pétale
new_df = df_iris.loc[df_iris["Espèce"].isin(["Setosa", "Versicolor"]), :].sort_values(by="Petale_larg")

df_dict = new_df.to_dict("list")  # "List" pour format colonne et "records" pour format ligne

pp.pprint(df_dict)  # Afficher le dictionnaire résultant (eq. à print(df_dict) mais plus lisible)

Pour des opérations matricielles, on peut aussi utiliser la méthode `to_numpy()` pour convertir des colonnes du DataFrame en matrice Numpy.

In [None]:
mat_petales = df_iris.loc[:, ["Petale_long", "Petale_larg"]].to_numpy()
print(mat_petales)

## <a name="ex2"><h2 align="center"> Exemple 2 - Transestérification du canola en biodiesel </h2></a>

### 📝 Contexte
La transestérification est une réaction catalytique permettant la production de biodiesel (sous forme d'esters méthyliques) à partir d'huile végétale et de méthanol. Dans cet exemple, l'huile végétale utilisée est le canola et la réaction est la suivante:

<center>
<img width=500px src="assets/reaction_biodiesel.png" />
</center>

Les triglycérides du canola réagissent avec l'alcool et produisent du biodiesel et du glycérol. Une chromatographie est effectuée à la suite de la réaction pour analyser son contenu chimique.

<center>
<img width=500px src="assets/chromato_biodiesel.png" />
</center>

Enfin, une analyse numérique dans le logiciel de chromatographie permet d'extraire les données des pics les plus importants. 

### ⭐ Objectif

Faire la synthèse des données expérimentales grâce à une agrégation.

### 💻 Code

Les données que l'on analyse sont habituellement stockées sur un disque dans un fichier. Il existe une multitude de formats qui existent et les plus utilisés sont: `CSV`, `JSON`, `IPC`, `HDF5` et `Parquet`. 

Dans Pandas, il y a [plusieurs](https://pandas.pydata.org/docs/reference/io.html) fonctions qui permettent d'ouvrir ces fichiers et de les convertir facilement en `DataFrame`. 

Pour ouvrir un fichier, la méthode est de la forme `pd.read_<format>(<fichier>)` et pour enregistrer un `DataFrame` dans un fichier, la méthode est de la forme `df.to_<format>(<fichier>)`.

Pour cet exemple, on utilise le format de base: `CSV`. 

In [None]:
# Lecture du fichier CSV avec un séparateur ";"
df_bio = pd.read_csv("data/biodiesel.csv", sep=";")

df_bio

Dans la science des données, l'un des outils fondamentaux est l'agrégation de données qui permet de regrouper les données appartenant à un même sous-groupe et en tirer plus facilement des résultats numériques. 

Avec pandas, cela se fait avec la méthode `groupby` pour regrouper les données sur une ou plusieurs colonnes et `agg` pour spécifier la méthode d'agrégation employée, très souvent sur les données numériques. Après l'agrégation, une bonne pratique est de renommer les colonnes pour mieux représenter les nouvelles colonnes, avec pandas on peut faire cela avec la méthode `rename`.

Les opérations d'agrégation possibles sont:

<a name="operations"></a>
| Opération        | Description              |
| ---------------- | ------------------------ |
| `mean`, `median` | Moyenne, Médiane         |
| `count`          | Nombre d'éléments        |
| `first`, `last`  | Premier, Dernier élément |
| `std`, `var`     | Ecart-type, Variance     |
| `min`, `max`     | Minimum, Maximum         |
| `sum`, `prod`    | Somme, Produit           |

Ces opérations peuvent être aussi directement utilisées sur un df (ou sur certaines lignes/colonnes) comme par exemple `df.mean(axis=1)` pour calculer la moyenne de chaque ligne.

In [None]:
# Les colonnes sont renommées en utilisant un dictionnaire où les clés sont les anciens noms et les valeurs sont
# les nouveaux noms
new_col = {"Time": "Avg Time", "Area": "Total Area"}

# Manipulation du df
# -------------------------------------------------
# Les étapes peuvent être également écrites sur une seule ligne
df_grouped_bio = (
    df_bio.groupby("Name", as_index=True)  # Regrouper les lignes par "Name", avec le nom comme index (facultatif)
    .agg({"Time": "mean", "Area": "sum"})  # Spécifier l'opération d'aggregation sur les colonnes non-regroupées
    .rename(columns=new_col)  # Renommer les colonnes
)

df_grouped_bio

Pour pouvoir filtrer les lignes qui correspondent à une molécule de biodiesel, on peut utiliser `df[<nom_col>].str.contains(<critère>)` sur une colonne ou `df.index.str.contains(<critère>)` sur un index de texte pour isoler les lignes qui contiennent une sous-chaine de charactères. Dans notre cas, on remarque que les molécules de biodiesel contiennent un "C", ce sera donc le critère choisi.    

In [None]:
# Selectionner les index qui contiennent la lettre "C"
df_grouped_bio.loc[df_grouped_bio.index.str.contains("C")]

In [None]:
df_grouped_bio_noidx = df_grouped_bio.reset_index()  # Créer une copie du df avec l'index remis comme par défaut

df_grouped_bio_noidx.loc[df_grouped_bio_noidx["Name"].str.contains("C")]

### 💡 Astuces

Le format CSV existe depuis très longtemps et sa simplicité lui permet d'être très souvent disponible comme format d'exportation de données dans plusieurs logiciels. Cependant, il est loin d'être très efficace et présente beaucoup de désavantages: lecture lente d'une colonne spécifique, pas de compression par défaut, faible support pour les caractères spéciaux et l'hétérogénéité des types de données. Pour une faible quantité de données, le format CSV reste très pratique, toutefois, si l'on manipule une grande quantité de données, il est recommandé d'utiliser le format [Parquet](https://en.wikipedia.org/wiki/Apache_Parquet). C'est un format moderne et très performant qui permet de stocker des données en prenant 2 à 10 fois moins de place et avec une vitesse de lecture 10 à 100 fois plus rapide. Parquet est intégré à Pandas et peut être utilisé avec les méthodes `pd.read_parquet()` et `df.to_parquet()`.

## <a name="ex3"><h2 align="center"> Exemple 3 - Émissions écoinvent </h2></a>


### 📝 Contexte

Ecoinvent est une association à but non lucratif qui met à disposition des données de haute qualité reliées aux émissions de divers procédés industriels. À partir de leur base de données, des données ont été extraites dans un fichier csv avec:

- Le ID du procédé
- Le nom de la particule émise
- Le numéro CAS de cette particule
- L'unité utilisée pour mesurer l'émission
- Le milieu d'émission
- Le sous-milieu d'émission 

À partir d'une liste des numéros CAS uniques, les ratios massique pour chaque molécule ont été extraites dans un autre fichier csv. Cette extraction a été possible grâce aux librairies python open source: 

- [cirpy](https://github.com/mcs07/CIRpy) pour convertir le numéro CAS en représentation chimique.
- [chempy](https://github.com/bjodah/chempy) pour obtenir les compositions chimiques. 

Ce fichier contient donc une colonne avec le numéro CAS et 118 colonnes pour chaque élément atomique et son ratio massique dans la molécule.

### ⭐ Objectif

- Ouvrir ces fichiers xlsx comme `DataFrame`.
- Rejoindre les deux tableaux grâce au numéro CAS.

### 💻 Code

#### Partie 1

On commence par ouvrir les fichiers csv.

In [None]:
df_ecoinvent = pd.read_csv("data/ecoinvent.csv", sep=";")
df_chempy = pd.read_csv("data/chempy.csv", sep=";")

df_ecoinvent

In [None]:
pd.set_option("display.precision", 2)  # Pour une meilleure clartée on affiche le df avec 2 chiffres après la virgule

df_chempy

On remarque que le DataFrame `chempy` contient beaucoup de valeurs `NaN` qui correspondent à des valeurs nulles. Pour éviter d'avoir des erreurs lors d'un calcul de somme par exemple, il est préférable de remplacer les valeurs `NaN` par zéro.

Pour une manipulation plus optimale, la plupart des opérations sont effectuées `inplace=True` pour modifier le DataFrame directement sans créer des copies inutiles. Cela est équivalent à faire `df = df.<methode>`. 

In [None]:
# Remplacer toutes les valeurs nulles par 0
df_chempy.fillna(0, inplace=True)

df_chempy

Généralement, lors de la manipulation de données tabulaires, il est souvent très possible d'être en présence de lignes dupliquées. On peut vérifier ça avec la méthode `.duplicated()` qui renvoie un masque binaire avec `True` pour les lignes dupliquées en trop. Dans notre cas, cette méthode est évaluée uniquement sur les lignes de la colonne "cas". 

In [None]:
filtre3 = df_chempy["cas"].duplicated()  # Trouver les lignes avec un CAS dupliqué
df_chempy.loc[filtre3, :].sort_values(by="cas")  # Appliquer le filtre et trier par ordre croissant du CAS

On voit donc qu'il y a 16 dupliquées en trop dans le tableau. On peut les retirer du DataFrame avec la méthode `drop_duplicates()`. 

In [None]:
df_chempy.drop_duplicates(["cas"], inplace=True)

#### Partie 2

Pour calculer la quantité molaire par gramme de substance, on doit multiplier les fractions massiques de chaque élément par l'inverse de leur masse molaire respective, puis additionner les résultats. Les masses molaires des éléments atomiques se trouvent dans un autre fichier csv: `table_periodique.csv`.

In [None]:
df_tbl_period = pd.read_csv("data/table_periodique.csv", sep=";")

df_tbl_period

L'opération que l'on veut faire est principalement une multiplication matricielle entre 2 matrices: A x B, sauf qu'ici on a des `DataFrame` plutôt que des matrices. La particularité qui explique que l'utilisation d'un `DataFrame` est plus judicieuse, est que la multiplication matricielle est effectuée uniquement entre les mêmes éléments atomiques. Pandas s'occupe de l'alignement entre les colonnes du df A et les index du df B. Cependant, avant d'effectuer la multiplication, il faut s'assurer que les deux df sont de dimensions compatibles c'est à dire que le nombre de colonnes de A est égal au nombre de lignes de B.

On peut commencer par conditionner notre df B qui va contenir les masses molaires des éléments atomiques. On veut obtenir un df avec une seule colonne qui contient les masses molaires et les symboles des éléments comme index.

In [None]:
# Dans le df_tbl_period, isoler les lignes des éléments qui sont présents dans le df_chempy
df_tbl_period = df_tbl_period.loc[df_tbl_period["Symbol"].isin(df_chempy.columns[df_chempy.columns != "cas"]), :]

# Utiliser la colonne "Symbol" comme index
df_tbl_period.set_index("Symbol", inplace=True)

# Selectionner uniquement la colonne des masses atomiques et l'inverser pour compléter la création du df B
df_B = 1 / df_tbl_period["AtomicMass"]

df_B

Le df A n'est tout simplement que les colonnes des fractions massiques du `df_chempy`. 

In [None]:
df_A = df_chempy.loc[:, df_chempy.columns != "cas"]

df_A

Dans Pandas, les opérations matricielles utilisent les mêmes symboles qu'avec Numpy, cela veut dire que pour la multiplication matricielle on utilise `@`.

In [None]:
# Créer une nouvelle serie appelée qte avec le résultat de la multiplication
series_mass = pd.Series(df_A @ df_B, name="mass")

series_mass

Enfin, on peut concaténer notre nouvelle serie à `df_chempy`.

In [None]:
# Concatener le long des colonnes (axis=1)
df_chempy = pd.concat([df_chempy, series_mass], axis=1)

# On peut renommer une colonne avec la méthode df.rename
# -------------------------------------------------
#  On passe un dictionnaire avec comme clés les anciens noms et comme valeurs les nouveaux noms de colonnes
df_chempy.rename(columns={"mass": "mol/g"}, inplace=True)

#### Partie 3

Rejoindre plusieurs tableaux de données est une autre opération fondamentale dans la science des données. Pour des données de type relationnelles, comme celles que l'on a, des tableaux peuvent être joints à partir d'une ou plusieurs clés communes entre les deux tables. Dans notre cas, la clé commune est le numéro CAS. 

Dans pandas, cette opération se fait avec la méthode `.merge()`. Il existe plusieurs types de merge que l'on peut faire: `inner`, `outer`, `left` et `right`, une explication complète avec des exemples est disponible [ici](https://learnsql.com/blog/sql-joins-types-explained/).

In [None]:
# Faire un merge de type "left" entre la df_ecoinvent (gauche) et la df_chempy (droite).
# -------------------------------------------------
# Explication: Cela veut dire que toutes les colonnes de df_chempy, sauf celle qui a servi de clé pour le merge, soit
#              la colonne "cas", sont annexées à la df_ecoinvent pour former le nouveau df: df_merged
# Type "left": Chaque ligne du df_ecoinvent est associée à la ligne du df_chempy qui a le même CAS et dans le cas ou le
#              CAS n'existe pas dans df_chempy, la ligne devient vide.
df_joined = pd.merge(
    df_ecoinvent,
    df_chempy,
    left_on="cas",
    right_on="cas",
    how="left",
)

df_joined

Pour retirer des lignes ou colonnes non désirées ou vides, Pandas met à disposition les méthodes `df.drop()` et `df.dropna()`.

In [None]:
# Retirer les lignes avec un CAS spécifique
df_joined.drop(index=df_joined.index[df_joined["cas"] == "001912-24-9"], inplace=True)

# Retirer une colonne
df_joined.drop(columns=["unit"], inplace=True)

# Retirer les lignes avec au moins une valeur nulle
df_joined.dropna(
    axis=0,  # lignes = 0, colonnes = 1
    how="any",  # 'any' ou 'all'
    thresh=None,  # Si 'any', nombre de valeurs nécessaires pour que la ligne soit supprimée
)

### 💡 Astuces

- Lors de la manpulation des `DataFrame`, par souci de performance, il est important de comprendre l'ordre des opérations qui sont effectuées. Généralement, il faut commencer par tout filtrage des données et retirer les lignes ou colonnes que l'on veut exclure avant de faire une opération mathématique.
- Dans la plupart des cas, les données utilisées dépassent rarement le million de lignes. Cependant, dans le cas contraire, il faut commencer à prendre en compte la taille des données et ce que ça implique en terme d'utilisation de la mémoire. Très souvent cela consiste à limiter le nombre de copies que l'on fait et à adopter une structure de tableau plus compacte afin de diminuer sa taille. C'est un sujet un peu plus avancé mais tout de même interessant à savoir si on a l'intention de travailler avec du Big Data et construire des algorithmes qui roulent en temps réel par exemple.

## <a name="lexique"><h2 align="center"> Lexique </h2></a>

### 📚 Terminologie

- `DataFrame` ou `df`: structure de données tabulaires en mémoire qui permet de stocker et manipuler les colonnes et lignes de données.

### ✔️ Vu dans l'exemple 1

- `pd.DataFrame`: créé un DataFrame à partir d'un objet Python comme une liste de dictionnaires ou un dictionnaire de listes.
- `df.shape`: renvoie la taille du DataFrame.
- `df.columns`: renvoie la liste des noms des colonnes.
- `df.index`: renvoie les index des lignes.
- `df.dtypes`: renvoie le type de données d'une colonne.
- `pd.Series`: créé une Series (colonne d'un df) à partir d'une liste de données. 
- `pd.concat`: concatène plusieurs DataFrames sur les lignes ou colonnes.
- `df.loc`: indexation de plusieurs lignes et colonnes par noms et avec des masques binaires.
- `df.iloc`: indexation par numéros de lignes et colonnes.
- `df.isin`: masque binaire qui renvoie `True` pour les lignes qui contiennent une valeur dans une liste de valeurs possibles.
- `df.sort_values`: trie les données par ordre croissant ou décroissant.
- `df.to_dict`: convertit un DataFrame en objet Python.
- `df.to_numpy`: convertit un DataFrame en matrice NumPy.

### ✔️ Vu dans l'exemple 2

- `pd.read_csv`: lit un fichier CSV et renvoie un DataFrame.
- `df.groupby`: groupe les lignes d'un DataFrame par une ou des colonnes.
- `df.agg`: spécifie la méthode d'aggregation lors d'un groupby.
- `df.rename`: renomme les colonnes d'un DataFrame.
- `df.str.contains`: renvoie un masque binaire pour chaque ligne qui contient un ou plusieurs mots.
- `df.reset_index`: remet les index à la valeur par défaut.

### ✔️ Vu dans l'exemple 3

- `df.fillna`: remplace les valeurs nulles par une valeur.
- `df.duplicated`: renvoie un masque binaire pour les lignes qui sont dupliquées.
- `df.drop_duplicates`: retire les lignes dupliquées.
- `df.set_index`: définit la clé primaire d'un DataFrame.
- `df.merge`: joint deux DataFrames en fonction d'une clé commune.
- `df.dropna`: retire les lignes ou colonnes qui contiennent des valeurs nulles.
- `df.drop`: retire les lignes/colonnes spécifiées d'un DataFrame.