# <h1 align="center"> THEME 4 - Donn√©es tabulaires </h1>

### üéØ Objectifs

- Manipuler des donn√©es tabulaires
- Effectuer de l'analyse statistique

### üìö Notions 

- [Exemple 1](#ex1):
    - Cr√©er un Dataframe √† partir d'un dictionnaire
    - Indexer des donn√©es
    - Filtrer les donn√©es par masque binaire
    - Trier des colonnes num√©riques
- [Exemple 2](#ex2):
    - Ouvrir un fichier de donn√©es (CSV, etc...) et cr√©er un Dataframe
    - Groupy et aggregation de donn√©es
    - Renommer des colonnes
    - Filtrer des colonnes textuelles par mots cl√©s
- [Exemple 3](#ex3):
    - Retirer et remplacer des valeurs nulles
    - Detecter et retirer des lignes dupliqu√©es
    - Cr√©er un index √† partir d'une colonne
    - Joindre deux Dataframes en fonction d'une cl√© commune

Un [lexique](#lexique) avec l'ensemble des fonctions qui ont √©t√© vues est disponible √† la fin du notebook.

### üß∞ Librairies

- **Pandas**: est une librairie libre-source Python largement utilis√©e dans la science des donn√©es, l'analyse des donn√©es et l'apprentissage machine. Il est construit au-dessus de la librairie Numpy ce qui lui offre une interface similaire et permet l'interop√©rabilit√© avec des fonctions numpy.

### üîó R√©f√©rence

- [Documentation Polars](https://pola-rs.github.io/polars/py-polars/html/reference/)

### ‚öôÔ∏è Installation

`pip install pandas`

## <a name="ex1"><h2 align="center"> Exemple 1 - Fleurs Iris </h2></a>

### üìù Contexte

L'Iris est un genre de plantes vivaces de la famille des Iridac√©es. Il existe une large vari√©t√© d'esp√®ces que l'on retrouve au Qu√©bec. L'Iris Versicolor est d'ailleur l'un des embl√®mes officiels du Quebec et se trouve le drapeau.

<center> <img width=400px src="assets/iris.jpg" /> </center>


La fleur peut √™tre violette, bleue ou pourpre et plus rarement blanche. Elle est constitu√©e de trois p√©tales minces et relev√©s dispos√©s √† l'int√©rieur de la fleur et de trois s√©pales plus longs et plus larges en forme de spatule et situ√©s √† l'ext√©rieur. 

### ‚≠ê Objectif

- Cr√©er un jeu de donn√©es √† partir d'un dictionnaire Python contenant les donn√©es de fleurs d'iris.
- Indexer et filtrer les donn√©es.

### üíª Code

Un `DataFrame` est une structure de donn√©es tabulaires qui permet de stocker et manipuler des donn√©es de fa√ßon intuitive. Les donn√©es tabulaires sont organis√©es sous forme de lignes avec des colonnes communes. 

La fa√ßon la plus simple de cr√©er un `DataFrame` est de partir d'un objet Python. La nature de cet objet change en fonction du format des donn√©es:

- Donn√©es colonnes: L'objet est un dictionnaire o√π les cl√©s sont les noms des colonnes, et o√π les valeurs sont des listes de m√™me taille qui vont constituer les colonnes. C'est le format qui sera utilis√© dans cet exemple.
- Donn√©es lignes: L'objet est une liste de dictionnaires, o√π chaque dictionnaire ont les m√™mes cl√©s et poss√®de une seule valeur par cl√©.

Ces deux formats sont interchangeables en fonction de l'application et ont chacun des forces et faiblesses. 

In [34]:
import pandas as pd
import numpy as np
import pprint as pp

# Cr√©ation d'un DataFrame (df) √† partir d'un dict
df_iris = pd.DataFrame(
    {
        "Date": pd.to_datetime("2022-06-15"),  # Conversion d'un texte en date
        "Location": "Quebec",  # Colonne location avec une valeur qui sera rep√©t√©e
        "Esp√®ce": ["Versicolor", "Versicolor", "Setosa", "Setosa", "Virginica"],  # Liste python de mots
        "Petale_long": [5.1, 4.7, 1.5, 1.6, 5.5],  # Liste python de nombres
        "Petale_larg": np.array([1.2, 1.2, 0.2, 0.3, 2.1]),  # Numpy array
    },
    index=["fleur_0", "fleur_1", "fleur_2", "fleur_3", "fleur_4"],
)

# Afficher le df
df_iris

Unnamed: 0,Date,Location,Esp√®ce,Petale_long,Petale_larg
fleur_0,2022-06-15,Quebec,Versicolor,5.1,1.2
fleur_1,2022-06-15,Quebec,Versicolor,4.7,1.2
fleur_2,2022-06-15,Quebec,Setosa,1.5,0.2
fleur_3,2022-06-15,Quebec,Setosa,1.6,0.3
fleur_4,2022-06-15,Quebec,Virginica,5.5,2.1


Une fois le `DataFrame` cr√©√©, il est possible d'obtenir des informations sur ses colonnes.

In [35]:
print(df_iris.shape)  # Forme du df (lignes, colonnes)
print(df_iris.columns)  # Liste des colonnes du df
print(df_iris.dtypes["Petale_long"])  # Type de donn√©es d'une colonne

(5, 5)
Index(['Date', 'Location', 'Esp√®ce', 'Petale_long', 'Petale_larg'], dtype='object')
float64


L'indexation des donn√©es dans pandas est assez d√©licate puisqu'il existe 3 forme d'indexation:

- Directe des colonnes: `df[<nom_colonne>]`. Utile pour selectionner **une seule** colonne et pour de la filtration. 

In [36]:
df_iris["Esp√®ce"]  # Selectionner une colonne

fleur_0    Versicolor
fleur_1    Versicolor
fleur_2        Setosa
fleur_3        Setosa
fleur_4     Virginica
Name: Esp√®ce, dtype: object

- Avec `df.loc[<no_ligne>, <nom_colonne>]`. Utile pour selectionner **plusieurs** colonnes et lignes en m√™me temps.

In [37]:
df_iris.loc["fleur_0", "Esp√®ce"]  # Selectionner la premi√®re ligne de la colonne "Esp√®ce"

'Versicolor'

In [38]:
df_iris.loc[
    :, ["Petale_long", "Petale_larg"]
]  # Selectionner toutes les lignes des colonnes "Petale_long" et "Petale_larg"

Unnamed: 0,Petale_long,Petale_larg
fleur_0,5.1,1.2
fleur_1,4.7,1.2
fleur_2,1.5,0.2
fleur_3,1.6,0.3
fleur_4,5.5,2.1


- Avec `df.iloc[<no_ligne>, <no_colonne>]`. Similaire √† `.loc` mais utilise **uniquement** des indices num√©riques. Cette m√©thode est similaire √† l'indexation d'une matrice dans Numpy.

In [39]:
df_iris.iloc[0, -1]  # Selectionner la premi√®re ligne de la derni√®re colonne

1.2

In [40]:
df_iris.iloc[:3, -2:]  # Selectionner les 3 premi√®res lignes des 2 derni√®res colonnes

Unnamed: 0,Petale_long,Petale_larg
fleur_0,5.1,1.2
fleur_1,4.7,1.2
fleur_2,1.5,0.2


On utilise un `DataFrame` g√©n√©ralement lorsque l'on veut analyser un sous-ensemble de donn√©es avec une caract√©ristique particuli√®re. Cette caract√©ristique peut √™tre isol√©e en filtrant les donn√©es. L'une des m√©thodes est l'utilisation de masques binaires, similaires √† ceux employ√©s avec les Numpy arrays.

In [41]:
filtre = df_iris["Esp√®ce"] == "Setosa"
filtre

fleur_0    False
fleur_1    False
fleur_2     True
fleur_3     True
fleur_4    False
Name: Esp√®ce, dtype: bool

In [42]:
df_iris.loc[filtre]

Unnamed: 0,Date,Location,Esp√®ce,Petale_long,Petale_larg
fleur_2,2022-06-15,Quebec,Setosa,1.5,0.2
fleur_3,2022-06-15,Quebec,Setosa,1.6,0.3


In [43]:
# Prendre les iris avec une largeur de petale sup√©rieure √† 1 et une longueur de petale inf√©rieure √† 5.2, et selectionner
# uniquement les colonnes  Esp√®ce, Petale_long et Petale_larg
# Attention: ne pas oublier les parentheses entre chaque masque binaire
filtre2 = (df_iris["Petale_larg"] > 1) & (df_iris["Petale_long"] < 5.2)
df_iris.loc[filtre2, ["Esp√®ce", "Petale_long", "Petale_larg"]]

Unnamed: 0,Esp√®ce,Petale_long,Petale_larg
fleur_0,Versicolor,5.1,1.2
fleur_1,Versicolor,4.7,1.2


On utilise `.isin` pour isoler les lignes d'une colonne qui contient l'une des valeurs possibles d'une liste.

In [44]:
df_iris.loc[df_iris["Esp√®ce"].isin(["Setosa", "Virginica"])]  # Selectionner les iris de type "Setosa" ou "Versicolor"

Unnamed: 0,Date,Location,Esp√®ce,Petale_long,Petale_larg
fleur_2,2022-06-15,Quebec,Setosa,1.5,0.2
fleur_3,2022-06-15,Quebec,Setosa,1.6,0.3
fleur_4,2022-06-15,Quebec,Virginica,5.5,2.1


On peut aussi trier les donn√©es avec une ou plusieurs colonnes.

In [45]:
# Trier le tableau par les valeurs de la colonne "Petale_long" en ordre decroissant
df_iris.sort_values(by="Petale_long", ascending=False)

Unnamed: 0,Date,Location,Esp√®ce,Petale_long,Petale_larg
fleur_4,2022-06-15,Quebec,Virginica,5.5,2.1
fleur_0,2022-06-15,Quebec,Versicolor,5.1,1.2
fleur_1,2022-06-15,Quebec,Versicolor,4.7,1.2
fleur_3,2022-06-15,Quebec,Setosa,1.6,0.3
fleur_2,2022-06-15,Quebec,Setosa,1.5,0.2


In [46]:
# Trier le tableau par les valeurs des colonnes "Petale_long" et "Petale_larg" en ordre croissant
df_iris.sort_values(by=["Petale_long", "Petale_larg"])

Unnamed: 0,Date,Location,Esp√®ce,Petale_long,Petale_larg
fleur_2,2022-06-15,Quebec,Setosa,1.5,0.2
fleur_3,2022-06-15,Quebec,Setosa,1.6,0.3
fleur_1,2022-06-15,Quebec,Versicolor,4.7,1.2
fleur_0,2022-06-15,Quebec,Versicolor,5.1,1.2
fleur_4,2022-06-15,Quebec,Virginica,5.5,2.1


Une fois que les op√©rations sont compl√©t√©s sur le `DataFrame`, il est simple de le convertir en dictionnaire avec la m√©thode `to_dict()` pour l'exporter par exemple. 

In [47]:
# Selectionner les fleurs de type "Setosa" et "Versicolor" et les trier par ordre croissant de largeur de p√©tale
new_df = df_iris[df_iris["Esp√®ce"].isin(["Setosa", "Versicolor"])].sort_values(by="Petale_larg")

df_dict = new_df.to_dict("list")  # "List" pour format colonne et "records" pour format ligne

pp.pprint(df_dict)  # Afficher le dictionnaire r√©sultant

{'Date': [Timestamp('2022-06-15 00:00:00'),
          Timestamp('2022-06-15 00:00:00'),
          Timestamp('2022-06-15 00:00:00'),
          Timestamp('2022-06-15 00:00:00')],
 'Esp√®ce': ['Setosa', 'Setosa', 'Versicolor', 'Versicolor'],
 'Location': ['Quebec', 'Quebec', 'Quebec', 'Quebec'],
 'Petale_larg': [0.2, 0.3, 1.2, 1.2],
 'Petale_long': [1.5, 1.6, 5.1, 4.7]}


Pour des op√©rations matricielles, on peut aussi utiliser la m√©thode `to_numpy()` pour convertir des colonnes du DataFrame en matrice Numpy.

In [48]:
mat_petales = df_iris.loc[:, ["Petale_long", "Petale_larg"]].to_numpy()
print(mat_petales)

[[5.1 1.2]
 [4.7 1.2]
 [1.5 0.2]
 [1.6 0.3]
 [5.5 2.1]]


## <a name="ex2"><h2 align="center"> Exemple 2 - Transest√©rification du canola en biodiesel </h2></a>

### üìù Contexte
La transest√©rification est une m√©thode de production de biodiesel √† partir de la r√©action entre une huile v√©g√©tale et de l'alcool. Dans cet exemple, l'huile v√©g√©tale utilis√©e est le canola et la r√©action est la suivante:

<center>
<img width=500px src="assets/reaction_biodiesel.png" />
</center>

Les triglyc√©rides du canola r√©agissent avec l'alcool et produisent du biodiesel et du glyc√©rol. Une chromatographie est effectu√©e √† la suite de la r√©action pour analyser son contenu chimique.

<center>
<img width=500px src="assets/chromato_biodiesel.png" />
</center>

Enfin, une analyse num√©rique dans le logiciel de chromatographie permet d'extraire les donn√©es des pics les plus importants. 

### ‚≠ê Objectif

TBD

### üíª Code

Les donn√©es que l'on analyse sont d'habitude stock√©es sur un disque dans un fichier. Il existe une multitude de formats qui existent et les plus utilis√©s sont: `CSV`, `JSON`, `IPC`, `HDF5` et `Parquet`. 

Dans Pandas, il y a [plusieurs](https://pandas.pydata.org/docs/reference/io.html) fonctions qui permettent de ouvrir ces fichiers et les convertir facilement en `DataFrame`. 

Pour cet exemple, on utilise le format de base: `CSV`. 

In [49]:
# Lecture du fichier CSV avec un s√©parateur ";"
df_bio = pd.read_csv("assets/biodiesel.csv", sep=";")

df_bio

Unnamed: 0,Name,Time,Area
0,UNKNOWN,7.83,488066.5
1,C16,8.74,1866.3
2,UNKNOWN,8.92,20723.9
3,C18,10.19,442105.9
4,UNKNOWN,11.38,5644.2
5,UNKNOWN,11.61,2830.9
6,UNKNOWN,13.27,1316.4
7,UNKNOWN,15.05,1645.9
8,UNKNOWN,15.52,5086.5
9,tricaprin,18.89,3062.2


Dans la sience des donn√©es, l'un des outils fondamentaux est l'aggregation de donn√©es qui permet de regrouper les donn√©es appartenant √† un m√™me sous-groupe et en tirer plus facilement des r√©sultats num√©riques. 

Avec pandas, cela se fait avec la m√©thode `groupby` pour regrouper les donn√©es sur une ou plusieurs colonnes et `agg` pour sp√©cifier la m√©thode d'aggregation employ√©e, tr√®s souvent sur les donn√©es num√©riques. Apr√®s l'aggregation, il bonne pratique de renommer les colonnes pour mieux representer les nouvelles colonnes, avec pandas on peut faire cela avec la m√©thode `rename`.

Les op√©rations d'aggregation possible sont:

| Op√©ration        | Description              |
| ---------------- | ------------------------ |
| `mean`, `median` | Moyenne, M√©diane         |
| `count`          | Nombre d'√©l√©ments        |
| `first`, `last`  | Premier, Dernier √©l√©ment |
| `std`, `var`     | Ecart-type, Variance     |
| `min`, `max`     | Minimum, Maximum         |
| `sum`, `prod`    | Somme, Produit           |


In [50]:
# Les colonnes sont renomm√©es en utilisant un dictionnaire o√π les cl√©s sont les anciens noms et les valeurs sont
# les nouveaux noms
new_col = {"Time": "Avg Time", "Area": "Total Area"}

# Manipulation du df
# -------------------------------------------------
# Les √©tapes peuvent √™tre √©galement √©crites sur une seule ligne
df_new_bio = (
    df_bio.groupby("Name")  # Regrouper les lignes par "Name", mettre as_index=False est recommand√©
    .agg({"Time": "mean", "Area": "sum"})  # Sp√©cifier l'op√©ration d'aggregation sur les colonnes non-regroup√©es
    .rename(columns=new_col)  # Renommer les colonnes
)

df_new_bio

Unnamed: 0_level_0,Avg Time,Total Area
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
C16,8.74,1866.3
C18,10.19,442105.9
UNKNOWN,11.94,525314.3
diglycerides,20.1,6315.8
tricaprin,18.89,3062.2
triglycerides,22.01,19134.8


Pour pouvoir filtrer les lignes qui correspondent √† une mol√©cule de biodiesel, on peut utiliser `.str.contains(<crit√®re>)` sur une colonne ou un index de texte pour isoler les lignes qui contiennent un bout de texte. Dans notre cas, on remarque que les mol√©cules de biodiesel contiennent un "C".  

In [51]:
df_new_bio.loc[df_new_bio.index.str.contains("C")]

Unnamed: 0_level_0,Avg Time,Total Area
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
C16,8.74,1866.3
C18,10.19,442105.9


## <a name="ex3"><h2 align="center"> Exemple 3 - √âmissions √©coinvent </h2></a>


### üìù Contexte

Ecoinvent est une association √† but non lucratif qui met √† disposition des donn√©es de haute qualit√© reli√©es aux √©missions de divers proc√©d√©s industriels. √Ä partir de leur base de donn√©es, des donn√©es ont √©t√© extraites dans un fichier [parquet](https://en.wikipedia.org/wiki/Apache_Parquet) avec:

- Le ID du proc√©d√©
- Le nom de la particule √©mise
- Le num√©ro CAS de cette particule
- L'unit√© utilis√©e pour mesurer l'√©mission
- Le milieu d'√©mission
- Le sous-milieu d'√©mission 

√Ä partir de liste des num√©ros CAS uniques, les compositions chimiques de chaque mol√©cules ont √©t√© extraites dans un autre fichier parquet. Cette extraction a √©t√© possible grace aux librairies python open source: 

- [cirpy](https://github.com/mcs07/CIRpy) pour convertir le num√©ro CAS en repr√©sentation chimique.
- [chempy](https://github.com/bjodah/chempy) pour obtenir les compositions chimiques. 

Ce fichier contient donc une colonne avec le num√©ro CAS et 118 colonnes pour chaque √©l√©ment atomique et sa quantit√© dans la mol√©cule.

### ‚≠ê Objectif

- Ouvrir ces fichiers xlsx comme `DataFrame`.
- Rejoindre les deux tableaux grace au num√©ro CAS.

### üíª Code

On commence par ouvrir les fichiers parquet en utilisant la m√©thode `read_parquet()` de Pandas.

In [52]:
df_ecoinvent = pd.read_parquet("assets/ecoinvent.parquet")
df_chempy = pd.read_parquet("assets/chempy.parquet")

df_ecoinvent

Unnamed: 0,id,name,cas,unit,comp,subcomp
0,d21da01e-f96f-4db5-9746-7b70db8a1f2c,"1,4-Butanediol",000110-63-4,kg,air,"low population density, long-term"
1,90653a29-2f53-4b1b-88bd-9ae2fe64a8d6,"1,4-Butanediol",000110-63-4,kg,air,lower stratosphere + upper troposphere
2,83bafcf1-2f2e-4a32-89a0-f1f16ca10626,"1,4-Butanediol",000110-63-4,kg,air,non-urban air or from high stacks
3,09db39be-d9a6-4fc3-8d25-1f80b23e9131,"1,4-Butanediol",000110-63-4,kg,air,unspecified
4,38a622c6-f086-4763-a952-7c6b3b1c42ba,"1,4-Butanediol",000110-63-4,kg,air,urban air close to ground
...,...,...,...,...,...,...
4313,e9eb024b-6fba-4dce-b280-9415b2ba4695,t-Butylamine,000075-64-9,kg,water,ground-
4314,d0aaa60f-40d9-4c12-a486-954333aa549f,t-Butylamine,000075-64-9,kg,water,"ground-, long-term"
4315,cc415ec5-ef9b-4239-b423-32906818e457,t-Butylamine,000075-64-9,kg,water,ocean
4316,a66849fd-060a-40b5-bd9d-04caa632b75c,t-Butylamine,000075-64-9,kg,water,surface water


In [53]:
pd.set_option("display.precision", 2)  # Pour une meilleure clart√©e on affiche le df avec 2 chiffres apr√®s la virgule

df_chempy

Unnamed: 0,CAS,He,Li,Be,B,C,N,O,F,Ne,...,Mt,Ds,Rg,Uub,Uut,Uuq,Uup,Uuh,Uus,Uuo
0,000110-63-4,,,,,0.53,,0.36,,,...,,,,,,,,,,
1,000071-41-0,,,,,0.68,,0.18,,,...,,,,,,,,,,
2,000109-67-1,,,,,0.86,,,,,...,,,,,,,,,,
3,540-84-1,,,,,0.84,,,,,...,,,,,,,,,,
4,002008-39-1,,,,,0.45,0.05,0.18,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
943,000057-13-6,,,,,0.20,0.47,0.27,,,...,,,,,,,,,,
944,022541-77-1,,,,,,,,,,...,,,,,,,,,,
945,010098-91-6,,,,,,,,,,...,,,,,,,,,,
946,023713-49-7,,,,,,,,,,...,,,,,,,,,,


On remarque que le DataFrame `chempy` contient beaucoup de valeurs `NaN` qui correspondent √† des valeurs nulles. Il est tr√®s probable que certaines colonnes sont compl√®tement vide en raison de l'absence de cet √©l√©ment atomique dans la liste des particules, on peut donc retirer ces colonnes. 

Par la suite, pour √©viter d'avoir des erreurs lors d'un calcul de somme par exemple, il est pr√©f√©rable de remplacer les valeurs `NaN` par z√©ro.

Pour une manipulation plus simple, la plupart des op√©rations sont effectu√©es `inplace=True` pour modifier le DataFrame directement sans cr√©er des copies inutiles. Cela est √©quivalent √† faire `df = df.<methode>`. 

In [54]:
# Supprimer les colonnes (axis=1) qui contiennent que des valeurs nulles (how=all)
df_chempy.dropna(axis=1, how="all", inplace=True)

# Remplacer toutes les valeurs nulles par 0
df_chempy.fillna(0, inplace=True)

df_chempy

Unnamed: 0,CAS,He,Li,Be,B,C,N,O,F,Ne,...,At,Rn,Fr,Ra,Ac,Th,Pa,U,Np,Pu
0,000110-63-4,0.0,0.0,0.0,0.0,0.53,0.00,0.36,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
1,000071-41-0,0.0,0.0,0.0,0.0,0.68,0.00,0.18,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
2,000109-67-1,0.0,0.0,0.0,0.0,0.86,0.00,0.00,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
3,540-84-1,0.0,0.0,0.0,0.0,0.84,0.00,0.00,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
4,002008-39-1,0.0,0.0,0.0,0.0,0.45,0.05,0.18,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
943,000057-13-6,0.0,0.0,0.0,0.0,0.20,0.47,0.27,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
944,022541-77-1,0.0,0.0,0.0,0.0,0.00,0.00,0.00,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
945,010098-91-6,0.0,0.0,0.0,0.0,0.00,0.00,0.00,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
946,023713-49-7,0.0,0.0,0.0,0.0,0.00,0.00,0.00,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1


G√©n√©ralement, lors de la manipulation de donn√©es tabulaire, il est souvent tr√®s possible d'√™tre en pr√©sence de lignes dupliqu√©es. On peut v√©rifier √ßa avec la m√©thode `.duplicated()` qui renvoie un masque binaire avec `True` pour les lignes dupliqu√©es.

In [55]:
# TODO: detailler methode de dupplication
filtre3 = df_chempy["CAS"].duplicated()  # Trouver les lignes avec un CAS dupliqu√©
df_chempy.loc[filtre3].sort_values(by="CAS")  # Appliquer le filtre et trier par ordre croissant du CAS

Unnamed: 0,CAS,He,Li,Be,B,C,N,O,F,Ne,...,At,Rn,Fr,Ra,Ac,Th,Pa,U,Np,Pu
211,000074-82-8,0.0,0.0,0.0,0.0,0.75,0.00,0.00,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
148,000074-85-1,0.0,0.0,0.0,0.0,0.86,0.00,0.00,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
117,000075-78-5,0.0,0.0,0.0,0.0,0.19,0.00,0.00,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
319,000079-01-6,0.0,0.0,0.0,0.0,0.18,0.00,0.00,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
865,000079-10-7,0.0,0.0,0.0,0.0,0.50,0.00,0.44,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
504,013494-80-9,0.0,0.0,0.0,0.0,0.00,0.00,0.00,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
505,013494-80-9,0.0,0.0,0.0,0.0,0.00,0.00,0.00,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
885,016887-00-6,0.0,0.0,0.0,0.0,0.00,0.00,0.00,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
932,017341-25-2,0.0,0.0,0.0,0.0,0.00,0.00,0.00,0.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1


On voit donc qu'il y a 152 lignes qui sont des doublons. On peut les retirer du DataFrame avec la m√©thode `drop_duplicates()`. 

In [56]:
df_chempy.drop_duplicates(["CAS"], inplace=True)

Pour calculer la masse totale de la particule, on peut utiliser une fonction Lambda. Cette fonction permet d'√©valuer une expression math√©matique sur chaque ligne du DataFrame.

In [57]:
# Ajouter la table de la masse des √©l√©ments atomiques ??

df_chempy["Masse Totale"] = pd.Series(np.zeros(len(df_chempy)))
df_chempy["Masse Totale"] = df_chempy.loc[:, df_chempy.columns != "CAS"].sum(axis=1)

df_chempy

Unnamed: 0,CAS,He,Li,Be,B,C,N,O,F,Ne,...,Rn,Fr,Ra,Ac,Th,Pa,U,Np,Pu,Masse Totale
0,000110-63-4,0.0,0.0,0.0,0.0,0.53,0.00,0.36,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,1.89
1,000071-41-0,0.0,0.0,0.0,0.0,0.68,0.00,0.18,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,1.86
2,000109-67-1,0.0,0.0,0.0,0.0,0.86,0.00,0.00,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,1.86
3,540-84-1,0.0,0.0,0.0,0.0,0.84,0.00,0.00,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,1.84
4,002008-39-1,0.0,0.0,0.0,0.0,0.45,0.05,0.18,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,1.95
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
942,668-34-8,0.0,0.0,0.0,0.0,0.62,0.00,0.00,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,1.96
943,000057-13-6,0.0,0.0,0.0,0.0,0.20,0.47,0.27,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,1.93
944,022541-77-1,0.0,0.0,0.0,0.0,0.00,0.00,0.00,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,2.00
945,010098-91-6,0.0,0.0,0.0,0.0,0.00,0.00,0.00,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,2.00


Rejoindre plusieurs tableaux de donn√©es est une autre op√©ration fondamentale dans la science des donn√©es. Pour des donn√©es de type relationnelles, comme celles que l'on a, des tableaux peuvent √™tre joints √† partir d'une ou plusieurs cl√©s communes entre les deux tables. Dans notre cas, la cl√© commune est le num√©ro CAS. 

Dans pandas, cette op√©ration se fait avec la m√©thode `.join()`. Il existe plusieurs types de join que l'on peut faire: `inner`, `outer`, `left` et `right`, une explication compl√®te avec des exemples est disponible [ici](https://learnsql.com/blog/sql-joins-types-explained/).

In [58]:
# Avec Pandas, un join doit se faire entre 2 indexes avec le m√™me nom, il faut donc renommer la colonne CAS de df_chempy
# et cr√©er un index pour les deux df.
# -------------------------------------------------
df_chempy.rename(columns={"CAS": "cas"}, inplace=True)
df_chempy.set_index("cas", inplace=True)
df_ecoinvent.set_index("cas", inplace=True)
df_joined = df_ecoinvent.join(df_chempy, on="cas", how="left")


In [59]:
dff = pd.merge(df_ecoinvent, df_chempy, left_index=True, right_index=True, how="left",)
dff

Unnamed: 0_level_0,id,name,unit,comp,subcomp,He,Li,Be,B,C,...,Rn,Fr,Ra,Ac,Th,Pa,U,Np,Pu,Masse Totale
cas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
000050-00-0,1258b87f-6a94-4c0f-a51a-cef98a3bf534,Formaldehyde,kg,air,"low population density, long-term",0.0,0.0,0.0,0.0,0.4,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.93
000050-00-0,22b0b296-d066-4159-a44b-69fdb17dc802,Formaldehyde,kg,air,lower stratosphere + upper troposphere,0.0,0.0,0.0,0.0,0.4,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.93
000050-00-0,9167dca7-615e-435c-8ba6-dbbf50e50e34,Formaldehyde,kg,air,non-urban air or from high stacks,0.0,0.0,0.0,0.0,0.4,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.93
000050-00-0,a861cfae-a310-4e9d-b9eb-5d555c9a684c,Formaldehyde,kg,air,unspecified,0.0,0.0,0.0,0.0,0.4,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.93
000050-00-0,20664d0e-24e3-4daa-8c5c-2ade6e0c2723,Formaldehyde,kg,air,urban air close to ground,0.0,0.0,0.0,0.0,0.4,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.93
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
,0b94989b-2551-4069-bb11-4f9f48988cad,"VOC, volatile organic compounds, unspecified o...",kg,water,surface water,,,,,,...,,,,,,,,,,
,9ba627f4-3a6c-4dd6-8598-4e1639fbd85a,"VOC, volatile organic compounds, unspecified o...",kg,water,unspecified,,,,,,...,,,,,,,,,,
,f7007d99-8704-476c-8c49-4e6dc18931a6,Yttrium-90,kBq,water,surface water,,,,,,...,,,,,,,,,,
,6fb4d755-f17a-4d1e-a5ce-aad7829ef61f,Zinc-65,kBq,water,surface water,,,,,,...,,,,,,,,,,


In [60]:
# concat ?
# pivot ?
# reset index ?

### üí° Astuces

- Lors de la manpulation des `DataFrame`, par souci de performance, il est important de comprendre l'ordre des op√©rations qui sont effectu√©es. G√©n√©ralement, il faut commencer par tout filtrage des donn√©es et retirer les lignes ou colonnes que l'on veut exclure avant de faire une op√©ration math√©matique.
- Dans la plupart des cas, les donn√©es utilis√©es d√©passent rarement le million de lignes. Cependant, dans le cas contraire, il faut commencer √† prendre en compte la taille des donn√©es et ce que √ßa implique en terme d'utilisation de la m√©moire. Tr√®s souvent cela consiste √† limiter le nombre de copies que l'on fait ainsi que adopter une structure de tableau plus compacte afin de diminuer sa taille. C'est un sujet un peu plus avanc√© mais tout de m√™me interessant √† savoir si on a l'intention de travailler avec du Big Data et construire des algorithmes qui roulent en temps r√©el par exemple.

## <a name="lexique"><h2 align="center"> Lexique </h2></a>

### üìö Terminologie

- `DataFrame` ou `df`: structure de donn√©es tabulaires en m√©moire qui permet de stocker et manipuler les colonnes et lignes de donn√©es.

### ‚úîÔ∏è Vu dans l'exemple 1

- `pd.DataFrame`: cr√©√© un DataFrame √† partir d'un objet Python comme une liste de dictionnaires ou un dictionnaire de listes.
- `df.shape`: renvoie la taille du DataFrame.
- `df.columns`: renvoie la liste des noms des colonnes.
- `df.dtypes`: renvoie le type de donn√©es d'une colonne.
- `df.loc`: indexation de plusieurs lignes et colonnes par noms et avec des masques binaires. 
- `df.iloc`: indexation par num√©ros de lignes et colonnes.
- `df.isin`: masque binaire qui renvoie `True` pour les lignes qui contiennent une valeur dans une liste de valeurs possibles.
- `df.sort_values`: trie les donn√©es par ordre croissant ou d√©croissant.
- `df.to_dict`: convertit un DataFrame en objet Python.
- `df.to_numpy`: convertit un DataFrame en matrice NumPy.

### ‚úîÔ∏è Vu dans l'exemple 2

- `pd.read_csv`: lit un fichier CSV et renvoie un DataFrame.
- `df.groupby`: groupe les lignes d'un DataFrame par une ou des colonnes.
- `df.agg`: sp√©cifie la m√©thode d'aggregation lors d'un groupby.
- `df.rename`: renomme les colonnes d'un DataFrame.
- `df.str.contains`: renvoie un masque binaire pour chaque ligne qui contient un ou plusieurs mots.

### ‚úîÔ∏è Vu dans l'exemple 3

- `pd.read_parquet`: lit un fichier parquet et renvoie un DataFrame.
- `df.dropna`: retire les lignes ou colonnes qui contiennent des valeurs nulles.
- `df.fillna`: remplace les valeurs nulles par une valeur.
- `df.duplicated`: renvoie un masque binaire pour les lignes qui sont dupliqu√©es.
- `df.drop_duplicates`: retire les lignes dupliqu√©es.
- `df.set_index`: d√©finit la cl√© primaire d'un DataFrame.
- `df.join`: joint deux DataFrames en fonction d'une cl√© commune.