# Statistics and Data Science: Data acquisition and cleaning with Pandas

Source: Adapted from Boris Thurm Notebook, Datascience and statistics (EPFL)

<img src='https://miro.medium.com/v2/resize:fit:720/format:webp/0*hHVINI5TGJB6jPKN.jpg' width="600">

Source: Roman Orac [Pandas Web API - Towards Data Science](https://towardsdatascience.com/pandas-analytics-server-d64d20ef01be)

## Content

- [Library, Packages and Modules](#Library,-Packages-and-Modules)
   - [Import packages](#Import-packages)
   - [Style Guide for Python Code](#Style-Guide-for-Python-Code)
- [Pandas](#Pandas)
   - [Importing data](#Importing-data)
   - [Discovering your data frame](#Discovering-your-data-frame)
      - [Dimensions of data frame](#Dimensions-of-data-frame)
      - [Data frame indexing](#Data-frame-indexing)
      - [Scope: data types](#Scope:-data-types)
      - [Scope: Extract unique values in a column](#Scope:-Extract-unique-values-in-a-column)
   - [Cleaning your data frame](#Cleaning-your-data-frame)
      - [Identifying NaN](#Identifying-NaN)
      - [Droping NaN](#Droping-NaN)
      - [Dealing with errors and other missing values](#Dealing-with-errors-and-other-missing-values)
   - [Merging data frames](#Merging-data-frames)
   - [Manipulating your data](#Manipulating-your-data)
      - [Operating on columns](#Operating-on-columns)
      - [Functions and data frame](#Functions-and-data-frame)
      - [Calculating GrDP](#Calculating-GrDP)
   - [Exporting data frame](#Exporting-data-frame)

## Library, Packages and Modules <a name="Library,-Packages-and-Modules"></a>

Jusqu'à présent, nous avons manipulé nos données en utilisant des **fonctions intégrées**, des **opérateurs** et des **méthodes d'objets**.  

Nous avons déjà effectué des opérations impressionnantes grâce à la **Python Standard Library**, qui contient de nombreux modules intégrés utiles pour accomplir des tâches spécifiques.  

Mais nous pouvons également **utiliser des modules externes** et même **écrire nos propres modules** !

---

### Modules, packages et bibliothèques

- Un **module** est un fichier Python qui se termine par `.py`.  
  Il peut contenir des **fonctions**, des **classes**, et d'autres objets.  
  Nous n'allons pas encore parler des **classes**, mais retenez simplement qu'une classe est comme un **constructeur d'objets**, ou un "modèle" permettant de créer des objets.  
  (Voir la [documentation officielle](https://docs.python.org/3/tutorial/classes.html) et une introduction sur [GeeksforGeeks](https://www.geeksforgeeks.org/python-classes-and-objects/)).

- Un **package** contient plusieurs **modules** regroupés sous un même nom.  
  Par exemple :
  - [Pandas](http://pandas.pydata.org) (issu de "panel data") est **le** package de référence pour l'analyse et la manipulation des données.
  - [NumPy](http://www.numpy.org) (Numerical Python) est un package fondamental pour le calcul scientifique.

- Une **bibliothèque** est un terme plus large désignant un ensemble **réutilisable** de code, qui contient généralement plusieurs **modules** et **packages**.  
  Par exemple :
  - [Matplotlib](https://matplotlib.org/) est une bibliothèque complète pour créer des visualisations statiques, animées et interactives.  

  ⚠️ En pratique, **les termes bibliothèque et package sont souvent utilisés de manière interchangeable**.

---

### Accéder aux packages et modules

Les **installations standard de Python** incluent déjà la **bibliothèque standard**.  

En dehors de la bibliothèque standard, il existe plusieurs packages externes comme **pandas** et **NumPy**.  

**"Plusieurs" ? Ha ! Il y a actuellement plus de 300 000 packages disponibles sur le [Python Package Index](https://pypi.python.org/pypi) (PyPI) !**  

En général, vous pouvez **chercher sur Google ce que vous voulez faire**, et il y a souvent un module externe qui vous aidera à le faire.

Les **packages les plus utiles** (en calcul scientifique) et **les mieux testés** sont disponibles avec **`conda`**.  

D'autres peuvent être installés avec **`pip`**.

Nous allons découvrir plusieurs autres packages au fil de notre parcours, mais pour l'instant, découvrons **comment accéder et utiliser des packages et modules**.


### Comment importer des packages <a name="Import-packages"></a>

Pour accéder à un package, nous devons `l'importer`. Par exemple, importons le package `numpy` :


In [None]:
import numpy

C'est parti ! Nous pouvons maintenant commencer à utiliser les nombreuses fonctionnalités offertes par `numpy`, telles que les moyennes, les médianes, les écarts-types et de nombreuses autres opérations numériques. Explorons ce que `numpy` met à notre disposition. Rappelez-vous, en Python, tout est un objet. Donc, pour accéder aux méthodes et attributs disponibles dans `numpy`, nous utilisons la syntaxe du point. Dans Colab, nous pouvons taper : `numpy`
puis appuyer sur la touche `Tab` pour voir tout ce que le module offre.

Notez que cette technique fonctionne pour tous les objets, donc n'hésitez pas à l'utiliser lorsque, par exemple, vous ne vous souvenez plus du nom d'une méthode.

In [None]:
my_lis = [1,2,3,4,5,6]

numpy.mean(my_lis)

3.5

Super ! Essayons la fonction `numpy.median()` :

In [None]:
numpy.median(my_lis)

3.5

C'est intéressant. La fonction renvoie la médiane, y compris lorsque nous avons un nombre pair d'éléments dans la séquence de nombres, auquel cas elle interpole automatiquement.   Il est très important de savoir que cette interpolation est effectuée, car si vous ne vous y attendez pas, cela peut produire des résultats inattendus.   Voici donc un conseil essentiel : <div style="color: dodgerblue; text-align: center; font-weight: bold;"> Toujours vérifier les docstrings des fonctions. </div>

Nous pouvons accéder à la docstring de la fonction `numpy.median()` en tapant :



In [None]:
numpy.median?

See in the output:

    Notes
    -----
    Given a vector ``V`` of length ``N``, the median of ``V`` is the
    middle value of a sorted copy of ``V``, ``V_sorted`` - i
    e., ``V_sorted[(N-1)/2]``, when ``N`` is odd, and the average of the
    two middle values of ``V_sorted`` when ``N`` is even.


C'est ici que la documentation indique que la médiane sera calculée comme la moyenne des deux valeurs centrales lorsque le nombre d'éléments est pair. Notez que vous pouvez également consulter la [documentation de la médiane](https://docs.scipy.org/doc/numpy/reference/generated/numpy.median.html), qui est un peu plus facile à lire. Vous pouvez aussi explorer la [documentation complète de Numpy](https://numpy.org/doc/stable/) pour découvrir toute l'étendue des fonctionnalités de `numpy` !


Comme vous pouvez le voir, `numpy` et d'autres modules sont extrêmement utiles, et nous les utiliserons en permanence. Cependant, il y a un inconvénient : nous devons toujours utiliser la **syntaxe du point** avec le **nom complet du module** pour accéder aux méthodes qu'il contient.  Taper `numpy` encore et encore peut devenir fastidieux...   Attendez une minute, en fait, vous **n'êtes pas obligé** de faire cela !  Nous pouvons utiliser le mot-clé `as` pour **importer un module sous un alias**. L'alias traditionnel de `numpy` est `np`, donc vous devez toujours utiliser cet alias :


In [None]:
import numpy as np

np.mean([1.1, 8.4, 5.3, 6.7, 9.2])

6.14

Enfin, vous n'êtes pas obligé d'importer le package/module complet si vous voulez seulement un élément spécifique. Par exemple, supposons que nous ayons besoin de la valeur de `pi`, qui peut être accédée via le module `math` ([Documentation](https://docs.python.org/3/library/math.html). Nous pourrions procéder comme avant, en important le module complet :

In [None]:
import math

math.pi

3.141592653589793

Alternativement, nous n'importons que `pi` :

In [None]:
from math import pi

pi

3.141592653589793

Génial, avec `from-import`, nous n'avons pas besoin d'utiliser la syntaxe du point ! En effet, dans cet exemple, nous n'avons pas importé le module complet, mais seulement `pi` en tant que variable.

Les packages et modules sont extrêmement pratiques. Si vous voulez effectuer une tâche qui semble courante, il y a de fortes chances qu'un bon programmeur (ou une équipe de programmeurs) ait déjà écrit une solution pour cela.  Donc, **toujours vérifier en ligne** ce qui existe avant de vous lancer dans l'écriture de morceaux de code complexes !


### Guide de style pour le code Python <a name="Style-Guide-for-Python-Code"></a>

Il existe de bonnes pratiques pour écrire du code Python.  

Un excellent guide de style Python est le [PEP 8](https://www.python.org/dev/peps/pep-0008/).  

Voici la recommandation concernant l'importation des bibliothèques, packages et modules :

> Les imports doivent toujours être placés en haut du fichier, juste après les commentaires et docstrings du module, et avant les variables globales et constantes du module.
>
> Les imports doivent être regroupés dans l'ordre suivant :
>
> 1. Imports de la bibliothèque standard
> 2. Imports de bibliothèques tierces
> 3. Imports spécifiques à l'application ou à la bibliothèque locale
>
> Une ligne vide doit être insérée entre chaque groupe d'importations.

Essayez de suivre ce guide !


## Pandas <a name="Pandas"></a>

Au cours de votre carrière, vous aurez inévitablement besoin de manipuler des données, potentiellement en grande quantité.  

Les données existent sous de nombreux formats, et vous passerez beaucoup de temps à les manipuler et à les nettoyer afin d'obtenir une forme exploitable pour l'analyse.

Comme mentionné précédemment, **Pandas** (issu de "panel data") est **le package de référence** pour l'analyse et la manipulation des données.  

Son principal objet, le `DataFrame`, est extrêmement utile pour **structurer et transformer** les données.  

Nous allons explorer certaines de ses fonctionnalités ici et les utiliser tout au long de ce cours.

Vous pouvez en apprendre davantage sur Pandas dans la [documentation officielle](https://pandas.pydata.org/docs/index.html), et affiner vos connaissances avec ce [cours et tutoriel en ligne](https://realpython.com/learning-paths/pandas-data-science/).  

Étant donné que **Pandas est l'un des packages les plus utilisés**, vous trouverez énormément de ressources en ligne répondant à vos questions.  

Comme toujours, **il n'est pas nécessaire de réinventer la roue**.  

Profitez des **années d'expérience et des connaissances** des programmeurs qui ont déjà rencontré et résolu les problèmes auxquels vous pourriez être confronté.

---

### Importer Pandas

Sans plus attendre, importons **Pandas**.  Nous utilisons généralement la convention suivante :




In [None]:
import pandas as pd

### Importation des données <a name="Importing-data"></a>

Que le plaisir commence ! Nous allons découvrir les fonctionnalités offertes par **Pandas** en utilisant des **données réelles**.  

Plus précisément, nous allons travailler sur une application du **Green Domestic Product (GrDP)**.

Le **GrDP** est un indicateur innovant développé par **E4S** pour remédier à certaines limites du **PIB**.  

Il étend le champ d'application du **PIB** en intégrant la dégradation du **capital naturel, social et humain**.  

Dans sa version actuelle, le **GrDP** prend en compte les impacts des émissions de **trois groupes de polluants** :
- **Gaz à effet de serre (GES)**
- **Polluants atmosphériques**
- **Métaux lourds**

Ces impacts incluent :
- **le changement climatique**
- **les problèmes de santé**
- **la diminution des rendements agricoles et de la production de biomasse**
- **la dégradation des bâtiments**
- **les dommages aux écosystèmes dus à l'eutrophisation**

---

### Pour aller plus loin

Vous pouvez consulter :
- **Le livre blanc d'E4S** appliquant le **GrDP** à la Suisse et le **rapport méthodologique** [ici](https://e4s.center/en/resources/reports/green-domestic-product/)
- L'article du magazine **IbyIMD** introduisant le **GrDP** et son application pour les décideurs politiques et les entreprises [ici](https://iby.imd.org/sustainability/lets-replace-gdp-introducing-the-green-domestic-product/)
- Les résultats du projet dans notre **[tableau de bord interactif](https://public.tableau.com/app/profile/jordane.widmer/viz/GrDP-InteractiveInterface/Tableaudebord1)**.


Tout d'abord, nous devons importer nos données. Les ensembles de données ont été téléchargés sur notre dépôt GitHub sous forme de deux fichiers CSV : *"GrDP_Panel-Data.csv"* et *"GrDP_Cost.csv"*. Nous pouvons directement importer les fichiers CSV en ligne en utilisant la fonction `.read_csv()` :


In [None]:
type('Hello World!')

str

In [None]:
url = "https://raw.githubusercontent.com/edoardochiarotti/class_datascience/main/2023/02_Data-Cleaning/data/GrDP_Panel-Data.csv"
url_cost = "https://raw.githubusercontent.com/edoardochiarotti/class_datascience/main/2023/02_Data-Cleaning/data/GrDP_Cost.csv"

df=pd.read_csv(url)
df_cost = pd.read_csv(url_cost)

type(df)

pandas.core.frame.DataFrame

In [None]:
df


Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],Emissions_NH3 [tonne],Emissions_Pb [tonne],Emissions_Cd [tonne],Emissions_Hg [tonne],Emissions_As [tonne],Emissions_Ni [tonne],Emissions_Cr [tonne]
0,Belgium,1990,,9947782.0,142750.63,428830,49270,67570,364540,348240,129730,253,6,6,7,77,36
1,Bulgaria,1990,,8767308.0,80468.09,273150,22860,42800,1105720,440600,102130,448,6,3,25,33,21
2,Czechia,1990,,10362102.0,189911.77,748990,298500,429020,1754560,566030,170490,318,5,5,70,55,26
3,Denmark,1990,108898.0,5135409.0,77995.13,302240,24600,36300,178040,215360,130770,130,1,3,1,19,6
4,Germany,1990,1245386.0,62679035.0,1268921.81,2850050,235770,375360,5474420,3890840,715080,1900,29,35,86,340,166
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
895,Finland,2019,239858.0,5517919.0,39198.47,119810,16620,30030,28930,84520,31590,13,1,1,2,12,14
896,Sweden,2019,476869.5,10230185.0,14074.24,127030,17570,36720,16380,134000,53410,8,0,0,1,6,6
897,Norway,2019,361734.6,5328212.0,34650.02,150560,23530,32090,16270,152500,28550,6,1,0,1,0,4
898,Switzerland,2019,653732.6,8544527.0,43981.61,61330,6150,14130,4440,81150,53800,15,1,1,0,0,0


Notez que pour accéder à l'URL des données sur **GitHub**, vous devez **cliquer sur votre fichier de données**, puis **cliquer sur "Raw"**.

Vous pouvez importer des données à partir de **différentes sources** comme :
- **Fichiers Excel**
- **Fichiers TSV**
- **HTML**
- **JSON**, etc.

Vous pouvez également :
- **Définir des colonnes spécifiques à importer**
- **Renommer les colonnes directement lors de l'importation**

Apprenez-en plus sur **comment importer des données dans des DataFrames Pandas** [ici](https://practicaldatascience.co.uk/data-science/how-to-import-data-into-pandas-dataframes).


### Discovering your data frame <a name="Discovering-your-data-frame"></a>

La première chose à faire est d'explorer votre DataFrame pour comprendre sa structure et ce qu'il contient. Dans un notebook, nous pouvons directement l'afficher de manière visuelle et agréable :


In [None]:
df

Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],Emissions_NH3 [tonne],Emissions_Pb [tonne],Emissions_Cd [tonne],Emissions_Hg [tonne],Emissions_As [tonne],Emissions_Ni [tonne],Emissions_Cr [tonne]
0,Belgium,1990,,9947782.0,142750.63,428830,49270,67570,364540,348240,129730,253,6,6,7,77,36
1,Bulgaria,1990,,8767308.0,80468.09,273150,22860,42800,1105720,440600,102130,448,6,3,25,33,21
2,Czechia,1990,,10362102.0,189911.77,748990,298500,429020,1754560,566030,170490,318,5,5,70,55,26
3,Denmark,1990,108898.0,5135409.0,77995.13,302240,24600,36300,178040,215360,130770,130,1,3,1,19,6
4,Germany,1990,1245386.0,62679035.0,1268921.81,2850050,235770,375360,5474420,3890840,715080,1900,29,35,86,340,166
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
895,Finland,2019,239858.0,5517919.0,39198.47,119810,16620,30030,28930,84520,31590,13,1,1,2,12,14
896,Sweden,2019,476869.5,10230185.0,14074.24,127030,17570,36720,16380,134000,53410,8,0,0,1,6,6
897,Norway,2019,361734.6,5328212.0,34650.02,150560,23530,32090,16270,152500,28550,6,1,0,1,0,4
898,Switzerland,2019,653732.6,8544527.0,43981.61,61330,6150,14130,4440,81150,53800,15,1,1,0,0,0


C'est une belle représentation des données, mais nous n'avons vraiment pas besoin d'afficher autant de lignes du DataFrame pour comprendre sa structure. À la place, nous pouvons utiliser la méthode `.head()` des DataFrames pour regarder les premières lignes :


In [None]:
df.head()

Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],Emissions_NH3 [tonne],Emissions_Pb [tonne],Emissions_Cd [tonne],Emissions_Hg [tonne],Emissions_As [tonne],Emissions_Ni [tonne],Emissions_Cr [tonne]
0,Belgium,1990,,9947782.0,142750.63,428830,49270,67570,364540,348240,129730,253,6,6,7,77,36
1,Bulgaria,1990,,8767308.0,80468.09,273150,22860,42800,1105720,440600,102130,448,6,3,25,33,21
2,Czechia,1990,,10362102.0,189911.77,748990,298500,429020,1754560,566030,170490,318,5,5,70,55,26
3,Denmark,1990,108898.0,5135409.0,77995.13,302240,24600,36300,178040,215360,130770,130,1,3,1,19,6
4,Germany,1990,1245386.0,62679035.0,1268921.81,2850050,235770,375360,5474420,3890840,715080,1900,29,35,86,340,166


Sympa ! Nous pouvons voir que les données comprennent le PIB, la population et les émissions de divers polluants pour plusieurs pays et années. Continuons notre exploration !


#### Dimensions of data frame <a name="Dimensions-of-data-frame"></a>

Lorsque nous affichons l'intégralité de notre DataFrame, ses dimensions sont imprimées sous la table (**900 lignes x 17 colonnes**). Nous pouvons également extraire directement le **nombre d'observations** (**lignes**) en utilisant la fonction `len()` :


In [None]:
len(df)

900

De même, on peut obtenir le nombre de colonne (les colonnes):

In [None]:
len(df.columns)

17

On peut obtenir directement le nombre d'observations et le nombre de varibles en utilisant la fonction `.shape`:

In [None]:
df.shape

(900, 17)

Poursuivons notre exploration, nous pouvons afficher les noms des colonnes. Comme souvent, il existe plusieurs façons de procéder en fonction de ce que nous voulons accomplir. Voici quelques options :
- `list(df.columns)` renvoie une liste de nos colonnes,
- `sorted(df)` renvoie une liste triée de nos colonnes,
- `df.keys()` renvoie un objet Index pandas.


In [None]:
df.keys()

Index(['Country', 'Year', 'GDP [million Euro]', 'Population',
       'Emissions_GHG [thousand tonnes CO2eq]', 'Emissions_NOx [tonne]',
       'Emissions_PM2.5 [tonne]', 'Emissions_PM10 [tonne]',
       'Emissions_SOx [tonne]', 'Emissions_NMVOC [tonne]',
       'Emissions_NH3 [tonne]', 'Emissions_Pb [tonne]', 'Emissions_Cd [tonne]',
       'Emissions_Hg [tonne]', 'Emissions_As [tonne]', 'Emissions_Ni [tonne]',
       'Emissions_Cr [tonne]'],
      dtype='object')

#### Data frame indexing <a name="Data-frame-indexing"></a>

Une fois que nous avons compris la structure de notre DataFrame, il est judicieux d'examiner quelques observations.

Nous **indexons les DataFrames par colonnes**.  Par exemple, regardons la population des pays :


In [None]:
np.max(df['Population'])

16832495.907675195

Que faire si nous voulons extraire une valeur spécifique ?  Avez-vous remarqué qu'à gauche de notre DataFrame, il y avait une colonne **sans nom** ?  Sans nom, mais **pas inutile** ! Cette colonne représente **les étiquettes des lignes**.

Nous pouvons utiliser ces **étiquettes** pour extraire une valeur spécifique. Par exemple, supposons que nous voulions extraire la **population de la Belgique en 1990** (**première ligne**).  Une façon de le faire est d'utiliser la syntaxe : `df['Population'][0]`. Cependant, **la méthode préférée** est d'utiliser `.loc`, qui signifie **location** :


In [None]:
df.loc[0, 'Population']

9947782.0

In [None]:
np.median(df.loc[df['Country']=='Switzerland', 'Population'])

7389625.0

Et si nous voulons extraire plusieurs valeurs, par exemple la **population et le PIB** ?  Facile !  

Nous pouvons utiliser des **listes** spécifiant les **étiquettes des lignes et des colonnes** pour extraire un sous-ensemble de notre DataFrame.


In [None]:
df.loc[[3,87], ['Country', 'Year','GDP [million Euro]','Population']]

Unnamed: 0,Country,Year,GDP [million Euro],Population
3,Denmark,1990,108898.0,5135409.0
87,Norway,1992,101108.3,4273634.0


On peut extraire une ligne entière en utilisant la fonction `.loc`:

In [None]:
df.loc[0]

Country                                    Belgium
Year                                          1990
GDP [million Euro]                             NaN
Population                               9947782.0
Emissions_GHG [thousand tonnes CO2eq]    142750.63
Emissions_NOx [tonne]                       428830
Emissions_PM2.5 [tonne]                      49270
Emissions_PM10 [tonne]                       67570
Emissions_SOx [tonne]                       364540
Emissions_NMVOC [tonne]                     348240
Emissions_NH3 [tonne]                       129730
Emissions_Pb [tonne]                           253
Emissions_Cd [tonne]                             6
Emissions_Hg [tonne]                             6
Emissions_As [tonne]                             7
Emissions_Ni [tonne]                            77
Emissions_Cr [tonne]                            36
Name: 0, dtype: object

Vous vous souvenez lorsque nous avons utilisé le **découpage de listes (slicing)** ?  Nous pouvons effectuer des opérations similaires ici :


In [None]:
df.loc[1:10:2, 'Country':'Population']

Unnamed: 0,Country,Year,GDP [million Euro],Population
1,Bulgaria,1990,,8767308.0
3,Denmark,1990,108898.0,5135409.0
5,Estonia,1990,,1570599.0
7,Greece,1990,,10120892.0
9,France,1990,999521.7,


Imaginons maintenant que nous voulions utiliser un **index numérique** pour les colonnes, au lieu des étiquettes.   Eh bien, c'est possible ! Nous pouvons utiliser la méthode `.iloc`, qui permet d'indexer un DataFrame en utilisant **la position des lignes et des colonnes** (integer-location). Comme toujours en Python, **l'indexation commence à 0**.

Extrayons le même sous-ensemble de données qu'auparavant, cette fois en utilisant `.iloc` :


In [None]:
df.iloc[1:10:2, 0:4]

Unnamed: 0,Country,Year,GDP [million Euro],Population
1,Bulgaria,1990,,8767308.0
3,Denmark,1990,108898.0,5135409.0
5,Estonia,1990,,1570599.0
7,Greece,1990,,10120892.0
9,France,1990,999521.7,


En aparté, notez que dans notre cas, la colonne des étiquettes utilise des entiers - c'est le comportement par défaut lors de l'importation des données. Ainsi, l'extraction des lignes avec `.loc` et `iloc` utilise la même syntaxe... ou presque :

- `.loc` récupère des lignes et des colonnes avec des **étiquettes** particulières (dans notre cas, des entiers).
- `.iloc` récupère des lignes et des colonnes à des **positions** entières.

Comment cela nous affecte-t-il ? Eh bien, une différence majeure concerne le découpage (*slicing*). Alors que `.iloc` fonctionne de la même manière que le découpage des listes, `.loc` est légèrement différent. Par exemple, si nous passons `[0:1]` en argument :

- `.iloc` ne retournera que la première ligne (comme avec les listes, le découpage exclut le dernier élément).
- `.loc` retournera les deux lignes avec les étiquettes 0 et 1.



In [None]:
df.loc[0:1]

Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],Emissions_NH3 [tonne],Emissions_Pb [tonne],Emissions_Cd [tonne],Emissions_Hg [tonne],Emissions_As [tonne],Emissions_Ni [tonne],Emissions_Cr [tonne]
0,Belgium,1990,,9947782.0,142750.63,428830,49270,67570,364540,348240,129730,253,6,6,7,77,36
1,Bulgaria,1990,,8767308.0,80468.09,273150,22860,42800,1105720,440600,102130,448,6,3,25,33,21


In [None]:
df.iloc[0:1]

Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],Emissions_NH3 [tonne],Emissions_Pb [tonne],Emissions_Cd [tonne],Emissions_Hg [tonne],Emissions_As [tonne],Emissions_Ni [tonne],Emissions_Cr [tonne]
0,Belgium,1990,,9947782.0,142750.63,428830,49270,67570,364540,348240,129730,253,6,6,7,77,36


De même, `df.iloc[-1]` nous permettrait d'accéder à la dernière ligne, mais `df.loc[-1]` entraînerait une erreur, car il n'existe aucune ligne étiquetée `-1`.  Pour une discussion plus approfondie sur les différences entre `.loc` et `.iloc`, consultez ce [post Stack Overflow](https://stackoverflow.com/questions/31593201/how-are-iloc-and-loc-different#:~:text=The%20main%20distinction%20between%20the,or%20columns%29%20at%20integer%20locations).


Les deux méthodes, `.loc` et `.iloc`, sont très utiles, mais elles nécessitent de connaître **l'étiquette ou la position** des données.  Mais que faire si nous voulons accéder aux données **en fonction d'une valeur spécifique d'une colonne** ?  Par exemple, comment extraire **uniquement les données pour la Suisse** ?  

Nous ne connaissons **ni les étiquettes** ni les **positions des lignes** correspondant à la Suisse...   Une telle opération semble très courante – par exemple, on peut imaginer un jeu de données contenant des **ID clients ou entreprises** – il doit donc exister une solution.  

En effet, il y en a une ! Nous pouvons utiliser **une condition** :


In [None]:
df[df['Country'] == 'Switzerland']

Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],Emissions_NH3 [tonne],Emissions_Pb [tonne],Emissions_Cd [tonne],Emissions_Hg [tonne],Emissions_As [tonne],Emissions_Ni [tonne],Emissions_Cr [tonne]
28,Switzerland,1990,209686.3,6673850.0,51936.33,144540,16400,25220,36700,304870,68730,380,3,6,Not Available,Not Available,Not Available
58,Switzerland,1991,217731.6,6757188.0,50666.87,141350,16620,25350,36390,287880,67840,351,3,6,Not Available,Not Available,Not Available
88,Switzerland,1992,216721.6,6842768.0,51299.11,134610,15990,24630,33980,268070,67400,322,3,6,Not Available,Not Available,Not Available
118,Switzerland,1993,232687.8,6907959.0,48554.46,122650,15210,23610,29070,241320,66460,265,3,5,Not Available,Not Available,Not Available
148,Switzerland,1994,254448.5,6968570.0,48860.45,120130,14450,22750,26320,223390,66220,233,3,5,Not Available,Not Available,Not Available
178,Switzerland,1995,270155.4,7019019.0,48986.59,115870,14020,21930,26120,208600,66010,171,2,4,Not Available,Not Available,Not Available
208,Switzerland,1996,268398.8,7062354.0,48052.24,110100,13860,21640,24690,197060,64590,147,2,4,Not Available,Not Available,Not Available
238,Switzerland,1997,260529.0,7081346.0,48523.84,105770,12920,20640,21400,185020,62130,132,2,3,Not Available,Not Available,Not Available
268,Switzerland,1998,271620.6,7096465.0,51076.84,105180,12460,20120,22140,172940,61530,91,2,3,Not Available,Not Available,Not Available
298,Switzerland,1999,280220.9,7123537.0,51304.11,104700,12130,19530,19260,163490,60930,54,1,2,Not Available,Not Available,Not Available


Notez la syntaxe :  
- `df['Country']` extrait notre colonne intitulée `'Country'`.  
- `df['Country'] == 'Switzerland'` renvoie une colonne contenant `True` si le pays est la Suisse, et `False` sinon.  
- En appliquant cette condition à notre DataFrame `df`, seules les lignes pour lesquelles la condition est `True` seront conservées.  

Essayons un autre exemple, cette fois en extrayant les données pour la Suisse en 2019. Nous pouvons utiliser `&` pour inclure une seconde condition. Nous n'avons pas encore abordé cet **opérateur binaire**, mais la syntaxe est explicite dans l'exemple ci-dessous. Notez qu'il est important que chaque opération booléenne soit placée entre parenthèses en raison de la **priorité des opérateurs** impliqués.  

Dans pandas, les opérateurs binaires effectuent des comparaisons élément par élément. C'est exactement ce que nous voulons faire ici : déterminer **pour chaque ligne** si le pays est la Suisse et si l'année est 2019.


In [None]:
df.loc[(df['Country'] == 'Switzerland') & (df['Year'] == 2019)]

Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],Emissions_NH3 [tonne],Emissions_Pb [tonne],Emissions_Cd [tonne],Emissions_Hg [tonne],Emissions_As [tonne],Emissions_Ni [tonne],Emissions_Cr [tonne]
898,Switzerland,2019,653732.6,8544527.0,43981.61,61330,6150,14130,4440,81150,53800,15,1,1,0,0,0


In [None]:
df.loc[(df['Country'] == 'Switzerland') & (df['Year'] == 2019), ['GDP [million Euro]','Emissions_GHG [thousand tonnes CO2eq]']]

Unnamed: 0,GDP [million Euro],Emissions_GHG [thousand tonnes CO2eq]
898,653732.6,43981.61


Ou une tranche de colonnes, par exemple toutes les émissions de polluants atmosphériques :


In [None]:
df.loc[(df['Country'] == 'Switzerland') & (df['Year'] == 2019), 'Emissions_NOx [tonne]':'Emissions_NH3 [tonne]']

Unnamed: 0,Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],Emissions_NH3 [tonne]
898,61330,6150,14130,4440,81150,53800


#### Scope: data types <a name="Scope:-data-types"></a>

Continuons l'exploration de notre DataFrame. Nous pouvons identifier les types de nos variables en utilisant la méthode `.dtypes` :


In [None]:
df.dtypes

Country                                   object
Year                                       int64
GDP [million Euro]                       float64
Population                               float64
Emissions_GHG [thousand tonnes CO2eq]    float64
Emissions_NOx [tonne]                      int64
Emissions_PM2.5 [tonne]                    int64
Emissions_PM10 [tonne]                     int64
Emissions_SOx [tonne]                      int64
Emissions_NMVOC [tonne]                    int64
Emissions_NH3 [tonne]                      int64
Emissions_Pb [tonne]                       int64
Emissions_Cd [tonne]                       int64
Emissions_Hg [tonne]                       int64
Emissions_As [tonne]                      object
Emissions_Ni [tonne]                      object
Emissions_Cr [tonne]                      object
dtype: object

Comme vous pouvez le voir, Pandas utilise des noms différents pour les types de données. Voici une description :

| Type Pandas | Type natif Python | Description |
|:-----------|:-----------------|:------------|
| `object`   | `string`         | Le type le plus général. Sera attribué à une colonne si celle-ci contient des types mixtes (nombres et chaînes de caractères). |
| `int64`    | `int`            | Caractères numériques. 64 fait référence à la mémoire allouée pour stocker ces caractères. |
| `float64`  | `float`          | Caractères numériques avec décimales. Si une colonne contient des nombres et des valeurs NaN (voir ci-dessous), Pandas utilisera par défaut `float64`, au cas où votre valeur manquante serait un nombre décimal. |

Notre DataFrame contient des `object` (par exemple, des chaînes de caractères comme les noms de pays), des `int64` et des `float64`.  

Vous vous demandez peut-être pourquoi les émissions d'arsenic (As), de nickel (Ni) et de chrome (Cr) sont apparemment de type `object`. Nous découvrirons pourquoi plus tard.


#### Scope: Extract unique values in a column <a name="Scope:-Extract-unique-values-in-a-column"></a>

D'après les étiquettes de colonnes de notre DataFrame, nous savons que nous avons des données pour plusieurs pays et années. Par exemple, nous avons vu précédemment que nous disposons de données pour la Suisse entre 1990 et 2019. Quels autres pays et années sont inclus dans notre DataFrame ? Nous pouvons utiliser la méthode `.unique()` pour obtenir les valeurs uniques d'une colonne :


In [None]:
df['Country'].unique()

array(['Belgium', 'Bulgaria', 'Czechia', 'Denmark', 'Germany', 'Estonia',
       'Ireland', 'Greece', 'Spain', 'France', 'Croatia', 'Italy',
       'Cyprus', 'Latvia', 'Lithuania', 'Luxembourg', 'Hungary', 'Malta',
       'Netherlands', 'Austria', 'Poland', 'Portugal', 'Romania',
       'Slovenia', 'Slovakia', 'Finland', 'Sweden', 'Norway',
       'Switzerland', 'United Kingdom'], dtype=object)

D'accord ! Nous avons identifié les pays européens présents dans nos données.  
Qu'en est-il des années ?   Nous pouvons utiliser la même syntaxe, mais découvrons une nouvelle astuce !   Comme tout en Python, `df['Country']` est un **objet**, et nous appliquons la méthode `.unique()` à cet objet.   Au lieu de `df['Country']`, nous pouvons utiliser l'instruction équivalente `df.Country`.  

Essayons maintenant avec la colonne `'Year'` :


In [None]:
df.Year.unique()

array([1990, 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000,
       2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011,
       2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019], dtype=int64)

Bien ! Il semble que nous ayons des données de **1990 à 2019**. Pourquoi "semble" ?  Eh bien, il se peut que certaines valeurs soient manquantes...

### Cleaning your data frame <a name="Cleaning-your-data-frame"></a>

Idéalement, vous auriez des données parfaites et pourriez directement effectuer une analyse statistique ou de machine learning pour découvrir les relations mystérieuses cachées dans votre jeu de données.  

Malheureusement, nous ne vivons pas dans un monde parfait, et vos données ne seront jamais propres, sauf si quelqu'un a déjà effectué cette tâche fastidieuse. Dans ce cas, soyez reconnaissant : les data scientists passent la majeure partie de leur temps à collecter et nettoyer des données.

Dans cette section, nous allons explorer comment nettoyer notre DataFrame. Malheureusement, il n'existe pas de méthode universelle : chaque ensemble de données est différent, et vous devrez concevoir des techniques adaptées en fonction de votre objectif et de la structure de vos données.


#### Identifying NaN <a name="Identifying-NaN"></a>

La première étape est d'identifier les valeurs manquantes (missing values). En explorant les données, vous avez peut-être remarqué la présence de `NaN`. Par exemple, pour le PIB (GDP) de la Belgique en 1990:

In [None]:
df.loc[0, 'GDP [million Euro]']

nan

`NaN` signifie **Not a Number**, et il peut être interprété comme une valeur indéfinie ou non représentable.  Lorsque vous importez des données CSV, les valeurs suivantes seront interprétées comme `NaN` :  
`''`, `#N/A`, `#N/A N/A`, `#NA`, `-1.#IND`, `-1.#QNAN`, `-NaN`, `-nan`, `1.#IND`, `1.#QNAN`, `<NA>`, `N/A`, `NA`, `NULL`, `NaN`, `n/a`, `nan`, `null`.


Nous pouvons identifier les `NaN` en utilisant la fonction `.isna()`. `.isna()` retournera `True` si l'observation est `NaN`, et `False` autrement:

In [None]:
df.isna()

Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],Emissions_NH3 [tonne],Emissions_Pb [tonne],Emissions_Cd [tonne],Emissions_Hg [tonne],Emissions_As [tonne],Emissions_Ni [tonne],Emissions_Cr [tonne]
0,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
895,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
896,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
897,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
898,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False


D'accord, c'est utile, mais nous sommes humains : nous ne pouvons pas vérifier manuellement nos `900 × 17 = 15 300` observations pour identifier où se trouvent les `NaN`.  À la place, utilisons la puissance de pandas pour repérer l'emplacement de nos `NaN`.  

Nous allons utiliser la méthode `.sum()` pour sommer les valeurs d'une colonne. Rappelez-vous que `True` est associé à la valeur `1` et `False` à la valeur `0`. Ainsi, lorsqu'on somme une colonne contenant des valeurs `True`/`False`, nous comptons en réalité le nombre d'occurrences `True`.  Dans notre cas, nous comptons donc les valeurs `NaN` :


In [None]:
df.isna().sum()

Country                                    0
Year                                       0
GDP [million Euro]                       113
Population                                 1
Emissions_GHG [thousand tonnes CO2eq]      0
Emissions_NOx [tonne]                      0
Emissions_PM2.5 [tonne]                    0
Emissions_PM10 [tonne]                     0
Emissions_SOx [tonne]                      0
Emissions_NMVOC [tonne]                    0
Emissions_NH3 [tonne]                      0
Emissions_Pb [tonne]                       0
Emissions_Cd [tonne]                       0
Emissions_Hg [tonne]                       0
Emissions_As [tonne]                       0
Emissions_Ni [tonne]                       0
Emissions_Cr [tonne]                       0
dtype: int64

Très bien, nous avons de la chance : il semble que le problème vienne des données du PIB (et d'une observation de la population).

Nous pouvons extraire les observations (lignes) pour lesquelles le PIB ou la population est `NaN`.   Rappelez-vous comment nous avons extrait les données pour la Suisse ? Ici, notre condition consiste à vérifier les valeurs `NaN` avec `.isna()`, mais uniquement pour les colonnes du PIB ou de la population.  L'opérateur binaire (élément par élément) correspondant à "ou" est `|` :


In [None]:
df[(df['GDP [million Euro]'].isna()) | (df['Population'].isna())]

Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],Emissions_NH3 [tonne],Emissions_Pb [tonne],Emissions_Cd [tonne],Emissions_Hg [tonne],Emissions_As [tonne],Emissions_Ni [tonne],Emissions_Cr [tonne]
0,Belgium,1990,,9947782.0,142750.63,428830,49270,67570,364540,348240,129730,253,6,6,7,77,36
1,Bulgaria,1990,,8767308.0,80468.09,273150,22860,42800,1105720,440600,102130,448,6,3,25,33,21
2,Czechia,1990,,10362102.0,189911.77,748990,298500,429020,1754560,566030,170490,318,5,5,70,55,26
5,Estonia,1990,,1570599.0,37015.28,80050,25440,63830,274740,66550,21550,207,5,1,19,27,18
6,Ireland,1990,,3506970.0,60588.06,170690,32000,47190,182980,144400,109600,158,1,1,2,22,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
140,Poland,1994,,38504707.0,435977.00,1100260,278950,528960,2138090,891290,397110,587,11,14,75,178,53
141,Portugal,1994,,9974391.0,58656.65,277870,69630,101320,288160,242650,73980,768,2,2,3,105,12
142,Romania,1994,,22748027.0,147516.06,348190,67070,107120,665360,258470,244470,359,4,2,38,64,17
143,Slovenia,1994,,1989408.0,12896.72,74660,13610,16340,184930,61880,21290,35,1,0,1,2,1


Nous progressons ! Nous avons maintenant identifié les lignes contenant des `NaN`. Si nous explorons un peu plus loin, il semble que les observations manquantes concernent **uniquement certaines années**.  Confirmons cela en retournant les **années pour lesquelles nous avons des `NaN`**.  

Nous utilisons simplement la syntaxe `.Year` pour extraire la colonne (équivalente à `["Year"]`), puis nous appliquons la méthode `.unique()` afin que les années concernées **apparaissent une seule fois** :


In [None]:
df[(df['GDP [million Euro]'].isna()) | (df['Population'].isna())].Year.unique()

array([1990, 1991, 1992, 1993, 1994], dtype=int64)

Super ! Nous savons maintenant que nos valeurs manquantes concernent **uniquement les années avant 1994**. Nous pouvons également **identifier les lignes contenant des `NaN`** en appliquant la méthode `.index` à notre DataFrame. Alternativement, **créons une liste des étiquettes** en utilisant **une compréhension de liste**.   Nous pouvons utiliser la méthode `.iterrows()` pour parcourir les **étiquettes** et les **séries de valeurs** de chaque ligne.  

Dans le code ci-dessous, nous utilisons aussi la fonction `.any()`, qui renvoie **`True` si au moins un élément de l'itérable est `True`**, et **`False` sinon**.


In [None]:
rows_with_nan = [index for index, row in df.iterrows() if row.isna().any()]

print(rows_with_nan)

[0, 1, 2, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 26, 30, 31, 32, 35, 36, 37, 38, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 56, 60, 61, 62, 65, 66, 67, 68, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 86, 90, 91, 92, 95, 96, 97, 98, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 120, 121, 122, 125, 126, 127, 128, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144]


#### Droping NaN <a name="Droping-NaN"></a>

Nous avons précédemment identifié les lignes et colonnes contenant des `NaN`. Que faire avec ces observations ? Eh bien, comme souvent, cela dépend de ce que vous souhaitez accomplir. Dans certains contextes, les `NaN` ne posent pas de problème. Souvent, cependant, vous voudrez supprimer les observations contenant des `NaN`. Comment faire cela ? Facile ! Nous pouvons utiliser la méthode `.dropna()`. Comme son nom l’indique, elle supprimera les lignes contenant des `NaN`.  

Notez qu'à ce stade, lorsque nous avons manipulé notre DataFrame, nous n'avons jamais modifié ses valeurs. Par exemple, lorsque nous avons extrait un sous-ensemble de notre DataFrame – disons les données pour la Suisse – cela n’a pas modifié notre DataFrame original. Nous avons simplement obtenu un nouvel objet, mais nous ne l’avons pas enregistré. Il en va de même avec `.dropna()`. Si nous ne stockons pas le résultat, cela n'affectera pas notre DataFrame original. Comme nous souhaitons analyser les données nettoyées, nous devons stocker notre résultat dans une nouvelle variable de DataFrame.  

En bonne pratique, vous devriez <span style="color:dodgerblue">stocker les modifications que vous apportez dans une nouvelle variable de DataFrame </span>, au lieu de simplement remplacer le DataFrame importé. En effet, le nettoyage est un processus itératif, et parfois vous devrez revenir à une étape précédente du nettoyage, en particulier en cas d'erreur...


In [None]:
df_clean = df.dropna()

df_clean

Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],Emissions_NH3 [tonne],Emissions_Pb [tonne],Emissions_Cd [tonne],Emissions_Hg [tonne],Emissions_As [tonne],Emissions_Ni [tonne],Emissions_Cr [tonne]
3,Denmark,1990,108898.0,5135409.0,77995.13,302240,24600,36300,178040,215360,130770,130,1,3,1,19,6
4,Germany,1990,1245386.0,62679035.0,1268921.81,2850050,235770,375360,5474420,3890840,715080,1900,29,35,86,340,166
25,Finland,1990,111394.9,4974383.0,57740.85,306350,47390,74170,248820,233010,34730,321,7,1,35,78,48
27,Norway,1990,94339.8,4233116.0,40889.89,201660,41500,52170,49700,326020,29790,189,2,1,3,0,11
28,Switzerland,1990,209686.3,6673850.0,51936.33,144540,16400,25220,36700,304870,68730,380,3,6,Not Available,Not Available,Not Available
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
895,Finland,2019,239858.0,5517919.0,39198.47,119810,16620,30030,28930,84520,31590,13,1,1,2,12,14
896,Sweden,2019,476869.5,10230185.0,14074.24,127030,17570,36720,16380,134000,53410,8,0,0,1,6,6
897,Norway,2019,361734.6,5328212.0,34650.02,150560,23530,32090,16270,152500,28550,6,1,0,1,0,4
898,Switzerland,2019,653732.6,8544527.0,43981.61,61330,6150,14130,4440,81150,53800,15,1,1,0,0,0


Ça a fonctionné ! Au lieu de 900 lignes, nous avons maintenant 786 lignes et plus aucun `NaN` indésirable.  Nous pouvons le confirmer en vérifiant s'il reste des valeurs `NaN` avec `.isna()`, puis en effectuant une double somme (une sur les lignes, l'autre sur les colonnes) :


In [None]:
df_clean.isna().sum().sum()

0

Super ! Nous sommes prêts pour l'analyse des données !  Minute... pas si vite ! Nous avons supprimé les valeurs `NaN`, mais en le faisant, nous avons créé un déséquilibre dans notre DataFrame : certains pays ont plus d'années que d'autres.  

Nous pouvons le vérifier en regroupant nos observations par pays - nous verrons comment effectuer de telles opérations de regroupement un peu plus tard. Bien qu'un léger déséquilibre ne soit pas toujours un problème, supposons que, dans notre cas, ce soit un souci.  

Que pouvons-nous faire pour résoudre ce problème ?  

Nous avons vu précédemment que les valeurs `NaN` ne concernaient que les années de 1990 à 1994.  Simple alors, supprimons toutes les observations des années strictement avant 1995.  

Nous pouvons utiliser la méthode `.drop()`.  `.drop()` supprime les lignes correspondant à une étiquette spécifiée. Nous devons donc utiliser la méthode `.index` pour obtenir les noms des étiquettes :


In [None]:
df_clean = df_clean.drop(df_clean[df_clean.Year < 1995].index)

df_clean

Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],Emissions_NH3 [tonne],Emissions_Pb [tonne],Emissions_Cd [tonne],Emissions_Hg [tonne],Emissions_As [tonne],Emissions_Ni [tonne],Emissions_Cr [tonne]
150,Belgium,1995,220251.5,10130574.0,151311.86,415990,44400,60940,257720,306530,134540,197,5,3,6,71,32
151,Bulgaria,1995,14512.8,8427418.0,54038.12,181900,19780,43710,1302010,140310,61410,369,4,2,15,28,10
152,Czechia,1995,46008.4,10333161.0,147738.40,384910,120370,163110,1058970,391100,115180,260,2,4,17,28,17
153,Denmark,1995,141441.4,5215718.0,84425.26,290300,24500,36200,145770,212670,109120,26,1,2,1,13,3
154,Germany,1995,1977604.1,81538603.0,1090715.50,2195580,205640,346170,1751450,2340450,612750,682,19,20,9,208,94
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
895,Finland,2019,239858.0,5517919.0,39198.47,119810,16620,30030,28930,84520,31590,13,1,1,2,12,14
896,Sweden,2019,476869.5,10230185.0,14074.24,127030,17570,36720,16380,134000,53410,8,0,0,1,6,6
897,Norway,2019,361734.6,5328212.0,34650.02,150560,23530,32090,16270,152500,28550,6,1,0,1,0,4
898,Switzerland,2019,653732.6,8544527.0,43981.61,61330,6150,14130,4440,81150,53800,15,1,1,0,0,0


Youhouuu ! Nous avons maintenant un magnifique DataFrame sans `NaN`. Passons à l'analyse des données !  Minute... Nous n'avons pas encore fini le nettoyage...


#### Dealing with errors and other missing values <a name="Dealing-with-errors-and-other-missing-values"></a>

Les valeurs manquantes peuvent prendre différentes formes selon les données que vous importez. Vous pourriez également rencontrer des erreurs ou des valeurs "absurdes". Gérer ces cas fait aussi partie du nettoyage des données...

Vous souvenez-vous que lorsque nous avons vérifié les types de données de nos colonnes, nous avons obtenu un type `object` pour les émissions d’arsenic (As), de nickel (Ni) et de chrome (Cr) ? Étrange, non ? Ne devrions-nous pas avoir des données numériques, comme pour les autres émissions de polluants ?  

Eh bien, oui, nous devrions. Alors que se passe-t-il ici ?  

Il s'avère que nous avons **des chaînes de caractères au lieu de valeurs numériques** dans nos colonnes.  

Plus précisément, les chaînes responsables sont `'Not Available'` :


In [None]:
df_clean.loc[238, 'Emissions_As [tonne]']

'Not Available'

Comme nous l'avons fait pour les `NaN`, vérifions pour quelles variables nous avons de telles chaînes de caractères.  

Nous **ne pouvons pas** utiliser la méthode `.isna()`, car nous **ne traitons pas** des `NaN`.  

À la place, nous pouvons utiliser **une simple condition**, puis sommer sur les lignes :


In [None]:
(df_clean == 'Not Available').sum()

Country                                   0
Year                                      0
GDP [million Euro]                        0
Population                                0
Emissions_GHG [thousand tonnes CO2eq]     0
Emissions_NOx [tonne]                     0
Emissions_PM2.5 [tonne]                   0
Emissions_PM10 [tonne]                    0
Emissions_SOx [tonne]                     0
Emissions_NMVOC [tonne]                   0
Emissions_NH3 [tonne]                     0
Emissions_Pb [tonne]                      0
Emissions_Cd [tonne]                      0
Emissions_Hg [tonne]                      0
Emissions_As [tonne]                     10
Emissions_Ni [tonne]                     10
Emissions_Cr [tonne]                     10
dtype: int64

Comme nous le soupçonnions, les chaînes `'Not Available'` apparaissent uniquement dans les colonnes des émissions d'**arsenic (As)**, de **nickel (Ni)** et de **chrome (Cr)**, ce qui explique pourquoi ces colonnes ont le type `object`.  


Poursuivons notre investigation en identifiant les **lignes contenant `'Not Available'`**.  Pour commencer, nous allons uniquement vérifier la colonne des **émissions d'arsenic** (`'Emissions_As [tonne]'`).  En effet, nous avons vu ci-dessus que **10 observations** contiennent `'Not Available'` pour les émissions d'arsenic, de nickel et de chrome.  

Il semble donc probable que les **données manquantes concernent les mêmes pays et années...**


In [None]:
df_clean[df_clean['Emissions_As [tonne]'] == 'Not Available']

Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],Emissions_NH3 [tonne],Emissions_Pb [tonne],Emissions_Cd [tonne],Emissions_Hg [tonne],Emissions_As [tonne],Emissions_Ni [tonne],Emissions_Cr [tonne]
165,Luxembourg,1995,15946.2,405650.0,9593.98,34960,7970,8650,9240,20910,5770,9,0,0,Not Available,Not Available,Not Available
178,Switzerland,1995,270155.4,7019019.0,48986.59,115870,14020,21930,26120,208600,66010,171,2,4,Not Available,Not Available,Not Available
195,Luxembourg,1996,16462.1,411600.0,9612.06,35080,7570,8800,8780,20040,5890,9,0,0,Not Available,Not Available,Not Available
208,Switzerland,1996,268398.8,7062354.0,48052.24,110100,13860,21640,24690,197060,64590,147,2,4,Not Available,Not Available,Not Available
225,Luxembourg,1997,17266.5,416850.0,8872.75,35260,5180,5890,5980,18850,5920,6,0,0,Not Available,Not Available,Not Available
238,Switzerland,1997,260529.0,7081346.0,48523.84,105770,12920,20640,21400,185020,62130,132,2,3,Not Available,Not Available,Not Available
255,Luxembourg,1998,18005.7,422050.0,8111.19,34570,2340,3020,3340,17600,5970,2,0,0,Not Available,Not Available,Not Available
268,Switzerland,1998,271620.6,7096465.0,51076.84,105180,12460,20120,22140,172940,61530,91,2,3,Not Available,Not Available,Not Available
285,Luxembourg,1999,20547.8,427350.0,8484.35,37230,2400,3030,3440,17020,6130,2,0,0,Not Available,Not Available,Not Available
298,Switzerland,1999,280220.9,7123537.0,51304.11,104700,12130,19530,19260,163490,60930,54,1,2,Not Available,Not Available,Not Available


Bingo ! Nous avons bien **10 lignes** contenant `'Not Available'`, et si nous regardons les colonnes des émissions d'**arsenic**, de **nickel** et de **chrome**, toutes les valeurs sont indisponibles.  

---

### Que faire maintenant ?  

Nous pourrions :  
- **Supprimer** les **pays-années** contenant des valeurs manquantes, comme nous l'avons fait avec les `NaN`.  
- **Supprimer** toutes les **observations pour la Suisse et le Luxembourg**.  
- **Supprimer** les **colonnes** des émissions de **As, Ni et Cr**.  

Cependant, dans notre contexte, ces solutions semblent **excessives**.  

Rappelez-vous : ce que vous faites **dépend de votre objectif final**.  

Et **la data science ne se résume pas à de bonnes pratiques de programmation**, elle repose aussi sur **l'expertise du domaine**.  

---

### Une approche basée sur l'expertise métier

D'après **des études et des analyses ex-post**, nous savons que les **émissions d'arsenic, de nickel et de chrome sont très faibles**.  

Elles représentent donc une **faible part des coûts externes de la pollution**, du moins dans les autres pays.  

Il **n'y a aucune raison de suspecter un schéma différent pour la Suisse et le Luxembourg**, d'autant plus que ces pays émettent **moins de polluants** que d'autres (pour les polluants dont nous avons des données).  

**Plutôt que de supprimer des observations**, nous allons donc **supposer que les émissions sont égales à zéro**.

---

### Importance de la documentation des hypothèses

L'impact de cette hypothèse sur nos résultats devrait être **négligeable**.  

Néanmoins, vous devez **toujours** <span style="color:dodgerblue">documenter vos hypothèses</span>.  

Vous pouvez même réaliser une <span style="color:dodgerblue">analyse de sensibilité ex-post</span>, en testant **différentes valeurs** et en **observant comment vos résultats évoluent**.

---

### Implémentation dans Pandas

Nous avons décidé d'assumer que les émissions étaient nulles.  

Comment implémenter cela ?  

C'est en fait **très simple**, nous pouvons utiliser la méthode `.replace()`.  

Dans `.replace()`, le **premier argument** est la **valeur à remplacer**, et le **second** est la **valeur de remplacement** :


In [None]:
df_clean = df_clean.replace('Not Available', 0)

df_clean

Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],Emissions_NH3 [tonne],Emissions_Pb [tonne],Emissions_Cd [tonne],Emissions_Hg [tonne],Emissions_As [tonne],Emissions_Ni [tonne],Emissions_Cr [tonne]
150,Belgium,1995,220251.5,10130574.0,151311.86,415990,44400,60940,257720,306530,134540,197,5,3,6,71,32
151,Bulgaria,1995,14512.8,8427418.0,54038.12,181900,19780,43710,1302010,140310,61410,369,4,2,15,28,10
152,Czechia,1995,46008.4,10333161.0,147738.40,384910,120370,163110,1058970,391100,115180,260,2,4,17,28,17
153,Denmark,1995,141441.4,5215718.0,84425.26,290300,24500,36200,145770,212670,109120,26,1,2,1,13,3
154,Germany,1995,1977604.1,81538603.0,1090715.50,2195580,205640,346170,1751450,2340450,612750,682,19,20,9,208,94
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
895,Finland,2019,239858.0,5517919.0,39198.47,119810,16620,30030,28930,84520,31590,13,1,1,2,12,14
896,Sweden,2019,476869.5,10230185.0,14074.24,127030,17570,36720,16380,134000,53410,8,0,0,1,6,6
897,Norway,2019,361734.6,5328212.0,34650.02,150560,23530,32090,16270,152500,28550,6,1,0,1,0,4
898,Switzerland,2019,653732.6,8544527.0,43981.61,61330,6150,14130,4440,81150,53800,15,1,1,0,0,0


Nous avons toujours 750 lignes, donc nous n'avons supprimé aucune observation. Vérifions que la chaîne `'Not Available'` a disparu :


In [None]:
(df_clean == 'Not Available').sum().sum()

0

Yihaaa ! Un travail bien fait ! Effectuons une dernière opération de nettoyage. Nous allons modifier le type de nos colonnes. En effet, le type `object` pourrait être gênant lorsque nous effectuerons des opérations numériques. Nous utiliserons la fonction `to_numeric` de pandas ainsi que la méthode `.apply()`, qui nous permet d'appliquer notre fonction le long d'un axe de notre dataframe, dans ce cas à chaque colonne.


In [None]:
list_hm_obj = ['Emissions_As [tonne]', 'Emissions_Ni [tonne]', 'Emissions_Cr [tonne]']

df_clean[list_hm_obj] = df_clean[list_hm_obj].apply(pd.to_numeric)

df_clean.dtypes

Country                                   object
Year                                       int64
GDP [million Euro]                       float64
Population                               float64
Emissions_GHG [thousand tonnes CO2eq]    float64
Emissions_NOx [tonne]                      int64
Emissions_PM2.5 [tonne]                    int64
Emissions_PM10 [tonne]                     int64
Emissions_SOx [tonne]                      int64
Emissions_NMVOC [tonne]                    int64
Emissions_NH3 [tonne]                      int64
Emissions_Pb [tonne]                       int64
Emissions_Cd [tonne]                       int64
Emissions_Hg [tonne]                       int64
Emissions_As [tonne]                       int64
Emissions_Ni [tonne]                       int64
Emissions_Cr [tonne]                       int64
dtype: object

Cette fois, nous avons réellement terminé le nettoyage. Pas si douloureux, non ? Un immense merci à pandas, qui a rendu cette étape de nettoyage bien plus supportable.

Vous vous demandez peut-être : comment savoir si nous avons fini de nettoyer ? Eh bien, ici, c'est parce que je connais notre jeu de données, puisque je l’ai préparé ! En pratique, il faut explorer davantage vos données, par exemple en utilisant l'Analyse Exploratoire des Données, que nous verrons dans une future leçon. Il peut aussi arriver que vous ne réalisiez qu’un problème existe dans les données qu’après avoir commencé à les analyser. Bien que cela puisse être très agaçant, souvenez-vous que **les projets de data science sont un processus itératif**, et qu’il faut souvent faire des allers-retours.

Avant de passer à la manipulation des données, nous allons réinitialiser les étiquettes de nos lignes – comme vous pouvez le voir ci-dessus, les numéros de ligne sont ceux de notre jeu de données original. Nous pouvons simplement le faire en utilisant la méthode `.reset_index`. L'argument `drop=True` supprime les anciennes étiquettes, tandis que `drop=False` (valeur par défaut) les insérera dans une nouvelle colonne.


In [None]:
df_clean = df_clean.reset_index(drop=True)
df_clean

Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],Emissions_NH3 [tonne],Emissions_Pb [tonne],Emissions_Cd [tonne],Emissions_Hg [tonne],Emissions_As [tonne],Emissions_Ni [tonne],Emissions_Cr [tonne]
0,Belgium,1995,220251.5,10130574.0,151311.86,415990,44400,60940,257720,306530,134540,197,5,3,6,71,32
1,Bulgaria,1995,14512.8,8427418.0,54038.12,181900,19780,43710,1302010,140310,61410,369,4,2,15,28,10
2,Czechia,1995,46008.4,10333161.0,147738.40,384910,120370,163110,1058970,391100,115180,260,2,4,17,28,17
3,Denmark,1995,141441.4,5215718.0,84425.26,290300,24500,36200,145770,212670,109120,26,1,2,1,13,3
4,Germany,1995,1977604.1,81538603.0,1090715.50,2195580,205640,346170,1751450,2340450,612750,682,19,20,9,208,94
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
745,Finland,2019,239858.0,5517919.0,39198.47,119810,16620,30030,28930,84520,31590,13,1,1,2,12,14
746,Sweden,2019,476869.5,10230185.0,14074.24,127030,17570,36720,16380,134000,53410,8,0,0,1,6,6
747,Norway,2019,361734.6,5328212.0,34650.02,150560,23530,32090,16270,152500,28550,6,1,0,1,0,4
748,Switzerland,2019,653732.6,8544527.0,43981.61,61330,6150,14130,4440,81150,53800,15,1,1,0,0,0


### Merging data frames <a name="Merging-data-frames"></a>

La première étape lorsque nous avons découvert Pandas était d'importer des données. Nous avons importé le jeu de données que nous utilisons actuellement, qui contient le PIB, la population et les émissions de polluants des pays européens depuis 1990. Mais vous souvenez-vous que nous avons également importé un deuxième jeu de données ? Eh bien, nous ne l'avons pas importé juste pour le plaisir, nous en aurons en fait besoin pour l'analyse du GrDP ! Pas d’inquiétude, ce jeu de données est déjà propre...

Jetons d'abord un coup d'œil à son contenu :


In [None]:
df_cost

Unnamed: 0,Country,Cost_GHG [Euro per tonnes CO2eq],Cost_NOx [Euro per tonne],Cost_PM2.5 [Euro per tonne],Cost_PM10 [Euro per tonne],Cost_SOx [Euro per tonne],Cost_NMVOC [Euro per tonne],Cost_NH3 [Euro per tonne],Cost_Pb [Euro per kg],Cost_Cd [Euro per kg],Cost_Hg [Euro per kg],Cost_As [Euro per kg],Cost_Ni [Euro per kg],Cost_Cr [Euro per kg]
0,Belgium,105,67427.0,512037,332491,159275.0,7953.0,162801,32531,185175,16903,11044,24,3129
1,Bulgaria,105,39770.0,309647,201070,46368.0,2791.0,58106,32531,185175,16903,11044,24,3129
2,Czechia,105,49118.0,282451,183409,71277.0,8138.0,131699,32531,185175,16903,11044,24,3129
3,Denmark,105,25320.0,124113,80593,54274.0,1483.0,25524,32531,185175,16903,11044,24,3129
4,Germany,105,74688.0,266647,173147,116457.0,5720.0,90548,32531,185175,16903,11044,24,3129
5,Estonia,105,7116.0,26735,17360,6789.0,508.0,15020,32531,185175,16903,11044,24,3129
6,Ireland,105,29855.0,50219,32609,77934.0,1779.0,15632,32531,185175,16903,11044,24,3129
7,Greece,105,26670.0,145705,94614,36550.0,3480.0,41129,32531,185175,16903,11044,24,3129
8,Spain,105,42135.0,201671,130955,71915.0,3611.0,22806,32531,185175,16903,11044,24,3129
9,France,105,63655.0,208191,135189,111252.0,6209.0,42588,32531,185175,16903,11044,24,3129


Nous avons, pour les mêmes polluants que précédemment, leur coût unitaire de dommages.  

Les coûts de dommages sont les coûts et dépenses qui sont ou seraient engagés pour prévenir, contrôler ou réduire les dommages environnementaux causés par la pollution.  

Nous remarquons que ces coûts varient selon les pays pour les polluants atmosphériques (NO$_x$, PM$_{2.5}$, PM$_{10}$, SO$_x$, NMVOC, NH$_3$).  

En effet, ces polluants entraînent une pollution locale : ils sont transportés dans l'air sur une distance relativement courte avant d'être inhalés par les humains et de contaminer le sol, l'eau et les écosystèmes (où ils peuvent être ingérés).  

À l'inverse, les gaz à effet de serre (GES) sont responsables du changement climatique, qui est une pollution globale : peu importe où les émissions ont lieu, tous les GES émis contribuent au réchauffement climatique.  

Quant aux métaux lourds (Pb, Cd, Hg, As, Ni, Cr), ils provoquent une pollution locale, mais les données disponibles ne concernent que le coût moyen des dommages pour l'Europe.

Nous notons que les coûts sont indépendants des années. En effet, toutes les données monétaires (par ex. PIB) sont exprimées en euros constants de 2019.

Le **GrDP** est défini comme le PIB moins les coûts externes résultant des activités humaines.  

Dans sa version actuelle, l'indicateur inclut uniquement les coûts externes dont les impacts sont connus, mesurés et évalués en termes monétaires, à savoir les GES, les polluants atmosphériques et les métaux lourds.

---

### Fusionner les DataFrames  

Pour calculer le **GrDP**, nous devons multiplier les données d'émissions - contenues dans notre DataFrame `df_clean` - par les coûts unitaires - présents dans le DataFrame `df_cost`.  

Il sera plus pratique d'effectuer ces opérations sur un seul DataFrame.  

Nous devons donc fusionner nos deux DataFrames.

Cela semble complexe : non seulement les colonnes diffèrent, mais aussi les lignes puisque les émissions varient chaque année alors que les coûts ne changent pas.  

Pas de panique, Pandas vient à notre secours !  

Il existe plusieurs méthodes et fonctions pour combiner deux DataFrames :

- `.concat()` : combine les DataFrames selon un axe, soit sur les lignes, soit sur les colonnes.
- `.join()` : fusionne les données sur une colonne clé ou un index.
- `.merge()` : fusionne les données sur des colonnes ou indices communs.

Pour mieux comprendre ces méthodes, je vous recommande vivement de lire la [documentation associée](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html).  

Vous pouvez également consulter ce [tutoriel de Real Python](https://realpython.com/pandas-merge-join-and-concat/#pandas-concat-combining-data-across-rows-or-columns).

---

Dans notre cas, nous voulons fusionner nos deux DataFrames de manière à obtenir, pour chaque **observation pays-année**, les variables suivantes :
- PIB,
- population,
- émissions de chaque polluant,
- coûts associés à chaque polluant.

Nos deux DataFrames ont **une colonne commune** : le **pays**.  

De plus, nous voulons **conserver toutes les observations de `df_clean`**, tandis que les coûts d'un pays donné doivent être les mêmes pour chaque année (autrement dit, il faut "copier" les informations du DataFrame `df_cost`).  

Nous pouvons accomplir cela en utilisant la fonction `.merge()`.

---

### Clés et types de fusion

Les valeurs des colonnes sur lesquelles nous fusionnons nos DataFrames sont appelées **clés**.  

Si vous explorez la documentation de `.merge()`, vous remarquerez différentes options pour gérer les cas où les clés diffèrent (par exemple, si les pays dans `df_clean` et `df_cost` ne sont pas identiques) :

- `inner` : ne conserve que les lignes avec des clés communes (intersection).
- `outer` : conserve toutes les lignes (union).
- `left` : conserve toutes les lignes du **DataFrame de gauche** (le premier) et ignore celles du second s'il y a des clés manquantes.
- `right` : conserve toutes les lignes du **DataFrame de droite** (le second) et ignore celles du premier s'il y a des clés manquantes.
- `cross` : crée le produit cartésien des lignes des deux DataFrames (toutes les combinaisons possibles de clés).

Vous pouvez spécifier la méthode de fusion avec `how`.

---

### Application à notre cas

Heureusement, dans notre cas, nous **n'avons pas besoin de nous soucier de la méthode**, puisque les pays sont les mêmes dans les deux DataFrames.

---

### Conseil : entraînez-vous !

Fusionner des DataFrames nécessite un peu de pratique.  

Essayez par vous-même, **vérifiez toujours le résultat**, et recommencez si vous n'obtenez pas ce que vous attendiez !


In [None]:
df_grdp = pd.merge(df_clean, df_cost, how="left", on="Country")

Note that in the code above, we did not need to specify `on` which columns we should merge since the function automatically select all the common columns. Similarly, we did not need to specify `how` to merge since our keys are the same.  

In [None]:
df_grdp

Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],...,Cost_PM10 [Euro per tonne],Cost_SOx [Euro per tonne],Cost_NMVOC [Euro per tonne],Cost_NH3 [Euro per tonne],Cost_Pb [Euro per kg],Cost_Cd [Euro per kg],Cost_Hg [Euro per kg],Cost_As [Euro per kg],Cost_Ni [Euro per kg],Cost_Cr [Euro per kg]
0,Belgium,1995,220251.5,10130574.0,151311.86,415990,44400,60940,257720,306530,...,332491,159275.00000,7953.00000,162801,32531,185175,16903,11044,24,3129
1,Bulgaria,1995,14512.8,8427418.0,54038.12,181900,19780,43710,1302010,140310,...,201070,46368.00000,2791.00000,58106,32531,185175,16903,11044,24,3129
2,Czechia,1995,46008.4,10333161.0,147738.40,384910,120370,163110,1058970,391100,...,183409,71277.00000,8138.00000,131699,32531,185175,16903,11044,24,3129
3,Denmark,1995,141441.4,5215718.0,84425.26,290300,24500,36200,145770,212670,...,80593,54274.00000,1483.00000,25524,32531,185175,16903,11044,24,3129
4,Germany,1995,1977604.1,81538603.0,1090715.50,2195580,205640,346170,1751450,2340450,...,173147,116457.00000,5720.00000,90548,32531,185175,16903,11044,24,3129
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
745,Finland,2019,239858.0,5517919.0,39198.47,119810,16620,30030,28930,84520,...,42445,17104.00000,634.00000,13649,32531,185175,16903,11044,24,3129
746,Sweden,2019,476869.5,10230185.0,14074.24,127030,17570,36720,16380,134000,...,34765,20187.00000,932.00000,17421,32531,185175,16903,11044,24,3129
747,Norway,2019,361734.6,5328212.0,34650.02,150560,23530,32090,16270,152500,...,36845,15510.52941,1117.00000,9684,32531,185175,16903,11044,24,3129
748,Switzerland,2019,653732.6,8544527.0,43981.61,61330,6150,14130,4440,81150,...,199126,232060.87630,12280.68085,65004,32531,185175,16903,11044,24,3129


### Manipulating your data <a name="Manipulating-your-data"></a>

#### Operating on columns <a name="Operating-on-columns"></a>

Commençons par quelques opérations simples. Nous avons des données sur le PIB et sur la population. Pour comparer les pays, il est préférable d'utiliser des indicateurs par habitant. Ainsi, calculons le PIB par habitant. Nous voulons diviser les éléments de la colonne du PIB par les éléments de la colonne de la population. Devons-nous utiliser une technique de compréhension, comme nous l’avons fait avec les listes ? Non ! Avec pandas, lorsque nous voulons diviser une colonne par une autre élément par élément, nous pouvons simplement diviser les deux colonnes. De plus, comme nous l'avons fait avec les dictionnaires, nous pouvons facilement créer une nouvelle colonne dans notre data frame en lui attribuant un nouveau nom :


In [None]:
df_grdp["GDP per capita"] = df_grdp["GDP [million Euro]"]/df_grdp["Population"]

Notez que la même syntaxe peut être utilisée pour toute opération élément par élément, y compris l'addition, la soustraction ou la multiplication. Très pratique, n'est-ce pas ?

Visualisons le résultat :


In [None]:
df_grdp.head()

Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],...,Cost_SOx [Euro per tonne],Cost_NMVOC [Euro per tonne],Cost_NH3 [Euro per tonne],Cost_Pb [Euro per kg],Cost_Cd [Euro per kg],Cost_Hg [Euro per kg],Cost_As [Euro per kg],Cost_Ni [Euro per kg],Cost_Cr [Euro per kg],GDP per capita
0,Belgium,1995,220251.5,10130574.0,151311.86,415990,44400,60940,257720,306530,...,159275.0,7953.0,162801,32531,185175,16903,11044,24,3129,0.021741
1,Bulgaria,1995,14512.8,8427418.0,54038.12,181900,19780,43710,1302010,140310,...,46368.0,2791.0,58106,32531,185175,16903,11044,24,3129,0.001722
2,Czechia,1995,46008.4,10333161.0,147738.4,384910,120370,163110,1058970,391100,...,71277.0,8138.0,131699,32531,185175,16903,11044,24,3129,0.004453
3,Denmark,1995,141441.4,5215718.0,84425.26,290300,24500,36200,145770,212670,...,54274.0,1483.0,25524,32531,185175,16903,11044,24,3129,0.027118
4,Germany,1995,1977604.1,81538603.0,1090715.5,2195580,205640,346170,1751450,2340450,...,116457.0,5720.0,90548,32531,185175,16903,11044,24,3129,0.024254


Il semble que cela ait fonctionné. Cependant, comme nos données de PIB étaient en millions d'euros, notre PIB par habitant est en millions d'euros par habitant. Les pays ne produisent pas autant, donc les valeurs obtenues sont très petites... Modifions l’unité en euros par habitant en multipliant la colonne par 1'000'000. Comme précédemment, nous n’avons pas besoin d’une technique de compréhension, nous pouvons directement multiplier la colonne par notre scalaire !


In [None]:
df_grdp['GDP per capita'] = df_grdp['GDP per capita']*1000000

# Here is an alternative:
# df_data.loc[:, 'GDP per capita'] *=1000000

df_grdp.head()

Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],...,Cost_SOx [Euro per tonne],Cost_NMVOC [Euro per tonne],Cost_NH3 [Euro per tonne],Cost_Pb [Euro per kg],Cost_Cd [Euro per kg],Cost_Hg [Euro per kg],Cost_As [Euro per kg],Cost_Ni [Euro per kg],Cost_Cr [Euro per kg],GDP per capita
0,Belgium,1995,220251.5,10130574.0,151311.86,415990,44400,60940,257720,306530,...,159275.0,7953.0,162801,32531,185175,16903,11044,24,3129,21741.265599
1,Bulgaria,1995,14512.8,8427418.0,54038.12,181900,19780,43710,1302010,140310,...,46368.0,2791.0,58106,32531,185175,16903,11044,24,3129,1722.093291
2,Czechia,1995,46008.4,10333161.0,147738.4,384910,120370,163110,1058970,391100,...,71277.0,8138.0,131699,32531,185175,16903,11044,24,3129,4452.500063
3,Denmark,1995,141441.4,5215718.0,84425.26,290300,24500,36200,145770,212670,...,54274.0,1483.0,25524,32531,185175,16903,11044,24,3129,27118.298957
4,Germany,1995,1977604.1,81538603.0,1090715.5,2195580,205640,346170,1751450,2340450,...,116457.0,5720.0,90548,32531,185175,16903,11044,24,3129,24253.593111


Beaucoup mieux !

#### Functions and data frame <a name="Functions-and-data-frame"></a>

Nous allons maintenant calculer le Produit Intérieur Vert. Commençons par calculer les coûts externes de chaque polluant. Nous devons multiplier chaque colonne d’émission par la colonne de coût unitaire associée, en veillant à ce que les unités correspondent. Par exemple, pour les gaz à effet de serre, nous pouvons calculer les coûts externes en millions d'euros avec la formule suivante :


In [None]:
df_grdp["External cost GHG"] = (df_grdp["Emissions_GHG [thousand tonnes CO2eq]"]
                                *df_grdp["Cost_GHG [Euro per tonnes CO2eq]"]/1000)

Nous pourrions procéder de manière similaire pour tous les polluants... Mais cela serait redondant. Nous pouvons sûrement faire mieux ? Oui, nous pouvons. Nous allons définir des fonctions pour répéter l’opération !

Commençons par les groupes de polluants, d'abord avec les polluants de l'air.


In [None]:
def external_cost(pol):
    """This function computes the external cost of air pollutants,
    and stores the results in a new column of our data frame.
    It takes one argument: pol refs to a pollutant and should be a string"""

    df_grdp['External cost {p}'.format(p=pol)] = (df_grdp['Emissions_{p} [tonne]'.format(p=pol)]
                                             *df_grdp['Cost_{p} [Euro per tonne]'.format(p=pol)]
                                             /1000000)

Pouvez-vous comprendre cette fonction ? Nous avons utilisé les motifs répétitifs dans les noms de nos variables et la méthode `.format` des chaînes de caractères. Rappelez-vous que `.format` permet d’insérer des valeurs dans une chaîne. Ici, l’idée est d’insérer le nom de notre polluant. Le reste du code effectue exactement la même opération que ce que nous avons fait ci-dessus avec les gaz à effet de serre : il multiplie les émissions d’un polluant donné par le coût unitaire associé et stocke les résultats dans une nouvelle colonne. Nous divisons par 1'000'000 pour exprimer le résultat en millions d'euros.

Ok, maintenant nous pouvons appliquer notre fonction à nos polluants de l'air. Une façon de faire est de boucler sur notre liste de polluants de l'air :


In [None]:
air_pollutants = ('NOx', 'PM2.5', 'PM10', 'SOx', 'NMVOC', 'NH3') # tuple of air pollutant

for pol in air_pollutants:
    external_cost(pol)

Très bien, faisons la même chose avec les métaux lourds :


In [None]:
def external_cost_hm(pol):
    """This function computes the external cost of heavy metal,
    and stores the results in a new column of our data frame.
    It takes one argument: pol refs to a pollutant and should be a string"""

    df_grdp['External cost {p}'.format(p=pol)] = (df_grdp['Emissions_{p} [tonne]'.format(p=pol)]
                                             *df_grdp['Cost_{p} [Euro per kg]'.format(p=pol)]
                                             /1000)

In [None]:
heavy_metals = ('Pb', 'Cd', 'Hg', 'As', 'Ni', 'Cr') # tuple of air pollutant

for pol in heavy_metals:
    external_cost_hm(pol)

Très bien, faisons la même chose avec les métaux lourds :


In [None]:
df_grdp.head()

Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],...,External cost PM10,External cost SOx,External cost NMVOC,External cost NH3,External cost Pb,External cost Cd,External cost Hg,External cost As,External cost Ni,External cost Cr
0,Belgium,1995,220251.5,10130574.0,151311.86,415990,44400,60940,257720,306530,...,20262.00154,41048.353,2437.83309,21903.24654,6408.607,925.875,50.709,66.264,1.704,100.128
1,Bulgaria,1995,14512.8,8427418.0,54038.12,181900,19780,43710,1302010,140310,...,8788.7697,60371.59968,391.60521,3568.28946,12003.939,740.7,33.806,165.66,0.672,31.29
2,Czechia,1995,46008.4,10333161.0,147738.4,384910,120370,163110,1058970,391100,...,29915.84199,75480.20469,3182.7718,15169.09082,8458.06,370.35,67.612,187.748,0.672,53.193
3,Denmark,1995,141441.4,5215718.0,84425.26,290300,24500,36200,145770,212670,...,2917.4666,7911.52098,315.38961,2785.17888,845.806,185.175,33.806,11.044,0.312,9.387
4,Germany,1995,1977604.1,81538603.0,1090715.5,2195580,205640,346170,1751450,2340450,...,59938.29699,203968.61265,13387.374,55483.287,22186.142,3518.325,338.06,99.396,4.992,294.126


Et nous pouvons vérifier que nous n'avons pas omis un polluant en retournant une liste des variables :


In [None]:
list(df_grdp)

['Country',
 'Year',
 'GDP [million Euro]',
 'Population',
 'Emissions_GHG [thousand tonnes CO2eq]',
 'Emissions_NOx [tonne]',
 'Emissions_PM2.5 [tonne]',
 'Emissions_PM10 [tonne]',
 'Emissions_SOx [tonne]',
 'Emissions_NMVOC [tonne]',
 'Emissions_NH3 [tonne]',
 'Emissions_Pb [tonne]',
 'Emissions_Cd [tonne]',
 'Emissions_Hg [tonne]',
 'Emissions_As [tonne]',
 'Emissions_Ni [tonne]',
 'Emissions_Cr [tonne]',
 'Cost_GHG [Euro per tonnes CO2eq]',
 'Cost_NOx [Euro per tonne]',
 'Cost_PM2.5 [Euro per tonne]',
 'Cost_PM10 [Euro per tonne]',
 'Cost_SOx [Euro per tonne]',
 'Cost_NMVOC [Euro per tonne]',
 'Cost_NH3 [Euro per tonne]',
 'Cost_Pb [Euro per kg]',
 'Cost_Cd [Euro per kg]',
 'Cost_Hg [Euro per kg]',
 'Cost_As [Euro per kg]',
 'Cost_Ni [Euro per kg]',
 'Cost_Cr [Euro per kg]',
 'GDP per capita',
 'External cost GHG',
 'External cost NOx',
 'External cost PM2.5',
 'External cost PM10',
 'External cost SOx',
 'External cost NMVOC',
 'External cost NH3',
 'External cost Pb',
 'External 

Ça me semble bon ! Nous sommes presque prêts !

Calculons le coût externe total en additionnant le coût externe de chaque polluant. Nous utilisons la méthode `.sum`, où `axis=1` signifie que nous effectuons la somme sur les colonnes (nous pourrions aussi sommer sur les lignes) :


In [None]:
df_grdp['Total external cost'] = df_grdp.loc[:,'External cost GHG':'External cost Cr'].sum(axis = 1)

#### Calcul du GrDP <a name="Calculating-GrDP"></a>

Enfin, nous pouvons calculer le Produit Intérieur Vert. Nous calculons également quelques indicateurs supplémentaires, tels que le GrDP par habitant, et la part des coûts externes par rapport au PIB :


In [None]:
# GrDP = GDP - total external cost
df_grdp['GrDP [million Euro]'] = df_grdp['GDP [million Euro]'] - df_grdp['Total external cost']

# GrDP per capita = GrDP / population
df_grdp['GrDP per capita [Euro]'] = df_grdp['GrDP [million Euro]']*1000000/df_grdp['Population']

# Share of external cost w.r.t. GDP
df_grdp['Share external cost [%]'] = df_grdp['Total external cost']*100/df_grdp['GDP [million Euro]']

Visualisons le résultat :


In [None]:
df_grdp.head()

Unnamed: 0,Country,Year,GDP [million Euro],Population,Emissions_GHG [thousand tonnes CO2eq],Emissions_NOx [tonne],Emissions_PM2.5 [tonne],Emissions_PM10 [tonne],Emissions_SOx [tonne],Emissions_NMVOC [tonne],...,External cost Pb,External cost Cd,External cost Hg,External cost As,External cost Ni,External cost Cr,Total external cost,GrDP [million Euro],GrDP per capita [Euro],Share external cost [%]
0,Belgium,1995,220251.5,10130574.0,151311.86,415990,44400,60940,257720,306530,...,6408.607,925.875,50.709,66.264,1.704,100.128,159875.867,60375.63,5959.744532,72.587868
1,Bulgaria,1995,14512.8,8427418.0,54038.12,181900,19780,43710,1302010,140310,...,12003.939,740.7,33.806,165.66,0.672,31.29,105129.31431,-90616.51,-10752.583331,724.390292
2,Czechia,1995,46008.4,10333161.0,147738.4,384910,120370,163110,1058970,391100,...,8458.06,370.35,67.612,187.748,0.672,53.193,201302.71255,-155294.3,-15028.7325,437.534695
3,Denmark,1995,141441.4,5215718.0,84425.26,290300,24500,36200,145770,212670,...,845.806,185.175,33.806,11.044,0.312,9.387,34270.90287,107170.5,20547.601908,24.229754
4,Germany,1995,1977604.1,81538603.0,1090715.5,2195580,205640,346170,1751450,2340450,...,22186.142,3518.325,338.06,99.396,4.992,294.126,692560.50726,1285044.0,15759.941248,35.02018


Voilà ! Nous avons calculé le GrDP et les indicateurs associés pour les pays européens entre 1995 et 2019 !


### Exporting data frame <a name="Exporting-data-frame"></a>




Nous avons créé ce super DataFrame. Nous allons maintenant enregistrer nos données dans un fichier CSV pour pouvoir les réutiliser. Nous utilisons la méthode `.to_csv` pour exporter au format CSV. Nous spécifions un nom pour notre fichier, tandis que le paramètre `index = False` demande à Pandas de ne pas écrire explicitement les étiquettes de ligne dans le fichier.


In [None]:
df_grdp.to_csv('GrDP_1995-2019.csv', index=False)

Notre fichier est enregistré dans le répertoire actif. Dans Colab, cliquez sur l'icône du dossier (à gauche de l'écran), et vous pourrez ensuite télécharger votre fichier.
