# Manipuler des donn√©es avec Pandas

Lino Galiana  
2025-06-14

<div class="badge-container"><div class="badge-text">Pour essayer les exemples pr√©sents dans ce tutoriel :</div><a href="https://github.com/linogaliana/python-datascientist-notebooks/blob/main/notebooks/manipulation/02_pandas_suite.ipynb" target="_blank" rel="noopener"><img src="https://img.shields.io/static/v1?logo=github&label=&message=View%20on%20GitHub&color=181717" alt="View on GitHub"></a>
<a href="https://datalab.sspcloud.fr/launcher/ide/vscode-python?autoLaunch=true&name=¬´02_pandas_suite¬ª&init.personalInit=¬´https%3A%2F%2Fraw.githubusercontent.com%2Flinogaliana%2Fpython-datascientist%2Fmain%2Fsspcloud%2Finit-vscode.sh¬ª&init.personalInitArgs=¬´manipulation%2002_pandas_suite%20correction¬ª" target="_blank" rel="noopener"><img src="https://custom-icon-badges.demolab.com/badge/SSP%20Cloud-Lancer_avec_VSCode-blue?logo=vsc&logoColor=white" alt="Onyxia"></a>
<a href="https://datalab.sspcloud.fr/launcher/ide/jupyter-python?autoLaunch=true&name=¬´02_pandas_suite¬ª&init.personalInit=¬´https%3A%2F%2Fraw.githubusercontent.com%2Flinogaliana%2Fpython-datascientist%2Fmain%2Fsspcloud%2Finit-jupyter.sh¬ª&init.personalInitArgs=¬´manipulation%2002_pandas_suite%20correction¬ª" target="_blank" rel="noopener"><img src="https://img.shields.io/badge/SSP%20Cloud-Lancer_avec_Jupyter-orange?logo=Jupyter&logoColor=orange" alt="Onyxia"></a>
<a href="https://colab.research.google.com/github/linogaliana/python-datascientist-notebooks-colab//blob/main//notebooks/manipulation/02_pandas_suite.ipynb" target="_blank" rel="noopener"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"></a><br></div>

<div class="alert alert-info" role="alert">
<h3 class="alert-heading">Version üá´üá∑</h3>
This is the French version üá´üá∑ of that chapter,to see the English version go <a href="https://pythonds.linogaliana.fr/content/manipulation/02_pandas_suite.html">there</a>
</div>

:

:

# 1. Introduction

Le [chapitre d‚Äôintroduction √† `Pandas`](../../content/manipulation/02_pandas_intro.qmd) a permis de pr√©senter le principe de donn√©es organis√©es sous une forme de *DataFrame* et la praticit√© de l‚Äô√©cosyst√®me `Pandas` pour effectuer des op√©rations simples sur un jeu de donn√©es.

Il est rare de travailler exclusivement sur une source brute. Un jeu de donn√©es prend g√©n√©ralement de la valeur lorsqu‚Äôil est compar√© √† d‚Äôautres sources. Pour des chercheurs, cela permettra de contextualiser l‚Äôinformation pr√©sente dans une source en la comparant ou en l‚Äôassociant √† d‚Äôautres sources. Pour des *data scientists* dans le secteur priv√©, il s‚Äôagira souvent d‚Äôassocier des informations sur une m√™me personne dans plusieurs bases clientes ou comparer les clients entre eux.

L‚Äôun des apports des outils modernes de *data science*, notamment `Pandas` est la simplicit√© par laquelle ils permettent de restructurer des sources pour travailler sur plusieurs donn√©es sur un projet.
Ce chapitre consolide ainsi les principes vus pr√©c√©demment en raffinant les traitements faits sur les donn√©es. Il va explorer principalement deux types d‚Äôop√©rations:

-   les statistiques descriptives par groupe ;
-   l‚Äôassociation de donn√©es par des caract√©ristiques communes.

Effectuer ce travail de mani√®re simple, fiable et efficace est indispensable pour les *data scientists* tant cette t√¢che est courante. Heureusement `Pandas` permet de faire cela tr√®s bien avec des donn√©es structur√©es. Nous verrons dans les prochains chapitres, mais aussi dans l‚Äôensemble de la [partie sur le traitement des donn√©es textuelles](../../content/nlp/index.qmd), comment faire avec des donn√©es moins structur√©es.

Gr√¢ce √† ce travail, nous allons approfondir notre compr√©hension d‚Äôun ph√©nom√®ne r√©el par le biais de statistiques descriptives fines. Cela est une √©tape indispensable avant de basculer vers la [statistique inf√©rentielle](https://fr.wikipedia.org/wiki/Inf%C3%A9rence_statistique#:~:text=L'inf%C3%A9rence%20statistique%20est%20l,%3A%20la%20probabilit%C3%A9%20d'erreur.), l‚Äôapproche qui consiste √† formaliser et g√©n√©raliser des liens de corr√©lation ou de causalit√© entre des caract√©ristiques observ√©es et un ph√©nom√®ne.

:

:

## 1.1 Environnement

Le chapitre pr√©c√©dent utilisait quasi exclusivement la librairie `Pandas`. Nous allons dans ce chapitre utiliser d‚Äôautres *packages* en compl√©ment de celui-ci.

Comme expliqu√© ci-dessous, nous allons utiliser une librairie nomm√©e `pynsee` pour r√©cup√©rer les donn√©es de l‚ÄôInsee utiles √† enrichir notre jeu de donn√©es de l‚ÄôAdeme. Cette librairie n‚Äôest pas install√©e par d√©faut dans `Python`. Avant de pouvoir l‚Äôutiliser,
il est n√©cessaire de l‚Äôinstaller, comme la librairie `great_tables` que nous verrons √† la fin de ce chapitre:

In [5]:
!pip install xlrd
!pip install pynsee
!pip install great_tables

L‚Äôinstruction `!pip install <pkg>` est une mani√®re de faire comprendre √† `Jupyter`, le moteur d‚Äôex√©cution derri√®re les *notebooks* que la commande qui suit (`pip install` ce `<pkg>`)
est une commande syst√®me, √† ex√©cuter hors de `Python` (dans le terminal par exemple pour un syst√®me `Linux`).

Les premiers *packages* indispensables pour d√©marrer ce chapitre sont les suivants:

In [6]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import pynsee
import pynsee.download

Pour obtenir des r√©sultats reproductibles, on peut fixer la racine du g√©n√©rateur
pseudo-al√©atoire.

In [7]:
np.random.seed(123)

## 1.2 Donn√©es utilis√©es

Ce tutoriel continue l‚Äôexploration du jeu de donn√©es du chapitre pr√©c√©dent:

-   Les √©missions de gaz √† effet de serre estim√©es au niveau communal par l‚ÄôADEME. Le jeu de donn√©es est
    disponible sur [data.gouv](https://www.data.gouv.fr/fr/datasets/inventaire-de-gaz-a-effet-de-serre-territorialise/#_)
    et requ√™table directement dans `Python` avec
    [cet url](https://koumoul.com/s/data-fair/api/v1/datasets/igt-pouvoir-de-rechauffement-global/convert) ;

Les probl√©matiques d‚Äôenrichissement de donn√©es (association d‚Äôune source √† une autre √† partir de caract√©ristiques communes) seront pr√©sent√©es √† partir de deux sources produites par l‚ÄôInsee:

-   Le
    [code officiel g√©ographique](https://www.insee.fr/fr/statistiques/fichier/6800675/v_commune_2023.csv),
    un r√©f√©rentiel
    produit par l‚ÄôInsee utilis√© pour identifier les communes √† partir d‚Äôun code unique, contrairement au code postal ;
-   Les donn√©es [*Filosofi*](https://www.insee.fr/fr/metadonnees/source/serie/s1172), une source sur les revenus des Fran√ßais √† une √©chelle spatiale fine construite par l‚ÄôInsee √† partir des d√©clarations fiscales et d‚Äôinformations sur les prestations sociales. En l‚Äôoccurrence, nous allons utiliser les niveaux de revenu et les populations[1] au niveau communal afin de les mettre en regard de nos donn√©es d‚Äô√©missions.

Pour faciliter l‚Äôimport de donn√©es Insee, il est recommand√© d‚Äôutiliser le *package*
[`pynsee`](https://pynsee.readthedocs.io/en/latest/) qui simplifie l‚Äôacc√®s aux principaux jeux de donn√©es
de l‚ÄôInsee disponibles sur le site web [insee.fr](https://www.insee.fr/fr/accueil)
ou via des API.

:

:

# 2. R√©cup√©ration des jeux de donn√©es

## 2.1 Donn√©es d‚Äô√©mission de l‚ÄôAdeme

Comme expliqu√© au chapitre pr√©c√©dent, ces donn√©es peuvent √™tre import√©es tr√®s simplement avec `Pandas`

[1] Ideally, it would be more coherent, for demographic data, to use the [legal populations](https://www.insee.fr/fr/information/2008354), from the census. However, this base is not yet natively integrated into the `pynsee` library that we will use in this chapter. An open exercise is proposed to construct population aggregates from anonymized individual census data (the [detailed files](https://www.insee.fr/fr/information/2383306)).

In [10]:
import pandas as pd

url = "https://koumoul.com/s/data-fair/api/v1/datasets/igt-pouvoir-de-rechauffement-global/convert"
emissions = pd.read_csv(url)
emissions.head(2)

Nous allons d‚Äôores et d√©j√† conserver le nom des secteurs √©metteurs pr√©sents dans la base de donn√©es pour simplifier des utilisations ult√©rieures:

In [11]:
secteurs = emissions.select_dtypes(include='number').columns

Les exploitations ult√©rieures de ces donn√©es utiliseront la dimension d√©partementale dont nous avons montr√© la construction au chapitre pr√©c√©dent:

In [12]:
emissions['dep'] = emissions["INSEE commune"].str[:2]

## 2.2 Donn√©es *Filosofi*

On va utiliser les donn√©es Filosofi (donn√©es de revenus) au niveau communal de 2016.
Ce n‚Äôest pas la m√™me ann√©e que les donn√©es d‚Äô√©mission de CO2, ce n‚Äôest donc pas parfaitement rigoureux,
mais cela permettra tout de m√™me d‚Äôillustrer
les principales fonctionnalit√©s de `Pandas`

Le point d‚Äôentr√©e principal de la fonction `pynsee` est la fonction `download_file`.

Le code pour t√©l√©charger les donn√©es est le suivant :

In [13]:
from pynsee.download import download_file
filosofi = download_file("FILOSOFI_COM_2016")

Le *DataFrame* en question a l‚Äôaspect suivant :

In [15]:
filosofi.sample(3)

`Pandas` a g√©r√© automatiquement les types de variables. Il le fait relativement bien, mais une v√©rification est toujours utile pour les variables qui ont un statut sp√©cifique.

Pour les variables qui ne sont pas en type `float` alors qu‚Äôelles devraient l‚Äô√™tre, on modifie leur type.

In [16]:
filosofi = (
  filosofi
  .astype(
    {c: "float" for c in filosofi.columns[2:]}
  )
)

Un simple coup d‚Äôoeil sur les donn√©es
donne une id√©e assez pr√©cise de la mani√®re dont les donn√©es sont organis√©es.
On remarque que certaines variables de `filosofi` semblent avoir beaucoup de valeurs manquantes (secret statistique)
alors que d‚Äôautres semblent compl√®tes.
Si on d√©sire exploiter `filosofi`, il faut faire attention √† la variable choisie.

Notre objectif √† terme va √™tre de relier l‚Äôinformation contenue entre ces
deux jeux de donn√©es. En effet, sinon, nous risquons d‚Äô√™tre frustr√© : nous allons
vouloir en savoir plus sur les √©missions de gaz carbonique mais seront tr√®s
limit√©s dans les possibilit√©s d‚Äôanalyse sans ajout d‚Äôune information annexe
issue de `filosofi`.

# 3. Statistiques descriptives par groupe

## 3.1 Principe

Nous avons vu, lors du chapitre pr√©c√©dent, comment obtenir
une statistique agr√©g√©e simplement gr√¢ce √† `Pandas`.
Il est n√©anmoins commun d‚Äôavoir des donn√©es avec des strates
interm√©diaires d‚Äôanalyse pertinentes: des variables g√©ographiques, l‚Äôappartenance √† des groupes socio-d√©mographiques li√©s √† des caract√©ristiques renseign√©es, des indicatrices de p√©riode temporelle, etc.
Pour mieux comprendre la structure de ses donn√©es, les *data scientists* sont donc souvent amen√©s √† construire des statistiques descriptives sur des sous-groupes pr√©sents dans les donn√©es. Pour reprendre l‚Äôexemple sur les √©missions, nous avions pr√©c√©demment construit des statistiques d‚Äô√©missions au niveau national. Mais qu‚Äôen est-il du profil d‚Äô√©mission des diff√©rents d√©partements ? Pour r√©pondre √† cette question, il sera utile d‚Äôagr√©ger nos donn√©es au niveau d√©partemental. Ceci nous donnera une information diff√©rente du jeu de donn√©es initial (niveau communal) et du niveau le plus agr√©g√© (niveau national).

En `SQL`, il est tr√®s simple de d√©couper des donn√©es pour
effectuer des op√©rations sur des blocs coh√©rents et recollecter des r√©sultats
dans la dimension appropri√©e.
La logique sous-jacente est celle du *split-apply-combine* qui est repris
par les langages de manipulation de donn√©es, auxquels `pandas`
[ne fait pas exception](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html).

L‚Äôimage suivante, issue de
[ce site](https://unlhcc.github.io/r-novice-gapminder/16-plyr/),
repr√©sente bien la mani√®re dont fonctionne l‚Äôapproche
`split`-`apply`-`combine`:

<figure>
<img src="https://unlhcc.github.io/r-novice-gapminder/fig/12-plyr-fig1.png" alt="Split-apply-combine (Source: unlhcc.github.io)" />
<figcaption aria-hidden="true">Split-apply-combine (Source: <a href="https://unlhcc.github.io/r-novice-gapminder/16-plyr/">unlhcc.github.io</a>)</figcaption>
</figure>

En `Pandas`, on utilise `groupby` pour d√©couper les donn√©es selon un ou
plusieurs axes (ce [tutoriel](https://realpython.com/pandas-groupby/) sur le sujet
est particuli√®rement utile).
L‚Äôensemble des op√©rations d‚Äôagr√©gation (comptage, moyennes, etc.) que nous avions vues pr√©c√©demment peut √™tre mise en oeuvre par groupe.

Techniquement, cette op√©ration consiste √† cr√©er une association
entre des labels (valeurs des variables de groupe) et des
observations. Utiliser la m√©thode `groupby` ne d√©clenche pas d‚Äôop√©rations avant la mise en oeuvre d‚Äôune statistique, cela cr√©√© seulement une relation formelle entre des observations et des regroupemens qui seront utilis√©s *a posteriori*:

In [17]:
filosofi["dep"] = filosofi["CODGEO"].str[:2]
filosofi.groupby('dep').__class__

Tant qu‚Äôon n‚Äôappelle pas une action sur un `DataFrame` par groupe, du type
`head` ou `display`, `pandas` n‚Äôeffectue aucune op√©ration. On parle de
*lazy evaluation*. Par exemple, le r√©sultat de `df.groupby('dep')` est
une transformation qui n‚Äôest pas encore √©valu√©e :

In [18]:
filosofi.groupby('dep')

## 3.2 Illustration 1: d√©nombrement par groupe

Pour illustrer l‚Äôapplication de ce principe √† un comptage, on peut d√©nombrer le nombre de communes par d√©partement en 2023 (chaque ann√©e cette statistique change du fait des fusions de communes). Pour cela, il suffit de prendre le r√©f√©rentiel des communes fran√ßaises issu du code officiel g√©ographique (COG) et d√©nombrer par d√©partement gr√¢ce √† `count`:

In [19]:
import requests
from io import StringIO
import pandas as pd

url_cog_2023 = "https://www.insee.fr/fr/statistiques/fichier/6800675/v_commune_2023.csv"
url_backup = "https://minio.lab.sspcloud.fr/lgaliana/data/python-ENSAE/cog_2023.csv"

# Try-except clause to avoid timout issue sometimes
# Without timeout problem, pd.read_csv(url_cog_2023) would be sufficient
try:
  response = requests.get(url_cog_2023)
  response.raise_for_status()
  cog_2023 = pd.read_csv(StringIO(response.text))
except requests.exceptions.Timeout:
  print("Failing back to backup")
  cog_2023 = pd.read_csv(url_backup)

Gr√¢ce √† ce jeu de donn√©es, sans avoir recours aux statistiques par groupe, on peut d√©j√† savoir combien on a, respectivement, de communes, d√©partements et r√©gions en France:

In [20]:
communes = cog_2023.loc[cog_2023['TYPECOM']=="COM"]
communes.loc[:, ['COM', 'DEP', 'REG']].nunique()

Maintenant, int√©ressons nous aux d√©partements ayant le plus de communes. Il s‚Äôagit de la m√™me fonction de d√©nombrement o√π on joue, cette fois, sur le groupe √† partir duquel est calcul√© la statistique.

Calculer cette statistique se fait de mani√®re assez transparente lorsqu‚Äôon conna√Æt le principe d‚Äôun calcul de statistiques avec `Pandas`:

In [22]:
communes = cog_2023.loc[cog_2023['TYPECOM']=="COM"]
communes.groupby('DEP').agg({'COM': 'nunique'})

En SQL, on utiliserait la requ√™te suivante:

``` sql
SELECT dep, COUNT DISTINCT "COM" AS COM
FROM communes
GROUP BY dep
WHERE TYPECOM == 'COM';
```

La sortie est une `Serie` index√©e. Ce n‚Äôest pas tr√®s pratique comme nous avons pu l‚Äô√©voquer au cours du chapitre pr√©c√©dent. Il est plus pratique de transformer cet objet en `DataFrame` avec `reset_index`. Enfin, avec `sort_values`, on obtient la statistique d√©sir√©e:

In [23]:
(
    communes
    .groupby('DEP')
    .agg({'COM': 'nunique'})
    .reset_index()
    .sort_values('COM', ascending = False)
)

## 3.3 Illustration 2: agr√©gats par groupe

Pour illustrer les agr√©gats par groupe nous pouvons prendre le jeu de donn√©es de l‚ÄôInsee `filosofi` et compter la population gr√¢ce √† la variable `NBPERSMENFISC16`.

Pour calculer le total au niveau France enti√®re nous pouvons faire de deux mani√®res :

In [24]:
filosofi['NBPERSMENFISC16'].sum()* 1e-6

In [25]:
filosofi.agg({"NBPERSMENFISC16": "sum"}).div(1e6)

o√π les r√©sultats sont report√©s en millions de personnes. La logique est identique lorsqu‚Äôon fait des statistiques par groupe, il s‚Äôagit seulement de remplacer `filosofi` par `filosofi.groupby('dep')` pour cr√©er une version partitionn√©e par d√©partement de notre jeu de donn√©es:

In [26]:
filosofi.groupby('dep')['NBPERSMENFISC16'].sum()

In [28]:
filosofi.groupby('dep').agg({"NBPERSMENFISC16": "sum"})

La seconde approche est plus pratique car elle donne directement un `DataFrame` `Pandas` et non une s√©rie index√©e sans nom. A partir de celle-ci, quelques manipulations basiques peuvent suffire pour avoir un tableau diffusables sur la d√©mographie d√©partementale. N√©anmoins, celui-ci, serait quelques peu brut de d√©coffrage car nous ne poss√©dons √† l‚Äôheure actuelle que les num√©ros de d√©partement. Pour avoir le nom de d√©partements, il faudrait utiliser une deuxi√®me base de donn√©es et croiser les informations communes entre elles (en l‚Äôoccurrence le num√©ro du d√©partement). C‚Äôest l‚Äôobjet de la prochaine partie.

## 3.4 Exercice d‚Äôapplication

Cet exercice d‚Äôapplication s‚Äôappuie sur le jeu de donn√©es de l‚ÄôAdeme nomm√© `emissions` pr√©c√©demment.

:

:

A la question 1, le r√©sultat obtenu devrait √™tre le suivant:

Ce classement refl√®te peut-√™tre plus la d√©mographie que le processus qu‚Äôon d√©sire mesurer. Sans l‚Äôajout d‚Äôune information annexe sur la population de chaque d√©partement pour contr√¥ler ce facteur, on peut difficilement savoir s‚Äôil y a une diff√©rence structurelle de comportement entre les habitants du Nord (d√©partement 59) et ceux de la Moselle (d√©partement 57).

A l‚Äôissue de la question 2, prenons la part des √©missions de l‚Äôagriculture et du secteur tertiaire dans les √©missions d√©partementales:

Ces r√©sultats sont assez logiques ; les d√©partements ruraux ont une part plus importante de leur √©mission issue de l‚Äôagriculture, les d√©partements urbains ont plus d‚Äô√©missions issues du secteur tertiaire, ce qui est li√© √† la densit√© plus importante de ces espaces.

Gr√¢ce √† ces statistiques on progresse dans la connaissance de notre jeu de donn√©es et donc de la nature des √©missions de C02 en France.
Les statistiques descriptives par groupe nous permettent de mieux saisir l‚Äôh√©t√©rog√©n√©it√© spatiale de notre ph√©nom√®ne.

Cependant, on reste limit√© dans notre capacit√© √† interpr√©ter les statistiques obtenues sans recourir √† l‚Äôutilisation d‚Äôinformation annexe. Pour donner du sens et de la valeur √† une statistique, il faut g√©n√©ralement associer celle-ci √† de la connaissance annexe sous peine qu‚Äôelle soit d√©sincarn√©e.

Dans la suite de ce chapitre, nous envisagerons une premi√®re voie qui est le croisement avec des donn√©es compl√©mentaires. On appelle ceci un enrichissement de donn√©es. Ces donn√©es peuvent √™tre des observations √† un niveau identique √† celui de la source d‚Äôorigine. Par exemple, l‚Äôun des croisements les plus communs est d‚Äôassocier une base client √† une base d‚Äôachats afin de mettre en regard un comportement d‚Äôachat avec des caract√©ristiques pouvant expliquer celui-ci. Les associations de donn√©es peuvent aussi se faire √† des niveaux conceptuels diff√©rents, en g√©n√©ral √† un niveau plus agr√©g√© pour contextualiser la donn√©e plus fine et comparer une observation √† des mesures dans un groupe similaire. Par exemple, on peut associer des temps et des modes de transports individuels √† ceux d‚Äôune m√™me classe d‚Äô√¢ge ou de personnes r√©sidant dans la m√™me commune pour pouvoir comparer la diff√©rence entre certains individus et un groupe sociod√©mographique similaire.

# 4. Restructurer les donn√©es

## 4.1 Principe

Quand on a plusieurs informations pour un m√™me individu ou groupe, on
retrouve g√©n√©ralement deux types de structure de donn√©es :

-   format **wide** : les donn√©es comportent des observations r√©p√©t√©es, pour un m√™me individu (ou groupe), dans des colonnes diff√©rentes
-   format **long** : les donn√©es comportent des observations r√©p√©t√©es, pour un m√™me individu, dans des lignes diff√©rentes avec une colonne permettant de distinguer les niveaux d‚Äôobservations

Un exemple de la distinction entre les deux peut √™tre pris √† l‚Äôouvrage de r√©f√©rence d‚ÄôHadley Wickham, [*R for Data Science*](https://r4ds.hadley.nz/):

<figure>
<img src="https://d33wubrfki0l68.cloudfront.net/3aea19108d39606bbe49981acda07696c0c7fcd8/2de65/images/tidy-9.png" alt="Donn√©es long et wide (Source: R for Data Science)" />
<figcaption aria-hidden="true">Donn√©es <em>long</em> et <em>wide</em> (Source: <a href="https://r4ds.hadley.nz/"><em>R for Data Science</em></a>)</figcaption>
</figure>

L‚Äôaide m√©moire suivante aidera √† se rappeler les fonctions √† appliquer si besoin :

![](https://minio.lab.sspcloud.fr/lgaliana/generative-art/pythonds/reshape.png)

Le fait de passer d‚Äôun format *wide* au format *long* (ou vice-versa)
peut √™tre extr√™mement pratique car certaines fonctions sont plus ad√©quates sur une forme de donn√©es ou sur l‚Äôautre.

En r√®gle g√©n√©rale, avec `Python` comme avec `R`, les **formats *long* sont souvent pr√©f√©rables**.
Les formats *wide* sont plut√¥t pens√©s pour des tableurs comme `Excel` ou on dispose d‚Äôun nombre r√©duit
de lignes √† partir duquel faire des tableaux crois√©s dynamiques.

## 4.2 Exercice d‚Äôapplication

Les donn√©es de l‚ÄôADEME, et celles de l‚ÄôInsee √©galement, sont au format
*wide*.
Le prochain exercice illustre l‚Äôint√©r√™t de faire la conversion *long* $\to$ *wide*
avant de faire un graphique avec la m√©thode `plot` vue au chapitre pr√©c√©dent

:

:

# 5. Joindre des donn√©es

## 5.1 Principe

Nous allons ici nous focaliser sur le cas le plus favorable qui est la situation
o√π une information permet d‚Äôapparier de mani√®re exacte deux bases de donn√©es[1].
C‚Äôest un besoin quotidien des *data scientists* d‚Äôassocier des informations pr√©sentes dans plusieurs fichiers. Par exemple, dans des bases de donn√©es d‚Äôentreprises, les informations clients (adresse, √¢ge, etc.) seront dans un fichier, les ventes dans un autre et les caract√©ristiques des produits dans un troisi√®me fichier. Afin d‚Äôavoir une base compl√®te mettant en regard toutes ces informations, il sera d√®s lors n√©cessaire de joindre ces trois fichiers sur la base d‚Äôinformations communes.

Cette pratique d√©coule du fait que de nombreux syst√®mes d‚Äôinformation prennent la forme d‚Äôun sch√©ma en √©toile:

<figure>
<img src="https://www.databricks.com/wp-content/uploads/2022/04/star-schema-erd.png" alt="Illustration du sch√©ma en √©toile (Source: Databricks)" />
<figcaption aria-hidden="true">Illustration du sch√©ma en √©toile (Source: <a href="https://www.databricks.com/wp-content/uploads/2022/04/star-schema-erd.png">Databricks</a>)</figcaption>
</figure>

Cette structuration de l‚Äôinformation est tr√®s li√©e au mod√®le des tables relationnelles des ann√©es 1980. Aujourd‚Äôhui, il existe des mod√®les de donn√©es plus flexibles o√π l‚Äôinformation est empil√©e dans un *data lake* sans structure *a priori*. N√©anmoins ce mod√®le du sch√©ma en √©toile conserve une pertinence parce qu‚Äôil permet de partager l‚Äôinformation qu‚Äô√† ceux qui en ont besoin laissant le soin √† ceux qui ont besoin de lier des donn√©es entre elles de le faire.

Puisque la logique du sch√©ma en √©toile vient historiquement des bases relationnelles, il est naturel qu‚Äôil s‚Äôagisse d‚Äôune approche intrins√®quement li√©e √† la philosophie du SQL, jusque dans le vocabulaire. On parle souvent de jointure de donn√©es, un h√©ritage du terme `JOIN` de SQL, et la mani√®re de d√©crire les jointures (*left join*, *right join*‚Ä¶) est directement issue des instructions SQL associ√©es.

On parle g√©n√©ralement de base de gauche et de droite pour illustrer les jointures:

![](https://minio.lab.sspcloud.fr/lgaliana/python-ENSAE/inputs/merge_pandas/join_initial.png)

## 5.2 Mise en oeuvre avec `Pandas`

En `Pandas`, la m√©thode la plus pratique pour associer des jeux de donn√©es √† partir de caract√©ristiques communes est `merge`. Ses principaux arguments permettent de contr√¥ler le comportement de jointure. Nous allons les explorer de mani√®re visuelle.

En l‚Äôoccurrence, pour notre probl√©matique de construction de statistiques
sur les √©missions de gaz carbonique, la base de gauche sera le *DataFrame* `emission` et la base de droite le *DataFrame* `filosofi`:

[1] Otherwise, we enter the realm of fuzzy matching or probabilistic matching. Fuzzy matching occurs when we no longer have an exact identifier to link two databases but have partially noisy information between two sources to make the connection. For example, in a product database, we might have `Coca Cola 33CL` and in another `Coca Cola canette`, but these names hide the same product. The chapter on [Introduction to Textual Search with ElasticSearch](../../content/modern-ds/elastic.qmd) addresses this issue. Probabilistic matching is another approach. In these, observations in two databases are associated not based on an identifier but on the distance between a set of characteristics in both databases. This technique is widely used in medical statistics or in the evaluation of public policies based on [*propensity score matching*](https://en.wikipedia.org/wiki/Propensity_score_matching).

In [41]:
emissions.head(2)

In [42]:
filosofi.head(2)

On parle de cl√©(s) de jointure pour nommer la ou les variable(s) n√©cessaire(s) √† la fusion de donn√©es. Ce sont les variables communes aux deux jeux de donn√©es. Il n‚Äôest pas n√©cessaire qu‚Äôelles aient le m√™me nom en revanche elles doivent partager des valeurs communes autrement l‚Äôintersection entre ces deux bases est l‚Äôensemble vide.

On peut jouer sur deux dimensions dans la jointure (ceci sera plus clair ensuite avec les exemples graphiques).

-   Il existe principalement trois types de fusions: *left join* et *right join* ou un combo des deux selon le type de pivot qu‚Äôon d√©sire mettre en oeuvre.
-   Ensuite, il existe deux mani√®res de fusionner les valeurs une fois qu‚Äôon a choisi un pivot: *inner* ou *outer join*. Dans le premier cas, on ne conserve que les observations o√π les cl√©s de jointures sont pr√©sentes dans les deux bases, dans le second on conserve toutes les observations de la cl√© de jointure des variables pivot quitte √† avoir des valeurs manquantes si la deuxi√®me base de donn√©es n‚Äôa pas de telles observations.

Dans les exemples ci-dessous, nous allons utiliser les codes communes et les d√©partements comme variables de jointure. En soi, l‚Äôusage du d√©partement n‚Äôest pas n√©cessaire puisqu‚Äôil se d√©duit directement du code commune mais cela permet d‚Äôillustrer le principe des jointures sur plusieurs variables. A noter que le nom de la commune est volontairement mis de c√¥t√© pour effectuer des jointures alors que c‚Äôest une information commune aux deux bases. Cependant, comme il s‚Äôagit d‚Äôun champ textuel, dont le formattage peut suivre une norme diff√©rente dans les deux bases, ce n‚Äôest pas une information fiable pour faire une jointure exacte.

Pour illustrer le principe du pivot √† gauche ou √† droite, on va cr√©er deux variables identificatrices de la ligne de nos jeux de donn√©es de gauche et de droite. Cela nous permettra de trouver facilement les lignes pr√©sentes dans un jeu de donn√©es mais pas dans l‚Äôautre.

In [43]:
emissions = emissions.reset_index(names = ['id_left'])
filosofi = filosofi.reset_index(names = ['id_right'])

### 5.2.1 *Left join*

Commen√ßons avec la jointure √† gauche. Comme son nom l‚Äôindique, on va prendre la variable de gauche en pivot:

![](https://minio.lab.sspcloud.fr/lgaliana/python-ENSAE/inputs/merge_pandas/left_join.png)

In [44]:
left_merged = emissions.merge(
  filosofi,
  left_on = ["INSEE commune", "dep"],
  right_on = ["CODGEO", "dep"],
  how = "left"
)
left_merged.head(3)

Il est recommand√© de toujours expliciter les cl√©s de jointures par le biais des arguments `left_on`, `right_on` ou `on` si les noms de variables sont communs dans les deux bases.
Si on a des noms de variables communes entre les bases mais qu‚Äôelles ne sont pas d√©finies comme cl√©s de jointures, celles-ci ne seront pas utilis√©es pour joindre mais seront conserv√©es avec un suffixe qui par d√©faut est `_x` et `_y` (param√©trable par le biais de l‚Äôargument `suffixes`).

La syntaxe `Pandas` √©tant directement inspir√©e de SQL, on a une traduction assez transparente de l‚Äôinstruction ci-dessus en SQL:

``` sql
SELECT *
FROM emissions
LEFT JOIN filosofi
  ON emissions.`INSEE commune` = filosofi.CODGEO
  AND emissions.dep = filosofi.dep;
```

En faisant une jointure √† gauche, on doit en principe avoir autant de lignes que la base de donn√©es √† gauche:

In [45]:
left_merged.shape[0] == emissions.shape[0]

Autrement, cela est signe qu‚Äôil y a une cl√© dupliqu√©e √† droite. Gr√¢ce √† notre variable `id_right`, on peut savoir les codes communes √† droite qui n‚Äôexistent pas √† gauche:

In [46]:
left_merged.loc[left_merged['id_right'].isna()].tail(3)

Cela vient du fait que nous utilisons des donn√©es qui ne sont pas de la m√™me ann√©e de r√©f√©rence du code officiel g√©ographique (2016 vs 2018). Pendant cet intervalle, il y a eu des changements de g√©ographie, notamment des fusions de communes. Par exemple, la commune de Courcouronnes qu‚Äôon a vu ci-dessus peut √™tre retrouv√©e regroup√©e avec Evry dans le jeu de donn√©es filosofi (base de droite):

In [47]:
filosofi.loc[
  filosofi['LIBGEO']
  .str.lower()
  .str.contains("courcouronnes")
]

Dans un exercice de construction de statistiques publiques, on ne pourrait donc se permettre cette disjonction des ann√©es.

### 5.2.2 *Right join*

![](https://minio.lab.sspcloud.fr/lgaliana/python-ENSAE/inputs/merge_pandas/right_join.png)

Le principe est le m√™me mais cette fois c‚Äôest la base de droite qui est prise sous forme de pivot:

In [48]:
right_merged = emissions.merge(
  filosofi,
  left_on = ["INSEE commune", "dep"],
  right_on = ["CODGEO", "dep"],
  how = "right"
)
right_merged.head(3)

L‚Äôinstruction √©quivalente en SQL serait

``` sql
SELECT *
FROM filosofi
RIGHT JOIN emissions
  ON filosofi.CODGEO = emissions.`INSEE commune`
  AND filosofi.dep = emissions.dep;
```

On peut, comme pr√©c√©demment, v√©rifier la coh√©rence des dimensions:

In [49]:
right_merged.shape[0] == filosofi.shape[0]

Pour v√©rifier le nombre de lignes des donn√©es Filosofi que nous n‚Äôavons pas dans notre jeu d‚Äô√©missions de gaz carbonique, on peut faire

In [50]:
right_merged['id_left'].isna().sum()

C‚Äôest un nombre faible. Quelles sont ces observations ?

In [51]:
right_merged.loc[
  right_merged['id_left'].isna(),
  filosofi.columns.tolist() + emissions.columns.tolist()
]

Il est suprenant de voir que Paris, Lyon et Marseille sont pr√©sents
dans la base des statistiques communales mais pas dans celles des √©missions.
Pour comprendre pourquoi, recherchons dans nos donn√©es d‚Äô√©missions les observations li√©es √† Marseille:

In [52]:
emissions.loc[
  emissions["Commune"]
  .str.lower()
  .str.contains('MARSEILLE')
]

Cela vient du fait que le jeu de donn√©es des √©missions de l‚ÄôAdeme propose de l‚Äôinformation sur les arrondissements dans les trois plus grandes villes
l√† o√π le jeu de donn√©es de l‚ÄôInsee ne fait pas cette d√©composition.

### 5.2.3 *Inner join*

![](https://minio.lab.sspcloud.fr/lgaliana/python-ENSAE/inputs/merge_pandas/inner.png)

Il s‚Äôagit du jeu de donn√©es o√π les cl√©s sont retrouv√©es √† l‚Äôintersection des deux tables.

In [53]:
inner_merged = emissions.merge(
  filosofi,
  left_on = ["INSEE commune", "dep"],
  right_on = ["CODGEO", "dep"],
  how = "inner"
)
inner_merged.head(3)

En SQL, cela donne

``` sql
SELECT *
FROM emissions
INNER JOIN filosofi
  ON emissions.`INSEE commune` = filosofi.CODGEO
  AND emissions.dep = filosofi.dep;
```

Le nombre de lignes dans notre jeu de donn√©es peut √™tre compar√© au jeu de droite et de gauche:

In [54]:
inner_merged.shape[0] == (
  left_merged.shape[0] - left_merged['id_right'].isna().sum()
)

In [55]:
inner_merged.shape[0] == (
  right_merged.shape[0] - right_merged['id_left'].isna().sum()
)

### 5.2.4 *Full join*

Le *full join* est un pivot √† gauche puis √† droite pour les informations qui n‚Äôont pas √©t√© trouv√©es

![](https://minio.lab.sspcloud.fr/lgaliana/python-ENSAE/inputs/merge_pandas/full_join.png)

In [56]:
full_merged = emissions.merge(
  filosofi,
  left_on = ["INSEE commune", "dep"],
  right_on = ["CODGEO", "dep"],
  how = "outer"
)
full_merged.head(3)

Comme d‚Äôhabitude, la traduction en SQL est presque imm√©diate:

``` sql
SELECT *
FROM emissions
FULL OUTER JOIN filosofi
  ON emissions.`INSEE commune` = filosofi.CODGEO
  AND emissions.dep = filosofi.dep;
```

Cette fois, on a une combinaison de nos trois jeux de donn√©es initiaux:

-   Le *inner join* ;
-   Le *left join* sur les observations sans cl√© de droite ;
-   Le *right join* sur les observations sans cl√© de gauche ;

In [57]:
(
  full_merged['id_left'].isna().sum() + full_merged['id_right'].isna().sum()
) == (
  left_merged['id_right'].isna().sum() + right_merged['id_left'].isna().sum()
)

### 5.2.5 En r√©sum√©

![](https://external-preview.redd.it/yOLzCR0qSzul2WpjQorxINB0xpU3_N9twmFVsgbGJwQ.jpg?auto=webp&s=4feedc91302ba635b3028a21b98d047def5cdc2b)

## 5.3 Exemples d‚Äôidentifiants dans les donn√©es fran√ßaises

### 5.3.1 Le Code officiel g√©ographique (COG): l‚Äôidentifiant des donn√©es g√©ographiques

Pour les donn√©es g√©ographiques, il existe de nombreux identifiants selon la probl√©matique d‚Äô√©tude.
Parmi les besoins principaux, on retrouve le fait d‚Äôapparier des donn√©es g√©ographiques √† partir d‚Äôun identifiant administratif commun. Par exemple, associer deux jeux de donn√©es au niveau communal.

Pour cela, l‚Äôidentifiant de r√©f√©rence est le code Insee, issu du [Code officiel g√©ographique (COG)](https://www.insee.fr/fr/information/2560452) que nous utilisons depuis le dernier chapitre et que nous aurons amplement l‚Äôoccasion d‚Äôexploiter au cours des diff√©rents chapitres de ce cours.
La g√©ographie administrative √©tant en √©volution perp√©tuelle, la base des code Insee est une base vivante. Le site et les API de l‚ÄôInsee permettent de r√©cup√©rer l‚Äôhistorique d‚Äôapr√®s-guerre afin de pouvoir faire de l‚Äôanalyse g√©ographique sur longue p√©riode.

Les codes postaux ne peuvent √™tre consid√©r√©s comme un identifiant : ils peuvent regrouper plusieurs communes ou, au contraire, une m√™me commune peut avoir plusieurs codes postaux. Il s‚Äôagit d‚Äôun syst√®me de gestion de la Poste qui n‚Äôa pas √©t√© construit pour l‚Äôanalyse statistique.

Pour se convaincre du probl√®me, √† partir des donn√©es mises √† disposition par La Poste, on peut voir que le code postal 11420 correspond √† 11 communes:

In [58]:
codes_postaux = pd.read_csv(
  "https://datanova.laposte.fr/data-fair/api/v1/datasets/laposte-hexasmal/raw",
  sep = ";", encoding = "latin1",
  dtype = {"Code_postal": "str", "#Code_commune_INSEE": "str"}
)
codes_postaux.loc[codes_postaux['Code_postal'] == "11420"]

En anticipant sur les comp√©tences d√©velopp√©es lors des prochains chapitres, nous pouvons repr√©senter le probl√®me sous forme cartographique en prenant l‚Äôexemple de l‚ÄôAude. Le code pour produire la carte des codes communes est donn√© tel quel, il n‚Äôest pas d√©velopp√© car il fait appel √† des concepts et librairies qui seront pr√©sent√©s lors du prochain chapitre:

In [59]:
from cartiflette import carti_download
shp_communes = carti_download(
  values = ["11"],
  crs = 4326,
  borders = "COMMUNE",
  simplification=50,
  filter_by="DEPARTEMENT",
  source="EXPRESS-COG-CARTO-TERRITOIRE",
  year=2022)

codes_postaux11 = shp_communes.merge(
  codes_postaux,
  left_on = "INSEE_COM",
  right_on = "#Code_commune_INSEE"
)
codes_postaux11 = codes_postaux11.dissolve(by = "Code_postal")

# Carte
ax = shp_communes.plot(color='white', edgecolor='blue', linewidth = 0.5)
ax = codes_postaux11.plot(ax = ax, color='none', edgecolor='black')
ax.set_axis_off()

### 5.3.2 Sirene: l‚Äôidentifiant dans les donn√©es d‚Äôentreprises

Pour relier les microdonn√©es d‚Äôentreprises fran√ßaises, il existe un num√©ro unique d‚Äôidentification : le [num√©ro `Siren`](https://entreprendre.service-public.fr/vosdroits/F32135). Il s‚Äôagit d‚Äôun num√©ro d‚Äôidentification dans un r√©pertoire l√©gal d‚Äôentreprise indispensable pour toutes d√©marches juridiques, fiscales‚Ä¶ Pour les entreprises qui poss√®dent plusieurs √©tablissements - par exemple dans plusieurs villes - il existe un identifiant d√©riv√© qui s‚Äôappelle le [`Siret`](https://www.economie.gouv.fr/cedef/numero-siret): aux 9 chiffres du num√©ro Sirene s‚Äôajoutent 5 chiffres d‚Äôidentifications de l‚Äô√©tablissement. D‚Äôailleurs, les administrations publiques sont √©galement concern√©es par le num√©ro Siren: √©tant amen√©es √† effectuer des op√©rations de march√©s (achat de mat√©riel, locations de biens, etc.) elles disposent √©galement d‚Äôun identifiant Siren. Etant inscrits dans des r√©pertoires l√©gaux pour lesquels les citoyens sont publics, les num√©ros Siren et les noms des entreprises associ√©es sont disponibles en *open data*, par exemple sur [annuaire-entreprises.data.gouv.fr/](https://annuaire-entreprises.data.gouv.fr/) pour une recherche ponctuelle, sur [data.gouv.fr](https://www.data.gouv.fr/fr/datasets/base-sirene-des-entreprises-et-de-leurs-etablissements-siren-siret/).

Cette base Sirene est une mine d‚Äôinformation, parfois comique, sur les entreprises fran√ßaises. Par exemple, le site [tif.hair/](https://tif.hair/) s‚Äôest amus√© √† r√©pertorier la part des salons de coiffures proposant des jeux de mots dans le nom du salon. Lorsqu‚Äôun entrepreneur d√©clare la cr√©ation d‚Äôune entreprise, il re√ßoit un num√©ro Sirene et un code d‚Äôactivit√© (le [code APE](https://entreprendre.service-public.fr/vosdroits/F33050)) reli√© √† la description qu‚Äôil a d√©clar√© de l‚Äôactivit√© de son entreprise. Ce code permet de classer l‚Äôactivit√© d‚Äôune entreprise dans la [Nomenclature d‚Äôactivit√©s fran√ßaises (NAF)](https://www.insee.fr/fr/information/2406147) ce qui servira √† l‚ÄôInsee pour la publication de statistiques sectorielles. En l‚Äôoccurrence, pour les coiffeurs, le code dans la NAF est [`96.02A`](https://www.insee.fr/fr/metadonnees/nafr2/sousClasse/96.02A?champRecherche=false). Il est possible √† partir de la base disponible en *open data* d‚Äôavoir en quelques lignes de `Python` la liste de tous les coiffeurs puis de s‚Äôamuser √† explorer ces donn√©es (objet du prochain exercice optionnel).

L‚Äôexercice suivant, optionnel, propose de s‚Äôamuser √† reproduire de mani√®re simplifi√©e le recensement fait par [tif.hair/](https://tif.hair/)
des jeux de mots dans les salons de coiffure. Il permet de pratiquer quelques m√©thodes de manipulation textuelle, en avance de phase sur le chapitre consacr√© aux [expressions r√©guli√®res](../../content/manipulation/04b_regex_TP.qmd).

Le jeu de donn√©es de l‚Äôensemble des entreprises √©tant assez volumineux (autour de 4Go en CSV apr√®s d√©compression), il est plus pratique de partir sur un jeu de donn√©es au format `Parquet`, plus optimis√© (plus de d√©tails sur ce format dans le [chapitre d‚Äôapprofondissement](../../content/modern-ds/s3.qmd) qui lui est consacr√©).

Pour lire ce type de fichiers de mani√®re optimale, il est conseill√© d‚Äôutiliser la librairie `DuckDB` qui permet de ne consommer que les donn√©es n√©cessaires et non de t√©l√©charger l‚Äôensemble du fichier pour n‚Äôen lire qu‚Äôune partie comme ce serait le cas avec `Pandas` (voir la fin de ce chapitre, section ‚ÄúAller au-del√† de `Pandas`‚Äù). La requ√™te SQL suivante se traduit en langage naturel par l‚Äôinstruction suivante: *‚ÄúA partir du fichier `Parquet`, je ne veux que quelques colonnes du fichier pour les coiffeurs (APE: 96.02A) dont le nom de l‚Äôentreprise (`denominationUsuelleEtablissement`) est renseign√©‚Äù*:

In [61]:
import duckdb
coiffeurs = duckdb.sql("""
  SELECT
    siren, siret, dateDebut, enseigne1Etablissement, activitePrincipaleEtablissement, denominationUsuelleEtablissement
  FROM
    read_parquet('https://minio.lab.sspcloud.fr/lgaliana/data/sirene2024.parquet')
  WHERE
    activitePrincipaleEtablissement == '96.02A'
    AND
    denominationUsuelleEtablissement IS NOT NULL
""")
coiffeurs = coiffeurs.df()

In [62]:
coiffeurs.head(3)

:

:

Avec la question 2, on retrouve une liste de jeux de mots assez imaginatifs √† partir du terme `tif`:

Voici sous une forme plus interactive l‚Äôensemble des coiffeurs qui poss√®dent les termes `tif` dans le nom de leur entreprise d√©pos√©e dans les donn√©es officielles:

Bien s√ªr, pour aller plus loin, il faudrait mieux normaliser les donn√©es, v√©rifier que l‚Äôinformation recherch√©e n‚Äôest pas √† cheval sur plusieurs colonnes et bien s√ªr faire de l‚Äôinspection visuelle pour d√©tecter les jeux de mots cach√©s. Mais d√©j√†, en quelques minutes, on a des statistiques partielles sur le ph√©nom√®ne des coiffeurs blagueurs.

### 5.3.3 Le NIR et la question de la confidentialit√© des identifiants individuels

En ce qui concerne les individus, il existe un identifiant unique permettant de relier ceux-ci dans diff√©rentes sources de donn√©es : le [NIR](https://www.cnil.fr/fr/definition/nir-numero-dinscription-au-repertoire), aussi connu sous le nom de num√©ro Insee ou num√©ro de s√©curit√© sociale.
Ce num√©ro est n√©cessaire √† l‚Äôadministration pour la gestion des droits √† prestations sociales (maladie, vieillesse, famille‚Ä¶). Au-del√† de cette fonction qui peut √™tre utile au quotidien, ce num√©ro est un identifiant individuel unique dans le [R√©pertoire national d‚Äôidentification des personnes physiques (RNIPP)](https://www.insee.fr/fr/metadonnees/definition/c1602).

Cet identifiant est principalement pr√©sent dans des bases de gestion, li√©es aux fiches de paie, aux prestations sociales, etc. Cependant, *a contrario* du num√©ro Sirene, celui-ci contient en lui-m√™me plusieurs informations sensibles - en plus d‚Äô√™tre intrins√®quement reli√© √† la probl√©matique sensible des droits √† la s√©curit√© sociale.

<figure>
<img src="https://www.ameli.fr/sites/default/files/styles/webp_ckeditor/public/thumbnails/image/infographie_assures-regle-identification-assures.gif.webp?itok=j2owVDrB" alt="Le num√©ro de s√©curit√© sociale (Source: Am√©li)" />
<figcaption aria-hidden="true">Le num√©ro de s√©curit√© sociale (Source: <a href="https://www.ameli.fr/assure/droits-demarches/principes/numero-securite-sociale">Am√©li</a>)</figcaption>
</figure>

Pour pallier ce probl√®me, a r√©c√©mment √©t√© mis en oeuvre le [code statistique non signifiant (CSNS)](https://www.insee.fr/fr/information/7635825?sommaire=7635842) ou NIR hach√©, un identifiant individuel anonyme non identifiant. L‚Äôobjectif de cet identifiant anonymis√© est de r√©duire la diss√©mination d‚Äôune information personnelle qui permettait certes aux fonctionnaires et chercheurs de relier de mani√®re d√©terministe de nombreuses bases de donn√©es mais donnait une information non indispensable aux analystes sur les personnes en question.

## 5.4 Exercices d‚Äôapplication

### 5.4.1 Pourquoi a-t-on besoin d‚Äôun code commune quand on a d√©j√† son nom ?

Cet exercice va revenir un peu en arri√®re afin de saisir pourquoi nous avons pris comme hypoth√®se ci-dessus que le code commune √©tait la cl√© de jointure.

:

:

Ce petit exercice permet donc de se rassurer car les libell√©s dupliqu√©s
sont en fait des noms de commune identiques mais qui ne sont pas dans le m√™me d√©partement.
Il ne s‚Äôagit donc pas d‚Äôobservations dupliqu√©es.
On peut donc se fier aux codes communes, qui eux sont uniques.

### 5.4.2 Calculer une empreinte carbone gr√¢ce √† l‚Äôassociation entre des sources

:

:

A l‚Äôissue de la question 5, le graphique des corr√©lations est le suivant :

# 6. Formatter des tableaux de statistiques descriptives

Un *dataframe* `Pandas`
est automatiquement mis en forme lorsqu‚Äôil est visualis√© depuis un *notebook* sous forme de table HTML √† la mise en forme minimaliste.
Cette mise en forme est pratique pour voir
les donn√©es, une t√¢che indispensable pour les *data scientists*
mais ne permet pas d‚Äôaller vraiment au-del√†.

Dans une phase
exploratoire, il peut √™tre pratique d‚Äôavoir un tableau
un peu plus complet, int√©grant notamment des visualisations
minimalistes, pour mieux conna√Ætre ses donn√©es. Dans la phase
finale d‚Äôun projet, lorsqu‚Äôon communique sur un projet, il
est avantageux de disposer d‚Äôune visualisation attrative.
Pour ces deux besoins, les sorties des *notebooks* sont
une r√©ponse peu satisfaisante, en plus de n√©cessiter
le *medium* du *notebook* qui peut en rebuter certains.

Heureusement, le tout jeune *package* [`great_tables`](https://posit-dev.github.io/great-tables/get-started/) permet, simplement, de mani√®re programmatique, la cr√©ation de tableaux
qui n‚Äôont rien √† envier √† des productions manuelles fastidieuses faites dans `Excel`
et difficilement r√©pliquables. Ce *package* est un portage en `Python` du *package* [`GT`](https://gt.rstudio.com/).
`great_tables` construit des tableaux
*html* ce qui offre une grande richesse dans la mise en forme et permet une excellente int√©gration avec [`Quarto`](https://quarto.org/), l‚Äôoutil de publication reproductible d√©velopp√© par
L‚Äôexercice suivant proposera de construire un tableau avec
ce *package*, pas √† pas.

Afin de se concentrer sur la construction du tableau,
les pr√©parations de donn√©es √† faire en amont sont donn√©es
directement. Nous allons repartir de ce jeu de donn√©es:

Pour √™tre s√ªr d‚Äô√™tre en mesure d‚Äôeffectuer le prochain exercice, voici le dataframe n√©cessaire pour celui-ci

In [87]:
emissions['emissions'] = emissions.sum(axis = 1, numeric_only = True)

emissions_merged = (
    emissions.reset_index()
    .merge(filosofi, left_on = "INSEE commune", right_on = "CODGEO")
)
emissions_merged['empreinte'] = emissions_merged['emissions']/emissions_merged['NBPERSMENFISC16']
emissions_merged['empreinte'] = emissions_merged['empreinte'].astype(float)

In [88]:
emissions_table = (
    emissions_merged
    .rename(columns={"dep_y": "dep", "NBPERSMENFISC16": "population", "MED16": "revenu"})
    .groupby("dep")
    .agg({"empreinte": "sum", "revenu": "median", "population": "sum"}) #pas vraiment le revenu m√©dian
    .reset_index()
    .sort_values(by = "empreinte")
)

Dans ce tableau nous allons int√©grer des barres horizontales, √† la mani√®re des exemples pr√©sent√©s [ici](https://posit-dev.github.io/great-tables/examples/). Cela se fait en incluant directement le code *html* dans la colonne du *DataFrame*

In [89]:
def create_bar(prop_fill: float, max_width: int, height: int, color: str = "green") -> str:
    """Create divs to represent prop_fill as a bar."""
    width = round(max_width * prop_fill, 2)
    px_width = f"{width}px"
    return f"""\
    <div style="width: {max_width}px; background-color: lightgrey;">\
        <div style="height:{height}px;width:{px_width};background-color:{color};"></div>\
    </div>\
    """

colors = {'empreinte': "green", 'revenu': "red", 'population': "blue"}

for variable in ['empreinte', 'revenu', 'population']:
    emissions_table[f'raw_perc_{variable}'] = emissions_table[variable]/emissions_table[variable].max()
    emissions_table[f'bar_{variable}'] = emissions_table[f'raw_perc_{variable}'].map(
        lambda x: create_bar(x, max_width=75, height=20, color = colors[variable])
    )

Nous ne gardons que les 5 plus petites empreintes carbone, et les cinq plus importantes.

In [90]:
emissions_min = emissions_table.head(5).assign(grp = "5 d√©partements les moins pollueurs").reset_index(drop=True)
emissions_max = emissions_table.tail(5).assign(grp = "5 d√©partements les plus pollueurs").reset_index(drop=True)

emissions_table = pd.concat([
    emissions_min,
    emissions_max
])

Enfin, pour pouvoir utiliser quelques fonctions pratiques pour s√©lectionner des colonnes √† partir de motifs, nous allons convertir les donn√©es au format [`Polars`](https://pola.rs/)

In [91]:
import polars as pl
emissions_table = pl.from_pandas(emissions_table)

:

:

In [93]:
# Start from here
from great_tables import GT
GT(emissions_table, groupname_col="grp", rowname_col="dep")

Le tableau √† obtenir:

Gr√¢ce √† celui-ci, on peut d√©j√† comprendre que notre d√©finition
de l‚Äôempreinte carbone est certainement d√©faillante. Il appara√Æt
peu plausible que les habitants du 77 aient une empreinte 500 fois
sup√©rieure √† celle de Paris intra-muros. La raison principale ?
On n‚Äôest pas sur un concept d‚Äô√©missions √† la consommation mais √† la
production, ce qui p√©nalise les espaces industriels ou les espaces
avec des a√©roports‚Ä¶

Pour aller plus loin sur la construction de tableaux
avec `great_tables`, vous pouvez r√©pliquer
cet [exercice](https://rgeo.linogaliana.fr/exercises/eval.html)
de production de tableaux √©lectoraux
que j‚Äôai propos√© pour un cours de `R` avec `gt`, l‚Äô√©quivalent
de `great_tables` pour `R`.

# 7. `Pandas`: vers la pratique et au-del√†

## 7.1 `Pandas` dans une chaine d‚Äôop√©rations

En g√©n√©ral, dans un projet, le nettoyage de donn√©es va consister en un ensemble de
m√©thodes appliqu√©es √† un `DataFrame` ou alors une `Serie` lorsqu‚Äôon travaille exclusivement sur une colonne.
Autrement dit, ce qui est g√©n√©ralement attendu lorsqu‚Äôon fait du `Pandas` c‚Äôest d‚Äôavoir une cha√Æne qui prend un `DataFrame` en entr√©e et ressort ce m√™me `DataFrame` enrichi, ou une version agr√©g√©e de celui-ci, en sortie.

Cette mani√®re de proc√©der est le coeur de la syntaxe `dplyr` en `R` mais n‚Äôest pas forc√©ment native en `Pandas` selon les op√©rations qu‚Äôon d√©sire mettre en oeuvre. En effet, la mani√®re naturelle de mettre √† jour un *dataframe* en `Pandas` passe souvent par une syntaxe du type:

In [98]:
import numpy as np
import pandas as pd

data = [[8000, 1000], [9500, np.nan], [5000, 2000]]
df = pd.DataFrame(data, columns=['salaire', 'autre_info'])
df['salaire_net'] = df['salaire']*0.8

En `SQL` on pourrait directement mettre √† jour notre base de donn√©es avec la nouvelle colonne :

``` sql
SELECT *, salaire*0.8 AS salaire_net FROM df
```

L‚Äô√©cosyst√®me du *tidyverse* en `R`, l‚Äô√©quivalent de `Pandas`, fonctionne selon la m√™me logique que SQL de mise √† jour de table. On ferait en effet la commande suivante avec `dplyr`:

``` r
df %>% mutate(salaire_net = salaire*0.8)
```

Techniquement on pourrait faire ceci avec un `assign` en `Pandas`

In [99]:
df = df.drop("salaire_net", axis = "columns")
df = df.assign(salaire_net = lambda s: s['salaire']*0.8)

Cependant cette syntaxe `assign` n‚Äôest pas tr√®s naturelle. Il est n√©cessaire de lui passer une *lambda function* qui attend comme *input* un `DataFrame` l√† o√π on voudrait une colonne. Il ne s‚Äôagit donc pas vraiment d‚Äôune syntaxe lisible et pratique.

Il est n√©anmoins possible d‚Äôencha√Æner des op√©rations sur des jeux de donn√©es gr√¢ce aux [*pipes*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.pipe.html). Ceux-ci reprennent la m√™me philosophie que celle de `dplyr`, elle-m√™me inspir√©e du *pipe* Linux.
Cette approche permettra de rendre plus lisible le code en d√©finissant des fonctions effectuant des op√©rations sur une ou plusieurs colonnes d‚Äôun DataFrame. Le premier argument √† indiquer √† la fonction est le `DataFrame`, les autres sont ceux permettant de contr√¥ler son comportement

In [101]:
def calcul_salaire_net(df: pd.DataFrame, col: str, taux: float = 0.8):
  df["salaire_net"] = df[col]*taux
  return df

Ce qui transforme notre chaine de production en

In [102]:
(
  df
  .pipe(calcul_salaire_net, "salaire")
)

## 7.2 Quelques limites sur la syntaxe de `Pandas`

Il y a un avant et un apr√®s `Pandas` dans l‚Äôanalyse de donn√©es en `Python`. Sans ce *package* √¥ combien pratique `Python`, malgr√© toutes les forces de ce langage, aurait eu du mal √† s‚Äôinstaller dans le paysage de l‚Äôanalyse de donn√©es. Cependant, si `Pandas` propose une syntaxe coh√©rente sur de nombreux aspects, elle n‚Äôest pas parfaite non plus. Les paradigmes plus r√©cents d‚Äôanalyse de donn√©es en `Python` ont d‚Äôailleurs parfois l‚Äôambition de corriger ces imperfections syntaxiques l√†.

Parmi les points les plus g√©nants au quoditien il y a le besoin de r√©guli√®rement faire des `reset_index` lorsqu‚Äôon construit des statistiques descriptives. En effet, il peut √™tre dangereux de garder des indices qu‚Äôon ne contr√¥le pas bien car, sans attention de notre part lors des phases de *merge*, ils peuvent √™tre utilis√©s √† mauvais escient par `Pandas` pour joindre les donn√©es ce qui peut provoquer des suprises.

`Pandas` est extr√™mement bien fait pour restructurer des donn√©es du format *long* to *wide* ou *wide* to *long*. Cependant, ce n‚Äôest pas la seule mani√®re de restructurer un jeu de donn√©es qu‚Äôon peut vouloir mettre en oeuvre. Il arrive r√©guli√®rement qu‚Äôon d√©sire comparer la valeur d‚Äôune observation √† celle d‚Äôun groupe √† laquelle elle appartient. C‚Äôest notamment particuli√®rement utile dans une phase d‚Äôanalyse des anomalies, valeurs aberrantes ou lors d‚Äôune investigation de d√©tection de fraude. De mani√®re native, en `Pandas`, il faut construire une statistique agr√©g√©e par groupe et refaire un *merge* aux donn√©es initiales par le biais de la variable de groupe. C‚Äôest un petit peu fastidieux:

In [103]:
emissions_moyennes = emissions.groupby("dep").agg({"Agriculture": "mean"}).reset_index()
emissions_enrichies = (
  emissions
  .merge(emissions_moyennes, on = "dep", suffixes = ['', '_moyenne_dep'])
)
emissions_enrichies['relatives'] = emissions_enrichies["Agriculture"]/emissions_enrichies["Agriculture_moyenne_dep"]
emissions_enrichies.head()

Dans le *tidyverse*, cette op√©ration en deux temps pourrait √™tre faite en une seule √©tape, ce qui est plus pratique

``` r
emissions %>%
  group_by(dep) %>%
  mutate(relatives = Agriculture/mean(Agriculture))
```

Ce n‚Äôest pas si grave mais cela alourdit la longueur des chaines de traitement faites en `Pandas` et donc la charge de maintenance pour les faire durer dans le temps.

De mani√®re plus g√©n√©rale, les cha√Ænes de traitement `Pandas` peuvent √™tre assez verbeuses, car il faut r√©guli√®rement red√©finir le `DataFrame` qu‚Äôon utilise plut√¥t que simplement les colonnes. Par exemple, pour faire un filtre sur les lignes et les colonnes, il faudra faire:

In [104]:
(
  emissions
  .loc[
    (emissions["dep"] == "12") & (emissions["Routier"]>500), ['INSEE commune', 'Commune']
  ]
  .head(5)
)

En SQL on pourrait se contenter de faire r√©f√©rence aux colonnes dans le filter

``` sql
SELECT "INSEE commune", 'Commune'
FROM emissions
WHERE dep=="12" AND Routier>500
```

Dans le *tidyverse* (`R`) on pourrait aussi faire ceci simplement

``` r
df %>%
  filter(dep=="12", Routier>500) %>%
  select(`INSEE commune`, `Commune`)
```

# 8. Les autres paradigmes

Ces deux chapitres ont permis d‚Äôexplorer en profondeur la richesse de l‚Äô√©cosyst√®me `Pandas` qui est un indispensable dans la boite √† outil du *data scientist*. Malgr√© toutes les limites que nous avons pu √©voquer, et les solutions alternatives que nous allons pr√©senter, `Pandas` reste LE *package* central de l‚Äô√©cosyst√®me de la donn√©e avec `Python`. Nous allons voir dans les prochains chapitres son int√©gration native √† l‚Äô√©cosyst√®me `Scikit` pour le *machine learning* ou l‚Äôextension de `Pandas` aux donn√©es spatiales avec `GeoPandas`.

Les autres solutions techniques que nous allons ici √©voquer peuvent √™tre pertinentes si on d√©sire traiter des volumes de donn√©es importants ou si on d√©sire utiliser des syntaxes alternatives.

Les principales alternatives √† `Pandas` sont [`Polars`](https://pola.rs/), [`DuckDB`](https://duckdb.org/) et [`Spark`](https://spark.apache.org/docs/latest/api/python/index.html). Il existe √©galement [`Dask`](https://www.dask.org/), une librairie pour parall√©liser des traitements √©cris en `Pandas`.

## 8.1 `Polars`

`Polars` est certainement le paradigme le plus inspir√© de `Pandas`, jusqu‚Äôau choix du nom. La premi√®re diff√©rence fondamentale est dans les couches internes utilis√©es. `Polars` s‚Äôappuie sur l‚Äôimpl√©mentation `Rust` de `Arrow` l√† o√π `Pandas` s‚Äôappuie sur `Numpy` ce qui est facteur de perte de performance. Cela permet √† `Polars` d‚Äô√™tre plus efficace sur de gros volumes de donn√©es, d‚Äôautant que de nombreuses op√©rations sont parall√©lis√©es et reposent sur l‚Äô√©valuation diff√©r√©es (*lazy evaluation*) un principe de programmation qui permet d‚Äôoptimiser les requ√™tes pour ne pas les ex√©cuter dans l‚Äôordre de d√©finition mais dans un ordre logique plus optimal.

Une autre force de `Polars` est la syntaxe plus coh√©rente, qui b√©n√©ficie du recul d‚Äôune quinzaine d‚Äôann√©es d‚Äôexistence de `Pandas` et d‚Äôune petite dizaine d‚Äôann√©es de `dplyr` (le *package* de manipulation de donn√©es au sein du paradigme du *tidyverse* en `R`). Pour reprendre l‚Äôexemple pr√©c√©dent, il n‚Äôest plus n√©cessaire de forcer la r√©f√©rence au *DataFrame*, dans une cha√Æne d‚Äôex√©cution toutes les r√©f√©rences ult√©rieures seront faites au regard du *DataFrame* de d√©part

In [106]:
import polars as pl
emissions_polars = pl.from_pandas(emissions)
(
  emissions_polars
  .filter(pl.col("dep") == "12", pl.col("Routier") > 500)
  .select('INSEE commune', 'Commune')
  .head(5)
)

Pour d√©couvrir `Polars`, de nombreuses ressources en ligne sont accessibles, notamment [ce *notebook*](https://github.com/InseeFrLab/ssphub/blob/main/post/polars/polars-tuto.ipynb) construit pour le r√©seau des *data scientists* de la statistique publique.

## 8.2 `DuckDB`

*DuckDB* est le nouveau venu dans l‚Äô√©cosyst√®me de l‚Äôanalyse de donn√©es repoussant les limites des donn√©es pouvant √™tre trait√©es avec `Python` sans passer par des outils *big data* comme `Spark`.
*DuckDB* est la quintessence d‚Äôun nouveau paradigme, celui du [*‚ÄúBig data is dead‚Äù*](https://motherduck.com/blog/big-data-is-dead/), o√π on peut traiter des donn√©es de volum√©trie importante sans recourir √† des infrastructures imposantes.

Outre sa grande efficacit√©, puisqu‚Äôavec *DuckDB* on peut traiter des donn√©es d‚Äôune volum√©trie sup√©rieure √† la m√©moire vive de l‚Äôordinateur ou du serveur, *DuckDB* pr√©sente l‚Äôavantage de proposer une syntaxe uniforme quelle que soit le langage qui appelle *DuckDB* (`Python`, `R`, `C++` ou `Javascript`). *DuckDB* privil√©gie la syntaxe SQL pour traiter les donn√©es avec de nombreuses fonctions pr√©-implement√©es pour simplifier certaines transformations de donn√©es (par exemple pour les [donn√©es textuelles](https://duckdb.org/docs/sql/functions/char.html), les [donn√©es temporelles](https://duckdb.org/docs/sql/functions/time), etc.).

Par rapport √† d‚Äôautres syst√®mes s‚Äôappuyant sur SQL, comme [`PostGreSQL`](https://www.bing.com/search?go=Rechercher&q=PostGreSQL&qs=ds&form=QBRE), `DuckDB` est tr√®s simple d‚Äôinstallation, ce n‚Äôest qu‚Äôune librairie `Python` l√† o√π beaucoup d‚Äôoutils comme `PostGreSQL` n√©cessite une infrastructure adapt√©e.

Pour reprendre l‚Äôexemple pr√©c√©dent, on peut utiliser directement le code SQL pr√©c√©dent

In [108]:
import duckdb
duckdb.sql(
  """
  SELECT "INSEE commune", "Commune"
  FROM emissions
  WHERE dep=='12' AND Routier>500
  LIMIT 5
  """)

Ici la clause `FROM emissions` vient du fait qu‚Äôon peut directement ex√©cuter du SQL depuis un objet `Pandas` par le biais de `DuckDB`. Si on fait la lecture directement dans la requ√™te, celle-ci se complexifie un petit peu mais la logique est la m√™me

In [109]:
import duckdb
duckdb.sql(
  f"""
  SELECT "INSEE commune", "Commune"
  FROM read_csv_auto("{url}")
  WHERE
    substring("INSEE commune",1,2)=='12'
    AND
    Routier>500
  LIMIT 5
  """)

Le rendu du *DataFrame* est l√©g√®rement diff√©rent de `Pandas` car, comme `Polars` et de nombreux syst√®mes de traitement de donn√©es volumineuses, `DuckDB` repose sur l‚Äô√©valuation diff√©r√©e et donc ne pr√©sente en *display* qu‚Äôun √©chantillon de donn√©es.
`DuckDB` et `Polars` sont d‚Äôailleurs tr√®s bien int√©gr√©s l‚Äôun √† l‚Äôautre. On peut tr√®s bien faire du SQL sur un objet `Polars` via `DuckDB` ou appliquer des fonctions `Polars` sur un objet initialement lu avec `DuckDB`.

L‚Äôun des int√©r√™ts de `DuckDB` est son excellente int√©gration avec l‚Äô√©cosyst√®me `Parquet`, le format de donn√©es d√©j√† mentionn√© qui devient un standard dans le partage de donn√©es (il s‚Äôagit, par exemple, de la pierre angulaire du partage de donn√©es sur la plateforme *HuggingFace*). Pour en savoir plus sur `DuckDB` et d√©couvrir son int√©r√™t pour lire les donn√©es du recensement de la population fran√ßaise, vous pouvez consulter [ce post de blog](https://ssphub.netlify.app/post/parquetrp/).

## 8.3 `Spark` et le *big data*

`DuckDB` a repouss√© les fronti√®res du *big data* qu‚Äôon peut d√©finir comme le volume de donn√©es √† partir duquel on ne peut plus traiter celles-ci sur une machine sans mettre en oeuvre une strat√©gie de parall√©lisation.

N√©anmoins, pour les donn√©es tr√®s volumineuses, `Python` est tr√®s bien arm√© gr√¢ce √† la librairie [`PySpark`](https://spark.apache.org/docs/latest/api/python/index.html). Celle-ci est une API en Python pour le langage `Spark`, un langage *big data* bas√© sur Scala. Ce paradigme est construit sur l‚Äôid√©e que les utilisateurs de `Python` y acc√®dent par le biais de *cluster* avec de nombreux noeuds pour traiter la donn√©e de mani√®re parall√®le. Celle-ci sera lue par blocs, qui seront trait√©s en parall√®le en fonction du nombre de noeuds parall√®les. L‚ÄôAPI DataFrame de `Spark` pr√©sente une syntaxe proche de celle des paradigmes pr√©c√©dents avec une ing√©nieurie plus complexe en arri√®re-plan li√©e √† la parall√©lisation native.