# Introduction :
En Île-de-France, tandis qu'au temps de la révolution industrielle, les ménages les plus modestes qui possédaient des logements à proximité des usines étaient largement plus exposés à la pollution de l'air que les ménages aisés, nous nous sommes demandé si cette corrélation persistait toujours de nos jours. Autrement dit, nous nous sommes questionnés sur l'existence d'une corrélation entre l'exposition à la pollution de l'air et le niveau de vie des individus en Île-de-France. 

La pertinence de cette question provient d'une supposition paradoxale : d'une part, on peut supposer a priori que les ménages les plus modestes sont ceux qui possèdent des logements à proximité des axes routiers et donc exposés à un certain type de pollution, notamment au dioxyde d'azote (no2) ; d'autre part, on peut supposer a priori que les ménages les plus aisés sont ceux qui possèdent des logements en plein centre ville, où là aussi, la pollution liée au trafic routier semble plus importante. La littérature confirme l'existence de ce paradoxe dans certaines zones géographiques. Ainsi, Padilla et al. (2014) met en évidence dans son étude "Air quality and social deprivation in four French metropolitan areas – A localized spatiotemporal environmental inequality analysis" l'existence d'un paradoxe parisien où les quartiers les plus favorisés (SES élevé) sont souvent exposés à des concentrations moyennes de no2 plus élevées que les quartiers pauvres (effet de la densité urbaine).


Dans un premier temps, nous avons extrait et nettoyé les données de niveau de vie et de pollution de l'air. Parce que ces dernières ne sont pas évidentes à trouver, nous avons d'abord procédé par webscraping pour extraire les données de pollutions au niveau communal sur le site Airparif, puis nous avons réussi à récupérer les données au niveau infracommunal par appel d'un API Airparif. Dans un second temps, nous avons analysé les données au niveau communal puis infracommunal et nous nous sommes intéressés particulièrement à l'influence de la présence d'un axe routier majeur sur la pollution et le niveau de vie des ménages situés à proximité. 


# Data collection & cleaning

Ce notebook décrit :
1) la récupération des données (Airparif via webscraping, INSEE via CSV),
2) les contrôles de cohérence,
3) le nettoyage nécessaire,
4) la construction d’un jeu de données exploitable pour l’analyse.
5) la récupération de données plus précises (Airparif via api, Insee via shp)

## Step 0 — Environnement de travail et organisation des fichiers

Les analyses sont réalisées avec **Python 3 via Anaconda**.

Afin de garantir la reproductibilité du projet, les données sont organisées selon la structure suivante :
- `data/raw/` : données **brutes**, non modifiées ;
- `data/processed/` : données nettoyées et prêtes pour l’analyse.

Toutes les étapes de nettoyage sont réalisées à partir des données brutes, conformément aux consignes.




In [2]:
from pathlib import Path
import pandas as pd
import numpy as np

DATA_DIR = Path("../data")
RAW_DIR = DATA_DIR / "raw"
PROC_DIR = DATA_DIR / "processed"

RAW_DIR.mkdir(parents=True, exist_ok=True)
PROC_DIR.mkdir(parents=True, exist_ok=True)

pd.set_option("display.max_columns", 200)


## Fiabilité des sources

- **Airparif** : organisme officiel de surveillance de la qualité de l’air en Île-de-France. Les valeurs publiées proviennent de mesures et de modèles reconnus → source institutionnelle.
- **INSEE (Filosofi 2019 / données niveau de vie)** : source officielle statistique française, largement utilisée en recherche → source fiable.

Limites :
- Airparif : l’accès est via une interface web → scraping sensible aux changements de page.
- INSEE : niveau communal → possibles valeurs manquantes / agrégation selon communes.


## Step 1.1 — Webscraping Airparif (données pollution)

Nous avons récupéré les indicateurs de pollution (PM10, PM2.5, NO2) sur le site Airparif pour l’année 2019.
Le scraping automatise la sélection de l’année et la recherche de chaque commune, puis extrait la valeur affichée.


Attention : Le webscraping nécessite la bibliothèque Selenium qui elle même nécessite l'installation de Chromium. Sur Onyxia, l'installation de chromium se fait selon ces commandes tirées du site de Lino Galiana. Quelques ajustements ou mises à jours sont parfois nécessaires sur d'autres environnements.

In [None]:
!wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb -O /tmp/chrome.deb
!sudo apt-get update
!sudo -E apt-get install -y /tmp/chrome.deb
!pip install chromedriver-autoinstaller selenium

import chromedriver_autoinstaller
path_to_web_driver = chromedriver_autoinstaller.install()

In [3]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import pandas as pd

# réglages des options du navigateur chrome
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

In [4]:
#lancement du navigateur Chrome
service = Service(executable_path=path_to_web_driver)

browser = webdriver.Chrome(
    service=service,
    options=chrome_options
)

Une fois les différents réglages réalisés et le webdriver chrome lancé, nous pouvons nous rendre sur la page web Airparif "https://www.airparif.fr/surveiller-la-pollution/bilans-et-cartes-annuels-de-pollution", qui regroupent les données annualisées de pollution en Ile de France pour trois polluants différents : 
-le pm10 qui correspondant aux particules fines ayant un diamètre inférieur à 10 micromètre. Elles représentent un risque mineur pour la santé humaine. Elles proviennent essentiellement de la poussière des chantiers, du labour ou de l'usure des pneus et de freins de véhicules.
-le pm25 qui correspondent aux particules fines ayant un diamètre inférieur à 2.5 micromètre. Contrairement aux précédentes, ces particules peuvent passer dans le sang par leur petit diamètre et elles représentent alors un risque majeur pour la santé humaine. Elles proviennent essentiellement des moteurs thermiques et du chauffage au bois.
-le no2 qui correspondent au gaz de dioxyde d'azote surtout émise par le trafic routier des diesels. Elles représentent un risque mineur pour la santé humaine.

In [5]:
#chargement de la page airparif
browser.get('https://www.airparif.fr/surveiller-la-pollution/bilans-et-cartes-annuels-de-pollution')
time.sleep(10)

In [6]:
#choix de l'année 2019
année="2019"
from selenium.webdriver.support.ui import Select
wait = WebDriverWait(browser, 10)
element_menu = wait.until(EC.element_to_be_clickable((By.XPATH,'//*[@id="date-filter"]')))
menu_deroulant = Select(element_menu)
menu_deroulant.select_by_visible_text(année)

time.sleep(3)

Après avoir chargé la page et l'année correspondante, nous pouvons extraire les données par webscraping. L'algorithme suivant reproduit donc exactement le comportement d'un utilisateur sur le site:
-nous parcourons une liste de commune donnée en entrée;
-nous écrivons le nom de chaque commune dans la barre de recherche, puis nous choisissons la première suggestion qui apparaît dans la barre de recherche qui correspond le plus souvent à la commune choisie (On procède de la sorte, car le bouton "search" ne fonctionne pas pour cette carte);
-on temporise le temps que la page charge, puis on récupère la valeur de pollution de sortie;
-on réitère ce parcourt pour les deux autres polluants.

In [7]:
#localisation de la barre des éléments : attention rajouter une intitialisation forcée à pm10
from selenium.common.exceptions import StaleElementReferenceException

def fonction_taux_de_particule(l):
    search = browser.find_element("xpath",'//*[@id="carte-annuelle-panel-info"]//input')
    wait = WebDriverWait(browser, 3, ignored_exceptions=(StaleElementReferenceException,))
    valeur=[{"Commune" : e ,"pm10":None , "pm25":None , "no2":None} for e in l]
    liste_polluant=["pm10","pm25","no2"]
    bouton_polluant = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, f"a[data-pid={liste_polluant[0]}]")))
    browser.execute_script("arguments[0].click();", bouton_polluant)
    print(f"Clic forcé sur le {liste_polluant[0]} effectué via JavaScript.")
    time.sleep(5)
    for j in range(len(liste_polluant)):
        #Remarque:initialement on se situe sur le pm10 par défaut
        polluant=liste_polluant[j]
        if j <=1:
            polluant_suivant=liste_polluant[j+1]
        else:
            polluant_suivant=None
        for i in range(len(l)):
            #1/la barre de recherche
            search.clear()
            search.send_keys(l[i])  
            #2/la barre de suggestion
            try:
                suggestion_a_cliquer= wait.until(EC.element_to_be_clickable((By.CLASS_NAME,"pac-item")))
                suggestion_a_cliquer.click()
                time.sleep(0.2)
            #3/le taux de particules dans l'air
                try:
                    taux_de_particules=wait.until(EC.visibility_of_element_located((By.XPATH,'//*[@id="current-params"]/strong')))
                    valeur[i][polluant]=taux_de_particules.text
                except Exception as e:
                    print(f"Une erreur 1 s'est produite pour la commune {l[i]} et le polluant {liste_polluant[j]} -> attribution None aux valeurs")
            except Exception as e:
                print(f"Une erreur 2 s'est produite pour la commune {l[i]} et le polluant {liste_polluant[j]} -> attribution None aux valeurs")
        #chargement page nouveau polluant
        if polluant_suivant !=None:
            bouton_polluant = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, f"a[data-pid={polluant_suivant}]")))
            browser.execute_script("arguments[0].click();", bouton_polluant)
            print(f"Clic forcé sur le {polluant_suivant} effectué via JavaScript.")
            time.sleep(5)
    return(valeur)


        

Avec la fonction précédente, nous pouvons récupérer les valeurs de pollution de chaque commune sous la forme d'un dataframe. Par précaution, nous sauvegardons les données au fur et à mesure de l'avancée de la fonction.

In [8]:
#extraction par paquet de 50
def extraction_donnee(l):
    nombre2paquet=len(l)//50
    reste=len(l)-nombre2paquet
    decoupage=[(i+1)*50 for i in range(nombre2paquet)]
    if reste!=0:
        decoupage.append(reste)
    inf=0
    valeur=[]
    for j in decoupage:
        paquet=l[inf:j]
        v=fonction_taux_de_particule(paquet)
        valeur.extend(v)
        print(f"paquet {inf} à {j} traité -> paquet suivant")
        df=pd.DataFrame(valeur) 
        df.to_csv(f"donnees_commune_pollution_paquet{j}.csv",index=False)
        inf=j
    return(pd.DataFrame(valeur))

Nous pouvons désormais faire appel à la fonction, à partir de la liste des communes d'Ile de France, téléchargeable sur le site datagouv:

In [10]:
import requests
import os

ROOT_DIR = Path().absolute().parent
dossier_data = ROOT_DIR / "data"
destination = os.path.join(dossier_data, "liste_communes_idf.csv")
reponse=requests.get("https://www.data.gouv.fr/api/1/datasets/r/91c0bdc4-0a5b-4ac8-950e-64a1ec207957")

if reponse.status_code == 200 :
    print("téléchargement réussi -> décompression")
    with open(destination,"wb") as f:
        f.write(reponse.content)

df_communes=pd.read_csv(destination, sep=";")
os.remove(destination)
df_communes = df_communes.sort_values(by="nomcom", ascending=True)
df_communes["nomcom"].to_csv(destination, index =False)


téléchargement réussi -> décompression


In [None]:
# attention, l'exécution du code pour la liste de commune prend quelques heures
#df2=extraction_donnee(liste_commune)

⚠️ Le scraping peut être long. Nous sauvegardons systématiquement la sortie brute dans `../data/raw/airparif_pollution_raw.csv`.

In [None]:
# Chargement des données de pollution Airparif (données brutes)

poll_path = RAW_DIR / "airparif_polution_raw.csv"
poll_raw = pd.read_csv(poll_path)

poll_raw.head()


In [None]:
poll_raw["Commune"].duplicated().sum()
poll_raw.shape

(1300, 4)

## Step 1.2 — Récupération des données INSEE (format CSV)

Les données INSEE sont récupérées sous forme de fichiers CSV directement depuis le site de l’INSEE.  
Les fichiers sont stockés **sans modification** dans le dossier `data/raw/`.

Le séparateur utilisé est le point-virgule (`;`), conformément au format standard des fichiers INSEE.


In [None]:
filo_path = RAW_DIR / "FILO2019_DISP_COM.csv"  # adapte au nom exact
filo_raw = pd.read_csv(filo_path, sep=";")
filo_raw.head()



  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


Unnamed: 0,CODGEO,NBMEN19,NBPERS19,NBUC19,Q119,Q219,Q319,Q3_Q1,D119,D219,D319,D419,D619,D719,D819,D919,RD,S80S2019,GI19,PACT19,PTSA19,PCHO19,PBEN19,PPEN19,PPAT19,PPSOC19,PPFAM19,PPMINI19,PPLOGT19,PIMPOT19,AGE1Q119,AGE1Q219,AGE1Q319,AGE1Q3_Q1,AGE1D119,AGE1D219,AGE1D319,AGE1D419,AGE1D619,AGE1D719,AGE1D819,AGE1D919,AGE1RD,AGE1S80S2019,AGE1GI19,AGE1PACT19,AGE1PTSA19,AGE1PCHO19,AGE1PBEN19,AGE1PPEN19,AGE1PPAT19,AGE1PPSOC19,AGE1PPFAM19,AGE1PPMINI19,AGE1PPLOGT19,AGE1PIMPOT19,AGE2Q119,AGE2Q219,AGE2Q319,AGE2Q3_Q1,AGE2D119,AGE2D219,AGE2D319,AGE2D419,AGE2D619,AGE2D719,AGE2D819,AGE2D919,AGE2RD,AGE2S80S2019,AGE2GI19,AGE2PACT19,AGE2PTSA19,AGE2PCHO19,AGE2PBEN19,AGE2PPEN19,AGE2PPAT19,AGE2PPSOC19,AGE2PPFAM19,AGE2PPMINI19,AGE2PPLOGT19,AGE2PIMPOT19,AGE3Q119,AGE3Q219,AGE3Q319,AGE3Q3_Q1,AGE3D119,AGE3D219,AGE3D319,AGE3D419,AGE3D619,AGE3D719,AGE3D819,AGE3D919,AGE3RD,AGE3S80S2019,AGE3GI19,AGE3PACT19,AGE3PTSA19,AGE3PCHO19,...,OPR3D119,OPR3D219,OPR3D319,OPR3D419,OPR3D619,OPR3D719,OPR3D819,OPR3D919,OPR3RD,OPR3S80S2019,OPR3GI19,OPR3PACT19,OPR3PTSA19,OPR3PCHO19,OPR3PBEN19,OPR3PPEN19,OPR3PPAT19,OPR3PPSOC19,OPR3PPFAM19,OPR3PPMINI19,OPR3PPLOGT19,OPR3PIMPOT19,OPR4Q119,OPR4Q219,OPR4Q319,OPR4Q3_Q1,OPR4D119,OPR4D219,OPR4D319,OPR4D419,OPR4D619,OPR4D719,OPR4D819,OPR4D919,OPR4RD,OPR4S80S2019,OPR4GI19,OPR4PACT19,OPR4PTSA19,OPR4PCHO19,OPR4PBEN19,OPR4PPEN19,OPR4PPAT19,OPR4PPSOC19,OPR4PPFAM19,OPR4PPMINI19,OPR4PPLOGT19,OPR4PIMPOT19,OPR5Q119,OPR5Q219,OPR5Q319,OPR5Q3_Q1,OPR5D119,OPR5D219,OPR5D319,OPR5D419,OPR5D619,OPR5D719,OPR5D819,OPR5D919,OPR5RD,OPR5S80S2019,OPR5GI19,OPR5PACT19,OPR5PTSA19,OPR5PCHO19,OPR5PBEN19,OPR5PPEN19,OPR5PPAT19,OPR5PPSOC19,OPR5PPFAM19,OPR5PPMINI19,OPR5PPLOGT19,OPR5PIMPOT19,OPR6Q119,OPR6Q219,OPR6Q319,OPR6Q3_Q1,OPR6D119,OPR6D219,OPR6D319,OPR6D419,OPR6D619,OPR6D719,OPR6D819,OPR6D919,OPR6RD,OPR6S80S2019,OPR6GI19,OPR6PACT19,OPR6PTSA19,OPR6PCHO19,OPR6PBEN19,OPR6PPEN19,OPR6PPAT19,OPR6PPSOC19,OPR6PPFAM19,OPR6PPMINI19,OPR6PPLOGT19,OPR6PIMPOT19
0,1001,322,819,542.7,,23970,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,1002,113,263,177.2,,23640,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,1004,6711,15040,10296.8,14940.0,20510,27310.0,12370.0,11080.0,13800.0,16110.0,18340.0,22940.0,25670.0,29110.0,35230.0,3.2,4.2,0.29,70.1,63.4,3.1,3.6,25.6,12.3,7.7,2.8,3.1,1.8,-15.7,14200.0,18850.0,23850.0,9640.0,10140.0,12790.0,15040.0,17270.0,20330.0,22830.0,25060.0,28740.0,2.8,3.1,0.218,101.0,93.7,5.5,1.8,0.5,1.7,10.1,2.7,4.5,2.9,-13.3,13620.0,18690.0,25320.0,11700.0,10510.0,12490.0,14580.0,16590.0,21000.0,23670.0,26850.0,31660.0,3.0,3.5,0.248,97.8,89.4,4.6,3.8,0.5,2.2,13.2,6.4,4.1,2.7,-13.7,14360.0,19350.0,26520.0,12160.0,10670.0,12940.0,15180.0,17170.0,22020.0,24600.0,28430.0,33800.0,3.2,3.7,0.254,96.3,89.7,3.8,...,9560.0,11980.0,14360.0,18680.0,29230.0,35790.0,40520.0,53550.0,5.6,8.2,0.44,110.4,15.3,1.7,93.4,0.9,9.8,5.9,3.1,1.3,1.5,-27.0,16680.0,22190.0,28030.0,11350.0,12340.0,15380.0,17950.0,20110.0,24280.0,26800.0,29280.0,34830.0,2.8,3.1,0.218,7.1,5.9,0.9,0.3,92.7,10.7,2.8,0.3,1.6,0.9,-13.3,15910.0,36000.0,55080.0,39160.0,8030.0,14160.0,20810.0,29650.0,39530.0,42390.0,59570.0,119020.0,14.8,53.4,0.766,11.9,,,,5.3,107.6,1.5,,,,-26.3,7250.0,9190.0,11410.0,4160.0,360.0,6470.0,7900.0,8760.0,10000.0,11230.0,12140.0,13930.0,39.1,9.5,0.285,,,,,,,,,,,
3,1005,720,1823,1204.3,,24050,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
4,1007,1160,2853,1888.8,18560.0,23380,29570.0,11020.0,14360.0,17450.0,19550.0,21620.0,25470.0,28130.0,31530.0,36840.0,2.6,2.9,0.206,76.9,71.9,2.2,2.8,26.0,7.4,4.9,2.4,1.6,0.9,-15.2,,,,,,,,,,,,,,,,,,,,,,,,,,,18630.0,22870.0,28240.0,9610.0,14660.0,17720.0,19580.0,21150.0,24970.0,27100.0,30180.0,34260.0,2.3,2.5,0.187,100.2,93.2,2.9,4.1,1.0,3.5,8.9,5.4,2.2,1.3,-13.6,18380.0,23150.0,29220.0,10850.0,13590.0,16580.0,19280.0,21610.0,25050.0,27690.0,31220.0,35600.0,2.6,3.0,0.213,102.3,97.8,2.1,...,,,,,,,,,,,,,,,,,,,,,,,18390.0,23170.0,29570.0,11170.0,14090.0,17450.0,19300.0,21270.0,25030.0,27660.0,31450.0,37040.0,2.6,3.0,0.212,7.7,,,,91.5,12.5,1.9,,,,-13.6,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


## Step 1.3 — Contrôles de cohérence des données brutes

Avant toute transformation, nous réalisons des contrôles simples mais essentiels afin de vérifier la cohérence des données brutes issues d’Airparif et de l’INSEE.

Ces contrôles portent notamment sur :
- les dimensions des jeux de données (nombre d’observations et de variables) ;
- la présence de doublons ;
- la part de valeurs manquantes par variable.

Ils permettent d’identifier d’éventuels problèmes (variables très incomplètes, doublons, erreurs de structure) avant de procéder au nettoyage.


In [None]:
def quick_checks(df, name):
    print(f"--- {name} ---")
    print("shape:", df.shape)
    print("duplicates rows:", df.duplicated().sum())
    print("missing % (top 10):")
    miss = (df.isna().mean().sort_values(ascending=False) * 100).head(10)
    display(miss)

quick_checks(poll_raw, "Airparif raw")
quick_checks(filo_raw, "INSEE raw")


--- Airparif raw ---
shape: (1300, 4)
duplicates rows: 0
missing % (top 10):


pm10       2.769231
pm25       2.615385
no2        2.538462
Commune    0.000000
dtype: float64

--- INSEE raw ---
shape: (31361, 732)
duplicates rows: 0
missing % (top 10):


OPR6PIMPOT19    99.996811
OPR6PPAT19      99.996811
OPR6PTSA19      99.996811
OPR6PCHO19      99.996811
OPR6PBEN19      99.996811
OPR6PPEN19      99.996811
OPR6PACT19      99.996811
OPR6PPSOC19     99.996811
OPR6PPFAM19     99.996811
OPR6PPMINI19    99.996811
dtype: float64

### Interprétation des contrôles de cohérence

Les données de pollution issues d’Airparif comportent environ 1300 observations correspondant à des communes, avec un nombre limité de variables.  
Aucun doublon n’est détecté et la proportion de valeurs manquantes reste faible (inférieure à 3 %), ce qui est satisfaisant pour ce type de données environnementales.

Les données socio-économiques de l’INSEE (Filosofi) sont beaucoup plus volumineuses et contiennent un grand nombre de variables.  
Certaines d’entre elles présentent une proportion très élevée de valeurs manquantes, ce qui est attendu compte tenu du niveau de détail et de la diversité des indicateurs proposés.

Ces constats justifient la sélection d’un nombre restreint de variables pertinentes pour la suite de l’analyse.


In [None]:
#On vérifie les colonnes de pollution et leur cohérence
for col in ["pm10", "pm25", "no2"]:
    if col in poll_raw.columns:
        s = pd.to_numeric(poll_raw[col], errors="coerce")
        print(col, "min=", s.min(), "max=", s.max(), "missing=", s.isna().mean())


pm10 min= 14.0 max= 28.0 missing= 0.027692307692307693
pm25 min= 8.0 max= 15.0 missing= 0.026153846153846153
no2 min= 5.0 max= 54.0 missing= 0.025384615384615384


## Step 1.4 — Sélection des variables socio-économiques pertinentes (INSEE)

Les données Filosofi contiennent un grand nombre de variables décrivant la distribution des niveaux de vie.  
Dans le cadre de ce projet, nous retenons un nombre limité de variables pertinentes afin de caractériser le niveau de vie et les inégalités au niveau communal.

Les variables sélectionnées sont :
- **Q219** : niveau de vie médian ;
- **D119** : premier décile du niveau de vie, utilisé comme indicateur de pauvreté ;
- **GI19** : indice de Gini, mesurant les inégalités de revenus ;
- **NBPERS19** : population communale ;
- **CODGEO** : code géographique de la commune (clé de jointure).

Ces variables permettent de capturer à la fois le niveau de vie moyen, la situation des ménages les plus modestes et le degré d’inégalité au sein des communes.


In [None]:
# Sélection des variables INSEE pertinentes
cols_insee = ["CODGEO", "NBPERS19", "Q219", "D119", "GI19"]
cols_insee = [c for c in cols_insee if c in filo_raw.columns]

filo = filo_raw[cols_insee].copy()

# Harmonisation du code géographique
filo["CODGEO"] = filo["CODGEO"].astype(str).str.zfill(5)

filo.head()


Unnamed: 0,CODGEO,NBPERS19,Q219,D119,GI19
0,1001,819,23970,,
1,1002,263,23640,,
2,1004,15040,20510,11080.0,0.29
3,1005,1823,24050,,
4,1007,2853,23380,14360.0,0.206


### Construction d’un indicateur de pauvreté relative

Afin de caractériser la situation des ménages les plus modestes relativement au niveau de vie global de la commune, nous construisons un indicateur de pauvreté relative défini comme le rapport entre le premier décile et le niveau de vie médian.


In [None]:
filo["poverty_index"] = filo["D119"] / filo["Q219"]

filo[["Q219", "D119", "poverty_index"]].describe()


Unnamed: 0,Q219,D119,poverty_index
count,31361.0,5336.0,5336.0
mean,22065.303083,13004.778861,0.575235
std,3042.079487,2072.141838,0.052009
min,11730.0,6540.0,0.242549
25%,20160.0,11490.0,0.5464
50%,21610.0,13040.0,0.57923
75%,23450.0,14450.0,0.609444
max,51720.0,21200.0,0.709871


## Step 1.5 — Harmonisation des clés géographiques (communes)

Les données de pollution issues d’Airparif ne contiennent pas directement le **code géographique INSEE (CODGEO)** des communes, mais uniquement le **nom de la commune**.

À l’inverse, les données socio-économiques de l’INSEE (Filosofi) sont identifiées par le **CODGEO**, qui constitue la clé la plus fiable pour effectuer une jointure au niveau communal.

Afin de pouvoir croiser ces deux sources, nous utilisons un fichier de correspondance INSEE associant les **noms de communes** à leur **code géographique (CODGEO)**.

Cette étape nécessite un travail d’harmonisation des noms de communes, notamment pour :
- les abréviations (ex. *St* → *Saint*) ;
- les différences d’orthographe ou de typographie ;
- les caractères spéciaux et accents.


In [None]:
# Chargement du fichier de correspondance communes (INSEE)
communes_path = RAW_DIR / "v_commune_2025.csv"
communes = pd.read_csv(communes_path)

communes.head()


Unnamed: 0,TYPECOM,COM,REG,DEP,CTCD,ARR,TNCC,NCC,NCCENR,LIBELLE,CAN,COMPARENT
0,COM,1001,84.0,1,01D,12,5,ABERGEMENT CLEMENCIAT,Abergement-Clémenciat,L'Abergement-Clémenciat,108,
1,COM,1002,84.0,1,01D,11,5,ABERGEMENT DE VAREY,Abergement-de-Varey,L'Abergement-de-Varey,101,
2,COM,1004,84.0,1,01D,11,1,AMBERIEU EN BUGEY,Ambérieu-en-Bugey,Ambérieu-en-Bugey,101,
3,COM,1005,84.0,1,01D,12,1,AMBERIEUX EN DOMBES,Ambérieux-en-Dombes,Ambérieux-en-Dombes,122,
4,COM,1006,84.0,1,01D,11,1,AMBLEON,Ambléon,Ambléon,104,


In [None]:
# Filtrer pour ne garder que les communes d'Île-de-France (REG = 11)
communes = communes[communes["REG"] == 11].copy()


communes = communes[["COM", "NCC"]]

communes = communes.rename(columns={
    "COM": "CODGEO",
    "NCC": "Commune"
})

In [None]:
communes["Commune"].duplicated().sum()
communes["Commune"].value_counts().head(20)


SAINT MARTIN DES CHAMPS    2
BLANDY                     2
MAROLLES EN BRIE           2
MONDREVILLE                2
CHAMPAGNE SUR SEINE        1
BOISSETS                   1
CHAMPLAN                   1
BASSEVELLE                 1
FAREMOUTIERS               1
FONTAINE FOURCHES          1
CONDE SAINTE LIBIAIRE      1
SAINT OUEN SUR SEINE       1
MONTIGNY LE BRETONNEUX     1
MARCILLY                   1
MERICOURT                  1
USSY SUR MARNE             1
NANTEAU SUR LUNAIN         1
OSMOY                      1
FREMECOURT                 1
PLESSIS PLACY              1
Name: Commune, dtype: int64

### Gestion des doublons dans la table de correspondance des communes

La table de correspondance INSEE peut contenir plusieurs lignes pour un même nom de commune, notamment en raison :
- de changements administratifs ;
- de différences de périmètre ;
- ou de la présence d’informations complémentaires non nécessaires pour la jointure.

Dans le cadre de ce projet, la jointure avec les données de pollution repose uniquement sur le **nom de la commune**, sans distinction supplémentaire.  
Afin d’éviter toute ambiguïté lors de la jointure (plusieurs codes géographiques associés à un même nom), nous conservons une seule occurrence par commune.

Cette opération permet de garantir une correspondance **univoque** entre le nom de la commune et le code géographique.


In [None]:
# Suppression des doublons afin de garantir une correspondance univoque
communes = communes.drop_duplicates(subset=["Commune"], keep="first")

# Vérification de l'unicité
communes["Commune"].is_unique


True

In [None]:
# Nettoyage des noms de communes pour faciliter la jointure
def clean_commune_name(s):
    s = s.upper()
    s = s.replace("-", " ")
    s = s.replace("ST ", "SAINT ")
    s = s.replace("STE ", "SAINTE ")
    s = s.strip()
    return s

poll_clean = poll_raw.copy()
poll_clean["Commune_clean"] = poll_clean["Commune"].apply(clean_commune_name)
communes["Commune_clean"] = communes["Commune"].apply(clean_commune_name)


In [None]:
poll_clean = poll_clean.merge(
    communes[["Commune_clean", "CODGEO"]],
    on="Commune_clean",
    how="left",
    validate="m:1"
)

poll_clean.head(10)

Unnamed: 0,Commune,pm10,pm25,no2,Commune_clean,CODGEO_x,CODGEO_y
0,ABBEVILLE LA RIVIERE,15.0,8.0,8.0,ABBEVILLE LA RIVIERE,91001,91001
1,ABLEIGES,18.0,9.0,13.0,ABLEIGES,95002,95002
2,ABLIS,15.0,8.0,13.0,ABLIS,78003,78003
3,ABLON SUR SEINE,17.0,10.0,24.0,ABLON SUR SEINE,94001,94001
4,ACHERES,19.0,10.0,21.0,ACHERES,78005,78005
5,ACHERES LA FORET,14.0,8.0,8.0,ACHERES LA FORET,77001,77001
6,ADAINVILLE,20.0,8.0,9.0,ADAINVILLE,78006,78006
7,AIGREMONT,17.0,9.0,17.0,AIGREMONT,78007,78007
8,AINCOURT,16.0,9.0,9.0,AINCOURT,95008,95008
9,ALFORTVILLE,19.0,12.0,33.0,ALFORTVILLE,94002,94002


In [None]:
# Extraire les communes sans code INSEE après la jointure
communes_non_appariees = (
    poll_clean.loc[poll_clean["CODGEO_x"].isna(), "Commune"]
    .drop_duplicates()
    .sort_values()
)

communes_non_appariees


257                  CHENOISE
346        DAUMAZAN SUR ARIZE
384                   ESCOSSE
392                      EVRY
395                     FABAS
                ...          
1157      STE CROIX VOLVESTRE
1184                TOURTOUSE
1189                TREMOULET
1195                   UNZENT
1263    VILLENEUVE DU PAREAGE
Name: Commune, Length: 162, dtype: object

In [None]:
# Nombre de communes sans code INSEE après la jointure
n_missing = poll_clean["CODGEO_y"].isna().sum()
total = poll_clean.shape[0]

print(f"Communes sans CODGEO : {n_missing} sur {total}")
print(f"Proportion : {round(n_missing / total * 100, 2)} %")


Communes sans CODGEO : 162 sur 1300
Proportion : 12.46 %


Après harmonisation des noms de communes et jointure avec la table de correspondance INSEE,  
162 communes ne peuvent pas être associées à un code géographique, soit environ 13 % des observations initiales.

Ces non-appariements s’expliquent principalement par :
- des différences résiduelles d’orthographe ou de typographie ;
- des communes hors du périmètre couvert par la table de correspondance ;
- des particularités administratives.

Ces observations sont exclues de la suite de l’analyse afin de garantir la cohérence du jeu de données final.


In [None]:
poll_clean["CODGEO"] = poll_clean["CODGEO_x"]
poll_clean.head(4)

poll_clean_geo = poll_clean.dropna(subset=["CODGEO"])


Les données de pollution et de niveau de vie sont fusionnées à l’aide du code INSEE des communes (CODGEO),
qui constitue une clé d’identification unique et standardisée.

Une jointure interne (`inner join`) est utilisée afin de conserver uniquement les communes
pour lesquelles l’ensemble des informations nécessaires est disponible.
Ce choix garantit la cohérence et la comparabilité des analyses ultérieures.


In [None]:
df_final = poll_clean_geo.merge(
    filo,
    on="CODGEO",
    how="inner"
)

df_final.head(5)


Unnamed: 0,Commune,pm10,pm25,no2,Commune_clean,CODGEO_x,CODGEO_y,CODGEO,NBPERS19,Q219,D119,GI19
0,ABBEVILLE LA RIVIERE,15.0,8.0,8.0,ABBEVILLE LA RIVIERE,91001,91001,91001,336,24590,,
1,ABLEIGES,18.0,9.0,13.0,ABLEIGES,95002,95002,95002,1153,28270,,
2,ABLIS,15.0,8.0,13.0,ABLIS,78003,78003,78003,3563,25970,16030.0,0.208
3,ABLON SUR SEINE,17.0,10.0,24.0,ABLON SUR SEINE,94001,94001,94001,5741,22780,11530.0,0.27
4,ACHERES,19.0,10.0,21.0,ACHERES,78005,78005,78005,22032,22260,12030.0,0.257


In [None]:
print("Pollution géocodée :", poll_clean_geo.shape)
print("Filo sélectionné   :", filo.shape)
print("Base finale        :", df_final.shape)


Pollution géocodée : (1138, 8)
Filo sélectionné   : (31361, 5)
Base finale        : (1125, 12)


Après géocodage des données de pollution, 1 138 communes d’Île-de-France disposent
d’un code INSEE valide.  
Les données Filosofi couvrent l’ensemble des communes françaises (31 361 communes),
mais seules celles présentes dans les données de pollution sont conservées lors
de la jointure.

La base finale contient 1 125 communes, soit une perte de seulement 13 observations
par rapport aux données de pollution géocodées. Cette différence s’explique par
l’absence de certaines informations de niveau de vie pour quelques communes.
L’échantillon final reste donc très représentatif.


## Step 2.1 — Récupération de données au niveau de carreaux de 200m*200m

Après avoir récupéré les données au niveau communal, nous avons réussi à récupérer les données au plus petit niveau possible correspondant à des carreaux de 200m de côté.

Les données de niveau de vie ont alors été récupéré directement sur le site de l'INSEE au format shapefile : "Revenus, pauvreté et niveau de vie en 2019 - Données carroyées".
Nous avons ensuite sélectionnés les carreaux pour la région d'Ile de France pour éviter de conserver en mémoire une trop grande quantité de donnée. 

Pour chaque carreau, nous avons ainsi pu faire un appel à l'API "derrière la carte interractive de AirParif", en lui fournissant les coordonnées (convertis) correspondant aux localisations des différents carreaux. 

Cet appel successif à l'API ayant nécessité environ 9 heures, nous fournissons ici directement les données de pollution récupérées.  


In [None]:
#installation de la librairie py7zr nécessaire pour déziper les données Insee
import sys
import subprocess

try:
    __import__("py7zr")
except ImportError:
    print(f"Installation de py7zr en cours...")
    subprocess.check_call([sys.executable, "-m", "pip", "install", "py7zr"])

In [None]:
from zipfile import ZipFile
import py7zr
import geopandas as gpd

La fonction suivante se charge donc de plusieurs points :

- elle récupère et dézipe le dataset de l'INSEE sur ""Revenus, pauvreté et niveau de vie en 2019 - Données carroyées" ;
- elle sélectionne les données carroyées pour la région Ile de France en récupérant la liste des communes disponibles sur data.gouv et en réalisant une jointure entre les deux dataset;
- elle récupère les données de pollution récupérées en amont par API et renvoie le dataframe combinant les données de niveau de vie et de pollution.

In [2]:
import requests
from zipfile import ZipFile
import os
import py7zr
import pandas as pd
import geopandas as gpd
from pathlib import Path


def telecharger_donnees():
    print("téléchargement des données (1 à 2 minutes)")
    ROOT_DIR = Path().absolute().parent
    dossier_data = ROOT_DIR / "data_carreaux"
    
    # --- téléchargement des données carroyées de niveau de vie Insee ---
    URL_INSEE_ZIP = "https://www.insee.fr/fr/statistiques/fichier/7655475/Filosofi2019_carreaux_200m_shp.zip"
    intermediaire_zip = "donnees.zip"
    reponse = requests.get(URL_INSEE_ZIP)
    if reponse.status_code == 200:
        print("téléchargement réussi -> décompression")
        with open(intermediaire_zip, "wb") as f:
            f.write(reponse.content)
        with ZipFile(intermediaire_zip, 'r') as zip_ref:
            zip_ref.extractall(dossier_data)
        chemin_fichier_7z = os.path.join(dossier_data, "Filosofi2019_carreaux_200m_shp.7z")
        print("decompression zip terminée -> deuxième décompression")
        with py7zr.SevenZipFile(chemin_fichier_7z, mode="r") as z:
            z.extractall(path=dossier_data)

        # suppression des deux fichiers zip:
        os.remove(os.path.join(os.getcwd(), intermediaire_zip))
        os.remove(chemin_fichier_7z)
    else:
        print(f"echec du télechargement code status : {reponse.status_code}")

    # --- suppression des fichiers inutiles de la réunion et de la martinique---
    extensions = ["dbf", "prj", "shp", "shx"]
    for e in extensions:
        try:
            os.remove(os.path.join(dossier_data, f"carreaux_200m_mart.{e}"))
        except Exception:
            print("erreur_suppresion_martinique")
        try:
            os.remove(os.path.join(dossier_data, f"carreaux_200m_reun.{e}"))
        except Exception:
            print("erreur_suppresion_reunion")

    # --- conversion en dataframe centré sur l'idf ---
    df = gpd.read_file(os.path.join(dossier_data, "carreaux_200m_met.shp"))

    # --- récupération des départements associés à lcog_geo ---
    url_base = "https://geo.api.gouv.fr/communes"
    parametres = {
        "codeRegion": "11",              # Île-de-France
        "type": "commune-actuelle,arrondissement-municipal",
        "fields": "nom,code,codeDepartement",  # Les colonnes voulues
        "format": "json"}
    response = requests.get(url_base, params=parametres)
    df2 = pd.DataFrame(response.json())

    # --- rightjoin ---
    df3 = pd.merge(df, df2, left_on="lcog_geo", right_on="code", how="right")

    # --- récupération des données de pollution ---
    polluants = ["no2", "pm10", "pm25"]
    for p in polluants:
        df3[p] = pd.read_csv(os.path.join(dossier_data, f"donnees_pollution{p}_checkpoint.csv"))

    # --- suppression des données téléchargées ---
    for e in extensions:
        try:
            os.remove(os.path.join(dossier_data, f"carreaux_200m_met.{e}"))
        except Exception:
            print("erreur_suppresion_métropole")
    return (df3)

df=telecharger_donnees()

téléchargement des données (1 à 2 minutes)
téléchargement réussi -> décompression
decompression zip terminée -> deuxième décompression


Nous fournissons également le code permettant de faire appel à l'API (sans l'exécuter, ce qui prendrait des heures). [Ce code serait à rajouter dans la partie --- récupération des données de pollution --- de la fonction précédente]

Ce code procède ne plusieurs points :
- on convertit d'abord le format des coordonnées géographiques au format requis par l'api Airpair, à savoir le lambert II étendu espg : 27572 ;
- on récupère les positions (x,y) du centre de chaque carreau autour desquelles on crée un "petit carré" pour pouvoir faire appel à l'API;
- on créer une fonction pour extraire la donnée de sortie du texte;
- Pour chaque polluant et en 2019, on récupère les données de pollution de chaque carrés, en utilisant des mesures de précaution (sauvegarde régulière des données, gestion des erreurs, temps d'arrêt de 0.1 secondes pour ne pas surcharger le serveur).

In [None]:
# import de bibliothèques supplémentaires pour la gestion du temps et des expressions régulières
import re
from tqdm import tqdm
import time

In [None]:
# 1/conversion des coordonnées géographiques
# df3 = df3.to_crs(27572)

In [None]:
# 2/ récupération des positions des centres des carreaux
#df3["centre"] = df3.centroid
#df3["x_centre"] = df3["centre"].x
#df3["y_centre"] = df3["centre"].y

def build_bbox_string(row):
    x_min = row["x_centre"]-0.5
    x_max = row["x_centre"]+0.5
    y_min = row["y_centre"]-0.5
    y_max = row["y_centre"]+0.5
    return (f"{x_min},{y_min},{x_max},{y_max}")

#df3["bbox"] = df3.apply(build_bbox_string, axis=1)

In [None]:
# 3/Extraction des valeurs 
def extraire_pollution(texte):
    try:
        # On cherche les chiffres après 'GRAY_INDEX = '
        match = re.search(r"GRAY_INDEX\s*=\s*([\d.]+)", texte)
        return float(match.group(1)) if match else None
    except Exception:
        return None

In [None]:
#récupération des données de pollution (attention, l'exécution de cette fonction prends plusieurs heures)

def appel_api_pollution(polluant):
    if polluant not in ["pm10", "pm25", "no2"]:
        return ("Le polluant doit être pm10, pm25 ou no2")
    else:
        resultats = []
        BATCH_SIZE = 100  # On sauvegarde toutes les 100 lignes
        ROOT_DIR = Path().absolute().parent
        dossier_data = ROOT_DIR / "data_carreaux"
        FICHIER_SAUVEGARDE = os.path.joint(dossier_data, f"donnees_pollution{polluant}_checkpoint.csv")

        for index, row in tqdm(df3.iterrows(), total=len(df3)):
            # initialisation des paramètres d'appel à l'API
            params = {
                "SERVICE": "WMS",
                "VERSION": "1.1.1",
                "REQUEST": "GetFeatureInfo",
                "QUERY_LAYERS": f"Moyenne_annuelle:{polluant}",
                "LAYERS": f"Moyenne_annuelle:{polluant}",
                "INFO_FORMAT": "text/plain",
                "BBOX": row['bbox'],
                "WIDTH": 1,
                "HEIGHT": 1,
                "X": 0,
                "Y": 0,
                "SRS": "EPSG:27572",
                "TIME": "2019"
            }

            # tentative d'appel à l'API
            try:
                r = requests.get(url_base, params=params, timeout=10)
                if r.status_code == 200:
                    valeur = extraire_pollution(r.text)
                    resultats.append(valeur)
                else:
                    resultats.append(None)
            except Exception as e:
                resultats.append(None)

            # sauvegarde des données de pollution toutes les 100 mesures
            if (index + 1) % BATCH_SIZE == 0:
                    df_checkpoint = pd.DataFrame(resultats)
                # S'il existe déjà, on ajoute les données à la suite (mode='a' pour append)
                    mode = 'a' if os.path.exists(FICHIER_SAUVEGARDE) else 'w'
                    header = not os.path.exists(FICHIER_SAUVEGARDE)
                    
                    df_checkpoint.to_csv(FICHIER_SAUVEGARDE, mode=mode, header=header, index=False)
                    
                    # Vider la liste temporaire pour ne pas ré-écrire les mêmes données
                    resultats = []
            
            # Pause de sécurité
            time.sleep(0.1)

        # Récupération des dernières données de pollution
        if resultats:
            pd.DataFrame(resultats).to_csv(FICHIER_SAUVEGARDE, mode='a', header=False, index=False)
        print(resultats)

        # Ajout des données de pollution au dataframe
        df3[f'{polluant}_2019'] = pd.read_csv(FICHIER_SAUVEGARDE)


# Step 2.2 - Qualité des données infracommunalles

Pour ce qui est des valeurs manquantes, elles sont quasiment inexistantes (199 sur 60 085 soit environ 0.3% de lignes ayant au moins une valeur manquante) et elles proviennent en majorité d'une erreur de l'appel à l'API AirParif.

In [19]:
print(f"Il y a au total {len(df)} observations.")
nb_lignes_manquantes = df.isnull().any(axis=1).sum()
print(f"Il y a {nb_lignes_manquantes} lignes avec au moins une valeur manquante.")

Il y a au total 60085 observations.
Il y a 199 lignes avec au moins une valeur manquante.


Notons que le dataset obtenu ne couvre absolument pas tout le territoire francilien. En effet, le secret fiscal oblige à ne pas dévoiler la moyenne des revenus pour une zone de moins de 11 habitants. Néanmoins, la plupart des français (80%) habitent d'un une zone carroyées 200m*200m par l'INSEE (source : DOCUMENTATION – données carroyées FILOSOFI 2019).

En somme, le dataset est de très bonne qualité, et ne nécessite pas en l'état de traitement particuliers.