# Projet : Analyse de l'impact de la pollution atmosphérique sur la santé en France Métropolitaine

## I. Objectif  

Développer un pipeline automatisé pour collecter, nettoyer, explorer et analyser les données sur la pollution de l'air et ses effets sur la santé. 
Il s’agit de quantifier le nombre de décès attribuables à l'exposition à la pollution de l'air, en particulier aux particules fines (PM2.5)  et au dioxyde d'azote (NO2) en tenant compte des facteurs démographiques et géographiques.

Selon les estimations, environ 40 000 décès par an en France sont liés à la pollution de l'air ambiant, ce qui représente une perte d'espérance de vie significative pour les personnes exposées.

Cette analyse permettra de répondre aux questions suivantes : 
    
    - Comment les effets de la pollution varient-ils selon les groupes démographiques ?
    
    - Comment la pollution affecte-t-elle différemment les tranches d'âge et les sexes ?
    
    - Y a-t-il des inégalités géographiques dans l'exposition à la pollution et ses effets ?


## II. Description du projet 

Voici les différentes étapes du pipeline : 

### 1.	Collecte des données

Vous allez extraire les données de pollution atmosphérique et de santé (possibilité de développer des scripts Python) pour une ou deux régions sur la période 2019-2020 en interrogeant différentes sources.

a)	Pour les données de pollution : Elles porteront sur les polluants PM2.5 et NO2 avec les caractéristiques suivantes : concentrations moyennes (journalières et/ou annuelles), les piques de concentration (valeurs maximales pour l’évaluation des expositions aigües), les variations saisonnières, les données spatiales (zones géographiques).
Les sources à interroger sont : 

    - Geodair sur la qualité de l’air au quotidien : https://www.geodair.fr

    - Mesures des concentrations des polluants à partir des données ouvertes de data.gouv.fr (en utilisant l’API) (https://www.data.gouv.fr/fr/datasets/donnees-temps-reel-de-mesure-des-concentrations-de-polluants-atmospheriques-reglementes-1/)

    - Des données ouvertes de data.gouv.fr (https://www.data.gouv.fr/fr/datasets/qualite-de-lair-concentration-moyenne-no2-pm2-5-pm10-o3-a-partir-de-2015/ ).   


b)	Pour les données de mortalité, les variables essentielles à considérer pour évaluer l'impact de la pollution de l'air sur la santé sont : 

    - Date de décès : Permet d'analyser les tendances temporelles et de croiser avec les données de pollution (les données doivent être alignées avec celles des polluants).
    - Age du décédé : Segmentation des données par tranche d'âge (par exemple, 0-14 ans, 15-64 ans, 65 ans et plus)
    - Sexe : pour analyser les différences de mortalité entre hommes et femmes
    - Cause du décès (e.g. maladies respiratoires, cardio-vasculaires, cancer du poumon)
    - Lieu du décès : Commune, département de résidence

Les sources à interroger sont la base de données CépiDc de l'INSERM : https://www.data.gouv.fr/fr/datasets/causes-de-deces/ et/ou l’INSEE https://www.insee.fr/fr/statistiques , en vous concentrant sur les décès attribuables à l'exposition à la pollution de l'air (e.g. Maladies de l’appareil respiratoire). 


### 2.	Exploration des données

Explorer les données et identifier les différentes variables



a) Montrer l'évolution des niveaux de pollution


b) Analyser les corrélations entre les niveaux de polluants (PM2.5 et NO2) et les taux de mortalité 

c)	Déterminer les différences entre groupes démographiques.

### 3.	Nettoyage et prétraitement

Créer des fonctions pour chaque étape du nettoyage : 



a) Traiter les valeurs manquantes dans les données de pollution et de santé 

b) Harmoniser les formats de date, localisation entre les différentes sources de données


c) Gérer les incohérences potentielles  

d) Normaliser vos données

### 4.	Analyse exploratoire

a) Créer des visualisations montrant les variations de la pollution et des décès pour des périodes similaires.


b) Analyser les corrélations entre les variables de pollution et les données de mortalité


### 5.	Ingénierie des caractéristiques

a)	Écrire des fonctions qui calculent les variables dérivées (moyennes des polluants)

b)	Intégrer des données météorologiques si disponibles en utilisant une API météo (comme OpenWeatherMap)

### 6.	Réduction de dimensionnalité

a)	Appliquer des techniques de réduction de dimensionnalité sur les données de pollution

b)	Générer des visualisations des composantes principales

### 7.	Évaluation et interprétation

a)	Évaluer les impacts de la pollution sur la mortalité en utilisant les dimensions réduites 

b)	Identifier des clusters démographiques et géographiques  

c)	Interprétez les résultats, par exemple une augmentation de X µg/m³ de PM2.5 est associée à une augmentation de Y% du taux de mortalité

## III. Modalités et livrables

### 1. Modalités

Le projet commence le 21/01 et la présentation du travail aura lieu le 11/02 

### 2. Livrables

Une archive (enregistrée sous vos noms) comprenant : 
- Code python 
- Les données 
- Un rapport de 5 pages max décrivant les différentes étapes (pas de code)
- La présentation