# Les facteurs géographiques du Covid : corrélation et causalité : Analyse des corrélations entre indicateurs sociaux départementaux et viralité/mortalité du Covid par département

## Présentation générale du projet

### Problématique et contexte

Le Covid-19 a été un évènement marquant du siècle, impactant au niveau mondial la vie de tous les êtres humains. La pandémie, et ses conséquences (comme les politiques de confinement) ont eu un impact fort sur l'économie et sur la vie quotidienne des habitants dans tous les pays. Plus grave encore, c'est le bilan humain du Covid qui est marquant, avec presque 7 millions d'individus décédés dûs au Covid-19 à travers le monde.

Dans le cadre de ce projet Python pour la Data Science, nous réalisons une étude de cas sur le territoire français métropolitain. Nous cherchons à étudier et à analyser l'impact du Covid en fonction du département, et en particulier en fonction de certains indicateurs sociaux des départements.
Cette étude part d'une hypothèse simple : les départements avec le plus de pauvreté ou le plus haut taux de vieillesse devraient être les plus impactés.


### Données

Pour réaliser ce projet, nous utilisons exclusivement des données publiques fournies par des services ministérielles : d'une part, les données mises à disposition sur data.gouv.fr relatives au Covid, d'autre part, les données mises à disposition par la DREES (Direction de la Recherche, des Études, de l'Évaluation et des Statistiques). En particulier, nous avons fait appel aux bases de donnéees suivantes :

* Pour data.gouv, les données relatives aux hospitalisations durant le Covid, aux passages aux urgences, aux nombres de dépistages; et au registre des établissements de santé géolocalisées.
* Pour les données de la DREES, les données relatives à l'espérance de vie, à la disparité des niveaux de vie, à l'intensité de la pauvreté monétaire, à l'indice de vieillissement et à la population selon âge.

Le découpage géographique choisi pour cette étude est, comme précisé plus haut, les départements, échelle la plus précise où l'on dispose du maximum d'informations pertinentes.
Malheureusement, nous n'avons pas pu inclure dans notre étude les départements et territoires d'Outre-mer au vu de l'hétérogénéïté des données disponibles les concernant.

### Structure du projet

Nous avons choisi pour réaliser ce projet une structure modulaire assez classique afin de distinguer dans le code différentes étapes :
- la liste des données utilisées, via leur url de téléchargement (donnees.txt)
- l'import des données (fileopener.py)
- le nettoyage des données (datapreprocessing.py)
- l'analyse des données via des statistiques descriptives (stats.py)
- des essais de modélisations statistiques (model.py)
- ce fichier principal présentant les résultats du projet (main.py)

### Reproductibilité du projet

Afin d'assurer une reproductibilité partielle du projet, le dataframe final des données, créé suite à l'importation et au nettoyage des données, et utilisé pour l'analyse et la modélisation statistique, est enregistré sous format csv au sein de ce projet. Nous portons à votre attention que les données utilisées étant des données ministérielles, il y a de fortes chances qu'elles restent disponibles, d'autant plus que les données du Covid sont à priori (on l'espère) des archives non-destinées à être modifiées.

Pour ce qui est de la reproductibilité au niveau programmation, comme il est d'usage, ce projet contient un fichier textuel requirements.txt contenant la liste de tous les packages nécessaires. L'exécution dans le terminal de la commande `pip install -r requirements.txt` suffira à vérifier qu'ils sont bien tous installés sur votre machine. Cette étape est donc nécessaire pour pouvoir naviguer dans la suite du projet et tout particulièrement exécuter la cellule suivante.

## Import des différentes parties du code

In [3]:
from fileopener import *
from datapreprocessing import *
#from stats import *
#from model import *

## Nettoyage des données

Nous disposons de 9 bases de données distinctes, importées en dataframe pandas : df_hosp, df_urgences, df_depistage, df_etab, df_espvie, df_nvvie, df_pauv, df_vieil et df_pop.
Les bases de données étaient assez différentes, bien que l'importation des données a été réalisée de manière relativement uniforme, le nettoyage a dû être propre à chaque dataframe. Pour ce qui est des valeurs manquantes, le choix a été fait de les mettre à 0 pour des variables compteurs (comme le nombre de passages aux urgences dûes au Covid en partant du principe que la cellule a probablement été laissée vide car il n'y avait pas de passage aux urgences), pour des indicateurs comme l'espérance de vie, on a choisi de mettre les valeurs manquantes à la médiane, afin de de ne pas trop changé la répartition de l'échantillon.

Nous avons ensuite regroupé toutes les variables pertinentes dans un unique dataframe df_final indexé par départements. En voici un aperçu :

In [4]:
df_final.head()

Unnamed: 0_level_0,nom_dep,Moins de 20 ans,Moins de 25 ans,25 à 64 ans,65 ans ou plus,75 ans ou plus,80 ans ou plus,85 ans ou plus,pop_totale,Moins de 20 ans.1,...,esp_de_vie_H_65,esp_de_vie_F_65,rapport nv_vie interdécile D9/D1,indicateur pauvreté 1,indicateur pauvreté 2,patients positifs,patients testés,ratio patients positifs/population,ratio patients positifs/testés,ratio patients testés/population
num_dep,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,Ain,171336.0,203449.0,344459.0,131590.0,61926.0,35163.0,18688.0,679498.0,25.215085,...,20.3,23.4,3.5,20.4,18.2,392838.0,2601627.0,57.812974,15.099705,382.874858
2,Aisne,125708.0,152860.0,251931.0,116841.0,53128.0,29580.0,16774.0,521632.0,24.098982,...,18.2,21.9,3.1,20.1,20.3,272177.0,1932208.0,52.177972,14.08632,370.415925
3,Allier,66246.0,81986.0,152745.0,97977.0,49747.0,29925.0,17424.0,332708.0,19.911153,...,19.4,23.0,3.0,20.1,21.0,174112.0,1273660.0,52.331774,13.67021,382.816163
4,Alpes-de-Haute-Provence,33920.0,40903.0,80162.0,47096.0,23412.0,13630.0,7259.0,168161.0,20.171146,...,20.0,23.3,3.2,20.5,19.9,99411.0,807426.0,59.116561,12.312088,480.15057
5,Hautes-Alpes,27874.0,33506.0,68377.0,39778.0,19651.0,11323.0,6406.0,141661.0,19.676552,...,20.4,24.2,3.0,19.9,19.6,82765.0,593457.0,58.42469,13.946251,418.927581


## Analyse statistique des données

## Modélisation statistique