# Propagation du COVID-19 en France 
## - Préparation des données -
`AROUI Khaoula`
<br><br>
Sommaire :
 - <a href="#p1"> Importation des bases des données brutes</a>
 - <a href="#p2"> Aperçu sur les bases de données brutes et préparation de chacune</a> 
 - <a href="#p2-1"> 1. Données sur la propagation du covid-19 </a>  
 - <a href="#p2-2"> 2. Données sur la couverture vaccinale </a>  
 - <a href="#p3"> Jointure des deux premières sources</a>
 - <a href="#p3-1"> 1. Vérification des valeurs manquantes et préparation des données d'analyse</a>
 - <a href="#p5"> Jointure avec les données des densités de population</a>

## <a name="#p1"> Importation des bases des données brutes</a>

In [374]:
# Importation des librairies requises
import pandas as pd
import os
import numpy as np
from datetime import datetime as dt

# Set the working directory
os.chdir('C:/Users/khaou/Documents/Master SEP/5- Analyse des données et data mining_GUATHERAT/projet individuel')
print(os.getcwd())# check the working directory is the right one

C:\Users\khaou\Documents\Master SEP\5- Analyse des données et data mining_GUATHERAT\projet individuel


In [375]:
pd.set_option('display.max_rows', None)
pd.set_option('display.width', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', -1)
pd.options.display.float_format = '{:,.4f}'.format

  pd.set_option('display.max_colwidth', -1)


In [376]:
# Données sur la propagation du covid-19
source_1 = pd.read_csv('./Data/rawdata/table-indicateurs-open-data-dep-serie.csv', low_memory=False)
# Données sur la couverture vaccinale par départements
source_2 = pd.read_csv('./Data/rawdata/vacsi-dep-2023-01-20-19h00.csv', sep=';', low_memory=False)
# Données démographiques de la population 
source_3 = pd.read_excel('./Data/rawdata/TCRD_021_modified.xlsx', sheet_name="DEP")
# Données démographiques de les superficie 
source_4 = pd.read_excel('./Data/rawdata/TCRD_021_modified.xlsx', sheet_name="superficie",  thousands=' ')
# Données sur les mesures de 10 avril ( apres 20 jours ou moins de la mise en place de restrictions de 20 jours) 
source_5 = pd.read_excel('./Data/rawdata/mesures_10_avril_2021.xlsx', sheet_name="Feuil2")


## <a name="#p2"> Aperçu sur les bases de données brutes et préparation de chacune</a> 

### <a name="p2-1">Données sur la propagation du covid-19</a>
##### Ces données présentent la valeur quotidienne de ces 4 indicateurs au niveau national et départemental depuis le 15 mars 2020.

In [377]:
print(source_1.shape)
print(source_1.columns)
source_1.head()

(90395, 15)
Index(['extract_date', 'departement', 'region', 'libelle_reg', 'libelle_dep',
       'tx_incid', 'R', 'taux_occupation_sae', 'tx_pos', 'tx_incid_couleur',
       'R_couleur', 'taux_occupation_sae_couleur', 'tx_pos_couleur',
       'nb_orange', 'nb_rouge'],
      dtype='object')


Unnamed: 0,extract_date,departement,region,libelle_reg,libelle_dep,tx_incid,R,taux_occupation_sae,tx_pos,tx_incid_couleur,R_couleur,taux_occupation_sae_couleur,tx_pos_couleur,nb_orange,nb_rouge
0,2020-03-19,1,84,Auvergne Rhône Alpes,Ain,,,14.1,,,,vert,,0,0
1,2020-03-18,1,84,Auvergne Rhône Alpes,Ain,,,6.3,,,,vert,,0,0
2,2021-01-21,1,84,Auvergne Rhône Alpes,Ain,212.04,,71.6,9.96,rouge,,rouge,orange,1,2
3,2021-01-22,1,84,Auvergne Rhône Alpes,Ain,212.34,,73.2,9.8531,rouge,,rouge,orange,1,2
4,2021-01-23,1,84,Auvergne Rhône Alpes,Ain,217.06,,71.4,9.9616,rouge,,rouge,orange,1,2


In [378]:
# Garder uniquement les variables d'interêt
columns_list=['extract_date','region', 'libelle_reg', 'departement', 'libelle_dep',
       'tx_incid', 'R', 'taux_occupation_sae', 'tx_pos', 'tx_incid_couleur',
       'R_couleur', 'taux_occupation_sae_couleur', 'tx_pos_couleur',
       'nb_orange', 'nb_rouge']
source_1=source_1[columns_list]

In [379]:
print(source_1.groupby(['region', 'libelle_reg']).size())
print(source_1.groupby(['departement', 'libelle_dep']).size())
print("la première date est :", source_1["extract_date"].min(), "est la dernière est : ", source_1["extract_date"].max())

region  libelle_reg               
1       Guadeloupe                    895  
2       Martinique                    895  
3       Guyane                        895  
4       La Réunion                    895  
6       Mayotte                       895  
11      Ile de France                 7160 
24      Centre Val de Loire           5370 
27      Bourgogne Franche Comté       7160 
28      Normandie                     4475 
32      Hauts de France               4475 
44      Grand Est                     8950 
52      Pays de Loire                 4475 
53      Bretagne                      3580 
75      Nouvelle Aquitaine            10740
76      Occitanie                     11635
84      Auvergne Rhône Alpes          10740
93      Provence Alpes Côte d'Azur    5370 
94      Corse                         1790 
dtype: int64
departement  libelle_dep            
01           Ain                        895
02           Aisne                      895
03           Allier                

In [380]:
#Vérifier les valeurs manquantes pour tous les colonnes
print("\n Valeurs manquantes :")
display(source_1.isnull().sum())
print('-'*20)
print('\n'*2)


 Valeurs manquantes :


extract_date                   0    
region                         0    
libelle_reg                    0    
departement                    0    
libelle_dep                    0    
tx_incid                       16463
R                              79591
taux_occupation_sae            0    
tx_pos                         17069
tx_incid_couleur               16463
R_couleur                      79591
taux_occupation_sae_couleur    0    
tx_pos_couleur                 17069
nb_orange                      0    
nb_rouge                       0    
dtype: int64

--------------------





### <a name="p2-2">Données sur la couverture vaccinale</a>
##### Le gouvernement a présenté dans le cadre de la deuxième étape du plan de déconfinement, la carte de synthèse des départements qui sert de référence pour les mesures différenciées appliquées depuis le 2 juin. Cette carte est construite sur la base de 4 indicateurs et est complétée par une analyse de risques. Les indicateurs sont: Activité épidémique (taux d'incidence), Taux de positivité des tests virologiques, Facteur de reproduction du virus (évolution du R0), Tension hospitalière sur la capacité en réanimation

In [381]:
print(source_2.shape)
print("la premère date est :", source_2["jour"].min(), "est la dernière est : ", source_2["jour"].max())
print(source_2.columns)
source_2.head()

(77662, 20)
la premère date est : 2020-12-27 est la dernière est :  2023-01-19
Index(['dep', 'jour', 'n_dose1', 'n_complet', 'n_rappel', 'n_2_rappel',
       'n_rappel_biv', 'n_3_rappel', 'n_cum_dose1', 'n_cum_complet',
       'n_cum_rappel', 'n_cum_2_rappel', 'n_cum_rappel_biv', 'n_cum_3_rappel',
       'couv_dose1', 'couv_complet', 'couv_rappel', 'couv_2_rappel',
       'couv_rappel_biv', 'couv_3_rappel'],
      dtype='object')


Unnamed: 0,dep,jour,n_dose1,n_complet,n_rappel,n_2_rappel,n_rappel_biv,n_3_rappel,n_cum_dose1,n_cum_complet,n_cum_rappel,n_cum_2_rappel,n_cum_rappel_biv,n_cum_3_rappel,couv_dose1,couv_complet,couv_rappel,couv_2_rappel,couv_rappel_biv,couv_3_rappel
0,1,2020-12-27,0,0,0,0,0,0,0,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0
1,1,2020-12-28,0,0,0,0,0,0,0,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0
2,1,2020-12-29,0,0,0,0,0,0,0,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0
3,1,2020-12-30,0,0,0,0,0,0,0,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0
4,1,2020-12-31,1,0,0,0,0,0,1,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0


In [382]:
# Garder uniquement les variables d'interêt
columns_list=['dep', 'jour', 'n_dose1', 'n_complet', 'n_rappel', 'n_2_rappel',
       'n_rappel_biv', 'n_3_rappel', 'n_cum_dose1', 'n_cum_complet',
       'n_cum_rappel', 'n_cum_2_rappel', 'n_cum_rappel_biv', 'n_cum_3_rappel',
       'couv_dose1', 'couv_complet', 'couv_rappel', 'couv_2_rappel',
       'couv_rappel_biv', 'couv_3_rappel']
source_2=source_2[columns_list]


In [383]:
#Vérifier les valeurs manquantes pour tous les colonnes
print("\n Valeurs manquantes :")
print('-'*20)
display(source_2.isnull().sum())
print('-'*20)
print('\n'*2)


 Valeurs manquantes :
--------------------


dep                 0
jour                0
n_dose1             0
n_complet           0
n_rappel            0
n_2_rappel          0
n_rappel_biv        0
n_3_rappel          0
n_cum_dose1         0
n_cum_complet       0
n_cum_rappel        0
n_cum_2_rappel      0
n_cum_rappel_biv    0
n_cum_3_rappel      0
couv_dose1          0
couv_complet        0
couv_rappel         0
couv_2_rappel       0
couv_rappel_biv     0
couv_3_rappel       0
dtype: int64

--------------------





### <a name="#p3"> Jointure des deux premières sources</a>

In [384]:
# Uniformiser les noms des variables servant comme clé de jointure
source_1.rename(columns={'extract_date': 'date'}, inplace=True)
source_2.rename(columns={'jour': 'date', 'dep': 'departement'}, inplace=True)


In [385]:
# faire la jointure de Source 1 et 2 par region et date
data=pd.merge(source_1, source_2, on=['date', 'departement'], how='inner')
print(data.shape)

(61711, 33)


### <a name="#p3-1"> 1. Vérification des valeurs manquantes et préparation des données d'analyse</a>

In [386]:
#Vérifier les valeurs manquantes pour tous les colonnes
print("\n Valeurs manquantes :")
print('-'*20)
display(data.isnull().sum())
print('-'*20)
print('\n'*2)
print(data.columns)


 Valeurs manquantes :
--------------------


date                           0    
region                         0    
libelle_reg                    0    
departement                    0    
libelle_dep                    0    
tx_incid                       10807
R                              55754
taux_occupation_sae            0    
tx_pos                         10807
tx_incid_couleur               10807
R_couleur                      55754
taux_occupation_sae_couleur    0    
tx_pos_couleur                 10807
nb_orange                      0    
nb_rouge                       0    
n_dose1                        0    
n_complet                      0    
n_rappel                       0    
n_2_rappel                     0    
n_rappel_biv                   0    
n_3_rappel                     0    
n_cum_dose1                    0    
n_cum_complet                  0    
n_cum_rappel                   0    
n_cum_2_rappel                 0    
n_cum_rappel_biv               0    
n_cum_3_rappel                 0    
c

--------------------



Index(['date', 'region', 'libelle_reg', 'departement', 'libelle_dep',
       'tx_incid', 'R', 'taux_occupation_sae', 'tx_pos', 'tx_incid_couleur',
       'R_couleur', 'taux_occupation_sae_couleur', 'tx_pos_couleur',
       'nb_orange', 'nb_rouge', 'n_dose1', 'n_complet', 'n_rappel',
       'n_2_rappel', 'n_rappel_biv', 'n_3_rappel', 'n_cum_dose1',
       'n_cum_complet', 'n_cum_rappel', 'n_cum_2_rappel', 'n_cum_rappel_biv',
       'n_cum_3_rappel', 'couv_dose1', 'couv_complet', 'couv_rappel',
       'couv_2_rappel', 'couv_rappel_biv', 'couv_3_rappel'],
      dtype='object')


In [387]:
# Ne garder que les colonnes les plus pertinents pour répondre à la problématique 
columns_list=['date', 'region', 'libelle_reg', 'departement', 'libelle_dep',
       'tx_incid', 'R', 'taux_occupation_sae', 'tx_pos', 'tx_incid_couleur',
       'R_couleur', 'taux_occupation_sae_couleur', 'tx_pos_couleur',
       'nb_orange', 'nb_rouge', 'n_dose1', 'n_complet', 'n_rappel',
       'n_2_rappel', 'n_rappel_biv', 'n_3_rappel', 'n_cum_dose1',
       'n_cum_complet', 'n_cum_rappel', 'n_cum_2_rappel', 'n_cum_rappel_biv',
       'n_cum_3_rappel', 'couv_dose1', 'couv_complet', 'couv_rappel',
       'couv_2_rappel', 'couv_rappel_biv', 'couv_3_rappel']
data=data[columns_list]

# Renommer les colonnes
data.rename(columns={'date' : 'date', 'region' : 'region_N', 'libelle_reg' : 'Région', 'tx_incid' : "taux d'incidence", 'R' : 'Rouge'}, inplace=True)
print(data.columns)

Index(['date', 'region_N', 'Région', 'departement', 'libelle_dep',
       'taux d'incidence', 'Rouge', 'taux_occupation_sae', 'tx_pos',
       'tx_incid_couleur', 'R_couleur', 'taux_occupation_sae_couleur',
       'tx_pos_couleur', 'nb_orange', 'nb_rouge', 'n_dose1', 'n_complet',
       'n_rappel', 'n_2_rappel', 'n_rappel_biv', 'n_3_rappel', 'n_cum_dose1',
       'n_cum_complet', 'n_cum_rappel', 'n_cum_2_rappel', 'n_cum_rappel_biv',
       'n_cum_3_rappel', 'couv_dose1', 'couv_complet', 'couv_rappel',
       'couv_2_rappel', 'couv_rappel_biv', 'couv_3_rappel'],
      dtype='object')


In [388]:
print("la première date est :", data["date"].min(), "et la dernière est : ", data["date"].max())
print(data.shape)
data.head()


la première date est : 2020-12-27 et la dernière est :  2022-08-29
(61711, 33)


Unnamed: 0,date,region_N,Région,departement,libelle_dep,taux d'incidence,Rouge,taux_occupation_sae,tx_pos,tx_incid_couleur,R_couleur,taux_occupation_sae_couleur,tx_pos_couleur,nb_orange,nb_rouge,n_dose1,n_complet,n_rappel,n_2_rappel,n_rappel_biv,n_3_rappel,n_cum_dose1,n_cum_complet,n_cum_rappel,n_cum_2_rappel,n_cum_rappel_biv,n_cum_3_rappel,couv_dose1,couv_complet,couv_rappel,couv_2_rappel,couv_rappel_biv,couv_3_rappel
0,2021-01-21,84,Auvergne Rhône Alpes,1,Ain,212.04,,71.6,9.96,rouge,,rouge,orange,1,2,1238,7,0,0,0,0,7378,27,0,0,0,0,1.1,0.0,0.0,0.0,0.0,0.0
1,2021-01-22,84,Auvergne Rhône Alpes,1,Ain,212.34,,73.2,9.8531,rouge,,rouge,orange,1,2,839,4,0,0,0,0,8217,31,0,0,0,0,1.2,0.0,0.0,0.0,0.0,0.0
2,2021-01-23,84,Auvergne Rhône Alpes,1,Ain,217.06,,71.4,9.9616,rouge,,rouge,orange,1,2,285,2,0,0,0,0,8502,33,0,0,0,0,1.3,0.0,0.0,0.0,0.0,0.0
3,2021-01-24,84,Auvergne Rhône Alpes,1,Ain,218.74,,73.2,10.0293,rouge,,rouge,rouge,0,3,73,2,0,0,0,0,8575,35,0,0,0,0,1.3,0.0,0.0,0.0,0.0,0.0
4,2021-01-25,84,Auvergne Rhône Alpes,1,Ain,225.13,,75.7,10.0476,rouge,,rouge,rouge,0,3,633,2,0,0,0,0,9208,37,0,0,0,0,1.4,0.0,0.0,0.0,0.0,0.0


### <a name="#p5"> Jointure avec les données sur la population le sexe et l'age de la population</a>

In [401]:
print(source_3.columns)
# faire la jointure avec la source 3
data2=pd.merge(data, source_3, on=['departement', 'libelle_dep'], how='inner')
print(data2.shape)
data.head()

Index(['departement', 'libelle_dep', 'Ensemble', 'Part des femmes (en %)',
       'Part des hommes (en %)', 'Part des 0 à 24 ans (en %)',
       'Part des 25 à 59 ans (en %)', 'Part des 60 ans ou plus (en %)',
       'dont part des 75 ans ou plus (en %)'],
      dtype='object')
(58656, 40)


Unnamed: 0,date,region_N,Région,departement,libelle_dep,taux d'incidence,Rouge,taux_occupation_sae,tx_pos,tx_incid_couleur,R_couleur,taux_occupation_sae_couleur,tx_pos_couleur,nb_orange,nb_rouge,n_dose1,n_complet,n_rappel,n_2_rappel,n_rappel_biv,n_3_rappel,n_cum_dose1,n_cum_complet,n_cum_rappel,n_cum_2_rappel,n_cum_rappel_biv,n_cum_3_rappel,couv_dose1,couv_complet,couv_rappel,couv_2_rappel,couv_rappel_biv,couv_3_rappel
0,2021-01-21,84,Auvergne Rhône Alpes,1,Ain,212.04,,71.6,9.96,rouge,,rouge,orange,1,2,1238,7,0,0,0,0,7378,27,0,0,0,0,1.1,0.0,0.0,0.0,0.0,0.0
1,2021-01-22,84,Auvergne Rhône Alpes,1,Ain,212.34,,73.2,9.8531,rouge,,rouge,orange,1,2,839,4,0,0,0,0,8217,31,0,0,0,0,1.2,0.0,0.0,0.0,0.0,0.0
2,2021-01-23,84,Auvergne Rhône Alpes,1,Ain,217.06,,71.4,9.9616,rouge,,rouge,orange,1,2,285,2,0,0,0,0,8502,33,0,0,0,0,1.3,0.0,0.0,0.0,0.0,0.0
3,2021-01-24,84,Auvergne Rhône Alpes,1,Ain,218.74,,73.2,10.0293,rouge,,rouge,rouge,0,3,73,2,0,0,0,0,8575,35,0,0,0,0,1.3,0.0,0.0,0.0,0.0,0.0
4,2021-01-25,84,Auvergne Rhône Alpes,1,Ain,225.13,,75.7,10.0476,rouge,,rouge,rouge,0,3,633,2,0,0,0,0,9208,37,0,0,0,0,1.4,0.0,0.0,0.0,0.0,0.0


### <a name="#p5"> Jointure avec les données sur la superficie des départements</a>

In [403]:
print(source_4.columns)
# faire la jointure avec la source 3
data3=pd.merge(data2, source_4, on=['libelle_dep'], how='inner')
print(data3.shape)
data3.head()

Index(['departement', 'libelle_dep', 'Superficie'], dtype='object')
(58656, 42)


Unnamed: 0,date,region_N,Région,departement_x,libelle_dep,taux d'incidence,Rouge,taux_occupation_sae,tx_pos,tx_incid_couleur,R_couleur,taux_occupation_sae_couleur,tx_pos_couleur,nb_orange,nb_rouge,n_dose1,n_complet,n_rappel,n_2_rappel,n_rappel_biv,n_3_rappel,n_cum_dose1,n_cum_complet,n_cum_rappel,n_cum_2_rappel,n_cum_rappel_biv,n_cum_3_rappel,couv_dose1,couv_complet,couv_rappel,couv_2_rappel,couv_rappel_biv,couv_3_rappel,Ensemble,Part des femmes (en %),Part des hommes (en %),Part des 0 à 24 ans (en %),Part des 25 à 59 ans (en %),Part des 60 ans ou plus (en %),dont part des 75 ans ou plus (en %),departement_y,Superficie
0,2021-01-21,84,Auvergne Rhône Alpes,1,Ain,212.04,,71.6,9.96,rouge,,rouge,orange,1,2,1238,7,0,0,0,0,7378,27,0,0,0,0,1.1,0.0,0.0,0.0,0.0,0.0,662244,50.7,49.3,30.1,45.5,24.4,8.4,1,5762.4
1,2021-01-22,84,Auvergne Rhône Alpes,1,Ain,212.34,,73.2,9.8531,rouge,,rouge,orange,1,2,839,4,0,0,0,0,8217,31,0,0,0,0,1.2,0.0,0.0,0.0,0.0,0.0,662244,50.7,49.3,30.1,45.5,24.4,8.4,1,5762.4
2,2021-01-23,84,Auvergne Rhône Alpes,1,Ain,217.06,,71.4,9.9616,rouge,,rouge,orange,1,2,285,2,0,0,0,0,8502,33,0,0,0,0,1.3,0.0,0.0,0.0,0.0,0.0,662244,50.7,49.3,30.1,45.5,24.4,8.4,1,5762.4
3,2021-01-24,84,Auvergne Rhône Alpes,1,Ain,218.74,,73.2,10.0293,rouge,,rouge,rouge,0,3,73,2,0,0,0,0,8575,35,0,0,0,0,1.3,0.0,0.0,0.0,0.0,0.0,662244,50.7,49.3,30.1,45.5,24.4,8.4,1,5762.4
4,2021-01-25,84,Auvergne Rhône Alpes,1,Ain,225.13,,75.7,10.0476,rouge,,rouge,rouge,0,3,633,2,0,0,0,0,9208,37,0,0,0,0,1.4,0.0,0.0,0.0,0.0,0.0,662244,50.7,49.3,30.1,45.5,24.4,8.4,1,5762.4


#### Création de la variable densité de population

In [404]:
data3["Superficie"] = pd.to_numeric(data3["Superficie"], downcast='float')
data3["Densité"]=data3['Ensemble']/data3['Superficie']

In [405]:
print(data3.dtypes)

date                                   object 
region_N                               int64  
Région                                 object 
departement_x                          object 
libelle_dep                            object 
taux d'incidence                       float64
Rouge                                  float64
taux_occupation_sae                    float64
tx_pos                                 float64
tx_incid_couleur                       object 
R_couleur                              object 
taux_occupation_sae_couleur            object 
tx_pos_couleur                         object 
nb_orange                              int64  
nb_rouge                               int64  
n_dose1                                int64  
n_complet                              int64  
n_rappel                               int64  
n_2_rappel                             int64  
n_rappel_biv                           int64  
n_3_rappel                             int64  
n_cum_dose1  

In [406]:
#Vérifier les valeurs manquantes pour tous les colonnes
print("\n Valeurs manquantes :")
print('-'*20)
display(data3.isnull().sum())
print('-'*20)
print('\n'*2)
print(data3.columns)
data3.head()


 Valeurs manquantes :
--------------------


date                                   0    
region_N                               0    
Région                                 0    
departement_x                          0    
libelle_dep                            0    
taux d'incidence                       10272
Rouge                                  52992
taux_occupation_sae                    0    
tx_pos                                 10272
tx_incid_couleur                       10272
R_couleur                              52992
taux_occupation_sae_couleur            0    
tx_pos_couleur                         10272
nb_orange                              0    
nb_rouge                               0    
n_dose1                                0    
n_complet                              0    
n_rappel                               0    
n_2_rappel                             0    
n_rappel_biv                           0    
n_3_rappel                             0    
n_cum_dose1                            0    
n_cum_comp

--------------------



Index(['date', 'region_N', 'Région', 'departement_x', 'libelle_dep',
       'taux d'incidence', 'Rouge', 'taux_occupation_sae', 'tx_pos',
       'tx_incid_couleur', 'R_couleur', 'taux_occupation_sae_couleur',
       'tx_pos_couleur', 'nb_orange', 'nb_rouge', 'n_dose1', 'n_complet',
       'n_rappel', 'n_2_rappel', 'n_rappel_biv', 'n_3_rappel', 'n_cum_dose1',
       'n_cum_complet', 'n_cum_rappel', 'n_cum_2_rappel', 'n_cum_rappel_biv',
       'n_cum_3_rappel', 'couv_dose1', 'couv_complet', 'couv_rappel',
       'couv_2_rappel', 'couv_rappel_biv', 'couv_3_rappel', 'Ensemble',
       'Part des femmes (en %)', 'Part des hommes (en %)',
       'Part des 0 à 24 ans (en %)', 'Part des 25 à 59 ans (en %)',
       'Part des 60 ans ou plus (en %)', 'dont part des 75 ans ou plus (en %)',
       'departement_y', 'Superficie', 'Densité'],
      dtype='object')


Unnamed: 0,date,region_N,Région,departement_x,libelle_dep,taux d'incidence,Rouge,taux_occupation_sae,tx_pos,tx_incid_couleur,R_couleur,taux_occupation_sae_couleur,tx_pos_couleur,nb_orange,nb_rouge,n_dose1,n_complet,n_rappel,n_2_rappel,n_rappel_biv,n_3_rappel,n_cum_dose1,n_cum_complet,n_cum_rappel,n_cum_2_rappel,n_cum_rappel_biv,n_cum_3_rappel,couv_dose1,couv_complet,couv_rappel,couv_2_rappel,couv_rappel_biv,couv_3_rappel,Ensemble,Part des femmes (en %),Part des hommes (en %),Part des 0 à 24 ans (en %),Part des 25 à 59 ans (en %),Part des 60 ans ou plus (en %),dont part des 75 ans ou plus (en %),departement_y,Superficie,Densité
0,2021-01-21,84,Auvergne Rhône Alpes,1,Ain,212.04,,71.6,9.96,rouge,,rouge,orange,1,2,1238,7,0,0,0,0,7378,27,0,0,0,0,1.1,0.0,0.0,0.0,0.0,0.0,662244,50.7,49.3,30.1,45.5,24.4,8.4,1,5762.3999,114.925
1,2021-01-22,84,Auvergne Rhône Alpes,1,Ain,212.34,,73.2,9.8531,rouge,,rouge,orange,1,2,839,4,0,0,0,0,8217,31,0,0,0,0,1.2,0.0,0.0,0.0,0.0,0.0,662244,50.7,49.3,30.1,45.5,24.4,8.4,1,5762.3999,114.925
2,2021-01-23,84,Auvergne Rhône Alpes,1,Ain,217.06,,71.4,9.9616,rouge,,rouge,orange,1,2,285,2,0,0,0,0,8502,33,0,0,0,0,1.3,0.0,0.0,0.0,0.0,0.0,662244,50.7,49.3,30.1,45.5,24.4,8.4,1,5762.3999,114.925
3,2021-01-24,84,Auvergne Rhône Alpes,1,Ain,218.74,,73.2,10.0293,rouge,,rouge,rouge,0,3,73,2,0,0,0,0,8575,35,0,0,0,0,1.3,0.0,0.0,0.0,0.0,0.0,662244,50.7,49.3,30.1,45.5,24.4,8.4,1,5762.3999,114.925
4,2021-01-25,84,Auvergne Rhône Alpes,1,Ain,225.13,,75.7,10.0476,rouge,,rouge,rouge,0,3,633,2,0,0,0,0,9208,37,0,0,0,0,1.4,0.0,0.0,0.0,0.0,0.0,662244,50.7,49.3,30.1,45.5,24.4,8.4,1,5762.3999,114.925


### jointure avec les Données sur les mesures de 10 avril

In [407]:
print(source_5.columns)
# faire la jointure avec la source 3
data4=pd.merge(data3, source_5, on=['libelle_dep'], how='inner')
print(data4.shape)
data4.head()

Index(['departement', 'libelle_dep', 'Restrictions sanitaires renforcées'], dtype='object')
(58656, 45)


Unnamed: 0,date,region_N,Région,departement_x,libelle_dep,taux d'incidence,Rouge,taux_occupation_sae,tx_pos,tx_incid_couleur,R_couleur,taux_occupation_sae_couleur,tx_pos_couleur,nb_orange,nb_rouge,n_dose1,n_complet,n_rappel,n_2_rappel,n_rappel_biv,n_3_rappel,n_cum_dose1,n_cum_complet,n_cum_rappel,n_cum_2_rappel,n_cum_rappel_biv,n_cum_3_rappel,couv_dose1,couv_complet,couv_rappel,couv_2_rappel,couv_rappel_biv,couv_3_rappel,Ensemble,Part des femmes (en %),Part des hommes (en %),Part des 0 à 24 ans (en %),Part des 25 à 59 ans (en %),Part des 60 ans ou plus (en %),dont part des 75 ans ou plus (en %),departement_y,Superficie,Densité,departement,Restrictions sanitaires renforcées
0,2021-01-21,84,Auvergne Rhône Alpes,1,Ain,212.04,,71.6,9.96,rouge,,rouge,orange,1,2,1238,7,0,0,0,0,7378,27,0,0,0,0,1.1,0.0,0.0,0.0,0.0,0.0,662244,50.7,49.3,30.1,45.5,24.4,8.4,1,5762.3999,114.925,1,0
1,2021-01-22,84,Auvergne Rhône Alpes,1,Ain,212.34,,73.2,9.8531,rouge,,rouge,orange,1,2,839,4,0,0,0,0,8217,31,0,0,0,0,1.2,0.0,0.0,0.0,0.0,0.0,662244,50.7,49.3,30.1,45.5,24.4,8.4,1,5762.3999,114.925,1,0
2,2021-01-23,84,Auvergne Rhône Alpes,1,Ain,217.06,,71.4,9.9616,rouge,,rouge,orange,1,2,285,2,0,0,0,0,8502,33,0,0,0,0,1.3,0.0,0.0,0.0,0.0,0.0,662244,50.7,49.3,30.1,45.5,24.4,8.4,1,5762.3999,114.925,1,0
3,2021-01-24,84,Auvergne Rhône Alpes,1,Ain,218.74,,73.2,10.0293,rouge,,rouge,rouge,0,3,73,2,0,0,0,0,8575,35,0,0,0,0,1.3,0.0,0.0,0.0,0.0,0.0,662244,50.7,49.3,30.1,45.5,24.4,8.4,1,5762.3999,114.925,1,0
4,2021-01-25,84,Auvergne Rhône Alpes,1,Ain,225.13,,75.7,10.0476,rouge,,rouge,rouge,0,3,633,2,0,0,0,0,9208,37,0,0,0,0,1.4,0.0,0.0,0.0,0.0,0.0,662244,50.7,49.3,30.1,45.5,24.4,8.4,1,5762.3999,114.925,1,0


In [408]:
#Vérifier les valeurs manquantes pour tous les colonnes
print("\n Valeurs manquantes :")
print('-'*20)
display(data4.isnull().sum())
print('-'*20)
print('\n'*2)
print(data4.columns)



 Valeurs manquantes :
--------------------


date                                   0    
region_N                               0    
Région                                 0    
departement_x                          0    
libelle_dep                            0    
taux d'incidence                       10272
Rouge                                  52992
taux_occupation_sae                    0    
tx_pos                                 10272
tx_incid_couleur                       10272
R_couleur                              52992
taux_occupation_sae_couleur            0    
tx_pos_couleur                         10272
nb_orange                              0    
nb_rouge                               0    
n_dose1                                0    
n_complet                              0    
n_rappel                               0    
n_2_rappel                             0    
n_rappel_biv                           0    
n_3_rappel                             0    
n_cum_dose1                            0    
n_cum_comp

--------------------



Index(['date', 'region_N', 'Région', 'departement_x', 'libelle_dep',
       'taux d'incidence', 'Rouge', 'taux_occupation_sae', 'tx_pos',
       'tx_incid_couleur', 'R_couleur', 'taux_occupation_sae_couleur',
       'tx_pos_couleur', 'nb_orange', 'nb_rouge', 'n_dose1', 'n_complet',
       'n_rappel', 'n_2_rappel', 'n_rappel_biv', 'n_3_rappel', 'n_cum_dose1',
       'n_cum_complet', 'n_cum_rappel', 'n_cum_2_rappel', 'n_cum_rappel_biv',
       'n_cum_3_rappel', 'couv_dose1', 'couv_complet', 'couv_rappel',
       'couv_2_rappel', 'couv_rappel_biv', 'couv_3_rappel', 'Ensemble',
       'Part des femmes (en %)', 'Part des hommes (en %)',
       'Part des 0 à 24 ans (en %)', 'Part des 25 à 59 ans (en %)',
       'Part des 60 ans ou plus (en %)', 'dont part des 75 ans ou plus (en %)',
       'departement_y', 'Superficie', 'Densité', 'departement',
       'Restrictions sanitaires renforcées'],
      dtype='object')


In [411]:
#selectionner les variables d'interet
columns_list=['date', 'region_N', 'Région', 'departement_x', 'libelle_dep',
       "taux d'incidence", 'taux_occupation_sae', 'tx_pos',
       'tx_incid_couleur', 'taux_occupation_sae_couleur',
       'tx_pos_couleur', 'nb_orange', 'nb_rouge', 'n_dose1', 'n_complet',
       'n_rappel', 'n_2_rappel', 'n_rappel_biv', 'n_3_rappel', 'n_cum_dose1',
       'n_cum_complet', 'n_cum_rappel', 'n_cum_2_rappel', 'n_cum_rappel_biv',
       'n_cum_3_rappel', 'couv_dose1', 'couv_complet', 'couv_rappel',
       'couv_2_rappel', 'couv_rappel_biv', 'couv_3_rappel', 'Ensemble',
       'Part des femmes (en %)', 'Part des hommes (en %)',
       'Part des 0 à 24 ans (en %)', 'Part des 25 à 59 ans (en %)',
       'Part des 60 ans ou plus (en %)', 'dont part des 75 ans ou plus (en %)',
       'Superficie', 'Densité', 'departement',
       'Restrictions sanitaires renforcées']
data4=data4[columns_list]

In [412]:
data4.to_csv(r'./Data/analysis_data/Final_data.csv', index=False,  encoding='utf-8-sig')

In [413]:
# data 10 avril 2021
data_10_avril=data4[data4.date=="2021-04-10"]
print(data_10_avril.shape)
# data 12 decembre 2021
data_12_dec=data4[data4.date=="2021-12-12"]
print(data_12_dec.shape)

#Vérifier les valeurs manquantes pour tous les colonnes
print("\n Valeurs manquantes :")
print('-'*20)
display(data_10_avril.isnull().sum())
print('-'*20)
print('\n'*2)


#Vérifier les valeurs manquantes pour tous les colonnes
print("\n Valeurs manquantes :")
print('-'*20)
display(data_12_dec.isnull().sum())
print('-'*20)
print('\n'*2)


(96, 42)
(96, 42)

 Valeurs manquantes :
--------------------


date                                   0
region_N                               0
Région                                 0
departement_x                          0
libelle_dep                            0
taux d'incidence                       0
taux_occupation_sae                    0
tx_pos                                 0
tx_incid_couleur                       0
taux_occupation_sae_couleur            0
tx_pos_couleur                         0
nb_orange                              0
nb_rouge                               0
n_dose1                                0
n_complet                              0
n_rappel                               0
n_2_rappel                             0
n_rappel_biv                           0
n_3_rappel                             0
n_cum_dose1                            0
n_cum_complet                          0
n_cum_rappel                           0
n_cum_2_rappel                         0
n_cum_rappel_biv                       0
n_cum_3_rappel  

--------------------




 Valeurs manquantes :
--------------------


date                                   0
region_N                               0
Région                                 0
departement_x                          0
libelle_dep                            0
taux d'incidence                       0
taux_occupation_sae                    0
tx_pos                                 0
tx_incid_couleur                       0
taux_occupation_sae_couleur            0
tx_pos_couleur                         0
nb_orange                              0
nb_rouge                               0
n_dose1                                0
n_complet                              0
n_rappel                               0
n_2_rappel                             0
n_rappel_biv                           0
n_3_rappel                             0
n_cum_dose1                            0
n_cum_complet                          0
n_cum_rappel                           0
n_cum_2_rappel                         0
n_cum_rappel_biv                       0
n_cum_3_rappel  

--------------------





In [414]:
## export 
data_10_avril.to_csv(r'./Data/analysis_data/data_10_avril.csv', index=False,  encoding='utf-8-sig')
data_12_dec.to_csv(r'./Data/analysis_data/data_12_dec.csv', index=False,  encoding='utf-8-sig')

In [415]:
## analyse :

In [342]:
## visualisations