In [1]:
import os
from functools import reduce
import json

import pymongo
import numpy as np
import pandas as pd 


## Initialisation de la connection à la base de données

In [2]:
password = "test"
client = pymongo.MongoClient("mongodb+srv://covid-dev:"+password+"@covid19-hackathon-5igpz.mongodb.net/test?retryWrites=true&w=majority")
db = client['test']
collection = db['covid_data']

# LOT 1: Données des hopitaux

## FICHIER DONNEE HOSPITALIERE SUR LE COVID-19 PAR DEPARTEMENT

In [3]:
def set_record_type(value):
    if value == 0:
        return "Total"
    elif value == 1:
        return "Homme"
    elif value == 2:
        return "Femme"
    else:
        return None

In [4]:
url = 'https://www.data.gouv.fr/fr/datasets/r/63352e38-d353-4b54-bfd1-f1b3ee1cabd7'
hosp_data_df = pd.read_csv(url, delimiter=';', header=0, encoding="utf-8", names=['departement','type', 'date', 'nombre_hospitalisation', 'nombre_reanimation', 'nombre_renvoi_domicile', 'nombre_deces'])

In [5]:
def date_correction(date):
    if date == "28/06/2020":
        return "2020-06-28"
    elif date == "27/06/2020":
        return "2020-06-27"
    elif date == "29/06/2020":
        return "2020-06-29"
    else:
        return date
    
hosp_data_df['date'] = hosp_data_df['date'].map(lambda date: date_correction(date))
hosp_data_df.dropna(subset=['departement'], inplace=True)
hosp_data_df.head()

Unnamed: 0,departement,type,date,nombre_hospitalisation,nombre_reanimation,nombre_renvoi_domicile,nombre_deces
0,1,0,2020-03-18,2,0,1,0
1,1,1,2020-03-18,1,0,1,0
2,1,2,2020-03-18,1,0,0,0
3,2,0,2020-03-18,41,10,18,11
4,2,1,2020-03-18,19,4,11,6


## FICHIER DONNEE ETABLISSEMENT SUR LE COVID-19 PAR DEPARTEMENT

In [6]:
url = "https://www.data.gouv.fr/fr/datasets/r/41b9bd2a-b5b6-4271-8878-e45a8902ef00"
# Contient le nombre d'établissements par jour s'occupant de patient atteint du COVID 19 par Département
hosp_data_etab_df = pd.read_csv(url, delimiter=';', names=['departement', 'date', 'nombre_etablissement'], encoding="utf-8", header=0)
hosp_data_etab_df['departement'] = hosp_data_etab_df['departement'].astype(str)
hosp_data_etab_df['nombre_etablissement'] = hosp_data_etab_df['nombre_etablissement'].astype(int)
hosp_data_etab_df.head()

Unnamed: 0,departement,date,nombre_etablissement
0,1,2020-03-18,1
1,2,2020-03-18,4
2,3,2020-03-18,2
3,4,2020-03-18,2
4,5,2020-03-18,2


## FUSION DES DATAS DU LOT 1

In [7]:
hosp_df = pd.merge(hosp_data_df, hosp_data_etab_df, on=['departement', 'date'], how='left')
print(hosp_df.columns)
hosp_df.head()

Index(['departement', 'type', 'date', 'nombre_hospitalisation',
       'nombre_reanimation', 'nombre_renvoi_domicile', 'nombre_deces',
       'nombre_etablissement'],
      dtype='object')


Unnamed: 0,departement,type,date,nombre_hospitalisation,nombre_reanimation,nombre_renvoi_domicile,nombre_deces,nombre_etablissement
0,1,0,2020-03-18,2,0,1,0,1
1,1,1,2020-03-18,1,0,1,0,1
2,1,2,2020-03-18,1,0,0,0,1
3,2,0,2020-03-18,41,10,18,11,4
4,2,1,2020-03-18,19,4,11,6,4


# Population par département (fusion avec le dataset principal)
## Insee, Recensement de 2017

Nous prenons la **population totale** (population municipale + population comptée à part)
[https://www.insee.fr/fr/statistiques/4265429?sommaire=4265511](Source Insee 2017)

In [8]:
url = "https://www.insee.fr/fr/statistiques/fichier/4265429/ensemble.xls"
pop_df = pd.read_excel(url, sheet_name='Départements', header=7)
pop_df.columns

Index(['Code région', 'Nom de la région', 'Code département',
       'Nom du département', 'Nombre d'arrondissements', 'Nombre de cantons',
       'Nombre de communes', 'Population municipale', 'Population totale'],
      dtype='object')

In [9]:
pop_df['Code département'] = pop_df['Code département'].astype(str)
pop_df.rename(columns={'Nom de la région': 'region'}, inplace=True)
print(pop_df.columns)
hosp_df['departement'] = hosp_df['departement'].astype(str)

Index(['Code région', 'region', 'Code département', 'Nom du département',
       'Nombre d'arrondissements', 'Nombre de cantons', 'Nombre de communes',
       'Population municipale', 'Population totale'],
      dtype='object')


In [10]:
def clean_departement(value):
    if value[0] == "0":
        return value[1:] 
    else:
        return value

hosp_final_df = pd.merge(hosp_df, pop_df[['Code département', 'Population totale', 'region']], left_on='departement', right_on='Code département', how='outer')
hosp_final_df = hosp_final_df.drop('Code département', axis=1)
hosp_final_df['departement'] = hosp_final_df['departement'].map(lambda value: clean_departement(str(value))) 
hosp_final_df = hosp_final_df[hosp_final_df['departement'] != "976"]
hosp_final_df['Population totale'] = hosp_final_df['Population totale'].astype(int)
hosp_final_df['date'] = pd.to_datetime(hosp_final_df['date'])
hosp_final_df.columns

Index(['departement', 'type', 'date', 'nombre_hospitalisation',
       'nombre_reanimation', 'nombre_renvoi_domicile', 'nombre_deces',
       'nombre_etablissement', 'Population totale', 'region'],
      dtype='object')

In [11]:
hosp_final_df['date_simple'] = hosp_final_df['date'].map(lambda val: str(pd.to_datetime(val).date()))
data_final = hosp_final_df
print(data_final.columns)
print(len(data_final))
data_final.tail()

Index(['departement', 'type', 'date', 'nombre_hospitalisation',
       'nombre_reanimation', 'nombre_renvoi_domicile', 'nombre_deces',
       'nombre_etablissement', 'Population totale', 'region', 'date_simple'],
      dtype='object')
54000


Unnamed: 0,departement,type,date,nombre_hospitalisation,nombre_reanimation,nombre_renvoi_domicile,nombre_deces,nombre_etablissement,Population totale,region,date_simple
53995,974,1,2020-09-12,30,5,160,6,7,863063,La Réunion,2020-09-12
53996,974,2,2020-09-12,34,8,136,9,7,863063,La Réunion,2020-09-12
53997,974,0,2020-09-13,68,13,298,15,7,863063,La Réunion,2020-09-13
53998,974,1,2020-09-13,32,5,160,6,7,863063,La Réunion,2020-09-13
53999,974,2,2020-09-13,35,8,137,9,7,863063,La Réunion,2020-09-13


In [12]:
data_final_agg = pd.DataFrame(data_final.groupby(['date_simple'])['nombre_reanimation', 'nombre_renvoi_domicile', 'nombre_hospitalisation','nombre_deces'].sum()).reset_index()
print(len(data_final_agg))
data_final_agg = pd.merge(data_final_agg, data_final[['date_simple']], how='left', on='date_simple').drop_duplicates()
data_final_agg['nombre_deces_reel'] = data_final_agg['nombre_deces'].diff()
data_final_agg['nombre_deces_reel'][0] = data_final_agg['nombre_deces'][0]
data_final_agg['nombre_deces_reel'] = data_final_agg["nombre_deces_reel"].astype(int)
print(len(data_final_agg))
print(data_final_agg.columns)
data_final_agg.head()

180
180
Index(['date_simple', 'nombre_reanimation', 'nombre_renvoi_domicile',
       'nombre_hospitalisation', 'nombre_deces', 'nombre_deces_reel'],
      dtype='object')


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """


Unnamed: 0,date_simple,nombre_reanimation,nombre_renvoi_domicile,nombre_hospitalisation,nombre_deces,nombre_deces_reel
0,2020-03-18,1535,1627,5905,435,435
300,2020-03-19,1975,2322,7961,642,207
600,2020-03-20,2564,3128,10272,890,248
900,2020-03-21,2872,3580,11599,1041,151
1200,2020-03-22,3311,4188,13675,1251,210


## Nombre de cas par jour/pays (on recupere le nombre de cas en france cumulée par jour)
source: https://www.data.gouv.fr/fr/datasets/coronavirus-covid19-evolution-par-pays-et-dans-le-monde-maj-quotidienne/

In [13]:
url = "https://coronavirus.politologue.com/data/coronavirus/coronacsvfull.aspx?format=csv&t=pays"
cas_df = pd.read_csv(url, delimiter=';', header=7, encoding="utf-8")
cas_df.columns= cas_df.columns.str.lower()
cas_df = cas_df[cas_df['pays'] == "France"]
cas_df['date'] = pd.to_datetime(cas_df['date'])
cas_df['date_simple'] = cas_df['date'].map(lambda val: str(pd.to_datetime(val).date()))
cas_df.head()

Unnamed: 0,date,pays,infections,deces,guerisons,tauxdeces,tauxguerison,tauxinfection,date_simple
60,2020-09-13,France,421394,30915,89059,7.34,21.13,71.53,2020-09-13
339,2020-09-12,France,414211,30909,89059,7.46,21.5,71.04,2020-09-12
460,2020-09-11,France,403650,30892,89059,7.65,22.06,70.28,2020-09-11
739,2020-09-10,France,394244,30852,88742,7.83,22.51,69.66,2020-09-10
860,2020-09-09,France,384401,30833,88524,8.02,23.03,68.95,2020-09-09


In [14]:
print(len(data_final_agg))
data_final_agg = pd.merge(data_final_agg, cas_df[['date_simple', "infections"]], how='left', on='date_simple').drop_duplicates()
data_final_agg['nombre_infections_reel'] = data_final_agg['infections'].diff()
data_final_agg['nombre_infections_reel'][0] = data_final_agg['infections'][0]
data_final_agg['nombre_infections_reel'] = data_final_agg["nombre_infections_reel"].astype(int).clip_lower(1)
#data_final_agg['nombre_infections_reel'] = data_final_agg['nombre_infections_reel'].clip_lower(0)
print(len(data_final_agg))
print(data_final_agg.columns)
print(len(data_final_agg))
data_final_agg.head()

180
180
Index(['date_simple', 'nombre_reanimation', 'nombre_renvoi_domicile',
       'nombre_hospitalisation', 'nombre_deces', 'nombre_deces_reel',
       'infections', 'nombre_infections_reel'],
      dtype='object')
180


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.
  """


Unnamed: 0,date_simple,nombre_reanimation,nombre_renvoi_domicile,nombre_hospitalisation,nombre_deces,nombre_deces_reel,infections,nombre_infections_reel
0,2020-03-18,1535,1627,5905,435,435,9134,9134
1,2020-03-19,1975,2322,7961,642,207,10995,1861
2,2020-03-20,2564,3128,10272,890,248,12625,1630
3,2020-03-21,2872,3580,11599,1041,151,14301,1676
4,2020-03-22,3311,4188,13675,1251,210,16018,1717


## Insertion dans la base MongoDB

In [15]:
collection.delete_many({})

<pymongo.results.DeleteResult at 0x2abb100e948>

In [16]:
hosp_final_json = json.loads(data_final_agg.to_json(orient="records", date_format='iso'), encoding="utf-8")
collection.insert_many(hosp_final_json)
print(len(hosp_final_json), "enregistrements ajoutés avec succès à la base mongoDB")
# Production json
with open("data/dataset-covid-final.json", 'w+', encoding="utf-8") as file:
    file.write(data_final_agg.to_json(orient="records"))
# Production d'un excel
data_final_agg.to_excel("data/dataset-covid-final.xlsx", encoding="utf-8")

180 enregistrements ajoutés avec succès à la base mongoDB
