In [1]:
import yaml
import requests
import time
from datetime import datetime, timedelta, date
import pandas as pd

Les données sont mises à disposition sur https://github.com/opencovid19-fr/data par sante-publique-france

## Fonction globale / récupération des données brutes de Santé Publique France

In [2]:
# INITIALISATION DE VARIABLES GLOBALES
sDateDebut = "2020-01-23"
sAujourdhui = date.today().strftime("%Y-%m-%d")
dDemarrageDate = datetime.fromisoformat(sDateDebut) 
cols = ['Date', 
        'FR Tot Cas Confirmés', 
        'FR Tot Décès', 
        'WW Tot Cas Confirmés', 
        'WW Tot Décès', 
        'Source',
        'FR Tot Guéris',
        'FR Tot Hospitalisés'
       ]

# FONCTIONS
def recupDataWithException2(_jsonout, _index1, _index2):
    try:
        data = _jsonout[_index1][_index2]
    except:
        data = 0
    return data

def AjouteSantePubliqueFrLigne(jsonout, df):
    df = df.append({
                    cols[0] : jsonout['date'] , 
                    cols[1] : recupDataWithException2(jsonout, 'donneesNationales', 'casConfirmes') , 
                    cols[2] : recupDataWithException2(jsonout, 'donneesNationales', 'deces'), 
                    cols[3] : recupDataWithException2(jsonout,'donneesMondiales', 'casConfirmes'),
                    cols[4] : recupDataWithException2(jsonout,'donneesMondiales', 'deces'),
                    cols[5] : 'sante-publique-france',
                    cols[6] : 0,
                    cols[7] : 0
                 } , 
                 ignore_index=True)
    return df

def ajouteLigneVide(df, madate):
    df = df.append({
                    cols[0] : madate , 
                    cols[1] : 0,
                    cols[2] : 0, 
                    cols[3] : 0,
                    cols[4] : 0,
                    cols[5] : 'no-data',
                    cols[6] : 0,
                    cols[7] : 0
                 } , 
                 ignore_index=True)
    return df

# RECUPERATION DONNEES SANTE PUBLIQUE FRANCE
def RecupereDonneesSantePubliqueFrance():
    print ('--> Démarrage du process')
    sDateParcours = sDateDebut
    i=1
    requesReturnCode=200
    yamls = pd.DataFrame()
    while (sDateParcours != sAujourdhui):
        myDate = dDemarrageDate + timedelta(days=i)
        sDateParcours = myDate.strftime("%Y-%m-%d")
        fichier = 'https://raw.githubusercontent.com/opencovid19-fr/data/master/sante-publique-france/' + sDateParcours + '.yaml'
        #print ('--> sante-publique-france / ', sDateParcours)
        req = requests.get(fichier)
        requesReturnCode = req.status_code
        if (requesReturnCode==200):
            yamlout = yaml.load(req.text, Loader=yaml.FullLoader)
            yamls = AjouteSantePubliqueFrLigne(yamlout, yamls)
        else:
            print ("(*) Pas de données pour ", myDate.strftime("%Y-%m-%d"))
            # ajoute une ligne vide
            yamls = ajouteLigneVide(yamls, myDate.strftime("%Y-%m-%d"))
        i=i+1
    print ('--> Fin du process')
    return yamls
    
data = RecupereDonneesSantePubliqueFrance()
data

--> Démarrage du process
(*) Pas de données pour  2020-02-01
(*) Pas de données pour  2020-02-02
(*) Pas de données pour  2020-02-04
(*) Pas de données pour  2020-02-09
(*) Pas de données pour  2020-02-13
(*) Pas de données pour  2020-02-14
(*) Pas de données pour  2020-02-15
(*) Pas de données pour  2020-02-16
(*) Pas de données pour  2020-02-17
(*) Pas de données pour  2020-02-18
(*) Pas de données pour  2020-02-19
(*) Pas de données pour  2020-02-21
(*) Pas de données pour  2020-02-22
(*) Pas de données pour  2020-02-23
(*) Pas de données pour  2020-02-24
(*) Pas de données pour  2020-02-27
(*) Pas de données pour  2020-03-01
(*) Pas de données pour  2020-03-29
(*) Pas de données pour  2020-03-30
(*) Pas de données pour  2020-03-31
(*) Pas de données pour  2020-04-01
--> Fin du process


Unnamed: 0,Date,FR Tot Cas Confirmés,FR Tot Décès,FR Tot Guéris,FR Tot Hospitalisés,Source,WW Tot Cas Confirmés,WW Tot Décès
0,2020-01-24,3.0,0.0,0.0,0.0,sante-publique-france,897.0,26.0
1,2020-01-25,3.0,0.0,0.0,0.0,sante-publique-france,1329.0,41.0
2,2020-01-26,3.0,0.0,0.0,0.0,sante-publique-france,2026.0,56.0
3,2020-01-27,3.0,0.0,0.0,0.0,sante-publique-france,2820.0,81.0
4,2020-01-28,4.0,0.0,0.0,0.0,sante-publique-france,0.0,0.0
...,...,...,...,...,...,...,...,...
64,2020-03-28,37575.0,2314.0,0.0,0.0,sante-publique-france,591971.0,27090.0
65,2020-03-29,0.0,0.0,0.0,0.0,no-data,0.0,0.0
66,2020-03-30,0.0,0.0,0.0,0.0,no-data,0.0,0.0
67,2020-03-31,0.0,0.0,0.0,0.0,no-data,0.0,0.0


## Consolidation avec les données du ministère de la santé

On va récupérer les données du ministère et les consolider avec celles de Santé publique France

https://raw.githubusercontent.com/opencovid19-fr/data/master/ministere-sante/2020-01-24.yaml

In [3]:
# RECUPERATION DONNEES SANTE PUBLIQUE FRANCE
def RecupereDonneesMinistereSante(yamls):
    i=1
    sDateParcours = sDateDebut
    print ('--> Démarrage du process')
    while (sDateParcours != sAujourdhui):
        myDate = dDemarrageDate + timedelta(days=i)
        sDateParcours = myDate.strftime("%Y-%m-%d")
        #print("Traintement date: ",  dateParcours)
        fichier = 'https://raw.githubusercontent.com/opencovid19-fr/data/master/ministere-sante/' + sDateParcours + '.yaml'
        req = requests.get(fichier)
        requesReturnCode = req.status_code
        if (requesReturnCode==200):
            yamlout = yaml.load(req.text, Loader=yaml.FullLoader)
            if (yamls[cols[5]][i-1] == "no-data"):
                print ("(*) Modifie les données manquantes pour la date du ", myDate.strftime("%Y-%m-%d"))
                # Modifie toute la ligne
                yamls.loc[i-1, cols[1]] = recupDataWithException2(yamlout, 'donneesNationales', 'casConfirmes')
                yamls.loc[i-1, cols[2]]  = recupDataWithException2(yamlout, 'donneesNationales', 'deces')
                yamls.loc[i-1, cols[3]]  = recupDataWithException2(yamlout, 'donneesMondiales', 'casConfirmes')
                yamls.loc[i-1, cols[4]]  = recupDataWithException2(yamlout, 'donneesMondiales', 'deces')
                yamls.loc[i-1, cols[5]]  = "ministere-sante"

            # Ajoute les nouveaux champs
            yamls.loc[i-1, cols[6]] = recupDataWithException2(yamlout, 'donneesNationales', 'hospitalises')
            yamls.loc[i-1, cols[7]] = recupDataWithException2(yamlout, 'donneesNationales', 'gueris')
        i=i+1
    print ('--> Fin du process')
    return yamls
    
data = RecupereDonneesMinistereSante(data)

--> Démarrage du process
(*) Modifie les données manquantes pour la date du  2020-02-02
(*) Modifie les données manquantes pour la date du  2020-02-04
(*) Modifie les données manquantes pour la date du  2020-02-09
(*) Modifie les données manquantes pour la date du  2020-02-13
(*) Modifie les données manquantes pour la date du  2020-02-15
(*) Modifie les données manquantes pour la date du  2020-02-17
(*) Modifie les données manquantes pour la date du  2020-02-19
(*) Modifie les données manquantes pour la date du  2020-02-21
(*) Modifie les données manquantes pour la date du  2020-02-23
(*) Modifie les données manquantes pour la date du  2020-02-24
(*) Modifie les données manquantes pour la date du  2020-02-27
(*) Modifie les données manquantes pour la date du  2020-03-01
(*) Modifie les données manquantes pour la date du  2020-03-29
(*) Modifie les données manquantes pour la date du  2020-03-30
--> Fin du process


## Comble les "trous" sur les no-data

In [4]:
def Bouchetrous(yamls):
    # On reparcourre toutes les lignes déjà récupérées précédemment
    i=1
    for index, row in yamls.iterrows():
        if (yamls[cols[5]][i-1] == "no-data"):
            for j in [1, 2, 3, 4, 6, 7]:
                yamls.loc[i-1, cols[j]] = yamls[cols[j]][i-2] 
                #yamls[cols[j]][i-1] = yamls[cols[j]][i-2] 
        i += 1
    return yamls

data = Bouchetrous(data)
data.to_csv("datafr.csv", index=False)
data

Unnamed: 0,Date,FR Tot Cas Confirmés,FR Tot Décès,FR Tot Guéris,FR Tot Hospitalisés,Source,WW Tot Cas Confirmés,WW Tot Décès
0,2020-01-24,3.0,0.0,3.0,0.0,sante-publique-france,897.0,26.0
1,2020-01-25,3.0,0.0,0.0,0.0,sante-publique-france,1329.0,41.0
2,2020-01-26,3.0,0.0,0.0,0.0,sante-publique-france,2026.0,56.0
3,2020-01-27,3.0,0.0,3.0,0.0,sante-publique-france,2820.0,81.0
4,2020-01-28,4.0,0.0,4.0,0.0,sante-publique-france,0.0,0.0
...,...,...,...,...,...,...,...,...
64,2020-03-28,37575.0,2314.0,17620.0,0.0,sante-publique-france,591971.0,27090.0
65,2020-03-29,40174.0,2606.0,19354.0,0.0,ministere-sante,0.0,0.0
66,2020-03-30,44550.0,3024.0,21008.0,7924.0,ministere-sante,0.0,0.0
67,2020-03-31,44550.0,3024.0,21008.0,7924.0,no-data,0.0,0.0


In [5]:
newData = data.copy()
newData['FR Nvx cas confirmés'] = 0
newData['FR Nvx Décès'] = 0
newData['FR Nvx Guéris'] = 0
newData['FR Nvx Hospitalisés'] = 0
newData

Unnamed: 0,Date,FR Tot Cas Confirmés,FR Tot Décès,FR Tot Guéris,FR Tot Hospitalisés,Source,WW Tot Cas Confirmés,WW Tot Décès,FR Nvx cas confirmés,FR Nvx Décès,FR Nvx Guéris,FR Nvx Hospitalisés
0,2020-01-24,3.0,0.0,3.0,0.0,sante-publique-france,897.0,26.0,0,0,0,0
1,2020-01-25,3.0,0.0,0.0,0.0,sante-publique-france,1329.0,41.0,0,0,0,0
2,2020-01-26,3.0,0.0,0.0,0.0,sante-publique-france,2026.0,56.0,0,0,0,0
3,2020-01-27,3.0,0.0,3.0,0.0,sante-publique-france,2820.0,81.0,0,0,0,0
4,2020-01-28,4.0,0.0,4.0,0.0,sante-publique-france,0.0,0.0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...
64,2020-03-28,37575.0,2314.0,17620.0,0.0,sante-publique-france,591971.0,27090.0,0,0,0,0
65,2020-03-29,40174.0,2606.0,19354.0,0.0,ministere-sante,0.0,0.0,0,0,0,0
66,2020-03-30,44550.0,3024.0,21008.0,7924.0,ministere-sante,0.0,0.0,0,0,0,0
67,2020-03-31,44550.0,3024.0,21008.0,7924.0,no-data,0.0,0.0,0,0,0,0


In [36]:
for index, row in newData.iterrows():
    if index > 0:
        newData.loc[index, 'FR Nvx cas confirmés'] = newData['FR Tot Cas Confirmés'][index] - newData['FR Tot Cas Confirmés'][index-1] if (newData['FR Tot Cas Confirmés'][index] - newData['FR Tot Cas Confirmés'][index-1])>0 else 0
        newData.loc[index, 'FR Nvx Décès'] = newData['FR Tot Décès'][index] - newData['FR Tot Décès'][index-1] if (newData['FR Tot Décès'][index] - newData['FR Tot Décès'][index-1])>0 else 0
        newData.loc[index, 'FR Nvx Guéris'] = newData['FR Tot Guéris'][index] - newData['FR Tot Guéris'][index-1] if (newData['FR Tot Guéris'][index] - newData['FR Tot Guéris'][index-1] )>0 else 0
        newData.loc[index, 'FR Nvx Hospitalisés'] = newData['FR Tot Hospitalisés'][index] - newData['FR Tot Hospitalisés'][index-1] if (newData['FR Tot Hospitalisés'][index] - newData['FR Tot Hospitalisés'][index-1] )>0 else 0

In [37]:
if (newData.loc[len(newData)-1,'Source'] == 'no-data'):
    newData = newData.drop([len(newData)-1])

In [38]:
newData.to_csv("datafr.csv", index=False)