In [1]:
%load_ext autoreload
%autoreload 2
from egbz.utils import *

In [2]:
import pandas as pd
from darts.timeseries import TimeSeries as TS
import numpy as np

"""
==========================================================================================================================================================

 Lien des données hospitalières = https://www.data.gouv.fr/fr/datasets/donnees-hospitalieres-relatives-a-lepidemie-de-covid-19/

 Lien taux d'incidence = https://www.data.gouv.fr/fr/datasets/taux-dincidence-de-lepidemie-de-covid-19/

 Lien Vaccination = https://www.data.gouv.fr/fr/datasets/donnees-relatives-aux-personnes-vaccinees-contre-la-covid-19-1/


==========================================================================================================================================================
"""


link_hospitals = {
    "rea_dc_cumul":
    'https://static.data.gouv.fr/resources/donnees-hospitalieres-relatives-a-lepidemie-de-covid-19/20210826-190901/donnees-hospitalieres-covid19-2021-08-26-19h09.csv',
    "rea_dc_journalier":
    'https://static.data.gouv.fr/resources/donnees-hospitalieres-relatives-a-lepidemie-de-covid-19/20210826-190859/donnees-hospitalieres-nouveaux-covid19-2021-08-26-19h08.csv',
    "service_au_moins_un_cas_cumul":
    'https://static.data.gouv.fr/resources/donnees-hospitalieres-relatives-a-lepidemie-de-covid-19/20210826-190903/donnees-hospitalieres-etablissements-covid19-2021-08-26-19h09.csv'
}

link_incidence = {
    "quotidien_departement_classe_age":
    'https://static.data.gouv.fr/resources/taux-dincidence-de-lepidemie-de-covid-19/20210826-190514/sp-pe-tb-quot-dep-2021-08-26-19h05.csv',
    'quotidien_france':
    'https://static.data.gouv.fr/resources/taux-dincidence-de-lepidemie-de-covid-19/20210826-190517/sp-pe-tb-quot-fra-2021-08-26-19h05.csv',
    "incidence_std_quotidien_departement":
    "https://static.data.gouv.fr/resources/taux-dincidence-de-lepidemie-de-covid-19/20210826-190507/sp-pe-std-quot-dep-2021-08-26-19h05.csv",
    "incidence_std_quotidien_france":
    "https://static.data.gouv.fr/resources/taux-dincidence-de-lepidemie-de-covid-19/20210826-190509/sp-pe-std-quot-fra-2021-08-26-19h05.csv"
}

link_vaccination = {
    "nbre_vacc_dep":
    'https://www.data.gouv.fr/fr/datasets/r/f77106ed-6e27-48cf-85b7-daad2b7fce1e'
}

correspondance_reg_dp = pd.read_csv('https://www.data.gouv.fr/fr/datasets/r/efb60a2c-c27b-46a5-89a7-9ca4ffc3ebd5',
                                    sep=';') #Dataframe région <-> départements


def make_str_out_of_dep(df): #transforme le type dans les colonnes département en type str
    return df.dep.astype('str')



def hosp_rea():
    """
    Returns the dataframe with the columns:
    - department
    - rea : Nombre de personnes actuellement en services de réanimations ou de soins intensifs
    - rad : Nombre cumulés de personnes retournées à domicile
    - dc : Nombre cumulé de personnes décédées à l'hôpital

    1st day: 2020-03-18
    """
    df = pd.read_csv(link_hospitals['rea_dc_cumul'], sep=';')
    df = df.drop(columns=['HospConv', 'SSR_USLD', 'autres','sexe'])
    df.columns = ['dep','date','hosp','rea','rad','dc']
    df.dep = make_str_out_of_dep(df)
    return df

def hosp_rea_1():
    """Returns the dataframe with the columns:
    - department
    - incid_rea : Nombre quotidien de personnes nouvellement hospitalisées
    - incid_dc : Nombre quotidien de personnes nouvellement décedées
    - incid_rad : Nombre quotidien de nouveaux retours à domicile
    """
    df = pd.read_csv(link_hospitals['rea_dc_journalier'],sep=';')
    df.dep = make_str_out_of_dep(df)
    return df


def hosp_rea_2():#### à revoir 
    """Returns df with:
    - department
    - nb: nombre cumulé de services hospitaliers ayant eu au mois un cas
    """
    df = pd.read_csv(
        link_hospitals['service_au_moins_un_cas_cumul'],sep=';')
    df.dep = make_str_out_of_dep(df)
    return df


def incidence():
    """Returns df with:
    - Classes d'âge
    - Departement
    - Population de la classe d'âge
    - Nombre de cas positifs par classe d'âge et département
    """
    df = pd.read_csv(link_incidence['quotidien_departement_classe_age'],sep=';')
    df.columns = ['dep','date','nbre_tests_positifs','classe_age','population']
    df['population'] = df['population'].map(lambda col: int(np.round(col,0)))

    df.dep = make_str_out_of_dep(df)
    return df


def incidence_france():
    """
    Début: 13-05-2021

    Retourne à l'échelle de la france
    - Nombre tests positifs femme
    - Nombre tests positifs homme
    - Nombre tests positifs total
    - Population féminine totale
    - Population homme totale
    - Classe d'âge
    - Population de la classe d'âge
    """
    df = pd.read_csv(link_incidence["quotidien_france"],sep = ';')
    df = df.drop(columns = ['fra'])
    df.columns = [
        'date','test_positifs_femmes','tests_positifs_hommes','tests_positifs_tot','pop_femme',
        'pop_homme','classe_age','population'
        ]

    return df


def incidence_std_dep():
    """
    Début: 13-05-2020
    Retourne:
    - dep
    - date
    - Population
    - nombre de tests positifs par jours
    - Taux d'incidence standardisé

    """

    df = pd.read_csv(link_incidence['incidence_std_quotidien_departement'],sep=';')
    df.columns = [
        'dep', 'date', 'population', 'nbre_tests_positifs',
        'taux_incidence_std'
    ]

    df.dep = make_str_out_of_dep(df)
    return df


def incidence_std_fr():
    """
    Début: 2020-05-13

    Returns:
    - date
    - population
    - nbre_tests_positifs
    - taux incidence standardisé
    """
    df = pd.read_csv(link_incidence['incidence_std_quotidien_france'],sep=';')
    df = df.drop(columns=['fra'])
    df.columns = ['date','population','nbre_tests_positifs','taux_incidence_std']
    return df

def vaccination_dep():
    """
    Début: 2020-12-27

    Returns:
    - nombre première dose et nombre cumulé première dose
    - nombre deuxième dose et nombre cumulé deuxième dose
    """
    df = pd.read_csv(link_vaccination['nbre_vacc_dep'],sep =';')
    df.columns = ['dep','date','nbre_dose_1','nbre_complet','nbre_cum_dose_1','nbre_cum_complet','couverture_dose1','couverture_complet']
    df.dep = make_str_out_of_dep(df)
    return df


In [3]:
df = incidence_std_dep()
df

Unnamed: 0,dep,date,population,nbre_tests_positifs,taux_incidence_std
0,01,2020-05-13,656955,9,1.548233
1,01,2020-05-14,656955,9,1.341606
2,01,2020-05-15,656955,5,0.776831
3,01,2020-05-16,656955,0,0.000000
4,01,2020-05-17,656955,0,0.000000
...,...,...,...,...,...
48667,978,2021-08-19,35334,30,96.567845
48668,978,2021-08-20,35334,18,59.410588
48669,978,2021-08-21,35334,28,79.622690
48670,978,2021-08-22,35334,4,38.619019


In [4]:
data = create_dataset(df,zone_col = 'dep', time_col = 'date')

In [5]:
data

## Chargement des dataframes

In [16]:
incid_quo_std_dep = pd.read_csv('data/processed_dataframes/incidence_std_quotidien_departement.csv')
incid_quo_std_fr = pd.read_csv('data/processed_dataframes/incidence_std_quotidien_france.csv')
quo_dep_age = pd.read_csv('data/processed_dataframes/quotidien_departement_classe_age.csv')
quo_fr = pd.read_csv('data/processed_dataframes/quotidien_france.csv')
rea_dc_cumul = pd.read_csv('data/processed_dataframes/rea_dc_cumul.csv')
rea_dc_quo = pd.read_csv('data/processed_dataframes/rea_dc_journalier.csv')
service_un_cas = pd.read_csv('data/processed_dataframes/service_au_moins_un_cas_cumul.csv')

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


In [7]:
incid_quo_std_dep

Unnamed: 0,dep,date,population,nbre_tests_positifs,taux_incidence_std
0,01,2020-05-13,656955,9,1.548233
1,01,2020-05-14,656955,9,1.341606
2,01,2020-05-15,656955,5,0.776831
3,01,2020-05-16,656955,0,0.000000
4,01,2020-05-17,656955,0,0.000000
...,...,...,...,...,...
48667,978,2021-08-19,35334,30,96.567845
48668,978,2021-08-20,35334,18,59.410588
48669,978,2021-08-21,35334,28,79.622690
48670,978,2021-08-22,35334,4,38.619019


In [8]:
incid_quo_std_fr

Unnamed: 0,date,population,nbre_tests_positifs,taux_incidence_std
0,2020-05-13,67114995,888,1.323102
1,2020-05-14,67114995,963,1.434851
2,2020-05-15,67114995,1005,1.497430
3,2020-05-16,67114995,291,0.433584
4,2020-05-17,67114995,142,0.211577
...,...,...,...,...
463,2021-08-19,67114995,21344,31.802133
464,2021-08-20,67114995,21850,32.556063
465,2021-08-21,67114995,14430,21.500411
466,2021-08-22,67114995,4308,6.418834


In [9]:
quo_dep_age

Unnamed: 0,dep,date,nbre_tests_positifs,classe_age,population
0,1,2020-05-13,0,9,83001
1,1,2020-05-13,1,19,84665
2,1,2020-05-13,0,29,65496
3,1,2020-05-13,1,39,85588
4,1,2020-05-13,0,49,89678
...,...,...,...,...,...
535387,978,2021-08-23,8,69,3060
535388,978,2021-08-23,0,79,1152
535389,978,2021-08-23,0,89,346
535390,978,2021-08-23,0,90,70


In [10]:
quo_fr['zone'] = 'fr'

In [17]:
quo_fr

Unnamed: 0,date,test_positifs_femmes,tests_positifs_hommes,tests_positifs_tot,pop_femme,pop_homme,classe_age,population
0,2020-05-13,7,6,13,3.802090e+06,3.961116e+06,9,7.763206e+06
1,2020-05-13,21,7,28,4.066327e+06,4.270159e+06,19,8.336486e+06
2,2020-05-13,64,41,105,3.736780e+06,3.740007e+06,29,7.476787e+06
3,2020-05-13,66,43,109,4.266384e+06,4.028988e+06,39,8.295372e+06
4,2020-05-13,62,40,102,4.355127e+06,4.237760e+06,49,8.592886e+06
...,...,...,...,...,...,...,...,...
5143,2021-08-23,1027,817,1864,4.209746e+06,3.794337e+06,69,8.004083e+06
5144,2021-08-23,593,477,1080,3.096658e+06,2.598981e+06,79,5.695639e+06
5145,2021-08-23,296,206,505,1.993318e+06,1.251963e+06,89,3.245281e+06
5146,2021-08-23,164,59,223,6.720700e+05,2.405106e+05,90,9.125806e+05


In [19]:
quo_fr_2 = quo_fr.set_index(['date','classe_age'])

In [22]:
quo_fr_2.to_xarray()

In [21]:
dataset_rea_dc_quo = create_dataset(quo_fr, time_col = 'date', cat_cols = 'classe_age')

ValueError: Length mismatch: Expected 5148 rows, received array of length 1