<a href="https://colab.research.google.com/github/Corona-Locator-Nederland/corona-locator-nederland/blob/main/Corona_locator.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from urllib.request import urlopen
from urllib.request import urlretrieve
import pandas as pd
import numpy as np
import json
import datetime
import requests
import json
import math
import os
import seaborn as sns
import glob
from dateutil.parser import parse as parsedate

from dotenv import load_dotenv, find_dotenv
try:
  load_dotenv(find_dotenv())
except IOError:
  load_dotenv(find_dotenv(filename='dot.env'))


Download de RIVM data als die nieuwer is dan wat we al hebben (gecached want de download van RIVM is *zeer* traag)

In [2]:
os.makedirs('downloads', exist_ok = True)

rivm = requests.head('https://data.rivm.nl/covid-19/COVID-19_casus_landelijk.csv')
latest = os.path.join('downloads', parsedate(rivm.headers['last-modified']).strftime('%Y-%m-%d@%H-%M.csv'))
if not os.path.exists(latest):
  print('downloading', latest)
  for f in glob.glob('downloads/*.csv'):
    if f != latest:
      os.remove(f)
  urlretrieve('https://data.rivm.nl/covid-19/COVID-19_casus_landelijk.csv', latest)
else:
  print(latest, 'exists')
covid = pd.read_csv(latest, sep=';', header=0 )
covid.head()

downloading downloads/2021-01-04@14-15.csv


Unnamed: 0,Date_file,Date_statistics,Date_statistics_type,Agegroup,Sex,Province,Hospital_admission,Deceased,Week_of_death,Municipal_health_service
0,2021-01-04 10:00:00,2020-01-01,DOO,40-49,Female,Noord-Holland,No,No,,GGD Amsterdam
1,2021-01-04 10:00:00,2020-01-01,DOO,50-59,Male,Gelderland,No,No,,Veiligheids- en Gezondheidsregio Gelderland-Mi...
2,2021-01-04 10:00:00,2020-01-02,DOO,70-79,Female,Noord-Holland,No,No,,GGD Gooi en Vechtstreek
3,2021-01-04 10:00:00,2020-01-16,DOO,0-9,Female,Zuid-Holland,No,No,,GGD Rotterdam-Rijnmond
4,2021-01-04 10:00:00,2020-01-20,DOO,50-59,Female,Gelderland,No,No,,GGD Gelderland-Zuid


Download de bevolkings cijfers van CBS, uitgesplitst op de leeftijds categorien in de dataset van het RIVM

In [3]:
# https://www.cbs.nl/nl-nl/onze-diensten/open-data/open-data-v4/snelstartgids-odata-v4
def get_odata(target_url):
  data = pd.DataFrame()
  while target_url:
    r = requests.get(target_url).json()
    data = data.append(pd.DataFrame(r['value']))
        
    if '@odata.nextLink' in r:
      target_url = r['@odata.nextLink']
    else:
      target_url = None          
  return data

def roundup(x):
  return int(math.ceil(x / 10.0)) * 10
def rounddown(x):
  return int(math.floor(x / 10.0)) * 10

cbs = 'https://opendata.cbs.nl/ODataApi/OData/83482NED'

leeftijden = get_odata(cbs + "/Leeftijd?$select=Key, Title&$filter=CategoryGroupID eq 3")
leeftijden.set_index('Key', inplace=True)
# zet de Title om naar begin-eind paar
leeftijden_range = leeftijden['Title'].replace(r'^(\d+) tot (\d+) jaar$', r'\1-\2', regex=True).replace(r'^(\d+) jaar of ouder$', r'\1-1000', regex=True)
# splits die paren in van-tot
leeftijden_range = leeftijden_range.str.split('-', expand=True).astype(int)
# rond the "van" naar beneden op tientallen, "tot" naar boven op tientallen, en knip af naar "90+" om de ranges uit de covid tabel te matchen
leeftijden_range[0] = leeftijden_range[0].apply(lambda x: rounddown(x)).apply(lambda x: str(x) if x < 90 else '90')
leeftijden_range[1] = (leeftijden_range[1].apply(lambda x: roundup(x)) - 1).apply(lambda x: f'-{x}' if x < 90 else '+')
# en plak ze aan elkaar
leeftijden['Range'] = leeftijden_range[0] + leeftijden_range[1]
del leeftijden['Title']

def query(f):
  if f == 'Leeftijd':
    # alle leeftijds categerien zoals hierboven opgehaald
    return '(' + ' or '.join([f"{f} eq '{k}'" for k in leeftijden.index.values]) + ')'
  if f in ['Geslacht', 'Migratieachtergrond', 'Generatie']:
    # pak hier de key die overeenkomt met "totaal"
    ids = get_odata(cbs + '/' + f)
    return f + " eq '" + ids[ids['Title'].str.contains("totaal", na=False, case=False)]['Key'].values[0] + "'"
  if f == 'Perioden':
    # voor perioden pak de laatste
    return f + " eq '" + get_odata(cbs + '/Perioden').iloc[[-1]]['Key'].values[0] + "'"
  raise ValueError(f)
# haal alle properties op waar op kan worden gefiltered en stel de query samen
filter = get_odata(cbs + '/DataProperties')
filter = ' and '.join([query(f) for f in filter[filter.Type != 'Topic']['Key'].values])

bevolking = get_odata(cbs + f"/TypedDataSet?$top=100&$filter={filter}&$select=Leeftijd, BevolkingOpDeEersteVanDeMaand_1")
# die _1 betekent waarschijnlijk dat het gedrag ooit gewijzigd is en er een nieuwe "versie" van die kolom is gepubliceerd
bevolking.rename(columns = {'BevolkingOpDeEersteVanDeMaand_1': 'BevolkingOpDeEersteVanDeMaand'}, inplace = True)
bevolking = bevolking.merge(leeftijden, left_on = 'Leeftijd', right_index = True)
# optellen om de leeftijds categorien bij elkaar te vegen om de "agegroups" uit "covid" te matchen 
bevolking = bevolking.groupby('Range')['BevolkingOpDeEersteVanDeMaand'].sum().to_frame()
bevolking['per 100k'] = 100000 / bevolking['BevolkingOpDeEersteVanDeMaand']
bevolking

Unnamed: 0_level_0,BevolkingOpDeEersteVanDeMaand,per 100k
Range,Unnamed: 1_level_1,Unnamed: 2_level_1
0-9,1760648,0.056797
10-19,1988987,0.050277
20-29,2238892,0.044665
30-39,2174964,0.045978
40-49,2172032,0.04604
50-59,2546244,0.039274
60-69,2138705,0.046757
70-79,1610080,0.062109
80-89,706450,0.141553
90+,132633,0.75396


Bereken de stand van zaken van besmettingen / hospitalisaties / overlijden, per cohort in absolute aantallen en aantallen per 100k, met een kleur indicator voor de aantallen.

In [4]:
# vervang <50 en Unknown door Onbekend
covid['Cohort'] = covid['Agegroup'].replace({'<50': 'Onbekend', 'Unknown': 'Onbekend'})
# aangenomen 'gemiddelde' leeftijd van een cohort: minimum waarde + 5
assumed_cohort_age = [(cohort, [int(n) for n in cohort.replace('+', '').split('-')]) for cohort in covid['Cohort'].unique() if cohort[0].isdigit()]
assumed_cohort_age = { cohort: min(rng) + 5 for cohort, rng in assumed_cohort_age }
covid['~Leeftijd'] = covid['Cohort'].apply(lambda x: assumed_cohort_age.get(x, np.nan))

# vervang Yes door 1, No/Unkown door 0 zodat een simpele sum ons straks het totaal geeft
for col in ['Hospital_admission', 'Deceased']:
  covid[col + '_int'] = covid[col].replace({'Yes': 1, 'No': 0, 'Unknown': np.nan})

# verwijder tijd
covid['Date_file_date'] = pd.to_datetime(covid['Date_file'].replace(r' .*', '', regex=True))

covid['Date_statistics_date'] = pd.to_datetime(covid['Date_statistics'])

# weken terug = verschil tussen Date_file en Date_statistcs, gedeeld door 7 dagen
covid['Weken terug'] = np.floor((covid['Date_file_date'] - covid['Date_statistics_date'])/np.timedelta64(7, 'D')).astype(np.int)

# voeg kleurnummer en totaal toe
def color_and_total(df, prefix, total):
  columns = list(bevolking.index) + ['Onbekend']
  # insert missing cohorts
  for col in columns:
    if not col in df:
      df[col] = np.nan
  # make sure the columns are ordered according to the cohorts, so the rename is safe
  df = df[columns]
  # geef de kolom een prefix om ze uniek te houden
  df.columns = [prefix + col for col in columns]

  # sommeer over de cohorten om een totaal te krijgen 
  df[total] = df.sum(axis=1)

  # voeg de kleur kolommen toe
  for col in columns:
    df[prefix + 'c' + col] = ((df[prefix + col] / df[[prefix + col for col in columns]].max(axis=1)) * 1000).fillna(0).astype(int)

  # voeg de "per honderdduizend" kolommen toe
  for col in columns:
    per100k = bevolking.loc[col]['per 100k'] if col in bevolking.index else np.nan
    df[prefix + '100k' + col] = df[prefix + col] * per100k
  
  # en daarvoor ook kleur kolommen
  for col in columns:

    df[prefix + '100k' + 'c' + col] = ((df[prefix + '100k' + col] / df[[prefix + '100k' + col for col in columns]].max(axis=1)) * 1000).fillna(0).astype(int)

  # herschikken van de kolommen om totaal vooraan te krijgen
  return df[[total] + [col for col in df if col != total]]

# registraties is een count per cohort
registraties = covid.groupby(['Weken terug', 'Cohort'])['Date_file_date'].count().unstack(fill_value=np.nan).reset_index().rename_axis(None, axis=1)
registraties.set_index('Weken terug', inplace=True)
registraties = color_and_total(registraties, 'r', 'Totaal registraties')

# hospitalised is de som van 'Yes' voor Hospital_admission per cohort
hospitalised = covid.groupby(['Weken terug', 'Cohort'])['Hospital_admission_int'].sum().unstack(fill_value=np.nan).reset_index().rename_axis(None, axis=1)
hospitalised.set_index('Weken terug', inplace=True)
hospitalised = color_and_total(hospitalised, 'h', 'Totaal hospitalised')

# deceased is de som van 'Yes' voor Deceased per cohort
deceased = covid.groupby(['Weken terug', 'Cohort'])['Deceased_int'].sum().unstack(fill_value=np.nan).reset_index().rename_axis(None, axis=1)
deceased.set_index('Weken terug', inplace=True)
deceased = color_and_total(deceased, 'd', 'Totaal deceased')

# de totale tabel is keyed op 'Weken terug', en we berekenen hier direct de mean aangenomen leeftijd per weken-terug van de registraties
stats = covid.groupby(['Weken terug'])['~Leeftijd'].mean().to_frame()
# hernoemen kolom
stats.columns = ['Gemiddelde leeftijd']

# Datum is de Date_file
stats['Datum'] = Date_file = covid['Date_file_date'].unique()[0]
# terug naar een datetime
Date_file = Date_file.astype('M8[D]').astype('O')
# periode afgeleid van weken-terug (= de index voor deze dataframe)
stats['Periode'] = stats.index.to_series().apply(lambda x: (Date_file + datetime.timedelta(weeks=-(x+1), days=1)).strftime('%d/%m') + ' - ' + (Date_file + datetime.timedelta(weeks=-x)).strftime('%d/%m'))
# herschikken
stats = stats[['Datum', 'Periode', 'Gemiddelde leeftijd']]
# toevoegen van registraties, hospitalized en deceased 
stats = stats.join(registraties).join(hospitalised).join(deceased)
#cm = sns.light_palette("green", as_cmap=True)
#registraties[[col for col in registraties.columns if col[0] == 'r' and col[1] != 'c' and not col.startswith('r100')]].style.background_gradient(cmap=cm, axis=1)
stats.fillna(0).head()

Unnamed: 0_level_0,Datum,Periode,Gemiddelde leeftijd,Totaal registraties,r0-9,r10-19,r20-29,r30-39,r40-49,r50-59,...,d100kc10-19,d100kc20-29,d100kc30-39,d100kc40-49,d100kc50-59,d100kc60-69,d100kc70-79,d100kc80-89,d100kc90+,d100kcOnbekend
Weken terug,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,2021-01-04,29/12 - 04/01,45.435181,27276.0,446.0,3125.0,4773.0,3570.0,3659.0,4646.0,...,0,0,0,0,17,20,247,813,1000,0
1,2021-01-04,22/12 - 28/12,44.984622,57877.0,947.0,6953.0,9173.0,7676.0,8742.0,10384.0,...,0,0,0,0,2,19,58,288,1000,0
2,2021-01-04,15/12 - 21/12,43.886693,76416.0,1168.0,10749.0,11645.0,10108.0,12160.0,13471.0,...,0,0,0,0,2,13,56,289,1000,0
3,2021-01-04,08/12 - 14/12,42.615364,70456.0,1260.0,11869.0,10276.0,9290.0,11094.0,11850.0,...,0,0,0,0,3,7,69,378,1000,0
4,2021-01-04,01/12 - 07/12,41.813932,50704.0,895.0,9277.0,7474.0,6661.0,7976.0,8215.0,...,0,0,0,0,3,16,66,312,1000,0


Publiceer de berekende statistieken indien we op github draaien


In [5]:
# publish
if 'GITHUB_TOKEN' in os.environ:
  print('Publishing to', os.environ['GITHUB_REPOSITORY'])
  today = datetime.date.today().strftime('%Y-%m-%d') + '.csv'
  latest = 'covid.csv'
  stats.fillna(0).to_csv(latest)

  import github3 as github
  gh = github.GitHub(token=os.environ['GITHUB_TOKEN'], session=github.session.GitHubSession(default_read_timeout=60))
  repo = gh.repository(*os.environ['GITHUB_REPOSITORY'].split('/'))
  release = repo.release_from_tag('covid')
  assets = { asset.name: asset for asset in release.assets() }

  # remove existing
  for asset in [today, latest]:
    if asset in assets:
      assets[asset].delete()
    with open(latest) as f:
      release.upload_asset(asset=f, name=asset, content_type='text/csv')

# Bart's speeltuin

In [23]:
# speeltuin
!jupyter --version

jupyter core     : 4.5.0
jupyter-notebook : 5.2.2
qtconsole        : 4.5.2
ipython          : 5.5.0
ipykernel        : 4.10.1
jupyter client   : 5.3.1
jupyter lab      : not installed
nbconvert        : 5.5.0
ipywidgets       : 7.5.0
nbformat         : 4.4.0
traitlets        : 4.3.2
