<a href="https://colab.research.google.com/github/Corona-Locator-Nederland/corona-locator-nederland/blob/main/Corona_locator.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from urllib.request import urlopen
import pandas as pd
import numpy as np
import json
import datetime
import requests
import json
import math

In [None]:
covid = pd.read_csv('https://data.rivm.nl/covid-19/COVID-19_casus_landelijk.csv', sep=';', header=0 )

In [None]:
# https://www.cbs.nl/nl-nl/onze-diensten/open-data/open-data-v4/snelstartgids-odata-v4
def get_odata(target_url):
  data = pd.DataFrame()
  while target_url:
    r = requests.get(target_url).json()
    data = data.append(pd.DataFrame(r['value']))
        
    if '@odata.nextLink' in r:
      target_url = r['@odata.nextLink']
    else:
      target_url = None          
  return data

def roundup(x):
  return int(math.ceil(x / 10.0)) * 10
def rounddown(x):
  return int(math.floor(x / 10.0)) * 10

cbs = 'https://opendata.cbs.nl/ODataApi/OData/83482NED'

leeftijden = get_odata(cbs + "/Leeftijd?$select=Key, Title&$filter=CategoryGroupID eq 3")
leeftijden.set_index('Key', inplace=True)
leeftijden_range = leeftijden['Title'].replace(r'^(\d+) tot (\d+) jaar$', r'\1-\2', regex=True).replace(r'^(\d+) jaar of ouder$', r'\1-1000', regex=True)
leeftijden_range = leeftijden_range.str.split('-', expand=True).astype(int)
leeftijden_range[0] = leeftijden_range[0].apply(lambda x: rounddown(x)).apply(lambda x: str(x) if x < 90 else '90')
leeftijden_range[1] = (leeftijden_range[1].apply(lambda x: roundup(x)) - 1).apply(lambda x: f'-{x}' if x < 90 else '+')
leeftijden['Range'] = leeftijden_range[0] + leeftijden_range[1]
del leeftijden['Title']

def query(f):
  if f == 'Leeftijd':
    return '(' + ' or '.join([f"{f} eq '{k}'" for k in leeftijden.index.values]) + ')'
  if f in ['Geslacht', 'Migratieachtergrond', 'Generatie']: # pak hier het totaal
    ids = get_odata(cbs + '/' + f)
    return f + " eq '" + ids[ids['Title'].str.contains("totaal", na=False, case=False)]['Key'].values[0] + "'"
  if f == 'Perioden': # voor perioden pak de laatste
    return f + " eq '" + get_odata(cbs + '/Perioden').iloc[[-1]]['Key'].values[0] + "'"
  raise ValueError(f)
filter = get_odata(cbs + '/DataProperties')
filter = ' and '.join([query(f) for f in filter[filter.Type != 'Topic']['Key'].values])

bevolking = get_odata(cbs + f"/TypedDataSet?$top=100&$filter={filter}&$select=Leeftijd, BevolkingOpDeEersteVanDeMaand_1")
bevolking.rename(columns = {'BevolkingOpDeEersteVanDeMaand_1': 'BevolkingOpDeEersteVanDeMaand'}, inplace = True)
bevolking = bevolking.merge(leeftijden, left_on = 'Leeftijd', right_index = True)
bevolking = bevolking.groupby('Range')['BevolkingOpDeEersteVanDeMaand'].sum().to_frame()
bevolking['per 100k'] = 100000 / bevolking['BevolkingOpDeEersteVanDeMaand']
bevolking

Unnamed: 0_level_0,BevolkingOpDeEersteVanDeMaand,per 100k
Range,Unnamed: 1_level_1,Unnamed: 2_level_1
0-9,1760648,0.056797
10-19,1988987,0.050277
20-29,2238892,0.044665
30-39,2174964,0.045978
40-49,2172032,0.04604
50-59,2546244,0.039274
60-69,2138705,0.046757
70-79,1610080,0.062109
80-89,706450,0.141553
90+,132633,0.75396


In [None]:
# vervang <50 en Unknown door Onbekend
covid['Cohort'] = covid['Agegroup'].replace({'<50': 'Onbekend', 'Unknown': 'Onbekend'})
# aangenomen 'gemiddelde' leeftijd van een cohort: minimum waarde + 5
assumed_cohort_age = [(cohort, [int(n) for n in cohort.replace('+', '').split('-')]) for cohort in covid['Cohort'].unique() if cohort[0].isdigit()]
assumed_cohort_age = { cohort: min(rng) + 5 for cohort, rng in assumed_cohort_age }
covid['~Leeftijd'] = covid['Cohort'].apply(lambda x: assumed_cohort_age.get(x, np.nan))

# vervang Yes door 1, No/Unkown door 0 zodat een simpele sum ons straks het totaal geeft
for src, tgt in {'Hospital_admission': 'Hospital_admission_int', 'Deceased': 'Deceased_int'}.items():
  covid[tgt] = covid[src].replace({'Yes': 1, 'No': 0, 'Unknown': np.nan})

# verwijder tijd
covid['Date_file_date'] = pd.to_datetime(covid['Date_file'].replace(r' .*', '', regex=True))

covid['Date_statistics_date'] = pd.to_datetime(covid['Date_statistics'])

# weken terug = verschil tussen Date_file en Date_statistcs, gedeeld door 7 dagen
covid['Weken terug'] = np.floor((covid['Date_file_date'] - covid['Date_statistics_date'])/np.timedelta64(7, 'D')).astype(np.int)

# voeg kleurnummer en totaal toe
def color_and_total(df, prefix, total):
  columns = list(bevolking.index) + ['Onbekend']
  # insert missing cohorts
  for col in columns:
    if not col in df:
      df[col] = np.nan
  # make sure the columns are ordered according to the cohorts, so the rename is safe
  df = df[columns]
  # geef de kolom een prefix om ze uniek te houden
  df.columns = [prefix + col for col in columns]

  # sommeer over de cohorten om een totaal te krijgen 
  df[total] = df.sum(axis=1)

  # voeg de kleur kolommen toe
  for col in columns:
    df[prefix + 'c' + col] = ((df[prefix + col] / df[[prefix + col for col in columns]].max(axis=1)) * 1000).fillna(0).astype(int)

  # voeg de "per honderdduizend" kolommen toe
  for col in columns:
    per100k = bevolking.loc[col]['per 100k'] if col in bevolking else np.nan
    df[prefix + '100k' + col] = df[prefix + col] * per100k
  
  # en daarvoor ook kleur kolommen
  for col in columns:

    df[prefix + '100k' + 'c' + col] = ((df[prefix + '100k' + col] / df[[prefix + '100k' + col for col in columns]].max(axis=1)) * 1000).fillna(0).astype(int)

  # herschikken van de kolommen om totaal vooraan te krijgen
  return df[[total] + [col for col in df if col != total]]

# registraties is een count per cohort
registraties = covid.groupby(['Weken terug', 'Cohort'])['Date_file_date'].count().unstack(fill_value=np.nan).reset_index().rename_axis(None, axis=1)
registraties.set_index('Weken terug', inplace=True)
registraties = color_and_total(registraties, 'r', 'Totaal registraties')

# hospitalised is de som van 'Yes' voor Hospital_admission per cohort
hospitalised = covid.groupby(['Weken terug', 'Cohort'])['Hospital_admission_int'].sum().unstack(fill_value=np.nan).reset_index().rename_axis(None, axis=1)
hospitalised.set_index('Weken terug', inplace=True)
hospitalised = color_and_total(hospitalised, 'h', 'Totaal hospitalised')

# deceased is de som van 'Yes' voor Deceased per cohort
deceased = covid.groupby(['Weken terug', 'Cohort'])['Deceased_int'].sum().unstack(fill_value=np.nan).reset_index().rename_axis(None, axis=1)
deceased.set_index('Weken terug', inplace=True)
deceased = color_and_total(deceased, 'd', 'Totaal deceased')

# de totale tabel is keyed op 'Weken terug', en we berekenen hier direct de mean aangenomen leeftijd per weken-terug van de registraties
stats = covid.groupby(['Weken terug'])['~Leeftijd'].mean().to_frame()
# hernoemen kolom
stats.columns = ['Gemiddelde leeftijd']

# Datum is de Date_file
stats['Datum'] = Date_file = covid['Date_file_date'].unique()[0]
# terug naar een datetime
Date_file = Date_file.astype('M8[D]').astype('O')
# periode afgeleid van weken-terug (= de index voor deze dataframe)
stats['Periode'] = stats.index.to_series().apply(lambda x: (Date_file + datetime.timedelta(weeks=-(x+1), days=1)).strftime('%d/%m') + ' - ' + (Date_file + datetime.timedelta(weeks=-x)).strftime('%d/%m'))
# herschikken
stats = stats[['Datum', 'Periode', 'Gemiddelde leeftijd']]
# toevoegen van registraties, hospitalized en deceased 
stats = stats.join(registraties).join(hospitalised).join(deceased)
stats.head()

Unnamed: 0_level_0,Datum,Periode,Gemiddelde leeftijd,Totaal registraties,r0-9,r10-19,r20-29,r30-39,r40-49,r50-59,r60-69,r70-79,r80-89,r90+,rOnbekend,rc0-9,rc10-19,rc20-29,rc30-39,rc40-49,rc50-59,rc60-69,rc70-79,rc80-89,rc90+,rcOnbekend,r100k0-9,r100k10-19,r100k20-29,r100k30-39,r100k40-49,r100k50-59,r100k60-69,r100k70-79,r100k80-89,r100k90+,r100kOnbekend,r100kc0-9,r100kc10-19,r100kc20-29,...,d40-49,d50-59,d60-69,d70-79,d80-89,d90+,dOnbekend,dc0-9,dc10-19,dc20-29,dc30-39,dc40-49,dc50-59,dc60-69,dc70-79,dc80-89,dc90+,dcOnbekend,d100k0-9,d100k10-19,d100k20-29,d100k30-39,d100k40-49,d100k50-59,d100k60-69,d100k70-79,d100k80-89,d100k90+,d100kOnbekend,d100kc0-9,d100kc10-19,d100kc20-29,d100kc30-39,d100kc40-49,d100kc50-59,d100kc60-69,d100kc70-79,d100kc80-89,d100kc90+,d100kcOnbekend
Weken terug,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1,Unnamed: 57_level_1,Unnamed: 58_level_1,Unnamed: 59_level_1,Unnamed: 60_level_1,Unnamed: 61_level_1,Unnamed: 62_level_1,Unnamed: 63_level_1,Unnamed: 64_level_1,Unnamed: 65_level_1,Unnamed: 66_level_1,Unnamed: 67_level_1,Unnamed: 68_level_1,Unnamed: 69_level_1,Unnamed: 70_level_1,Unnamed: 71_level_1,Unnamed: 72_level_1,Unnamed: 73_level_1,Unnamed: 74_level_1,Unnamed: 75_level_1,Unnamed: 76_level_1,Unnamed: 77_level_1,Unnamed: 78_level_1,Unnamed: 79_level_1,Unnamed: 80_level_1,Unnamed: 81_level_1
0,2021-01-02,27/12 - 02/01,45.374016,30988.0,483.0,3519.0,5360.0,4120.0,4253.0,5366.0,3355.0,2324.0,1600.0,608.0,,90,655,998,767,792,1000,625,433,298,113,0,,,,,,,,,,,,0,0,0,...,0.0,0.0,2.0,6.0,18.0,9.0,,0,0,0,0,0,0,111,333,1000,500,0,,,,,,,,,,,,0,0,0,0,0,0,0,0,0,0,0
1,2021-01-02,20/12 - 26/12,44.675218,60967.0,1019.0,7670.0,9540.0,8029.0,9378.0,10915.0,6618.0,4061.0,2789.0,945.0,3.0,93,702,874,735,859,1000,606,372,255,86,0,,,,,,,,,,,,0,0,0,...,0.0,2.0,17.0,41.0,90.0,73.0,3.0,0,0,0,0,0,22,188,455,1000,811,33,,,,,,,,,,,,0,0,0,0,0,0,0,0,0,0,0
2,2021-01-02,13/12 - 19/12,43.403725,78186.0,1241.0,11693.0,11818.0,10326.0,12487.0,13626.0,8118.0,4834.0,3034.0,1005.0,4.0,91,858,867,757,916,1000,595,354,222,73,0,,,,,,,,,,,,0,0,0,...,0.0,7.0,21.0,85.0,189.0,105.0,4.0,0,0,0,0,0,37,111,449,1000,555,21,,,,,,,,,,,,0,0,0,0,0,0,0,0,0,0,0
3,2021-01-02,06/12 - 12/12,42.283112,64612.0,1190.0,11467.0,9276.0,8526.0,10092.0,10585.0,6395.0,3843.0,2383.0,850.0,5.0,103,1000,808,743,880,923,557,335,207,74,0,,,,,,,,,,,,0,0,0,...,0.0,6.0,17.0,91.0,231.0,114.0,5.0,0,0,0,0,0,25,73,393,1000,493,21,,,,,,,,,,,,0,0,0,0,0,0,0,0,0,0,0
4,2021-01-02,29/11 - 05/12,41.977438,45254.0,743.0,8055.0,6838.0,5947.0,7100.0,7439.0,4430.0,2564.0,1594.0,543.0,1.0,92,1000,848,738,881,923,549,318,197,67,0,,,,,,,,,,,,0,0,0,...,0.0,6.0,24.0,80.0,151.0,103.0,1.0,0,0,0,0,0,39,158,529,1000,682,6,,,,,,,,,,,,0,0,0,0,0,0,0,0,0,0,0


# Bart's speeltuin

In [None]:
# speeltuin
