# Tägliche Todesfälle Tirol 2017-2020, gruppiert nach Jahr und Monat

In [1]:
import json
import numpy as np
import pandas as pd
import altair as alt
import time

In [2]:
df = pd.read_csv('../data/tirol_obituaries_deduped.csv', delimiter = ',')
df['date'] = pd.to_datetime(df['date'], format='%d.%m.%Y')
# df = df[df['district'] == 'Landeck']
df.head()

Unnamed: 0,date,year,week,municipaly,district,hash
0,2020-11-22,2020,47,Fließ,Landeck,-953018584
12,2020-11-20,2020,47,Landeck,Landeck,398421071
18,2020-11-20,2020,47,Landeck,Landeck,163711844
20,2020-11-20,2020,47,Prutz,Landeck,-1290220541
22,2020-11-19,2020,47,St. Anton am Arlberg,Landeck,-911171189


In [3]:
df_count_by_day = (pd.to_datetime(df['date'])
       .dt.floor('d')
       .value_counts()
       .rename_axis('date')
       .reset_index(name='count'))

df_count_by_day = df_count_by_day.sort_values('date')

df_count_by_day.head(10)

Unnamed: 0,date,count
770,2016-06-01,1
821,2016-06-03,1
345,2016-06-05,2
268,2016-06-06,2
566,2016-06-07,1
844,2016-06-08,1
276,2016-06-09,2
845,2016-06-12,1
701,2016-06-13,1
351,2016-06-14,2


In [4]:
df_count_by_day['month'] = pd.DatetimeIndex(df_count_by_day['date']).month
df_count_by_day['month_year'] = pd.to_datetime(df_count_by_day['date']).dt.to_period('M')
df_count_by_day['year'] = pd.to_datetime(df_count_by_day['date']).dt.to_period('Y')
df_count_by_day['year'] = (df_count_by_day['year']).apply(lambda d: pd.to_datetime(str(d)))
df_count_by_day['month_year'] = (df_count_by_day['month_year']).apply(lambda d: pd.to_datetime(str(d)))
df_count_by_day = df_count_by_day[df_count_by_day['date'].dt.year != 2016]
df_count_by_day.head()

Unnamed: 0,date,count,month,month_year,year
201,2017-01-01,2,1,2017-01-01,2017-01-01
808,2017-01-03,1,1,2017-01-01,2017-01-01
314,2017-01-05,2,1,2017-01-01,2017-01-01
41,2017-01-07,3,1,2017-01-01,2017-01-01
294,2017-01-08,2,1,2017-01-01,2017-01-01


In [5]:
alt.Chart(df_count_by_day, width=60, title='Boxplots tägliche Todesfälle Tirol 2017-2020, gruppiert nach Jahr und Monat').mark_boxplot().encode(
    x=alt.X('year:T', axis = alt.Axis(format = ("%Y"))),
    y=alt.Y('count:Q'),
    column='month:N',
#     color=alt.Color('year:T', legend=alt.Legend(format = ("%Y")))
)

In den Jahren 2017-2019 lag der Median bei den erhobenen Daten täglicher Todesfälle in Tirol im November bei ca. 12-14.

Im Moment liegt er bei 20 (Stand: 22.11.2020).

Dass die Zahlen vergangener Jahre halbwegs etwas taugen, zeigt z.B. der Ausreisser der schweren Grippewelle Anfang 2017.

Die Grippewelle 2017 (Januar 2017) und die zweite COVID-19 Welle (November 2020) sind mit einem Median von 20 mit Abstand die Monate mit den meisten Todesfälle pro Tag.

Der Ausreisser nach unten im November 2020 (schwarze untere Linie) kommt daher, weil die Daten "right-censored" sind und bei den letzten Tagen immer weniger Todesfälle aufscheinen, weil es ja nicht sofort eine Todesanzeige gibt.

Die Datenbasis bildet eine Auswertung von mehr als 20000 Todesanzeigen der vergangenen Jahre.

Wie man einen Boxplot liest, hat [Mai Thi Nguyen-Kim](https://twitter.com/maithi_nk) vor kurzem hier gut erklärt: https://youtu.be/ud9d5cMDP_0?t=278
