# RKI-Daten aufbereiten
Corona-Datensatz des RKI lesen, filtern, aufsummieren...

Für das Seminar "Datenjournalismus" im Sommersemester 2022

Hochschule Mainz, Studiengang Digital Media, 6. Semester

CC-BY Jan Eggers

## Vorbereitung: Bibliotheken laden
Zusatzpakete statten Python mit Fähigkeiten zur Ein- und Ausgabe aus. Sie müssen in der jeweiligen Python-Umgebung installiert sein - wenn sie das nicht sind, muss man einmal auf die Kommandozeile und beispielsweise mit dem Befehl
```conda install pandas```
das Pandas-Paket installieren, das wir für Tabellen ("Dataframes") brauchen. 

(Wer Updates für ein Paket einspielen will, nutzt dazu den Befehl ```conda update ...``` oder einfach  ```conda update --all```)

In [1]:
import pandas as pd
import numpy as np

Den obigen Textblock ausgeführt - und nichts ist passiert? Dann hat alles geklappt - und wir können loslegen. 

## CSV-Datensatz vom RKI einlesen
Wir lesen die CSV-Datei des RKI aus: 

Die Datei
* https://github.com/robert-koch-institut/SARS-CoV-2_Infektionen_in_Deutschland

laden wir und schauen sie uns danach kurz an.

Die Datei ist ein Feld-Wald-und-Wiesen-CSV: 
- Als Trennzeichen wird das Komma (",") verwendet, das keine Probleme mit Kommazahlen bereitet
- Text ist in Anführungszeichen - und er enthält auch keine Steuerzeichen für Zeilensprünge, die gerne für Chaos sorgen
- Der Zeichensatz der Datei ist UTF-8 - im Universal-Format gibt es keine Probleme mit Umlauten etc. 

In [23]:
rki_url = "https://media.githubusercontent.com/media/robert-koch-institut/SARS-CoV-2_Infektionen_in_Deutschland/master/Aktuell_Deutschland_SarsCov2_Infektionen.csv"

rki_df = pd.read_csv(rki_url)
rki_df.head(5)

Unnamed: 0,IdLandkreis,Altersgruppe,Geschlecht,Meldedatum,Refdatum,IstErkrankungsbeginn,NeuerFall,NeuerTodesfall,NeuGenesen,AnzahlFall,AnzahlTodesfall,AnzahlGenesen
0,1001,A15-A34,M,2020-10-28,2020-01-19,1,0,-9,0,1,0,1
1,1001,A15-A34,M,2020-03-19,2020-03-13,1,0,-9,0,1,0,1
2,1001,A15-A34,M,2020-03-21,2020-03-13,1,0,-9,0,1,0,1
3,1001,A35-A59,M,2020-03-14,2020-03-16,1,0,-9,0,1,0,1
4,1001,A15-A34,M,2020-03-14,2020-03-16,1,0,-9,0,1,0,1


** Beschreiben **

Was ist im Dataframe eigentlich drin?


In [25]:
rki_df.describe()

Unnamed: 0,IdLandkreis,IstErkrankungsbeginn,NeuerFall,NeuerTodesfall,NeuGenesen,AnzahlFall,AnzahlTodesfall,AnzahlGenesen
count,5097054.0,5097054.0,5097054.0,5097054.0,5097054.0,5097054.0,5097054.0,5097054.0
mean,8345.151,0.6828831,0.00251459,-8.788048,-0.4058756,5.160898,0.02727007,4.965824
std,3677.25,0.4653534,0.0522941,1.364884,1.873431,18.51481,0.1982118,18.40084
min,1001.0,0.0,-1.0,-9.0,-9.0,-6.0,-1.0,-4.0
25%,5566.0,0.0,0.0,-9.0,0.0,1.0,0.0,1.0
50%,8311.0,1.0,0.0,-9.0,0.0,1.0,0.0,1.0
75%,9774.0,1.0,0.0,-9.0,0.0,3.0,0.0,3.0
max,16077.0,1.0,1.0,1.0,1.0,2146.0,21.0,2146.0


**Filtern**

Nur das Bundesland oder, alternativ, nur einen Kreis.

In [41]:
#rki_hessen_df = rki_df.query("Bundesland == 'Hessen'")
rki_hessen_df = rki_df.loc[(rki_df["IdLandkreis"] >= 6000) & (rki_df["IdLandkreis"]< 7000)]
rki_hessen_df.head(5)

Unnamed: 0,IdLandkreis,Altersgruppe,Geschlecht,Meldedatum,Refdatum,IstErkrankungsbeginn,NeuerFall,NeuerTodesfall,NeuGenesen,AnzahlFall,AnzahlTodesfall,AnzahlGenesen
1619817,6411,A15-A34,M,2020-03-18,2020-03-03,1,0,-9,0,1,0,1
1619818,6411,A15-A34,M,2020-03-16,2020-03-06,1,0,-9,0,1,0,1
1619819,6411,A35-A59,M,2020-03-18,2020-03-09,1,0,-9,0,1,0,1
1619820,6411,A35-A59,M,2020-03-16,2020-03-09,1,0,-9,0,1,0,1
1619821,6411,A35-A59,M,2020-03-18,2020-03-10,1,0,-9,0,1,0,1


Etwas nacharbeiten: 
- Die Spalten `Meldedatum` und `RefDatum` in ordentliche Datumsangaben umformatieren
- Die Spalte `IdLandkreis` von einer Zahl in einen String umwandeln - mit führender Null

In [43]:
from datetime import date, timedelta
from dateutil.parser import parse

for i in rki_hessen_df.index:
    rki_hessen_df.loc[i,'IdLandkreis'] = "0"+str(rki_hessen_df.IdLandkreis[i])
    rki_hessen_df.loc[i,'Meldedatum'] = parse(rki_hessen_df.Meldedatum[i]).date()
    rki_hessen_df.loc[i,'Refdatum'] = parse(rki_hessen_df.Refdatum[i]).date()
    
rki_hessen_df.head(5)

Unnamed: 0,IdLandkreis,Altersgruppe,Geschlecht,Meldedatum,Refdatum,IstErkrankungsbeginn,NeuerFall,NeuerTodesfall,NeuGenesen,AnzahlFall,AnzahlTodesfall,AnzahlGenesen
1619817,6411,A15-A34,M,2020-03-18,2020-03-03,1,0,-9,0,1,0,1
1619818,6411,A15-A34,M,2020-03-16,2020-03-06,1,0,-9,0,1,0,1
1619819,6411,A35-A59,M,2020-03-18,2020-03-09,1,0,-9,0,1,0,1
1619820,6411,A35-A59,M,2020-03-16,2020-03-09,1,0,-9,0,1,0,1
1619821,6411,A35-A59,M,2020-03-18,2020-03-10,1,0,-9,0,1,0,1


**Tabelle pivotieren**: Hessische Fälle nehmen, Neufälle filtern (Variable NeuerFall muss 0 oder 1 sein), nach Meldedatum aufsummieren (das Argument `aggfunc=np.sum` bestimmt, dass als Funktion zum Aggregieren die Summe der Werte berechnet wird)

In [44]:
mein_df = rki_hessen_df.query("NeuerFall in  (0,1)")
neufaelle_df = pd.pivot_table(mein_df,index=["Meldedatum"],values=["AnzahlFall"],aggfunc=np.sum)
neufaelle_df.head(5)

Unnamed: 0_level_0,AnzahlFall
Meldedatum,Unnamed: 1_level_1
2020-02-28,1
2020-03-01,3
2020-03-02,4
2020-03-03,4
2020-03-04,2


**Nach Altersgruppen aufsummieren** - ein Pivot nach Meldedatum über die Altersgruppen als Spalten, den Summen (aggfunc) der Fallzahlen. 

In [46]:
datum = date.today() - timedelta(days=7)
datum

datetime.date(2022, 5, 24)

In [47]:
mein_df = rki_hessen_df.loc[rki_hessen_df["Meldedatum"] >= datum]
faelle_nach_alter_df = pd.pivot_table(mein_df,index=["Meldedatum"],columns=["Altersgruppe"],values=["AnzahlFall"],aggfunc=np.sum,fill_value = 0)
faelle_nach_alter_df.head(5)

Unnamed: 0_level_0,AnzahlFall,AnzahlFall,AnzahlFall,AnzahlFall,AnzahlFall,AnzahlFall,AnzahlFall
Altersgruppe,A00-A04,A05-A14,A15-A34,A35-A59,A60-A79,A80+,unbekannt
Meldedatum,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2022-05-24,79,440,1392,1713,578,119,5
2022-05-25,49,282,1054,1234,387,76,4
2022-05-26,3,41,149,175,67,10,1
2022-05-27,53,347,1425,1606,509,102,5
2022-05-28,14,76,241,315,95,24,1


## Tabelle als Excel-Datei ausgeben
Und jetzt hätten wir das Ganze gerne wieder als Excel-Datei. Das ist zum Glück einfach.

Die Parameter sagen: Spaltennamen mit in die Tabelle schreiben, auch den Index (das Datum). Und Zahlen mit Komma ausgeben! Alle Formatierungsbefehle für `to_excel` finden sich [in der Pandas-Dokumentation.](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html) 

In [52]:
faelle_nach_alter_df.to_excel ('export.xlsx', header=True)

**Nur Mut! Man kann nichts kaputt machen!**