<a href="https://colab.research.google.com/github/JanEggers-hr/ddj-python-kurs/blob/main/rki_filtern_aufbereiten.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# RKI-Daten aufbereiten
Corona-Datensatz des RKI lesen, filtern, aufsummieren...

Für das Seminar "Datenjournalismus" im Sommersemester 2022

Hochschule Mainz, Studiengang Digital Media, 6. Semester

CC-BY Jan Eggers

## Vorbereitung: Bibliotheken laden
Zusatzpakete statten Python mit Fähigkeiten zur Ein- und Ausgabe aus. Sie müssen in der jeweiligen Python-Umgebung installiert sein - wenn sie das nicht sind, muss man einmal auf die Kommandozeile und beispielsweise mit dem Befehl
```conda install pandas```
das Pandas-Paket installieren, das wir für Tabellen ("Dataframes") brauchen. 

(Wer Updates für ein Paket einspielen will, nutzt dazu den Befehl ```conda update ...``` oder einfach  ```conda update --all```)

In [None]:
import pandas as pd
import numpy as np

Den obigen Textblock ausgeführt - und nichts ist passiert? Dann hat alles geklappt - und wir können loslegen. 

## CSV-Datensatz vom RKI einlesen
Wir lesen die CSV-Datei des RKI aus: 

Die Datei
* https://github.com/robert-koch-institut/SARS-CoV-2_Infektionen_in_Deutschland

laden wir und schauen sie uns danach kurz an.

Die Datei ist ein Feld-Wald-und-Wiesen-CSV: 
- Als Trennzeichen wird das Komma (",") verwendet, das keine Probleme mit Kommazahlen bereitet
- Text ist in Anführungszeichen - und er enthält auch keine Steuerzeichen für Zeilensprünge, die gerne für Chaos sorgen
- Der Zeichensatz der Datei ist UTF-8 - im Universal-Format gibt es keine Probleme mit Umlauten etc. 

In [None]:
rki_url="https://media.githubusercontent.com/media/robert-koch-institut/SARS-CoV-2-Infektionen_in_Deutschland/main/Aktuell_Deutschland_SarsCov2_Infektionen.csv"
rki_df = pd.read_csv(rki_url)
rki_df.head(5)

Unnamed: 0,IdLandkreis,Altersgruppe,Geschlecht,Meldedatum,Refdatum,IstErkrankungsbeginn,NeuerFall,NeuerTodesfall,NeuGenesen,AnzahlFall,AnzahlTodesfall,AnzahlGenesen
0,1001,A15-A34,M,2020-10-28,2020-01-19,1,0,-9,0,1,0,1
1,1001,A15-A34,M,2020-03-19,2020-03-13,1,0,-9,0,1,0,1
2,1001,A15-A34,M,2020-03-21,2020-03-13,1,0,-9,0,1,0,1
3,1001,A15-A34,M,2020-03-19,2020-03-16,1,0,-9,0,1,0,1
4,1001,A35-A59,M,2020-03-14,2020-03-16,1,0,-9,0,1,0,1


** Beschreiben **

Was ist im Dataframe eigentlich drin?


In [None]:
rki_df.describe()

Unnamed: 0,IdLandkreis,IstErkrankungsbeginn,NeuerFall,NeuerTodesfall,NeuGenesen,AnzahlFall,AnzahlTodesfall,AnzahlGenesen
count,6320050.0,6320050.0,6320050.0,6320050.0,6320050.0,6320050.0,6320050.0,6320050.0
mean,8316.778,0.6612221,0.001643816,-8.81004,-0.3943868,5.620647,0.02426721,5.343668
std,3660.764,0.4732943,0.04278263,1.293772,1.847007,18.37179,0.1854393,18.00603
min,1001.0,0.0,-1.0,-9.0,-9.0,-5.0,-1.0,-3.0
25%,5562.0,0.0,0.0,-9.0,0.0,1.0,0.0,1.0
50%,8316.0,1.0,0.0,-9.0,0.0,1.0,0.0,1.0
75%,9772.0,1.0,0.0,-9.0,0.0,3.0,0.0,3.0
max,16077.0,1.0,1.0,1.0,1.0,2156.0,21.0,2156.0


**Filtern**

Nur das Bundesland oder, alternativ, nur einen Kreis.

In [None]:
#rki_hessen_df = rki_df.query("Bundesland == 'Hessen'")
rki_hessen_df = rki_df.loc[(rki_df["IdLandkreis"] >= 6000) & (rki_df["IdLandkreis"]< 7000)]
rki_hessen_df.head(5)

Unnamed: 0,IdLandkreis,Altersgruppe,Geschlecht,Meldedatum,Refdatum,IstErkrankungsbeginn,NeuerFall,NeuerTodesfall,NeuGenesen,AnzahlFall,AnzahlTodesfall,AnzahlGenesen
2015986,6411,A15-A34,M,2020-03-18,2020-03-03,1,0,-9,0,1,0,1
2015987,6411,A15-A34,M,2020-03-16,2020-03-06,1,0,-9,0,1,0,1
2015988,6411,A35-A59,M,2020-03-16,2020-03-09,1,0,-9,0,1,0,1
2015989,6411,A35-A59,M,2020-03-18,2020-03-09,1,0,-9,0,1,0,1
2015990,6411,A35-A59,M,2020-03-18,2020-03-10,1,0,-9,0,1,0,1


Etwas nacharbeiten: 
- Die Spalten `Meldedatum` und `RefDatum` in ordentliche Datumsangaben umformatieren
- Die Spalte `IdLandkreis` von einer Zahl in einen String umwandeln - mit führender Null

In [None]:
from datetime import date, timedelta
from dateutil.parser import parse

for i in rki_hessen_df.index:
    rki_hessen_df.loc[i,'IdLandkreis'] = "0"+str(rki_hessen_df.IdLandkreis[i])
    rki_hessen_df.loc[i,'Meldedatum'] = parse(rki_hessen_df.Meldedatum[i]).date()
    rki_hessen_df.loc[i,'Refdatum'] = parse(rki_hessen_df.Refdatum[i]).date()
    
rki_hessen_df.head(5)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(loc, value, pi)


**Tabelle pivotieren**: Hessische Fälle nehmen, Neufälle filtern (Variable NeuerFall muss 0 oder 1 sein), nach Meldedatum aufsummieren (das Argument `aggfunc=np.sum` bestimmt, dass als Funktion zum Aggregieren die Summe der Werte berechnet wird)

In [None]:
mein_df = rki_hessen_df.query("NeuerFall in  (0,1)")
neufaelle_df = pd.pivot_table(mein_df,index=["Meldedatum"],values=["AnzahlFall"],aggfunc=np.sum)
neufaelle_df.head(5)

Unnamed: 0_level_0,AnzahlFall
Meldedatum,Unnamed: 1_level_1
2020-02-28,1
2020-03-01,3
2020-03-02,4
2020-03-03,4
2020-03-04,2


**Nach Altersgruppen aufsummieren** - ein Pivot nach Meldedatum über die Altersgruppen als Spalten, den Summen (aggfunc) der Fallzahlen. 

In [None]:
datum = date.today() - timedelta(days=7)
datum

datetime.date(2022, 5, 31)

In [None]:
mein_df = rki_hessen_df.loc[rki_hessen_df["Meldedatum"] >= datum]
faelle_nach_alter_df = pd.pivot_table(mein_df,index=["Meldedatum"],columns=["Altersgruppe"],values=["AnzahlFall"],aggfunc=np.sum,fill_value = 0)
faelle_nach_alter_df.head(5)

Unnamed: 0_level_0,AnzahlFall,AnzahlFall,AnzahlFall,AnzahlFall,AnzahlFall,AnzahlFall,AnzahlFall
Altersgruppe,A00-A04,A05-A14,A15-A34,A35-A59,A60-A79,A80+,unbekannt
Meldedatum,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2022-05-31,71,395,1658,2091,634,105,5
2022-06-01,71,352,1537,1824,579,117,5
2022-06-02,55,297,1689,1745,586,91,2
2022-06-03,48,230,1217,1334,473,97,3


## Tabelle als Excel-Datei ausgeben
Und jetzt hätten wir das Ganze gerne wieder als Excel-Datei. Das ist zum Glück einfach.

Die Parameter sagen: Spaltennamen mit in die Tabelle schreiben, auch den Index (das Datum). Und Zahlen mit Komma ausgeben! Alle Formatierungsbefehle für `to_excel` finden sich [in der Pandas-Dokumentation.](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html) 

In [None]:
faelle_nach_alter_df.to_excel ('export.xlsx', header=True)

In [None]:
mein_df = mein_df.tail(10)

NameError: ignored

**Nur Mut! Man kann nichts kaputt machen!**

In [None]:
from datawrapper import Datawrapper
dw = Datawrapper(access_token = "yyEPvbLs4C20dQAoBi3zm3RpcvPxHaXbHLDJD5PZuDF8TGOilDYHwa0xJAjHeKyu ")

