# <span style="color:#f37726">00 RKI Data Understanding</span>

**Ziele des Notebooks:**
- Datensatz laden
- Überlick über die Größe erhalten
- Attribute in Kontext setzen
- Räumliche und zeitliche Aspekte verstehen

In [1]:
# Benötigte Bibliotheken für dieses Notebook
import numpy as np
import os
import pandas as pd

## Der Datensatz

**Laden**

Der Datensatz lässt sich tagesaktuell als csv-Datei über das [Datenhub des Robert Koch-Institut](https://www.arcgis.com/home/item.html?id=f10774f1c63e40168479a1feb6c7ca74) beziehen.<br>Im Folgenden arbeiten wir mit der Version vom 13.04.2021.

In [2]:
# Laden des Datensatzes als pandas DataFrame
data = pd.read_csv(r'data/RKI_COVID19.csv')
df = pd.DataFrame(data)

**Größe**

In [3]:
size_bytes = os.stat(r'data/RKI_COVID19.csv').st_size
print("Größe der csv-Datei: "+ str(size_bytes/1000000) +" MB")

Größe der csv-Datei: 251.956545 MB


In [4]:
print("Form des DataFrame: "+ str(df.shape))

Form des DataFrame: (1652695, 18)


**Attribute**

In [5]:
# Eine Zeile des DataFrames 
attributes_example = df.loc[1557495]

# Series mit Attribut und Datentyp
attributes_types = df.dtypes

# Beschreibung der Attribute (gekürzt)
attributes_description = {
    'FID': "Index in der csv-Datei",
    'IdBundesland': "Id des Bundeslandes",
    'Bundesland': "Name des Bundeslandes",
    'IdLandkreis': "Id des Landkreises",
    'Landkreis': "Name des Landkreises",
    'Altersgruppe': "Altersgruppe des Falles aus 6 Gruppen",
    'Altersgruppe2': "Altersgruppe des Falles aus 5-Jahresgruppen",
    'Geschlecht': "Geschlecht des Falle",
    'AnzahlFall': "Anzahl der Fälle in der entsprechenden Gruppe",
    'AnzahlTodesfall': "Anzahl der Todesfälle in der entsprechenden Gruppe",
    'Meldedatum': "Datum, wann der Fall dem Gesundheitsamt bekannt geworden ist",
    'Datenstand': "Datum, wann der Datensatz zuletzt aktualisiert worden ist",
    'NeuerFall': "Fall ist in Publikation des Vortages enthalten",
    'NeuerTodesfall': "Todesfall ist in Publikation des Vortages enthalten",
    'Refdatum': "Erkrankungsdatum",
    'AnzahlGenesen': "Anzahl der Genesenen in der entsprechenden Gruppe",
    'NeuGenesen': "Genesung ist in Publikation des Vortages enthalten",
    'IstErkrankungsbeginn': "Ist Refdatum gleich Erkrankungsbeginn",
}


attributes_oview = pd.DataFrame(
    index=attributes_types.index,
    data={
        'beschreibung': attributes_description,
        'beispiel': attributes_example,
        'datentyp': attributes_types.values,
         })

attributes_oview.index.rename('attribut', inplace=True)

display(attributes_oview)

Unnamed: 0_level_0,beschreibung,beispiel,datentyp
attribut,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
FID,Index in der csv-Datei,1557496,int64
IdBundesland,Id des Bundeslandes,15,int64
Bundesland,Name des Bundeslandes,Sachsen-Anhalt,object
Landkreis,Name des Landkreises,LK Anhalt-Bitterfeld,object
Altersgruppe,Altersgruppe des Falles aus 6 Gruppen,A35-A59,object
Geschlecht,Geschlecht des Falle,W,object
AnzahlFall,Anzahl der Fälle in der entsprechenden Gruppe,1,int64
AnzahlTodesfall,Anzahl der Todesfälle in der entsprechenden Gr...,0,int64
Meldedatum,"Datum, wann der Fall dem Gesundheitsamt bekann...",2021/02/01 00:00:00,object
IdLandkreis,Id des Landkreises,15082,int64


Die vollständigen Metadaten sind ebenfalls im [Datenhub des Robert Koch-Institut](https://www.arcgis.com/home/item.html?id=f10774f1c63e40168479a1feb6c7ca74) hinterlegt.

Deutlich wird die feine Aufgliederung des Datensatzes. Statt die Fallzahlen für jeden Landkreis täglich akkumuliert zu sammeln, werden Fälle einzeln bzw. in kleinen Gruppen gemeldet. So können detailliertere Informationen zu jedem Fall gespeichert werden  (z.B. Alter, Geschlecht, Erkrankungsverlauf).

**Raum** <br>
<br>Die Fälle werden auf Landkreisebene gemeldet. Zusätzlich ist das entsprechende Bundesland ausgewiesen. Die Bundesrepublik Deutschland hat 16 Bundesländer, 294 Kreise (≙ Landkreis/LK) und 107 kreisfreie Städte (≙ Stadtkreis/SK). Letztere werden im Folgenden unter dem Begriff 'Landkreise' zusammengefasst.

In [6]:
landkreise_count_sum = df['Landkreis'].nunique()
print(f"Anzahl der Landkreise im Datensatz: {landkreise_count_sum}")

Anzahl der Landkreise im Datensatz: 412


Der Datensatz enthält 11 Landkreise mehr als erwartet. Ein Blick in die Daten zeigt, dass die kreisfreie Stadt Berlin zusätzlich in Bezirke unterteilt wurde. 

In [7]:
landkreise_count_freq = df["Landkreis"].value_counts()
berlin_count = landkreise_count_freq[landkreise_count_freq.index.str.contains("Berlin")]
berlin_bezirke = berlin_count.index.tolist()
print(f"Anzahl Berliner Bezirke: {len(berlin_bezirke)}")
print("\n")
print(berlin_bezirke)

Anzahl Berliner Bezirke: 12


['SK Berlin Neukölln', 'SK Berlin Mitte', 'SK Berlin Charlottenburg-Wilmersdorf', 'SK Berlin Pankow', 'SK Berlin Friedrichshain-Kreuzberg', 'SK Berlin Tempelhof-Schöneberg', 'SK Berlin Reinickendorf', 'SK Berlin Spandau', 'SK Berlin Lichtenberg', 'SK Berlin Steglitz-Zehlendorf', 'SK Berlin Marzahn-Hellersdorf', 'SK Berlin Treptow-Köpenick']


Komprimiert man die Bezirke, dann enthält der Datensatz die 401 Landkreise der Bundesrepublik.

**Zeit** <br>
<br>
Das Robert Koch-Institut publiziert die Falldaten seit April 2020. Jedoch sind bereits vorher gemeldete Fälle ebenfalls im Datensatz enthalten.

In [8]:
datum_count_freq = df["Meldedatum"].value_counts()
datums = datum_count_freq.index.tolist()
datums.sort()
print(f"Datum der ersten Meldung: {datums[0]}")
print(f"Datum der letzten Meldung: {datums[-1]}")
print(f"Meldetage insgesamt: {len(datums)}")

Datum der ersten Meldung: 2020/01/07 00:00:00
Datum der letzten Meldung: 2021/04/13 00:00:00
Meldetage insgesamt: 431


Im nächsten Notebook sollen die Daten für die Modellierung vorbereitet werden.