In [None]:
# Neben numpy und pandas importieren wir nun auch geopandas, eine mächtige Bibliothek zur 
# Visualisierung von Geodaten.

import pandas as pd
import numpy as np
import geopandas as gpd

# Zur generellen graphischen Darstellung von Daten benötigen wir die Bibliothek matplotlib

import matplotlib.pyplot as plt

In [None]:
# Wir laden nun unsere Shape-Datei "RKI_Corona_Landkreise.shp", die wir uns gerade vom RKI besorgt haben.
# Das Laden der daten funktioniert ähnlich wie mit der Funktion pd.read_csv, nur dass wir hier nicht 
# eine csv-Datei einladen, sondern ein spezielles Format, 
# welches geodaten enthält. Offiziell gesprochen handelt es sich hier um eine sog. Shape-Datei die wir uns 
# gleich noch etwas genauer ansehen wollen. 

kreise_path = 'RKI_Corona_Landkreise/RKI_Corona_Landkreise.shp'


# Da unsere Shape-Datei neben normalen daten auch Geodaten enthält, nutzen wir nun auch 
# unser Geodatenmodul von Python, das Modul Geopandas. Wir hatten dieses Modul ja mit der 
# Abkürzung gpd geladen und verwenden jetzt die funktion read_file() dieses Moduls

kreise = gpd.read_file(kreise_path)

In [None]:
# Wie sieht nun dieser Geodataframe aus?
# Prinzipiell nicht anders als ein normaler Datenframe, den wir schon aus Tutorial 1 kennen.
# Es handelt sich wieder um eine Tabelle mit mehreren Einträgen, d.h. 
# ein Datensatz pro Zeile und mehreren Spalten pro Zeile.
# Die Funktion head() gibt uns wieder einen Überblick und zeigt uns die ersten fünf Zeilen

kreise.head()

# Wi erkennen hier diverse Daten in den vorhandenen Spalten. 
# Auffällig ist die letzte Spalte! Sie enthält Geometriedaten. 
# Jeder Eintrag in dieser Spalte beginnt dabei mit einem Codewort und darauf folgend die eigentlichen Koordinaten.
# Schauen wir uns den ersten eintrag an: Ein Polygon ist ja ein Vieleck und die 
# folgenden Koordinaten beschreiben die Ecken des Polygons.
# Generell gesagt sind im Shape Datenformat auch Punkte oder Linien möglich, aber darauf wollen wir hier
# in diesem Beispiel nicht näher eingehen.


In [None]:
# Ja, so viele Daten in so vielen Spalten. Holen wir uns nun kur noch die Information, 
# was für Daten sich in den Spalten verstecken:
# Dazu wird wieder die Funktion info() verwendet

kreise.info()

# Wir sehen, wir haben hier 411 Einträge, das ist genau die Zahl der Städte und Kreise
# in Deutschland. Jede Zeile enthält also die daten einer Stadt bzw. eines Kreisbezirks.

# Hier gibt es eine Vielzahl von Informationen, für uns wichtig sind. Neben der Geometrie in
# Spalte 47 gibt es noch die Spalte 'county', die den Landkreisnahmen enthält und die Spalte 'BL',
# die das Bundesland des jeweiligen Landkreises enthält.

# Die Spalten mit cases und deathe enthalten die tagesaktuellen Datenwerte für Infektionen und Todesfälle

In [None]:
# Jetzt wollen wir aber endlich die Daten sichtbar machen.
# Wir bereiten nun ein Diagramm vor, in dem wir uns ein 
# gedachtes Zeichenblatt einer bestimmten Größe bereitlegen.
# Dies geschieht mit dem Matplotlib-Befehl figure, dem wir die 
# Größe und Auflösung als Parameter mitgeben. Die Größe wird standardmäßig
# als Breite und Höhe in inch angegeben. Zusätlich geben wir die Auflösung
# in Dots per inch an. Hier wählen wir den Wert 100.

fig = plt.figure(figsize=(6,8),dpi=100)

# Unser Bildschirm setzt Pixel und Dots 1:1 um, so erhalten wir so ein
# Diagramm mit der Auflösung von 600x800

# Nun müssen wir noch bekanntgeben, wie viele Diagramme auf unser Blatt Papier
# kommen sollen. Das sind die sogenannten subplots.
# man könnte zum Beispiel 6 Plots auf das Blatt Paier zeichnen lassen
# angeordnet in drei Zeilen und zwei Spalten.

# Das wolen wir aber nicht, wir wollen heute nur einen einzigen Subplot auf unser Blatt bringen
# und der soll sich über das das gesamte Zeichenblatt erstrecken.


ax=fig.add_subplot(1,1,1)

# Die drei parameter bei der Funktion add_subplot() bedeuten dabei:
#    1) über wieviel Zeilen geht der Plot
#    2) Über wieviel Spalten geht der Plot
#    3) Nummer des Subplots

# Den Subplot speichern wir in der Variable ax, damit wir mit diesem Subplot später besser arbeiten können

In [None]:
# Wir haben hier nun unserer leeres Diagramm auf dem leeren gedachten Blatt Papier.
# und nun kommt wieder diese wunderbare Eleganz von Python und seinen Modulen ins Spiel.
# Mit einem einzigen Befehl - dem Befehl plot - plotten wir nun einen kompletten GeoDatensatz 
# aus unserem Geodatenframe:

fig = plt.figure(figsize=(6,8),dpi=100)
ax=fig.add_subplot(1,1,1)
kreise.plot(ax=ax)

# Der Parameter ax=ax sagt nur in welchen subplot geplottet werden soll

In [None]:
# Hier sehen wir also jetzt die Geodaten in graphischer Darstellung.
# Das ist Deutschland, aufgeteilt in seine Kreise und Städte
# Wir wollen nun aber jede Stadt und jeden Landkreis mit seiner Inzidenz einfärben.

# Was brauchen wir dazu? 
# Wir brauchen für jeden Kreis den Inzidenzwert.
# Der ist zum Glück auch schon in unserem Geodatenframe vorhanden
# Nämlich in Spalte 45, mit dem Namen cases7_p_1 
# Hinter dieser abkürzung verbirgt sich die 7 Tage Inzidenz bezogen auf 100.000 Einwohner.

# Schauen wir uns die werte doch einmal genauer an. 
# Wir greifen uns dazu mit der locate Funktion .loc
# nur die Spalten county und cases7_p_1 aus unserem Geodatenfram heraus:

kreise.loc[:,['county', 'cases7_p_1']]

In [None]:
# Sehr schön, jeder krei und jede Inzidenz.
# Aber die Zahlen enthalten ein Komma statt einem Dezimalpunkt,
# Die Werte sind hier nicht als reine Zahlen, sondern als sog. Strings, also 
# als Buchstabenketten gespeichert.
# Um damit arbeiten zu können müssen wir erst einmal ein wenig Kosmetik betreiben.
# Wir ersetzen die Kommas durch Dezimalpunkte.
# Dazu verwenden wir die in Pytho eingebaute Stringbibliothek str und 
# deren Replace Funktion .replace()
# Wir ersetzen in allen Werten der Spalte die Kommas durch einen Punkt

kreise.cases7_p_1.str.replace(',','.')

In [None]:
# Auch das sieht gut aus, jedoch ist das Ergebnis immer noch keine reine Floating Point Zahl sondern 
# immer noch ein String. das erkennen wir an dem Datentyp, dem dtype in der letzten zeile unseres Outputs.

# Wir wiederholen also die Operation und sagen, dass unser Ergebnis aus dem letzten Schritt in 
# einen float Wert umgewandelt werden soll.
# Das geht mit der Konvertierungsfunktion .astype(), der wir als Anweisung den Zieltyp float mitgeben

kreise.cases7_p_1.str.replace(',','.').astype(float)

In [None]:
# Damit können wir nun rechnen, die gesamte Spalte enthält werte vom typ float und hat 
# damit auch Deziamlpunkte und Nachkommastellen.
# Das Ergebnis unserer Konvertierung ist aber noch nirgendwo gespeichert.
# Wir fügen es nun zu unserem Geodatenframe als neue, eigene Spalte hinzu. 
# Diese Spalte nennen wir INZ für Inzidenz.
# Also: Neue Spalte INZ gleich Ergebnis unserer Konvertierung

kreise['INZ']=kreise.cases7_p_1.str.replace(',','.').astype(float)

In [None]:
# Jetzt sind wir bereit für die Einfärbung unserer Landkarte.
# Wir kopieren unsere plot-Befehle von oben, 
# fügen aber nun einen Paramter hinzu, der bestimmt, welche Spaltenwerte zum
# Einfärben genutzt werden sollen.
# Hierzu nehmen wir unsere neue Inzidenzspalte mit dem Namen INZ

fig = plt.figure(figsize=(6,8),dpi=100)
ax=fig.add_subplot(1,1,1)
ax1=kreise.plot(ax=ax, column='INZ', legend=True)


# Damit das Ganze auch sauber gekennzeichnet wird
# fügen wir dem diagramm noch einen Titel hinzu:
# Das funktioniert mit dem Befehl set_title.
# Und dieser Befehl zum Drucken des Titels, 
# der wird angewendet auf unser Diagramm mit dem namen ax:

ax2=ax.set_title('Inzidenz Deutschland am 30.12.2021')

In [None]:
# Perfekt, das sieht doch so aus, wie wir das haben wollten.
# Angemerkt sei, dass das nur die Inzidnz eines Tages ist, namlich des tages unserer Beispieldatei!

# Für die, die noch nicht müde sind von den ganzen Daten wollen wir nch eine kleine
# Kür dranhängen.
# Ich hatte ja gesagt, dass auch der jeweilige Bundeslandname in dem Geodatenframe zu finden ist
# Wir kännen unseren Geodatenframe also filtern. Zum Beispiel nach dem bundesland bayern.
# Wir definieren einen Filter, der alle Zeilen herausfiltert, in dem das Bundesland Bayern ist:

filter=(kreise['BL']=='Bayern')

In [None]:
# Was steckt nun als Ergebnis in der variable Filter?
# Schauen wir uns das mal an, indem wir filter aufrufen:

filter[200:300]

In [None]:
# Das Ergebnis ist eine lange Liste von Wahr oder Falsch-Werten, die besagt, ob in einer zele das bundesland Bayern ist.
# Wir sehen hier in der übersicht, die ersten fünf und letzten Fünf Zeilen gehören nicht zu Bayern.

# Die Bayerischen landkriese kommen erst später. Zeigen wir mal die Zilen 200 bis 299 an:

filter[200:300]


In [None]:
# mit den Falsch Werten können wir nun Zeilen wegfiltern: Das heißt:

# Wenden wir diesen Filter auf unseren Geodatenfram an, so erhalten wir als Ergebnis
# eine reduzierte Fabelle mit nur den bayerischen Statäten und Landkreisen.
# Die ersten 5 zeilen lassen wir uns wieder mit der Head Funktion anzeigen:


kreise.loc[filter].head()

In [None]:
# Das Ergebnis speichern wir in einem neuen Geodatenfram ab, den wir kreise_bayern nennen:

kreise_bayern=kreise.loc[filter]

In [None]:
# Und nun wiederholen wir das Plotten noch einmal für die bayerischen Gemeinden:

fig = plt.figure(figsize=(6,8),dpi=100)
ax=fig.add_subplot(1,1,1)
ax1=kreise_bayern.plot(ax=ax, column='INZ', legend=True)
ax2=ax.set_title('Inzidenz Bayern am 30.12.2021')