In [29]:
import ipywidgets as widgets
from IPython.display import Markdown
from IPython.display import Code

output = {}
value = {}

def toggle_button_observer(change):
    id = change['owner'].model_id
    # description = change['owner'].description
    
    with output[id]:
        if change["new"]:
            output[id].clear_output()
            display(value[id])
        else:
            output[id].clear_output()
            

<div class="alert alert-block alert-danger">
<b>Wichtig:</b><br>
Führen Sie vor der Bearbeitung der Übungsaufgaben bitte einmalig die Funktion <b><i>Cell --> Run All</i></b> aus. Dies initialisiert die Hilfestellungen zu den Aufgaben. 
</div>

# Übungsaufgabe Datenanalyse in Python

In dieser Übung analysieren Sie die Entwicklung der Corona-Epidemie in Deutschland auf Basis aktueller Zahlen des Robert-Koch-Instituts (RKI). 

Zur Datenanalyse verwenden Sie neben den grundlegenden Python-Möglichkeiten insbesondere Funktionen der Bibliotheken `pandas` und `matplotlib`.

<div class="alert alert-block alert-info">
<b>Tipp:</b><br> 
Verwenden Sie bei der Bearbeitung der Übung ein <i>Cheat Sheet</i> für die von Ihnen verwendeten Bibliotheken. 
Ein beispielhaftes <i>Cheat Sheet</i> zu <code>pandas</code> finden Sie <a href="https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf">hier</a>. 
Weitere Alternativen finden Sie bspw. <a href="https://blog.finxter.com/pandas-cheat-sheets">unter diesen Link</a>. Oder googlen Sie mit Suchbegriffen wie bspw. "cheat sheet &lt;bibliothek&gt;".
</div>

## 1 Import von Bibliotheken und allgemeine Einstellungen

### Aufgabe

* Installieren und importieren Sie die von Ihnen benötigten Bibliotheken. 
* Verwenden Sie zusätzlich den jupyter-Befehl `%matplotlib inline` um im Code erzeuge Plots direkt im Notebook anzuzeigen.

In [30]:
toggle = {}

### Tipp

toggle['tipp'] = widgets.ToggleButton(
    value = False,
    description='Tipp',
    disabled=False,
    button_style='info', # 'success', 'info', 'warning', 'danger' or ''
    tooltip='Tipp',
    icon='info' # (FontAwesome names without the `fa-` prefix)
)

tipp = '''
* Verwenden Sie den pip-Befehl: `!pip install <modul>` 
* Verwenden Sie das import-statement: `import <modul> as <name>`
'''    

value[toggle['tipp'].model_id] = Markdown(tipp)

### Step

toggle['step'] = widgets.ToggleButton(
    value = False,
    description='Schritte',
    disabled=False,
    button_style='warning', # 'success', 'info', 'warning', 'danger' or ''
    tooltip='Schritte',
    icon='question' # (FontAwesome names without the `fa-` prefix)
)
        
step = '''
1. Installieren Sie die Bibliothek `pandas`
2. Installieren Sie die Bibliothek `matplotlib`
3. Importieren Sie die Bibliothek `pandas`
4. Importieren Sie die Bibliothek `matplotlib`
5. Ergänzen Sie den Befehl `%matplotlib inline`
'''

value[toggle['step'].model_id] = Markdown(step)

### Solution

toggle['solution'] = widgets.ToggleButton(
    value = False,
    description='Lösung',
    disabled=False,
    button_style='danger', # 'success', 'info', 'warning', 'danger' or ''
    tooltip='Lösung',
    icon='exclamation' # (FontAwesome names without the `fa-` prefix)
)

solution = """
!pip install pandas
!pip install matplotlib

import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline
"""

value[toggle['solution'].model_id] = Code(solution)

### Register observer & display

out = widgets.Output(layout=widgets.Layout(border = '1px solid black'))
for t in toggle.values(): 
    output[t.model_id] = out
    t.observe(toggle_button_observer, "value")

display(widgets.HBox([toggle['tipp'], toggle['step'], toggle['solution']]))
display(out)

HBox(children=(ToggleButton(value=False, button_style='info', description='Tipp', icon='info', tooltip='Tipp')…

Output(layout=Layout(border='1px solid black'))

## 2 Datenbeschaffung

Auf der folgenden Website finden Sie Informationen zu den vom RKI veröffentlichen Corona-Daten: 

https://npgeo-corona-npgeo-de.hub.arcgis.com/datasets/dd4580c810204019a7b8eb3e0b329dd6_0

### Aufgabe

* Lesen Sie die Daten in einen `pandas.DataFrame`ein. 
* Wie viele Zeilen bzw. Spalten umfasst der Datensatz?
* Verschaffen Sie sich einen Überblick über die Datenattribute: Benennung, Inhalt, Datentypen. 
* Geben Sie die ersten 10 Datensätze des `DataFrame`aus.

In [31]:
toggle = {}

### Tipp

toggle['tipp'] = widgets.ToggleButton(
    value = False,
    description='Tipp',
    disabled=False,
    button_style='info', # 'success', 'info', 'warning', 'danger' or ''
    tooltip='Tipp',
    icon='info' # (FontAwesome names without the `fa-` prefix)
)

tipp = '''
Verwenden Sie bspw. die folgenden Funktionen:
* `pandas.read_csv`
* `pandas.DataFrame.info`
* `pandas.DataFrame.head`
'''    

value[toggle['tipp'].model_id] = Markdown(tipp)

### Step

toggle['step'] = widgets.ToggleButton(
    value = False,
    description='Schritte',
    disabled=False,
    button_style='warning', # 'success', 'info', 'warning', 'danger' or ''
    tooltip='Schritte',
    icon='question' # (FontAwesome names without the `fa-` prefix)
)
        
step = '''
1. Identifizieren Sie die URL der Datenquelle.
2. Importieren Sie die Daten über die Funktion `pandas.read_csv` in einen `DataFrame`. Laden Sie die Daten vorab als CSV-Datei herunter oder rufen Sie die Funktion direkt mit der URL als Parameter auf.
3. Nutzen Sie die Funktion `pandas.DataFrame.info` um einen Überblick über den `DataFrame` zu bekommen. 
4. Nutzen Sie die Funktion `pandas.DataFrame.head`zur Ausgabe der ersten Zeilen des 'DataFrame'.
'''

value[toggle['step'].model_id] = Markdown(step)

### Solution

toggle['solution'] = widgets.ToggleButton(
    value = False,
    description='Lösung',
    disabled=False,
    button_style='danger', # 'success', 'info', 'warning', 'danger' or ''
    tooltip='Lösung',
    icon='exclamation' # (FontAwesome names without the `fa-` prefix)
)

solution = """
rki_data = pd.read_csv('https://opendata.arcgis.com/datasets/dd4580c810204019a7b8eb3e0b329dd6_0.csv');

display(rki_data.info())

display(rki_data.head(10))
"""

value[toggle['solution'].model_id] = Code(solution)

### Register observer & display

out = widgets.Output(layout=widgets.Layout(border = '1px solid black'))
for t in toggle.values(): 
    output[t.model_id] = out
    t.observe(toggle_button_observer, "value")

display(widgets.HBox([toggle['tipp'], toggle['step'], toggle['solution']]))
display(out)

HBox(children=(ToggleButton(value=False, button_style='info', description='Tipp', icon='info', tooltip='Tipp')…

Output(layout=Layout(border='1px solid black'))

## 3 Datenverständnis & -aufbereitung

### Aufgabe

Ändern Sie den Typ des Attributs *Meldedatum* auf den Datentyp `datetime`.

In [32]:
toggle = {}

### Tipp

toggle['tipp'] = widgets.ToggleButton(
    value = False,
    description='Tipp',
    disabled=False,
    button_style='info', # 'success', 'info', 'warning', 'danger' or ''
    tooltip='Tipp',
    icon='info' # (FontAwesome names without the `fa-` prefix)
)

tipp = '''
Verwenden Sie die Funktion `pandas.to_datetime`.
'''    

value[toggle['tipp'].model_id] = Markdown(tipp)

### Step

toggle['step'] = widgets.ToggleButton(
    value = False,
    description='Schritte',
    disabled=False,
    button_style='warning', # 'success', 'info', 'warning', 'danger' or ''
    tooltip='Schritte',
    icon='question' # (FontAwesome names without the `fa-` prefix)
)
        
step = '''
1. Rufen Sie die Funktion ´pandas.to_datetime´ auf der Spalte *Meldedatum* auf.
2. Weisen Sie der Spalte *Meldedatum* das Ergebnis des Funktionsaufrufs zu.
3. Prüfen Sie, ob Ihre Befehle das gewünschte Ergebnis erzeugt haben.
'''

value[toggle['step'].model_id] = Markdown(step)

### Solution

toggle['solution'] = widgets.ToggleButton(
    value = False,
    description='Lösung',
    disabled=False,
    button_style='danger', # 'success', 'info', 'warning', 'danger' or ''
    tooltip='Lösung',
    icon='exclamation' # (FontAwesome names without the `fa-` prefix)
)

solution = """
rki_data['Meldedatum'] = pd.to_datetime(rki_data['Meldedatum'], format = "%Y-%m-%d")

display(rki_data.info())
"""

value[toggle['solution'].model_id] = Code(solution)

### Register observer & display

out = widgets.Output(layout=widgets.Layout(border = '1px solid black'))
for t in toggle.values(): 
    output[t.model_id] = out
    t.observe(toggle_button_observer, "value")

display(widgets.HBox([toggle['tipp'], toggle['step'], toggle['solution']]))
display(out)

HBox(children=(ToggleButton(value=False, button_style='info', description='Tipp', icon='info', tooltip='Tipp')…

Output(layout=Layout(border='1px solid black'))

### Aufgabe

Beantworten Sie die folgenden Fragen unter Nutzung geeigneter Funktionen von `pandas.Dataframe`:
* Welche Zeitspanne (bezogen auf das *Meldedatum*) umfasst der Datensatz?
* Welche Dauer hat diese Zeitspanne in Tagen?
* Wie viele unterschiedliche Landkreise bzw. kreisfreie Städte sind im Datensatz vorhanden?
* Welche Kennung / ID hat die Stadt Düsseldorf?
* Welche Anzahlen an Fällen und Todesfällen hat die Stadt Düsseldorf mit der aktuellsten Meldung im Datensatz übermittelt?

In [33]:
toggle = {}

### Tipp

toggle['tipp'] = widgets.ToggleButton(
    value = False,
    description='Tipp',
    disabled=False,
    button_style='info', # 'success', 'info', 'warning', 'danger' or ''
    tooltip='Tipp',
    icon='info' # (FontAwesome names without the `fa-` prefix)
)

tipp = '''
Verwenden Sie bspw. die folgenden Funktion:
* `pandas.DataFrame.min`
* `pandas.DataFrame.max`
* `pandas.DataFrame.nunique`
* `pandas.Series.str.contains`
'''    

value[toggle['tipp'].model_id] = Markdown(tipp)

### Step

toggle['step'] = widgets.ToggleButton(
    value = False,
    description='Schritte',
    disabled=False,
    button_style='warning', # 'success', 'info', 'warning', 'danger' or ''
    tooltip='Schritte',
    icon='question' # (FontAwesome names without the `fa-` prefix)
)
        
step = '''
1. Ermitteln Sie die minimalen und maximalen Werte der Spalte *Meldedatum*.
2. Bilden Sie die Differenz aus den ermittelten Werten zur Ermittlung der gesuchten Dauer.
3. Ermitteln Sie die Anzahl unterschiedlicher Werte in den Spalten *IdLandkreis* oder *Landkreis*.
4. Filtern Sie die Zeilen heraus, die in der Spalte *Landkreis* den `String` "Düsseldorf" enthalten und geben Sie die Werte der Spalte *IdLandkreis* aus.
'''

value[toggle['step'].model_id] = Markdown(step)

### Solution

toggle['solution'] = widgets.ToggleButton(
    value = False,
    description='Lösung',
    disabled=False,
    button_style='danger', # 'success', 'info', 'warning', 'danger' or ''
    tooltip='Lösung',
    icon='exclamation' # (FontAwesome names without the `fa-` prefix)
)

solution = """
# Zeitspanne
display("Zeitspanne von: " + rki_data['Meldedatum'].min().strftime('%d.%m.%Y'))
display("Zeitspanne bis: " + rki_data['Meldedatum'].max().strftime('%d.%m.%Y'))

# Dauer
display("Dauer: " + str(rki_data['Meldedatum'].max() - rki_data['Meldedatum'].min()))

# Anzahl unterschiedlicher Landkreise
display(rki_data['IdLandkreis'].nunique())
display(rki_data['Landkreis'].nunique())

# ID von Düsseldorf
display(rki_data.loc[rki_data['Landkreis'].str.contains("Düsseldorf"), ['Landkreis','IdLandkreis']].drop_duplicates())
"""

value[toggle['solution'].model_id] = Code(solution)

### Register observer & display

out = widgets.Output(layout=widgets.Layout(border = '1px solid black'))
for t in toggle.values(): 
    output[t.model_id] = out
    t.observe(toggle_button_observer, "value")

display(widgets.HBox([toggle['tipp'], toggle['step'], toggle['solution']]))
display(out)

HBox(children=(ToggleButton(value=False, button_style='info', description='Tipp', icon='info', tooltip='Tipp')…

Output(layout=Layout(border='1px solid black'))

## 4 Gruppierung und Aggregation

### Aufgabe

Erzeugen Sie die folgenden Auswertungen in Form von `DataFrames`:

* Summierte Fallzahlen pro Bundesland, nach Fallszahlen absteigend sortiert
* Summierte Fallzahlen pro Altersgruppe, nach Altersgruppen aufsteigend sortiert
* Summierte Todeszahlen pro Altersgruppe, nach Altersgruppen aufsteigend sortiert
* Welche Anzahlen an Fällen und Todesfällen hat die Stadt Düsseldorf mit der aktuellsten Meldung im Datensatz übermittelt?

In [34]:
toggle = {}

### Tipp

toggle['tipp'] = widgets.ToggleButton(
    value = False,
    description='Tipp',
    disabled=False,
    button_style='info', # 'success', 'info', 'warning', 'danger' or ''
    tooltip='Tipp',
    icon='info' # (FontAwesome names without the `fa-` prefix)
)

tipp = '''
Verwenden Sie bspw. die folgenden Funktionen:
* `pandas.DataFrame.groupby`
* `pandas.DataFrame.sum`
* `pandas.DataFrame.sort_values`
* `pandas.DataFrame.max`
'''    

value[toggle['tipp'].model_id] = Markdown(tipp)

### Step

toggle['step'] = widgets.ToggleButton(
    value = False,
    description='Schritte',
    disabled=False,
    button_style='warning', # 'success', 'info', 'warning', 'danger' or ''
    tooltip='Schritte',
    icon='question' # (FontAwesome names without the `fa-` prefix)
)
        
step = '''
Gehen Sie jeweils folgendermaßen vor:
1. Selektieren Sie über eine Indizierung die auszugebenden Spalten.
2. Verwenden Sie hierbei ggf. eine Selektion mit Bedingungen.
3. Gruppieren Sie das Ergebnis der Selektion mit der Funktion `pandas.DataFrame.groupby` nach den genannten Attributen.
4. Aggregieren Sie das auszuwertende Attribut mit einer geeigneten Funktion, bspw. `pandas.DataFrame.sum`.
5. Sortieren Sie die Ausgabe über die Funktion `pandas.DataFrame.sort_values`.
'''

value[toggle['step'].model_id] = Markdown(step)

### Solution

toggle['solution'] = widgets.ToggleButton(
    value = False,
    description='Lösung',
    disabled=False,
    button_style='danger', # 'success', 'info', 'warning', 'danger' or ''
    tooltip='Lösung',
    icon='exclamation' # (FontAwesome names without the `fa-` prefix)
)

solution = """
# Summierte Fallzahlen pro Bundesland, nach Fallzahlen absteigend sortiert
display(rki_data[['Bundesland','AnzahlFall']].groupby(by='Bundesland').sum().sort_values('AnzahlFall', ascending=False))

# Summierte Fallzahlen pro Altersgruppe, nach Alterssgruppen absteigend sortiert
display(rki_data[['Altersgruppe','AnzahlFall']].groupby(by='Altersgruppe').sum().sort_values('Altersgruppe'))

# Summierte Todeszahlen pro Altersgruppe, nach Altersgruppen aufsteigend sortiert
display(rki_data[['Altersgruppe', 'Geschlecht', 'AnzahlTodesfall']].groupby(by=['Altersgruppe','Geschlecht']).sum().sort_values(['Altersgruppe', 'Geschlecht']))

# aktuellste Fallzahlen von Düsseldorf
most_recent_date = rki_data[rki_data['IdLandkreis'] == 5111]['Meldedatum'].max()
display(most_recent_date)
display(rki_data[(rki_data['Meldedatum'] == most_recent_date) & (rki_data['IdLandkreis'] == 5111)][['AnzahlFall','AnzahlTodesfall']].sum())
"""

value[toggle['solution'].model_id] = Code(solution)

### Register observer & display

out = widgets.Output(layout=widgets.Layout(border = '1px solid black'))
for t in toggle.values(): 
    output[t.model_id] = out
    t.observe(toggle_button_observer, "value")

display(widgets.HBox([toggle['tipp'], toggle['step'], toggle['solution']]))
display(out)

HBox(children=(ToggleButton(value=False, button_style='info', description='Tipp', icon='info', tooltip='Tipp')…

Output(layout=Layout(border='1px solid black'))

## 5 Visualisierung

### Aufgabe

Erzeugen Sie die folgenden graphischen Abbildungen unter Nutzung von `pandas`und `matplotlib`:

* Liniendiagramm der gemeldeten Fälle pro Tag über den gesamten Zeitraum
* Säulendiagramm der gemeldeten Fälle pro Monat über den gesamten Zeitraum
* kombiniertes Liniendiagramm 
    * der gemeldeten Fälle pro Tag über den gesamten Zeitraum (s.o.) und
    * des rollierenden 7-Tages-Schnitts der gemeldeten Fälle über den gesamten Zeitraum
* Liniendiagramm der kumulierten gemeldeten Fälle pro Tag über den gesamten Zeitraum
* Säulendiagramm der gemeldeten Fälle pro Tag in Düsseldorf über die letzten 3 Wochen

In [35]:
toggle = {}

### Tipp

toggle['tipp'] = widgets.ToggleButton(
    value = False,
    description='Tipp',
    disabled=False,
    button_style='info', # 'success', 'info', 'warning', 'danger' or ''
    tooltip='Tipp',
    icon='info' # (FontAwesome names without the `fa-` prefix)
)

tipp = '''
Verwenden Sie bspw. die folgenden Funktionen:
* `pandas.DataFrame.groupby`
* `pandas.DataFrame.sum`
* `pandas.DataFrame.cumsum`
* `pandas.DataFrame.mean`
* `pandas.DataFrame.plot`
* `pandas.DataFrame.rolling`
* `matplotlib.pyplot.figure`
'''    

value[toggle['tipp'].model_id] = Markdown(tipp)

### Step

toggle['step'] = widgets.ToggleButton(
    value = False,
    description='Schritte',
    disabled=False,
    button_style='warning', # 'success', 'info', 'warning', 'danger' or ''
    tooltip='Schritte',
    icon='question' # (FontAwesome names without the `fa-` prefix)
)
        
step = '''
Gehen Sie jeweils folgendermaßen vor:
1. Verwenden Sie die Funktion `matplotlib.pyplot.figure` zur Erzeugung einer neuen `figure`.
1. Selektieren Sie über eine Indizierung die auszugebenden Spalten.
2. Verwenden Sie hierbei ggf. eine Selektion mit Bedingungen.
3. Gruppieren und Aggregieren Sie Daten falls notwendig.
4. Erweitern Sie den `DataFrame`um neue, berechnete Spalten falls notwendig. 
5. Plotten Sie den erzeugten Dataframe mit der Funktion `pandas.DataFrame.plot`
'''

value[toggle['step'].model_id] = Markdown(step)

### Solution

toggle['solution'] = widgets.ToggleButton(
    value = False,
    description='Lösung',
    disabled=False,
    button_style='danger', # 'success', 'info', 'warning', 'danger' or ''
    tooltip='Lösung',
    icon='exclamation' # (FontAwesome names without the `fa-` prefix)
)

solution = """
import datetime

# Liniendiagramm der gemeldeten Fälle pro Tag über den gesamten Zeitraum
plt.figure()
display(rki_data[['Meldedatum','AnzahlFall']].groupby(by='Meldedatum').sum().plot(kind='line'))

# Säulendiagramm der gemeldeten Fälle pro Monat über den gesamten Zeitraum
plt.figure()
rki_data['Monat'] = pd.DatetimeIndex(rki_data['Meldedatum']).month
rki_data[['Monat','AnzahlFall']].groupby(by='Monat').sum().plot(kind='bar')

# Liniendiagramm der gemeldeten Fälle und des 7-Tages-Schnitts der gemeldeten Fälle über den gesamten Zeitraum
rki_data_grouped = rki_data[['Meldedatum','AnzahlFall']].groupby(by='Meldedatum').sum()
plt.figure()
rki_data_grouped['Rollierend7Tage'] = rki_data_grouped['AnzahlFall'].rolling(7).mean()
rki_data_grouped.plot()

# Liniendiagramm der kumulierten gemeldeten Fälle pro Tag über den gesamten Zeitraum
plt.figure()
rki_data_grouped['AnzahlFallKumuliert'] = rki_data_grouped['AnzahlFall'].cumsum()
rki_data_grouped['AnzahlFallKumuliert'].plot(kind='line')

# Säulendiagramm der gemeldeten Fälle in Düsseldorf über die letzten 3 Wochen
plt.figure()
start = datetime.datetime.today() - datetime.timedelta(weeks=3)
rki_data.loc[(rki_data['Meldedatum'] > start) & (rki_data['IdLandkreis'] == 5111), ['Meldedatum', 'AnzahlFall']].groupby(by='Meldedatum').sum().plot(kind='bar')
"""

value[toggle['solution'].model_id] = Code(solution)

### Register observer & display

out = widgets.Output(layout=widgets.Layout(border = '1px solid black'))
for t in toggle.values(): 
    output[t.model_id] = out
    t.observe(toggle_button_observer, "value")

display(widgets.HBox([toggle['tipp'], toggle['step'], toggle['solution']]))
display(out)

HBox(children=(ToggleButton(value=False, button_style='info', description='Tipp', icon='info', tooltip='Tipp')…

Output(layout=Layout(border='1px solid black'))

## 6 Freie Analyse

### Aufgabe

Erzeugen Sie eine Auswertung / Visualisierung frei nach Ihrem Interesse!