<a href="https://colab.research.google.com/github/redadmiral/python-for-journalists/blob/main/lessons/VisualisierungDatawrapper.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Visualisierung mit Datawrapper: Diagramme

In dieser Sitzung widmen wir uns dem Visualisieren unserer Ergebnisse mit [Datawrapper](https://app.datawrapper.de/chart/RFPfn/publish).

Datawrapper ist ein Visualisierungstool, das in den meisten Fällen gratis genutzt werden kann und in vielen Redaktionen verbreitet ist.

In diesem Notebook erzeugen wir nur die Daten für die Visualisierung, der Rest passiert über die Oberfläche in Datawrapper.

Wir behandeln hier nur sehr elementare Datenvisualisierungen. Der [Visual Almanach der Financial Times](https://ft-interactive.github.io/visual-vocabulary/) liefert aber einen sehr guten Überblick über verschiedene Darstellungsformen für verschiedene Zwecke.

Im ersten Schritt importieren wir Pandas und laden den Datensatz mit den Züricher Hundedaten:

In [12]:
import pandas as pd

dogs = pd.read_csv("https://data.stadt-zuerich.ch/dataset/sid_stapo_hundebestand_od1001/download/KUL100OD1001.csv")

## Barchart

Zuerst erzeugen wir ein Barchart - also ein Balkendiagramm. 

Balkendiagramme sind meistens die sichere Variante, um kategorielle Daten zu visualisieren. In diesem Fall sind die Jahre unsere Kategorien. Linien- und Flächendiagramme sollten wir nur dann wählen, wenn die Daten kontinuierlich erhoben sind und nicht auf Monate oder Jahre aggregiert sind.

Wir wollen ein Diagramm für die Recherchefrage "Wie hat sich der Hundebestand in Zürich über die Jahre entwickelt?" erstellen. Wir gruppieren den Datensatz dafür wieder nach Jahren.

In [13]:
dogs_by_year = pd.DataFrame()
dogs_by_year["count"] = dogs.groupby("StichtagDatJahr").count()["DatenstandCd"]
dogs_by_year

Unnamed: 0_level_0,count
StichtagDatJahr,Unnamed: 1_level_1
2015,6951
2016,6899
2017,7124
2018,7372
2019,7616
2020,7815
2021,8546
2022,9149
2023,9495


Und schreiben ihn als `dogs_by_year.csv` auf die Festplatte.

In [20]:
dogs_by_year.to_csv("dogs_by_year.csv")

## Stacked Barcharts

Eine komplexere Form des Balkendiagramms ist das gestapelte oder das gruppierte Balkendiagramm, wo eine Hauptkategorie (in unserem Fall das Jahr) eine Unterkategorie mit mehreren Ausprägungen haben kann. Als Unterkategorie bietet sich bei unserem Datensatz das Geschlecht der Hunde an.



Dafür gruppieren wir den Datensatz nach Jahr und Geschlecht. 

Mit der `unstack()`-Methode lösen wir den Multi-Index auf, so dass wir eine normale Tabelle bekommen, denn Datawrapper kann nicht mit Multi-Indizes arbeiten.

In [38]:
dogs_by_year_sex = pd.DataFrame(dogs.groupby(["StichtagDatJahr", "SexLang"]).count()["HalterId"])
dogs_by_year_sex.columns = ["count"]
dogs_by_year_sex = dogs_by_year_sex.unstack()
dogs_by_year_sex

Unnamed: 0_level_0,count,count
SexLang,männlich,weiblich
StichtagDatJahr,Unnamed: 1_level_2,Unnamed: 2_level_2
2015,2188,4763
2016,2154,4745
2017,2188,4936
2018,2259,5113
2019,2363,5253
2020,2429,5386
2021,2654,5892
2022,2805,6344
2023,2947,6548


Und dann schreiben wir die entstandene Tabelle wieder auf Platte:

In [39]:
dogs_by_year_sex.to_csv("dogs_by_year_sex.csv")

## Karten

Man kann zwei Hauptkategorien von Karten erstellen, Locator Maps und Choropleth Maps. Wir beschränken uns heute auf Choropleth Karten.

Choropleth Karten zeichenen eine vorher definierte Form mit einer Farbe aus, die sich am Wert orientert. Für Locator-Maps bräuchten wir Punkte auf der Karte - und die haben wir nicht.

Für die Kartendarstellung gruppieren wir den Datensatz nach Quartieren.

In [44]:
dogs_by_quarter = pd.DataFrame(dogs.groupby("QuarLang").count()["HalterId"])
dogs_by_quarter.columns = ["count"]
dogs_by_quarter

Unnamed: 0_level_0,count
QuarLang,Unnamed: 1_level_1
Affoltern,4109
Albisrieden,3251
Alt-Wiedikon,2656
Altstetten,5548
City,146
Enge,2050
Escher Wyss,1383
Fluntern,2340
Friesenberg,1486
Gewerbeschule,923


In [45]:
dogs_by_quarter.to_csv("dogs_by_quarter.csv")