Datenvisualisierung ist ein mĂ€chtiges Werkzeug, um komplexe DatensĂ€tze greifbar zu machen. Die Art der Visualisierung hĂ€ngt dabei stark davon ab, ob man selbst einen Datensatz besser verstehen oder einem Publikum ein Thema grafisch nĂ€her bringen möchte. Die statistische Programmiersprache R, mit seiner Vielzahl an Erweiterung, bietet fĂŒr jeden Anwendungfall das richtige Werkzeug.
Diese Seminar ist Teil des R-Bootcamps des ifp und soll Journalisten die Grundlagen der Datenvisualisierung in R vermitteln.
- Tabellen einlesen
- Datensatz erkunden
- Filtern und zusammenfassen
- EinfĂŒhrung in ggplot2
- Einfache Diagrammtypen
- Small Multiples erstellen
- Richtigen Diagrammtyp wÀhlen
- Designvorlagen nutzen
- Diagramme exportieren und weiterverwenden
- Interaktive Grafiken erstellen (plotly)
- Geodaten verwenden
- Choroplethenkarte erstellen (Leaflet)
- Symbolkarte erstellen (Leaflet)
- Karten veröffentlichen
Vor Beginn des Seminar sollte jeder Teilnehmer R und RStudio installieren. RStudio ist eine integrierte Entwicklungsumgebung fĂŒr R und bietet viele nĂŒtzliche Funktionen wie Syntaxhervorhebung, AutovervollstĂ€ndigung und eine Paketverwaltung.
Nach der Installation von RStudio sollten noch folgende R-Pakete installiert werden:
install.packages(c("rmarkdown", "svglite", "tidyverse", "lubridate", "cowplot", "rgdal", "leaflet"))
Hinweis: ggplot2 und viele andere Pakete sind bereits im Paket tidyverse enthalten. FĂŒr die Beispiele im Ordner example
mĂŒssen gegebenfalls zusĂ€tzliche Pakete installiert werden.
Seit 1956 ist der Eurovision Song Contest der wohl gleichzeitig beliebteste und meistgehasst Musikwettbewerb Europas. Wir wollen wissen: Wer dominiert den ESC? Wer sind die ewigen Zweiten und mit welche Sprache gewinnt man am ehesten? Die Hausaufgabe ist eine Wiederholung der Inhalte aus den letzten Seminarblöcken: Daten scrapen, verstehen und analysieren.
Alle Daten und Skripte finden sich im Ordner homework
.
Hinweise und Tipps:
- Es empfiehlt sich die Funktion des tidyverse (
filter()
,group_by()
,summarise()
) zu verwenden. Das macht die Arbeit erheblich einfacher und den Code leichter zu lesen. Der dplyr Cheat Sheet hilft dabei enorm. - Manche der Fragen lassen sich nicht mit Code beantworten. In diesem Fall kann man die Antworten einfach als Stichpunkte aufzuschreiben.
- Es ist vollkommen in Ordnung Lösungen fĂŒr einzelne Probleme zu ergooglen, man sollte aber jede Lösung zumindest nachvollziehen können.
- Wenn es unĂŒberwindbare technische Probleme beim Scrapen der Website gibt, kann die Tabelle der ESC-Gewinner auch als CSV aus unserem Github-Repo eingebunden werden.
AufmĂ€rsche von rechtsextremen Parteien und Organisation rĂŒcken immer mehr in den Blick der Gesellschaft. AnschlĂ€ge von TĂ€tern aus dem rechtsextremen Umfeld, wie zuletzt in Halle und Christchurch, aber auch gewaltsamen Proteste wie in Chemnitz, zeigen, dass die rechte Szene durchaus gewaltbereit ist. Es lohnt sich daher einen Blick darauf zu werden, wo rechtsextreme Demos stattgefunden haben, wer diese organisiert und wie sich die Anzahl und Teilnehmerzahl bei diesen Veranstaltungen ĂŒber die Jahre hinweg entwickelt hat.
Bei dieser Ăbung geht es darum, verschiedene Thesen zum Thema rechtsextreme AufmĂ€rsche mittels Datenanalyse zu ĂŒberprĂŒfen und daraus eine Art Recherche-Notizbuch zu erstellen. DafĂŒr nutzen wir RMarkdown, ggplot und leaflet.
Alle Daten und Skripte finden sich im Ordner challenge
.
Hinweise und Tipps:
- Die Daten kommen aus mehreren kleinen Anfragen der Bundestagsfraktion âDie Linkeâ und umfassen den Zeitraum von Oktober 2013 bis September 2019.
- Die Tabellen aus den PDF-Dokumenten wurden mit Tabula extrahiert und in Google Spreadsheets bereinigt und zusammengefasst.
- Um die Orte der AufmÀrsche geografisch zuordnen zu können, wurden die Daten um die Spalte
Lat
undLong
ergĂ€nzt. DafĂŒr kam das kostenlose Online-Tool Geocode zum Einsatz. - Die Veranstaltungsdaten werden von Behördenmitarbeiten gepflegt und veröffentlicht. Daher gibt es kleinere Unstimmigkeiten in der Benennung von Veranstaltern und Orten. Die Spalte
Kategorie
bietet einen bereinigte Zuordnung der Parteien und Organisationen.
Das Skript finden sich im Ordner example
.
Wer viel in RStudio arbeitet, kann sich mit TastenkĂŒrzeln viel Zeit sparen. Hier eine Auswahl der wichtigsten TastenkĂŒrzel:
Befehl | Mac OS X | Windows |
---|---|---|
Arbeitsverzeichnis Ă€ndern | â Ctrl + ⧠Shift + H | Strg + Shift + H |
Zuweisungspfeil <- einfĂŒgen |
â„ Alt + - | Alt + - |
Pipe-Operator %>% einfĂŒgen |
â Cmd + ⧠Shift + M | Strg + Shift + M |
Code mit # auskommentieren |
â Ctrl + ⧠Shift + C | Strg + Shift + C |
Code-Block ausfĂŒhren | â Cmd + â” Enter | Strg + Enter |
Ganzes Dokument ausfĂŒhren | â Ctrl + ⧠Shift + â” Enter | Strg + Shift + Enter |
Code-Block in RMarkdown einfĂŒgen | â Cmd + â„ Alt + I | Strg + Alt + I |
Ganzes Dokument knitten | â Ctrl + ⧠Shift + K | Strg + Shift + K |
Es gibt auch ein offizielles TastenkĂŒrzel Cheat Sheet von RStudio.
Error: Cannot add ggproto objects together. Did you forget to add this object to a ggplot object?
Error: attempt to use zero-length variable name
- R for Data Science: Grundlagen der Datenanalyse und -visualisierung in R
- Modern R with tidyverse: allgemeine (und eher abstrakte) EinfĂŒhrung in R
- Tidyverse Style Guide: gute Empfehlungen wie man sauberen R-Code schreibt
- RMarkdown â The Definitive Guide: alle Funktionen von RMarkdown gut und anhand von Beispielen erklĂ€rt
- RMarkdown â Theme Gallery: Ăbersicht aller Designvorlagen fĂŒr RMarkdown
- R Base Graphs: einfache Diagramme mit R erstellen
- Financial Times â Visual Vocabulary: riesiges Poster mit verschieden Visualisierungsarten bietet
- Data Visualisation Catalogue: Katalog der verschieden Visualisierungen, oft mit Beispielen und Tool-Empfehlungen
- Datawrapper Blog: groĂartige EinfĂŒhrungen und Anleitungen zu verschiedene Dataviz-Themen
- Color Brewer: nĂŒtzliche Farbpaletten und -skalen fĂŒr Diagramme und Karten
- Color Palette Helper: Farbpaletten mit eigenen Farben zusammenstellen
- Mapshaper: Shapefiles und verwandte Geodaten vereinfachen und in andere Formate konvertieren
- Leaflet Providers: Liste der offenen Grundlagenkarten fĂŒr Leaflet (und andere Kartenwerkzeuge)
- Leaflet for R: Dokumentation von R Leaflet mit vielen Beispielen
- Overpass Turbo: Geodaten aus Open Street Map abfragen und exportieren
- Localfocus Geocode: Orten und Adressen in Geo-Koordinaten umwandeln
Alle Cheat Sheets finden sich auch bei RStudio auf Github. Hier eine Auswahl der wichtigsten:
- Grundlagen der Programmierung mit HTML, CSS und JavaScript
- Datenvisualisierung mit D3.js lernen
- Kartenvisualisierung mit Leaflet lernen
Steffen KĂŒhne arbeitet als Datenjournalist beim Bayerischen Rundfunk und beschĂ€ftigt sich vor allem mit Datenanalysen und Visualisierung. Nach einem Studium der Journalistik studierte er Medieninformatik, um dann ein Volontariat als Datenjournalist und digitaler Designer bei der SĂŒddeutschen Zeitung zu beginnen. Bis 2015 arbeitete er dort in der Entwicklungsredaktion. AuĂerdem ist Steffen KĂŒhne als Trainer fĂŒr verschiedene Medien und Journalistenschulen tĂ€tig.
- Webseite: stekhn.de
- Github: stekhn
- Twitter: stekhn
- LinkedIn: stekhn
- Xing: Steffen KĂŒhne