Skip to content

🖌 Grundlagen der Datenvisualisierung mit R lernen

License

Notifications You must be signed in to change notification settings

stekhn/r-dataviz-workshop

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

4. Datenvisualisierung mit R

Datenvisualisierung ist ein mĂ€chtiges Werkzeug, um komplexe DatensĂ€tze greifbar zu machen. Die Art der Visualisierung hĂ€ngt dabei stark davon ab, ob man selbst einen Datensatz besser verstehen oder einem Publikum ein Thema grafisch nĂ€her bringen möchte. Die statistische Programmiersprache R, mit seiner Vielzahl an Erweiterung, bietet fĂŒr jeden Anwendungfall das richtige Werkzeug.

Explorative und erklÀrende Datenvisualisierung

Inhalt

Diese Seminar ist Teil des R-Bootcamps des ifp und soll Journalisten die Grundlagen der Datenvisualisierung in R vermitteln.

Wiederholung

  • Tabellen einlesen
  • Datensatz erkunden
  • Filtern und zusammenfassen

Visualisierung mit ggplot2 (Teil 1)

  • EinfĂŒhrung in ggplot2
  • Einfache Diagrammtypen
  • Small Multiples erstellen

Visualisierung mit ggplot2 (Teil 2)

  • Richtigen Diagrammtyp wĂ€hlen
  • Designvorlagen nutzen
  • Diagramme exportieren und weiterverwenden
  • Interaktive Grafiken erstellen (plotly)

Kartenvisualisierungen

  • Geodaten verwenden
  • Choroplethenkarte erstellen (Leaflet)
  • Symbolkarte erstellen (Leaflet)
  • Karten veröffentlichen

Vorbereitung

Vor Beginn des Seminar sollte jeder Teilnehmer R und RStudio installieren. RStudio ist eine integrierte Entwicklungsumgebung fĂŒr R und bietet viele nĂŒtzliche Funktionen wie Syntaxhervorhebung, AutovervollstĂ€ndigung und eine Paketverwaltung.

Nach der Installation von RStudio sollten noch folgende R-Pakete installiert werden:

install.packages(c("rmarkdown", "svglite", "tidyverse", "lubridate", "cowplot", "rgdal", "leaflet"))

Hinweis: ggplot2 und viele andere Pakete sind bereits im Paket tidyverse enthalten. FĂŒr die Beispiele im Ordner example mĂŒssen gegebenfalls zusĂ€tzliche Pakete installiert werden.

Hausaufgabe: Eurovision Song Contest

Seit 1956 ist der Eurovision Song Contest der wohl gleichzeitig beliebteste und meistgehasst Musikwettbewerb Europas. Wir wollen wissen: Wer dominiert den ESC? Wer sind die ewigen Zweiten und mit welche Sprache gewinnt man am ehesten? Die Hausaufgabe ist eine Wiederholung der Inhalte aus den letzten Seminarblöcken: Daten scrapen, verstehen und analysieren.

Alle Daten und Skripte finden sich im Ordner homework.

Hinweise und Tipps:

  • Es empfiehlt sich die Funktion des tidyverse (filter(), group_by(), summarise()) zu verwenden. Das macht die Arbeit erheblich einfacher und den Code leichter zu lesen. Der dplyr Cheat Sheet hilft dabei enorm.
  • Manche der Fragen lassen sich nicht mit Code beantworten. In diesem Fall kann man die Antworten einfach als Stichpunkte aufzuschreiben.
  • Es ist vollkommen in Ordnung Lösungen fĂŒr einzelne Probleme zu ergooglen, man sollte aber jede Lösung zumindest nachvollziehen können.
  • Wenn es unĂŒberwindbare technische Probleme beim Scrapen der Website gibt, kann die Tabelle der ESC-Gewinner auch als CSV aus unserem Github-Repo eingebunden werden.

Übung: Rechtsextreme AufmĂ€rsche

AufmĂ€rsche von rechtsextremen Parteien und Organisation rĂŒcken immer mehr in den Blick der Gesellschaft. AnschlĂ€ge von TĂ€tern aus dem rechtsextremen Umfeld, wie zuletzt in Halle und Christchurch, aber auch gewaltsamen Proteste wie in Chemnitz, zeigen, dass die rechte Szene durchaus gewaltbereit ist. Es lohnt sich daher einen Blick darauf zu werden, wo rechtsextreme Demos stattgefunden haben, wer diese organisiert und wie sich die Anzahl und Teilnehmerzahl bei diesen Veranstaltungen ĂŒber die Jahre hinweg entwickelt hat.

Bei dieser Übung geht es darum, verschiedene Thesen zum Thema rechtsextreme AufmĂ€rsche mittels Datenanalyse zu ĂŒberprĂŒfen und daraus eine Art Recherche-Notizbuch zu erstellen. DafĂŒr nutzen wir RMarkdown, ggplot und leaflet.

Alle Daten und Skripte finden sich im Ordner challenge.

Hinweise und Tipps:

  • Die Daten kommen aus mehreren kleinen Anfragen der Bundestagsfraktion „Die Linke“ und umfassen den Zeitraum von Oktober 2013 bis September 2019.
  • Die Tabellen aus den PDF-Dokumenten wurden mit Tabula extrahiert und in Google Spreadsheets bereinigt und zusammengefasst.
  • Um die Orte der AufmĂ€rsche geografisch zuordnen zu können, wurden die Daten um die Spalte Lat und Long ergĂ€nzt. DafĂŒr kam das kostenlose Online-Tool Geocode zum Einsatz.
  • Die Veranstaltungsdaten werden von Behördenmitarbeiten gepflegt und veröffentlicht. Daher gibt es kleinere Unstimmigkeiten in der Benennung von Veranstaltern und Orten. Die Spalte Kategorie bietet einen bereinigte Zuordnung der Parteien und Organisationen.

Beispiel: Twitter-API

Das Skript finden sich im Ordner example.

TastenkĂŒrzel

Wer viel in RStudio arbeitet, kann sich mit TastenkĂŒrzeln viel Zeit sparen. Hier eine Auswahl der wichtigsten TastenkĂŒrzel:

Befehl Mac OS X Windows
Arbeitsverzeichnis Ă€ndern ⌃ Ctrl + ⇧ Shift + H Strg + Shift + H
Zuweisungspfeil <- einfĂŒgen ⌄ Alt + - Alt + -
Pipe-Operator %>% einfĂŒgen ⌘ Cmd + ⇧ Shift + M Strg + Shift + M
Code mit # auskommentieren ⌃ Ctrl + ⇧ Shift + C Strg + Shift + C
Code-Block ausfĂŒhren ⌘ Cmd + ↔ Enter Strg + Enter
Ganzes Dokument ausfĂŒhren ⌃ Ctrl + ⇧ Shift + ↔ Enter Strg + Shift + Enter
Code-Block in RMarkdown einfĂŒgen ⌘ Cmd + ⌄ Alt + I Strg + Alt + I
Ganzes Dokument knitten ⌃ Ctrl + ⇧ Shift + K Strg + Shift + K

Es gibt auch ein offizielles TastenkĂŒrzel Cheat Sheet von RStudio.

Fehler finden und beheben

Error: Cannot add ggproto objects together. Did you forget to add this object to a ggplot object?
Error: attempt to use zero-length variable name

Links

Cheat Sheets

Alle Cheat Sheets finden sich auch bei RStudio auf Github. Hier eine Auswahl der wichtigsten:

Weitere Workshops

Über den Autor

Steffen KĂŒhne arbeitet als Datenjournalist beim Bayerischen Rundfunk und beschĂ€ftigt sich vor allem mit Datenanalysen und Visualisierung. Nach einem Studium der Journalistik studierte er Medieninformatik, um dann ein Volontariat als Datenjournalist und digitaler Designer bei der SĂŒddeutschen Zeitung zu beginnen. Bis 2015 arbeitete er dort in der Entwicklungsredaktion. Außerdem ist Steffen KĂŒhne als Trainer fĂŒr verschiedene Medien und Journalistenschulen tĂ€tig.

About

🖌 Grundlagen der Datenvisualisierung mit R lernen

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published