# Barplots
## Anwendung und Funktion

<img width="400" align = "right" hspace="40" src="StudZahlOWLWiSe20_21.PNG"/> 

<div style="text-align: left" style=“line-height: 150%“>
<p></p>  
<p>
<b>Barplots</b> (dt.: Balkendiagramm) sind eine der häufigsten (wenn nicht sogar <i>die</i> häufigste) grafische Visualisierungsform. Man findet sie nicht nur in wissenschaftlichen Veröffentlichungen, sondern auch oft in der Tageszeitung oder in Berichterstattungen im Fernsehen. 
Barplots stellen den statistischen Zusammenhang zwischen einer kategorialen und einer numerischen (also ordinal- oder metrisch skalierten) Variable dar. Dabei findet sich die Ausprägung der kategorialen Variable meist als UV auf der x-Achse, und die der numerischen Variable als AV auf der y-Achse. Dann sind die Balken <i>vertikal</i> ausgerichtet. Das Diagramm kann aber, je nachdem, welcher Zusammenhang dargestellt werden soll, <i>horizontal</i> ausgerichtet sein. Das kann die Übersichtlichkeit des Diagramms erhöhen. Die Länge des Balkens repräsentiert dabei den numerischen Wert der abhängigen Variable.</p>

Barplots können geordnet oder ungeordnet dargestellt werden. Da es immer unser Ziel sein sollte, die Informationen in einer Grafik möglichst klar und verständlich zu vermittelt, ist dabei die geordnete Variante zu bevorzugen. Falls durch die Kategorien selbst keine Ordnung (zum Beispiel nach Kategorien wie Jahreszahlen oder Altersklassen) vorgegeben ist, können die Werte immer der Größe nach geordnet werden. Das vereinfacht Vergleiche von Kategorien über das Diagramm hinweg.
Möglich ist es auch gruppierte Plots zu erstellen: Dabei werden einzelnen Kategorien auf einem übergeordneten Level gruppiert (zum Beispiel nach Städten oder Jahreszahl). Außerdem können sogenannte *Stacked Barplots* erstellt werden, indem die Gruppierung in den Balken selbst eingefügt wird. Das kann zum Beispiel hilfrei sein, wenn Anteile innerhalb eines Balkens dargestellt werden sollen (zum Beispiel das Verhältnis unterschiedlicher Altersstufen bei den Wähler:innen einer bestimmten Partei). Je nach Datensatz kann das eine oder andere für schnellere und einfachere Erfassung der Unterschiede zwischen den Kategorien sorgen.
Weitere Informationen, wie zum Beispiel Schwellenwerte oder einzelne Zahlenwerte, können nach Belieben hinzugefügt werden. Beachtet werden sollte dabei, dass nur die wichtigsten Informationen eingefügt werden, um den Plot nicht zu überladen und das Verständnis der eigentlichen Aussage zu erschweren.

Barplots sollten übrigens nicht mit **Histogrammen** verwechselt werden! Diese sind grafische Darstellungen der Verteilung von metrischen Variablen und bilden keine Zusammenhänge ab, deshalb müssen sie anders interpretiert werden.

## Vor- und Nachteile
Alles in allem sind Barplots eine effiziente Art und Weise, Daten zu visualisieren. Ein großer Vorteil von Barplots ist, dass unser Gehirn besonders gut darin ist, Längen und deren Verhältnisse zu interpretieren. Da die numerischen Werte hier als Balken unterschiedlicher Längen dargestellt werden, ist es deutlich einfacher diese abzulesen, als zum Beispiel die Winkel in einem Tortendiagramm zu interpretieren. Außerdem sind Barplots sehr übersichtlich in Bezug auf die dargestellten Kategorien.

Allerdings können Barplots bei vielen Kategorien schnell unübersichtlich werden, besonders, wenn sie **vertikal** ausgerichtet sind: Es ist dann schwierig, Unterschiedsverhältnisse zwischen den Kategorien an den entgegengesetzten Enden des Plots zu interpretieren. Auch bei sehr geringen Unterschieden zwischen Kategorien können Barplots ihre Aussagekraft verlieren, wenn keine Zahlenwerte eingefügt werden.

Barplots sollten eher nicht verwendet werden, wenn es mehrere Werte innerhalb einer Gruppe gibt. Solche Informationen lassen sich in Barplots selbst mit Fehlerbalken nicht optimal darstellen, ebenso wenig wie Informationen über die Verteilung der Werte. In solchen Fällen sollten besser **Violin Plots** oder **Boxplots** verwendet werden, damit keine Informationen verloren gehen.

Wenn Barplots nicht ansprechend und hinreichend kontrastreich gestaltet werden, können sie außerdem langweilig und repetitiv wirken. Deshalb schauen wir uns später noch einige Variationen von Barplots an, die uns dabei helfen, unsere Grafiken interessanter zu gestalten. Als erstes zeigen wir die Beispiele für *vertikale* und *horizontale Barplots*. Für eine ausführliche Erläuterung der einzelnen Elemente eines Barplots schaue Dir bitte das Notebook zur *Visualisierung von Barplots* und das dazugehörige Übungsnotebook an.


## Beispiel: Vertikale und horizontale Barplots

Mit den Studierendenzahlen der 5 staatlichen Hochschulen in OWL aus dem WS 20/21, möchten wir Dir nun jeweils ein Beispiel für einen einfachen **vertikalen und horizontalen Barplot** zeigen. Schauen wir uns nun die Daten zu den 5 staatlichen Hochschulen an. (https://www.campus-owl.eu/die-fuenf-hochschulen):

**Studierende (ohne Gasthörer, Stand WS 20/21):**

* **Universität Bielefeld**: 24.940
* **Universität Paderborn**: 19.948
* **Fachhochschule Bielefeld**: 11.005
* **Technische Hochschule Ostwestfalen-Lippe**: 6.564
* **Hochschule für Musik Detmold**: 767


Zunächst müssen für diese Daten eingeben und aufbreiten:

### Dateneingabe und -aufbereitung

In [None]:
# Vektor mit Kurznamen der Hochschulen erzeugen
Hochschule_Kurz <- c("Uni Bi", "Uni Pb","FH Bi", "TH OWL","HfM Dt")
Hochschule_Kurz2 <- as.factor(Hochschule_Kurz)

# Vektor mit Studierendenzahlen in der Reihenfolge übereinstimmend mit Hochschulnamensvektor erzeugen
Stud_Zahl <- c(24940,19948,11005,6564, 767)

str(Hochschule_Kurz2) # vektoren überprüfen
str(Stud_Zahl)




### Vertikales Säulendiagramm

In [None]:
# vertikales Säulendiagramm
library(RColorBrewer)
coul <- brewer.pal(5, "Set2")# Farbe für jeden Balken festlegen

#Säulendiagramm
barplot(names= Hochschule_Kurz2, height = Stud_Zahl,
        space = 0.7,
        ylim = c(0,25000),
        col= coul,
        main="Studierende in den 5 staatlichen Hochschulen in OWL",cex.main = 1.2,
        sub = "(https://www.campus-owl.eu/die-fuenf-hochschulen)",cex.sub = 0.6,
        xlab = "Staatliche Hochschulen in OWL",cex.axis = 1.0,
        ylab= "Studierendenanzahl",
        legend.text = c("Universität Bielefeld", "Universität Paderborn", "Fachhochschule Bielefeld", "Technische Hochschule OWL","Hochschule für Musik Detmold")
        )

### Horizontales Säulendiagramm

In [None]:
# horizontales Säulendiagramm
barplot(names= Hochschule_Kurz2, height = Stud_Zahl,
        space = 0.7,
        xlim = c(0,25000),
        horiz = TRUE,
        col= coul,
        main="Studierenden in den 5 staatlichen Hochschulen in OWL",cex.main = 1.2,
        sub = "(https://www.campus-owl.eu/die-fuenf-hochschulen)",cex.sub = 0.6,
        xlab = "Staatliche Hochschulen in OWL",cex.axis = 1.0,
        ylab= "Studierendenanzahl",
        legend.text = c("Universität Bielefeld", "Universität Paderborn", "Fachhochschule Bielefeld", "Technische Hochschule OWL","Hochschule für Musik Detmold")
        )

Entscheide selbst findest Du das vertikale oder das horizontale Balkendiagramm übersichtlicher und besser zu erfassen?

# Lollipop Plots
## Anwendung und Funktion
Bei **Lollipop Plots** handelt es sich um eine beliebte Variante des klassischen Barplots. Im Grunde können Lollipop Plots die gleichen Informationen darstellen wie Barplots, sind dabei aber kontrastreicher und übersichtlicher. Lollipop Plots haben ihren Namen aufrgrund der grafischen Gestaltung der numerischen Werte: Ihre Ausprägung wird als Linie dargestellt, die in einem Punkt endet. 

Ebenso wie Barplots können Lollipop Plots *vertikal* oder *horizontal* erstellt werden. Auch hier ist meistens die horizontale Version zu bevorzugen. Wenn Kategorien gruppiert werden sollen, können diese einfach untereinander dargestellt werden. 
Besonders wichtig bei Lollipop Plots ist, dass sie geordnet werden (entweder nach Kategorien oder nach Werten), da sie sonst ihre Vorteile in der Übersichtlichkeit gegenüber Barplots verlieren. Wenn aus inhaltlichen Gründen die Kategorien nicht geordnet werden können, sollte lieber einen Barplot verwenden. 

Es gibt weitere Variationen von Lollipop Plots, zum Beispiel den **Cleveland Barplot** beziehungsweise **Dumbbell Dot Plot**. Mithilfe dessen können zwei numerische Werte innerhalb einer Kategorie verglichen werden (anstatt eine gruppierten Barplot zu verwenden). Mit diesem Plot werden wir uns hier allerdings nicht beschäftigen.

## Vor- und Nachteile
Lollipop Plots bieten grundsätzlich die gleichen Vor- und Nachteile wie Barplots. Mithilfe von Lollipop Plots lassen sich aber wichtige Effekte und Kontraste einfacher darstellen als mit regulären Barplots. Sie sind deutlich übersichtlicher und laufen selten Gefahr, mit Informationen überladen zu wirken. Das liegt am einfachen Design, das zum Beispiel ein Verschwimmen der Linien bei vielen Kategorien verhindert.
Vor allem der Einsatz von Farben und Gruppierungen sorgt zusätzlich für Struktur. Lollipop Plots sind also eine interessante und praktische Art der grafischen Darstellung von Daten, die wir uns im Folgenden näher ansehen wollen. 

**Gut zu Wissen**: Für die Erstellung von Lollipop Plots brauchen wir das R-Package *ggplot2*, die "Visualsierungs-Logik" die diesem Paket zugrundliegt ist eine andere als bei den Basis-Visualisierungsfunktionen in R. Wir werden in späteren Notebooks noch ausführlich auf die Visualisierungslogik von ggplot2 eingehen. Hier nur kurz ein paar wesentliche Prinzipien der Visualisierung in ggplot2:

Ein wichtiger Punkt ist das die Funktion *gplot()*die zum Erstellen einer Grafik mit ggplot2 verwendet wird, anders als andere Visualisierungsfunktionen in R keine *Vektoren* akzeptiert, sondern die Daten in Form eines *Dataframes* benötigt. Mit *aes()* "aesthetics"-Argument werden verschiedene Aspekte des Aussehens der Grafik weiter spezifiziert. Nach dem Basis-Setup der Grafik können weitere für die Abbildung erforderliche Ebenen definiert werden. Diese Ebenen heißen in ggplot2 *geom*.

### Einfacher vertikaler Lollipop Plot

In [None]:
# Einfacher Lollipop Plot
library(ggplot2)

data <- data.frame(    #definieren des für ggplot2 erforderliche Dataframes
    x= Hochschule_Kurz2, 
    y= Stud_Zahl
    )

# Aussehen von Achsentitel und Beschrifungen definieren
my_Theme = theme(    
  axis.title.x = element_text(size = 14, face= "bold"),
  axis.text.x = element_text(size = 12),
  axis.title.y = element_text(size = 14, face= "bold"),
  axis.text.y = element_text(size = 12))


ggplot(data, aes(x=x, y=y)) +
  geom_point() +  # fügt den Punkt hinzu
  geom_segment(aes(x=x, xend=x, y=0, yend=y)) + # zeichnet die Linie
  my_Theme +
  labs(title = "Studierende in OWL WiSe 20/21", x = "Hochschulen in OWL", y= "Studierendenanzahl")  


Wie Du siehst ist die Abbildung noch nicht ganz optimal. Etwa sind die Hochschulen nicht nach ihrer Studierendenzahl geordnet, obwohl wir den Vektor anders angelegt hatten. Wie wir dieses und weitere Probleme lösen können, zeigen wir Dir im nächsten Lollipop Plot.

### Komplexer vertikaler Lollipop Plot

In [None]:
# Komplexerer Lollipop plot
library(ggplot2)

# Dataframe definieren
data <- data.frame(   
  x= Hochschule_Kurz, 
  y= Stud_Zahl
)

# Aussehen von Achsentitel und Beschrifungen definieren
my_Theme = theme(
  axis.title.x = element_text(size = 13),
  axis.text.x = element_text(size = 12),
  axis.title.y = element_text(size = 13),
  axis.text.y = element_text(size = 12))

ggplot(data, aes(x=x, y=y)) +
  geom_segment( aes(x=factor(x, level = Hochschule_Kurz), xend=factor(x,level = Hochschule_Kurz), y=0, yend=y)) +
  geom_point( size=8, color="red", fill=alpha("orange", 0.3), alpha=1, shape=21, stroke=3) +
  my_Theme +
  labs(title = "Studierende in OWL WiSe 20/21", x = "Hochschulen in OWL", y= "Studierendenanzahl")    


Die Lösung für die falsch geordneten Lollipops ist es Vektor Hochschule_Kurz, der bereits richtig geordnet ist, erst in aes() in einen Faktor umzuwandeln.

**Aufgabe 1**: Da die Grafik immer noch optimiert werden könnte, etwa Position der Überschrift ect. probier es doch selbst einmal in dem Du einzelne Parameter der Grafik veränderst.

In [None]:
# Platz für Deine veränderte Grafik

### Horizontale komplexe Lollipop Plots

In [None]:
# Komplexerer Lollipop plot
library(ggplot2)

# Dataframe definieren
data <- data.frame(   
  x= Hochschule_Kurz, 
  y= Stud_Zahl
)

my_Theme = theme(
  axis.title.x = element_text(size = 13),
  axis.text.x = element_text(size = 12),
  axis.title.y = element_text(size = 13),
  axis.text.y = element_text(size = 12))

ggplot(data, aes(x=x, y=y)) +
  geom_segment( aes(x=factor(x, level = Hochschule_Kurz), xend=factor(x,level = Hochschule_Kurz), y=0, yend=y)) +
  geom_point( size=8, color="red", fill=alpha("orange", 0.3), alpha=1, shape=21, stroke=3) +
  my_Theme +
  labs(title = "Studierende in OWL WiSe 20/21", x = "Hochschulen in OWL", y = "Studierendenanzahl") + 
  coord_flip() 


Welche Variante von *Barplots* bevorzugst Du, *Klassische Barplots*, *vertikal* oder *horizontal* oder *Lollipop Plots*? (1) für viele Werte (2) für wenige Werte? 

Quellen: 

* https://www.data-to-viz.com
* https://www.r-graph-gallery.com/