# Was ist R? 

R ist eine Programmiersprache mit einem speziellen Fokus auf der Anwendung im Bereich Statistik und 
Data-Science. In diesem Abschnitt werde ich kurz die Hintergründe und die Entstehungsgeschichte von
R erläutern und ich begründe, warum wir in der Statistik- und Datenanalyse-Ausbildung auf 
R setzen. 

Die simpelste Antwort auf die Frage "Was ist eigentlich R?" lautet: "R ist ein Dialekt von S." 
Diese Antwort ist natürlich nicht sehr befriedigend und führt direkt zur Anschlussfrage 
"Und was ist S?" Tatsächlich ist es interessant, die Entstehungsgeschichte von S und R zu kennen und 
etwas übr die zugrundeliegende Philosophie der Sprachen zu erfahren. 
Dadurch wird deutlich, worin die Unterschiede zu anderen Programmiersprachen liegen, warum
R von Informatikern und Programmierern häufig als "etwas seltsam" empfunden wird und weshalb R gerade 
für die DAtenanalyse in der Kommunikationswissenschaft besonders gut geeignet ist.
Deshalb hole ich an dieser Stelle etwas weiter aus.

## Was ist S?
Die Programmiersprache S hat ihre Wurzeln in den 1970er Jahren und wurde von John Chambers, 
Allan R. Wilks und Kollegen als internes Tool in den "Bell Telephone Laboratories" entwickelt.
Die Bell Labs waren damals Teil der Telefongesellschaft AT&T und ein bedeutendes Forschungszentrum. 
Forscher der Bel Labs haben beispielsweise mehrere Nobelpreise und Turing-Awards gewonnen. 
Heute gehören die Bell Labs zu Nokia.

Mitte der 1960er Jahre war die Rechentechnik soweit, dass die Bel Labs gemeinsam mit anderen 
Forschungseinrichtungen an einem Projekt zur Schaffung eines Mehrprozess- und Mehrbenutzerbetriebssystems arbeiteten ("Multics System", Vorläufersystem von Unix). 
Die Möglichkeit Datenanalyse-Forschung auf Großrechnern ausführen zu können war aus Sicht der Bel Laboratories sehr relevant und obwohl sie sich später nicht mehr an der Schaffung des Multics-Systems beteiligten setzten sie die Entwicklung einer Statistiksprache fort.
Zu dieser Zeit war die Idee einer Programmiersprache für Statistik völlig neu. 
Für statistische Berechnungen war es bisher nötig, den Code direkt in FORTRAN (steht für FORmula TRANslation, das war die damals dazu genutzte Sprache) zu schreiben und zwar immer wieder aufs Neue, angepasst an die jeweilige Fragestellung.

Die erste Version von S wurde 1976 nur intern veröffentlicht. In den Folgejahren fanden einige 
Veränderungen an der Sprache statt, z.B. wurde sie nun mit C als Basis und als objektorientierte 
Programmiersprache weiterentwickelt. In den 1980er Jahren vergab AT&T erstmals Lizenzen von S für 
kommerzielle Zwecke und für Bildungseinrichtungen. 
Nach der Aufteilung von AT&T wurde S an das Unternehmen Statistical Science verkauft, welches eine kommerzielle Version von S entwickelte. 
Diese Implementierung ist auch heute noch unter dem Namen *S-Plus* verfügbar.
Ihre Verbreitung ist aber sehr gering.

## Die Philosophie von S

Die neue Sprache S sollten bei der explorativen Datenanalyse und der Erstellung von Grafiken unterstützen 
und dabei schneller und möglichst flexibel sein. 
Chambers (2000) formuliert das Ziel von S so {cite}`Chambers_2000`: 
> “S is a programming language and environment for all kinds of computing involving data. 
> It has a simple goal: To turn ideas into software, quickly and faithfully”.

Insbesondere die schnelle, explorative Übersetzung von Forschungsideen in Ergebnisse war wichtig, während statistische Analyse am Beginn noch nicht so sehr im Fokus stand.

Zusätzlich zeichnet sich die Philosophie von S noch durch drei weitere Anforderungen aus, die 
während der Entwicklung an die Programmiersprache gestellt wurden (Chambers, 2020, S. 84:5 {cite}`Chambers_2020`):
1. **Convenience:** Der Aufruf von statistischen Routinen sollte möglichst "kompakt" sein. Die Anwender sollten sich nicht mit den Details wie z.B. dem Datenmanagement beschäftigen müssen. Zudem sollte der Output graphische und formatierte Ausgaben enthalten.
2. **Completeness:** Alle Zusammenfassungen, Modellierungen und Visualisierungen die in Fortran möglich 
waren, sollten auch in S möglich sein.
3. **Extensibility:** Bereits damals verstanden sich die Entwickler von S als Teil einer Datenanalyse- und 
Forschungs-Community. 
Deshalb sollte die Sprache grundsätzlich erweiterbar sein. Neue Techniken und Methoden sollten stets in S integrierbar sein.

## Die Entwicklung von R

Parallel zur Entstehung von S-Plus entwickelten die Statistiker Ross Ihaka und Robert Gentleman 
an der Universität Auckland R nach dem Vorbild von S. Die Bezeichnung *R* nimmt zum einen Bezug auf das Vorbild und geht zum anderen auf die Vornamen der beiden Entwickler zurück.
Neben der Beseitigung einiger Mängel (z.B. bei der Speicherverwaltung) war es das Ziel der beiden Statistiker neue Verfahren schneller in die Programmiersprache implementieren zu können, ohne dabei auf das Entwicklerteam von S angewiesen zu sein. 
Zudem lies sich der Quelltext gut für Lehrzwecke einsetzen. 

Nachdem Ithaka und Gentleman R zunächst nur in der Wissenschafts-Community verbreiteten und dafür 
positives Feedback erhielten, entschieden Sie sich 1995 zur Veröffentlichung der Sprache unter einer 
*General Public License* (GNU). 
Das Basis-Paket von R (base R) wird seitdem on einem etwa 20-köpfigen Kernentwicklerteam um Ross Ihaka und Robert 
Gentleman weiterentwickelt (*R Core Team*). 
Der gemeinnützige Verein *R Foundation for Statistical Computing* mit Sitz in Wien verwaltet das Urheberrecht an R 
und dient dem Zweck, die Verbreitung der Sprache zu fördern. 
Dieses Bemühen kann als sehr erfolgreich beurteilt werden.
Trotz des eingeschränkten Anwendungsfokus ist R heute laut TIOBE-Index eine der beliebtesten Programmiersprachen überhaupt. Im Oktober 2020 belegt R Platz 9 des Rankings.

## Vorzüge von R

**Modularer Aufbau.**
Die Entstehungsgeschichte der Sprache und die grundsätzlichen Designprinzipien von S wirken auch 
heute noch in R nach.
Dem Prinzip der Extensibility folgent gliedert sich R in das Grundpaket base R und eine schier unüberschaubare Vielzahl an Paketen, welche den Handlungsspielraum erheblich erweitern. 
Base R und R-Pakete werden über das *Comprehensive R  Archive Network (CRAN)* distribuiert. 
Auf der Webseite lassen sich die jeweils aktuellen Versionen von base R für die verschiedenen Betriebssysteme 
(Windows, MacOS und Linux) herunterladen. 
Zudem finden sich dort tausende Pakete mit sehr unterschiedlichen Anwendungszwecken.

**Open Source.**
Insbesondere die Veröffentlichung unter der GNU-Lizenz und der modulare Aufbau, der die flexible
Erweiterbarkeit durch R-Pakete ermöglicht, haben dazu geführt, dass heute eine große Entwickler-Community 
für R existiert. 
R war von Beginn an ein akademisch geprägtes Projekt und noch heute ist die Verbreitung im Bereich der akademischen Forschung besonders hoch.
Neue statistische Verfahren werden in R schnell implementiert: 
Viele StatistikerInnen liefern mit einem wissenschaftlichen Artikel, der eine neue Methode vorstellt 
häufig auch direkt ein R-Paket mit.
Durch die große und aktive Entwickler-Community, die auch über den akademiscchen ereich hinaus besteht, gilt R als zukunftssicher.

**Programmiersprache speziell für Datenanalyse & Statistik.**
Obwohl mit R natürlich auch andere Anwendungsfälle abbildbar sind, richtet sich R vorrangig an 
AnwenderInnen aus dem Bereich Statistik und Datenanalyse.
Als Programmiersprache für Einsteigerinnen in diesem Bereich ist R insofern besonders gut geeignet,
als dass Sie den Bedürfnissen und der Logik von Datenanalyseprojekten entgegenkommt.

**Einsteigerfreundlich & mächtig.**
R hat auch in Punkto Convenience die ursprüngliche S-Philosophie beibehalten: 
Mit R ist es einerseits möglich Datenanalyse sowohl in Form von einzelnen kleinen Skripten zu betreiben, die vielleicht zunächst nur kleine AdHoc-Fragestellungen behandeln.
Andererseits ist R eine leistungsfähige Programmiersprache die Entwicklung komplexer, ineinandergreifender  Programme ermöglicht. 
So lässt sich die Komplexität langsam steigern. Eine AnwenderIn, die zunächst nur die einfachen vorhandene Werkzeuge nimmt und anwendet, kann Schritt für Schritt  zur EntwicklerIn werden, die eigene Programme erstellt.
Die "Extensibility" von R bezieht sich somit nicht nur auf den modularen Aufbau von R in verschiedenen 
Paketen sondern auch auf die (sich steigernden) Fähigkeiten der Anwender bzw. auf die Einsatzzwecke.

**Abdeckung des gesamten Forschungsprozesses.**
Auch das Prinzip der "Completeness" findet sich nach wie vor in R. Grundsätzlich lässt sich der gesamte Forschungsprozess, von der Datengewinnung über die Datenbereinigung,
die explorative Analyse, die Modellierung bis hin zur Visualisierung und Publikation mit R unterstützen.
Insbesondere die flexible Gestaltung der Ausgabe ist Vorteilhaft. 

**Grafik-Untersützung.**
Bereits bei der Konzeption von S war die Ausgabe von Grafiken ein wesentlicher Aspekt (siehe oben). 
Mit R lassen sich Grafiken in Druckqualität erstellen.
Neben klassischen Forschungsberichten, Grafiken und Tabellen sind mit RMarkdown und R shiny auch interaktive Anwendungen und Dashboards möglich.

**Umfangreiche Hilfe-Ressourcen.**
Die hohe Verbreitung von R ist ein großer Vorteil, nicht nur in Hinblick auf den ständig wachsenden Funktionsumfang, sondern auch beim Erlernen der Sprache. Nicht nur die Entwickler-Community, auch die Anwender-Community ist sehr groß und aktiv. 
Stellt man in entsprechenden Hilfeforen eine Frage, wird eine Antort nicht lange auf sich warten lassen.
Es gibt sowohl online als auch in Form von Büchern umfangreiche Ressourcen, die in die Anwendung von R einführen oder spezielle Themen behandeln. 
Viele Manuals und Tutorials sind frei verfügbar, aber auch im kommerziellen Bereich gibt es ein umfangreiches Angebot z.B. in Form von Online-Kursen. 

**Einschränkungen.**
Trotz der vielen soeben herausgestellten Vorteile ist R natürlich kein Wundermittel und keine Eierlegende Wollmilchsau. Eine Programmiersprache, die allen Ansprüchen genügt und dabei keine Einschränkungen hat, gibt es nicht. An dieser Stelle soll nicht unerwähnt bleiben, dass AnwenderInnen die einen Hintergrund in der Informationswissenschaft oder bereits Erfahrungen mit anderen Programmiersprachen haben, R bisweilen als kompliziert, unübersichtlich oder langsam beurteilen. Zudem gilt R als "unsicher", wenn es darum geht Webapplikationen damit zu bauen.

Aus Perspektive der (sozialwissenschaftlichen) Methodenlehre überwiegen dennoch die Vorzüge. 
R kann ein guter Einstieg in die Welt des Programmierens sein. 

## Alternativen zu R
Das R eine Programmiersprache ist, die sich besonders zur Datenanalyse und zur Berechnung von 
Statistiken eignet, kam oben bereits mehrfach zur Sprache. Selbstverständlich gibt es aber auch noch
andere Software die diesen Zweck erfüllen kann. 
Einerseits gibt es eine Reihe (proprietärer) Anwendungen, die ebenfalls zur statistischen Analyse verwendet werden, wie beispielsweise SAS, Stata, MatLab oder SPSS. 
Andererseits gibt es natürlich auch andere Programmiersprachen, die gut geeignet sind um statistische
Berechnungen anzustellen. 
Zu nennen sind an dieser Stelle vor allem Python und Julia.

```{admonition} SPSS
:class: tip
In der Kommunikationswissenschaft war bisher SPSS das am weitesten verbreitete Tool. 
SPSS ist eine Statistiksoftware mit einer Benutzeroberfläche und man sich die Ausgabe von Statistiken quasi "zusammenklicken". 
Man muss die dahinterliegende Programmiersprache, welche SPSS-Syntax heißt, dazu nicht im Detail kennen. 
Allerdings nimmt die Verbreitung von SPSS in der Wissenschaft und in der Wirtschaft momentan 
deutlich ab. 
Gegen SPSS sprechen beispielsweise die hohen Lizenzkosten, die langsame Implementierung neuer Verfahren und mangelnde Schnittstellen beim Datenim- und -export sowie unzureichende Ergebnisse beim (graphischen) Output.
```

## Weiterführende Links
- [Wikipedia-Artikel zu R](https://de.wikipedia.org/wiki/R_(Programmiersprache))
- [CRAN](https://cran.r-project.org/)
- [R Foundation](https://www.r-project.org/foundation/)
- [TIOBE-Ranking](https://www.tiobe.com/tiobe-index/)
- [Vergleich Statistik-Software 1](https://www.inwt-statistics.de/blog-artikel-lesen/Statistik-Software-R_Python_SAS_SPSS_STATA_im_Vergleich.html)
- [Vergleich Statsitik-Software 2](https://novustat.com/statistik-blog/statistikprogramm-ueberblick.html)
- [Popularität von Statistik Software im Vergleich](http://r4stats.com/articles/popularity/)

## Literatur
```{bibliography} ../_bibliography/references.bib
:style: plain
```