# Einführung in R
### Grundlagenmodul Stochastik Wintersemester 2021/22


## Was ist R
- R ist eine freie Programmiersprache für statistisches Rechnen und statistische Grafiken. Es eignet sich besonders um große Datenmengen zu untersuchen (bzw. mit ihnen zu arbeiten) und die Daten mit Grafiken zu visualisieren.
- R ist mittlerweile eines der wichtigsten Statistik-Programme, neben SAS und SPSS.
- R basiert auf der Programmiersprache S und ist mit dieser weitgehend kompatibel.

## Installation
- Programmdateien für Windows, Mac und Linux 
https://cran.r-project.org/
- R-Studio für Windows, Mac und Linux https://rstudio.com/products/rstudio/download/#download

## Online Versionen ohne Installation
- Hier, jupyterhub der Uni
- R-Studio Cloud http://rstudio.cloud

## Verwendung von JupyterHub
### Starten der interaktiven R-Konsole
- File -> New -> Terminal
- R (ENTER)

```
R version 4.1.1 (2021-08-10) -- "Kick Things"
Copyright (C) 2021 The R Foundation for Statistical Computing
Platform: x86_64-pc-linux-gnu (64-bit)

R ist freie Software und kommt OHNE JEGLICHE GARANTIE.
Sie sind eingeladen, es unter bestimmten Bedingungen weiter zu verbreiten.
Tippen Sie 'license()' or 'licence()' für Details dazu.

R ist ein Gemeinschaftsprojekt mit vielen Beitragenden.
Tippen Sie 'contributors()' für mehr Information und 'citation()',
um zu erfahren, wie R oder R packages in Publikationen zitiert werden können.

Tippen Sie 'demo()' für einige Demos, 'help()' für on-line Hilfe, oder
'help.start()' für eine HTML Browserschnittstelle zur Hilfe.
Tippen Sie 'q()', um R zu verlassen.

> 
```
### Verwenden von Notebooks
> Jupyter bietet die Möglichkeit, mit Notebooks (wie diesem) zu arbeiten.

#### Ein neues Notebook anlegen
- Auf der linken Seite sehen Sie eine Liste mit den Dateien, die in Ihrem Benutzerverzeichnis existieren.
- Um ein neues Notebook anzulegen, klicken Sie links oben auf die blaue Schaltfläche mit dem **+**.
- Wählen Sie dann unter *Notebooks* **R**.

#### Mit Notebooks arbeiten
- Ein Notebook besteht aus *Zellen*.
- Zellen können entweder Code (also R Befehle) oder Text (Markdown) enthalten.
- Zellen können innerhalb des Notebooks verschoben werden.
- Um den Code in einer Zelle auszuführen, verwenden Sie das "Play" Symbol (Dreieck) oder die Tastenkombination `Shift+Enter`
- Markdown Zellen (wie diese) werden dann für die Ansicht formatiert (um die Zelle wieder bearbeiten zu können genügt ein Doppelklick in die Zelle).
- Code Zellen werden ausgeführt und das Resultat der Berechnung unterhalb der Zelle angezeigt.

#### Unten folgt ein Beispiel einer Zelle mit R-Code


In [1]:
2+2

### Besonderheiten der Ausgabe bei Jupyter Notebooks
Um in Jupyter Notebooks eine Ausgabe wie in der R Konsole oder in R Studio zu bekommen, müssen wir die Ausgabe explizit mit dem Befehl `print(...)` aufrufen

In [2]:
print(2+2)

[1] 4


# Verwendung von R
Im Wesentlichen werden wir R in dieser Vorlesung als (mächtigen) Taschenrechner verwenden.

## Rechnen mit R
 Die wichtigsten mathematische Rechenoperationen in R sind
*   `+ ` Plus
*   `- ` Minus
*   `* ` Mal
*   `/ ` Geteilt
*   `^ ` Hoch
*   `%%` Modulo (Rest bei ganzzahliger Division)

Das Dezimaltrennzeichen ist der Punkt (englische Schreibweise), nicht das Komma!

Es gilt Punkt- vor Strichrechnung. Die Rechenreihenfolge kann aber mit runden Klammern beeinflusst werden.

In [None]:
# Beispiele
2+3
2+3-7
2*2
2*2+3
2*(2+3)
2^2
3/2
5%%2

## Kommentare in R
Innerhalb von Code-Zellen können Kommentare mit einer Raute `#` eingeleitet werden. Alles, was auf `#` folgt, wird von R nicht gelesen und dient nur dazu, den Code zu erklären (zu kommentieren).

## Datentypen in R
Es gibt in R verschiedene Datentypen, für uns wichtig sind

*   Zahlen *numeric* `-1`, `3.14`, `1.224e-6`
    - `1.224e-6` steht für die Gleitkommazahl 1,224*10^(-6) = 0,000001224. (Das `e` steht für Exponent)
*   Wahrheitswerte *logical* `TRUE`, `T`, `FALSE`, `F`
    - Wahrheitswerte können nur die Werte Wahr `TRUE` und Falsch `FALSE` annehmen. Abgekürzt werden diese Werte durch `T` und `F` oder `1` und `0`.
    - Aufgabe: Was ist `TRUE + TRUE`?
*   Zeichenketten *character* `"a"`, `"X_1"`
    - Zeichenketten stehen immer in Anführungszeichen. Erlaubt sind alle Buchstaben, Zahlen und Sonderzeichen.

## Logik-  und Vergleichsoperatoren
### Logische Operatoren
Logische Operatoren operieren immer auf Wahrheitswerten und liefern einen Wahrheitswert zurück.
*  `!` Negation
*  `&` Und
*  `|` Oder

### Vergleichsoperatoren
Vergleichsoperatoren können auf verschiedene Datentypen angewendet werden und liefern Wahrheitswerte zurück.
*  `==` Gleich
*  `!=` Ungleich
*  `>`, `<` Größer bzw. Kleiner
* `>=`, `<=` Größergleich bzw. Kleinergleich


    

In [None]:
T|F
T&F
!F
!(T|F)
2 <= 4
2 <= 2
2 < 2
(5%%2) == 0

## Der Zuweisungsoperator
Mit dem Zuweisungsoperator `<-` (bzw. `->`) werden Werte in Variablen gespeichert. Existiert eine Variable noch nicht, so wird sie erzeugt

In [None]:
x <- 2+3
20 -> y
x
y

In [None]:
# Gespeicherte Variablen können einfach überschrieben werden:
x <- 3.14
x

## Variablen 
Erlaubt sind alle Variablennamen, die
- nur aus Groß- und Kleinbuchstaben, Zahlen und den Zeichen `_` und `.` bestehen und
- mit einem Buchstaben anfangen

Zum Beispiel `xyz`, `Xyz`, `Variable.1`, `Neue_Variable`

Es wird zwischen Groß- und Kleinschreibung unterschieden, das heißt `xyz` und `Xyz` sind verschiedene Variablen.

Mit Variablen kann man genauso rechnen wie mit Zahlen:

In [None]:
x - 0.14
x - 3
x <- x-0.14
x

## Der Workspace
Alle Objekte, die während einer R-Sitzung erzeugt werden, landen im *Workspace*.

- mit dem Befehl `ls()` kann man sich alle Objekte anzeigen lassen, die derzeit im Workspace vorhanden sind.
- mit `rm()` löscht man ein Objekt aus dem Workspace

In [None]:
v1 <- 3^2
ls()
rm(v1)
ls()

- In R-Studio wird der Workspace in einem eigenen Fenster angezeigt.
- Am Ende einer interaktiven R-Sitzung kann man den Workspace speichern. Dies ist
    nützlich wenn man später nochmal mit den erzeugten Objekten/Daten
    weiterarbeiten will.
- Vorsicht bei der Verwendung von Notebooks! Hier Wenn auf eine Variable zugegriffen werden soll, muss diese bereits im Workspace existieren. Die entsprechende Zelle, in der die Variable erzeugt wird, muss also vorher ausgeführt worden sein.

In [None]:
# Diese Zelle führt bei mehrfacher Ausführung zu einem Fehler
rm(y)

## Das Hilfesystem
R verfügt über ein umfangreiches Hilfesystem. Um Hilfe zu einzelnen
Stichpunkten zu bekommen, benutzt man `?` oder `help()`

Zum Beispiel wird mit den Befehlen `sqrt` oder `help(sqrt)`
die Hilfeseite zur Wurzelfunktion `sqrt()` angezeigt.

Bei Stichpunkten mit Sonderzeichen muss man Anführungszeichen
verwenden. So wird z.B. mit `?"<-"` oder `help("<-")` die
Hilfeseite zum Zuweisungsoperator `<-` angezeigt (während
`?<-` nicht funktioniert).

In der derzeitigen R-Version gibt es ein Problem mit der Formatierung der Hilfeseiten, das zu einem Fehler führt. Das Problem ist bekannt und soll bald behoben werden. Verwenden Sie bis dahin besser eine interaktive R-Konsole (File > New > Terminal R (ENTER)) um auf die Hilfefunktion zu zugreifen. Die Hilfeseite wird mit `q` wieder geschlossen.


In [None]:
help(sqrt)

## Standard Datensätze
Als Statistik Software verfügt R über eine Fülle von Standard-Datensätzen. Eine Liste aller Datensätze
erhält man mit dem Befehl `data()`.

Zu den einzelnen Datensätzen gibt es auch jeweils eine Hilfe-Seite
über die Art der Daten. Zum Beispiel `?sleep`.

In [None]:
data()

## Datenstrukturen in R
Wichtige Datenstrukturen in R sind
- Vektoren
- Matrizen
- Data Frames

### Vektoren
  Die grundlegenste Datenstruktur in R sind Vektoren. Ein Vektor ist
  eine Liste von Elementen *des gleichen Datentyps*. Mit dem
  Befehl `c()` verknüpft man Elemente zu einem Vektor:

In [None]:
A <- c(1, 3, 3.14)
print(A)
B <- c("Apfel", "Birne", "bla")
print(B)
C <- c(B, A)
print(C)

Um an einzelnen Elemente eines Vektors zu kommen, benutzt man eckige Klammern zur Indizierung:

In [None]:
A[1]
A[1]-A[2]

Mit dem Doppelpunkt erzeugt man einfache numerische Vektoren mit aufsteigenden oder absteigenden Einträgen:

In [None]:
1:9
5:-3

Der Befehl `seq()` erzeugt einen Vektor mit vorgegebenen Parametern zum Beispiel Schrittweite (`by=`) oder Länge (`length.out=`)

In [None]:
seq(from=1, to=10, by=2)
seq(from=10, by=3, length.out = 7)

Mit dem Befehl `rep()` wird ein Vektor mit sich wiederholenden Einträgen erzeugt:

In [None]:
rep(1, times = 10)
x <- c(1,2)
rep(x, times = 5)
rep(x, length.out = 5)

### Matrizen
 Matrizen können als *2-dimensionale Vektoren* oder als Tabellen
  angesehen werden. Wie bei Vektoren müssen alle Elemente den selben
  Datentyp haben.


  Matrizen erzeugt man mit `matrix()`, `rbind()` oder `cbind()`.
  

In [None]:
M1 <- matrix(1:6, ncol=2)
print(M1)

Als ersten Argument werden die Elemente als Vektor (!) angegeben, in
diesem Fall der Vektor mit den Einträgen 1 bis 6. Danach werden mit
`ncol=...` die Anzahl der Spalten gewählt (stattdessen kann man
auch mit `nrow=...` die Anzahl der Zeilen wählen.)

Mit `cbind()` und `rbind()` werden Vektoren zu einer Matrix "zusammengeklebt¨ (`cbind` wie *column bind*, `rbind` wie *row bind*)

In [None]:
M2 <- cbind( c(1,2,3), c(4, 5, 6) )
M3 <- rbind( c(1,4), c(2,5), c(3,6))
print(M2)
print(M3)

  Um auf einzelne Elemente, Zeilen oder Spalten zugreifen zu können, verwendet man wieder eckige Klammern:

In [None]:
M1[1,2]
M1[2,1]
M1[1,]
M1[,1]

Mit Data Frames können Vektoren verschiedenen Typs zu einer Tabelle zusammengefügt werden. Die Vektoren müssen dabei alle dieselbe Länge haben. Beispiele für Data Frames sind die Datensätze `sleep` oder `iris`.

In [None]:
sleep

Um auf eine einzelne Spalte eines Data Frames zugreifen zu können, benutzt man das `$`-Zeichen. Zum Beispiel erhält man mit
  `sleep$extra` die Spalte (bzw. den Vektor) mit dem Namen `extra` aus dem Data Frame `sleep`.

Mit dem Befehl `attach(...)` wird ein Datensatz in den Suchpfad eingehängt. Zum Beispiel kann man nach Eingabe von `attach(sleep)` direkt mit dem Befehl `extra` auf  `sleep$extra` zugreifen. Mit `detach(sleep)` entfernt man den Datensatz wieder vom Suchpfad.

## Rechnen mit Vektoren
 Die meisten Operationen mit Vektoren werden von R **komponentenweise** ausgewertet
 

In [None]:
x <- 1:10
x + 1
x * 2
x %% 3
x <= 5
y <- c(5,11)
x*y
(x%%2)==0

## Funktionen für Vektoren
Wichtige Funktionen im Umgang mit Vektoren
- `length(x)` Anzahl der Einträge von x
- `sum(x)` Summe der Einträge von x
- `prod(x)` Produkt der Einträge von x
- `min(x)`, `max(x)` Minimum bzw. Maximum der Einträge von x
- `cumsum(x)`, `cumprod(x)` Kumulative Summe bzw. Produkt der Einträge von x
- `sort(x)` Aufsteigend sortierter Vektor x

In [None]:
length(x)
sum(x)
sum((x%%2))
prod(1:5)
cumsum(1:10)

**Beachte** Bei Rechenoperationen wird der Wahrheitswert `TRUE`
als `1` und der Wahrheitswert `FALSE` als `0` interpretiert.

 ## Funktionen
 Wir haben schon verschiedene Funktionen von R benutzt:
 
  `c(...)`, `ls()`, `rm(...)`, `matrix(...)` etc.
  
  Eine Funktion wird *immer* mit ihrem Namen gefolgt von runden Klammern
  aufgerufen. In den runden Klammern stehen dann die Argumente
  (getrennt durch Kommata), die an die Funktion übergeben werden
  sollen. Die Klammern sind auch nötig, wenn keine Argumente übergeben werden!
  
  Viele mathematischen Funktionen arbeiten komponentenweise, wenn man
  ihnen als Argument einen Vektor übergibt.

In [None]:
sqrt(9)
sqrt(c(2,4,9))

Schaut man in die Hilfe mit `sqrt`, so sieht man:
```
Usage:

      sqrt(x)
     
Arguments:

       x: a numeric or ‘complex’ vector or array.
```
Das heißt, der Befehl `sqrt` wird mit genau einem Argument
aufgerufen. Dieses Argument wird funktionsintern `x` genannt. Man
kann `sqrt` daher auch so benutzen


In [None]:
sqrt(x=9)

Dies kann bei Funktionen mit mehreren Argumenten sinnvoll sein. Die Hilfe von `matrix` ergibt
```
Usage:

     matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE,
            dimnames = NULL)
```
Der Befehl `matrix` kann also mit 5 verschiedenen Argumenten
aufgerufen werden: `data`, `nrow`, `ncol`, etc.

In diesem Fall haben alle Argumente Voreinstellungen (z.B.
`nrow = 1`), welche benutzt werden, falls man die Funktion ohne
diese Argumente aufruft.

Zum Beispiel werden bei der Eingabe von `matrix(data = 1:6 )`
automatisch die Voreinstellungen für die anderen Argumente ergänzt:

In [None]:
matrix(data = 1:6)

Wird der Name der Funktionsargumente mit angegeben, so ist die
  Reihenfolge egal: `matrix( nrow=3, data=1:6 )` ergibt das
  gleiche Ergebnis wie `matrix( data=1:6, nrow=3 )`.
  
  Wird der Name eines oder mehrerer Argumente nicht mit angegeben, so
  versucht R, sie der Reihe nach zuzuordnen: `matrix( 1:6, 3 )`,
  `matrix( data=1:6, nrow=3 )` und `matrix( data=1:6, 3 )`
  liefern alle das gleiche Ergebnis.

## Mathematische Funktionen
  Einige wichtige mathematische Funktionen
  -    `sqrt(x)` $\sqrt{x}$
  -    `factorial(n)` $n!$
  -    `choose(n,k)` $n\choose k$
  -    `sin(x)`, `cos(x)`, `tan(x)` trigonometrische Funktionen
  -    `asin(x)`, `acos(x)`, `atan(x)` inverse trigonometrische Funktionen
  -    `abs(x)` Betrag von $x$
  -    `exp(x)` $e^{x}$
  -    `log(x)` natürlicher Logarithmus von $x$
  -    `log10(x)` dekadischer Logarithmus von $x$
  -    `round(x,3)` rundet $x$ auf 3 Stelle

## Zufall mit R
 R hat viele Wahrscheinlichkeitsverteilungen "eingebaut".

Hier eine Übersicht zu einigen Verteilungsfunktion in R
- `pbinom(x,n,p)` Binomialverteilung mit Parametern $n$ und $p$
- `pgeom(x,p)` Geometrische-Verteilung mit Parameter $p$
- `phyper(x,m,n,k)` Hypergeometrische-Verteilung
- `ppois(x,lambda)` Poisson($\lambda$)-Verteilung
- `punif(x,a,b)` Gleichverteilung auf $(a,b)$
- `pexp(x,rate)` Exponentialverteilung
- `pnorm(x,mean,sd)` Normalverteilung

Ersetzt man das `p` in diesen Befehlen durch ein `d`,
  oder ein `q`, so erhält man die Dichte oder das
  Quantil der entsprechenden Verteilung.

In [None]:
x <- seq(-4,4, by=0.1)
plot(x, dnorm(x), type="l")

In [None]:
pnorm(-2)
pnorm(2) + pnorm(-2)
dnorm(0)
dnorm(2)
pnorm(1.96)
qnorm(0.25)
qnorm(0.99)
pnorm(2.326348)

### Zufall
 Man kann in R auch (Pseudo) Zufallszahlen generieren lassen. Dazu ersetzt man
  in den Befehlen für die Verteilungsfunktionen das `p` durch ein
  `r`.

Der Befehl `rnorm(n, mean=0, sd=1)` erzeugt einen
  Vektor mit `n` standardnormalverteilten Einträgen.

In [None]:
rnorm(10)
rbinom(10,1,0.5)
rbinom(10,10,0.3)

Um ein reproduzierbares Ergebnis zu erhalten, können wir vorher mit dem Befehl
`set.seed(...)` einen *seed* für den Zufallsgenerator setzen. Das
nächste Beispiel erzeugt zum Beispiel auf jedem Computer, zu jeder Zeit dasselbe
Ergebnis

In [None]:
set.seed(42)
rnorm(10)

## Skripte und kleine Programme
Das Folgende Beispiel zählt die Primzalzwillinge unter den Primzahlen kleiner
als 20. 

**Aufgabe** Wie funktioniert der Code?

In [None]:
p <- c(2,3,5,7,11,13,17,19) # Primzahlen < 20
p2 <- c(1,p[1:length(p)-1])

delta <- p - p2
zwillinge <- delta == 2
anz_zwillinge <- sum(zwillinge)
print(anz_zwillinge)