# R Grundlagen
Die folgende Darstellung basiert in weiten Teilen auf dem Buch [Programmieren mit R](http://www.statistik.uni-dortmund.de/~ligges/PmitR/) von Uwe Ligges. Aber auch das [R Data Visualization Cookbook](https://www.packtpub.com/big-data-and-business-intelligence/r-data-visualization-cookbook) wurde herangezogen.

Die wichtigste Informationsquelle ist sicherlich die [Website des R-Projekts](https://www.r-project.org/). Allerdings gibt es zahlreiche weitere Informationsquellen wie etwa die [R-Bloggers](https://www.r-bloggers.com/). Unzählige Ressourcen zu __R__ finden sich im [`C`omprehensive `R A`rchive `N`etwork (CRAN)](https://cran.r-project.org/). 

## R als Taschenrechner

In [None]:
2+4*5

In [None]:
4*3^2-6*6  # hier sollte 0 raus kommen (wichtiger Kommentar!)

**Punkt vor Strich** wird also beachtet!

In [None]:
2*cos(pi)

In [None]:
?tan

$\cos()$ und $\tan()$ sind **eingebaute Funktionen**. Eine Überischt über vorhandene eingebaute Funktionen erhält man zum Beispiel auf der [Referenzkatrte bei CRAN](https://cran.r-project.org/doc/contrib/Short-refcard.pdf). *Hilfe* zu speziellen Funktionen erhält man interaktiv durch ein *vorangestelltes Fragezeichen*.

In [None]:
-1/0  # negativ unendlich

In [None]:
1/0  # positiv unendlich

In [None]:
0/0  # undefiniert (Not a Number)

Es gibt also in R *spezielle Werte* für $+/- \infty$ oder undefinierte Größen!

## Stilfragen
Allgemein empfiehlt sich die Einhaltung von *Guidelines* wie etwa die von [Google](https://google.github.io/styleguide/Rguide.xml) zusammen getragenen.

### Zuweisungen in R
Hierfür gibt es verschiedene Möglichkeiten. Welche man verwendet ist eine Frage des **Stils** (s.o.), wobei Einiges für den klassischen Stil mit Hilfe des *Zuweisungspfeils* spricht. 

In [None]:
x <- pi  # der Variablen x den Wert von Pi zuweisen (empfohlener klassischer R-Stil)
x

In [None]:
x = exp(1)  # der Variablen x den Wert von e zuweisen (möglicher neuerer R-Stil)
x

In [None]:
sin(pi) -> x  # der Variablen x den Wert von 0 zuweisen (NICHT ZU EMPFEHLEN, sowohl der Stil, als auch der Weg ...)
x

***Bemerkung***
Hinsichtlich der *Kommentierung* ergeben sich durch die Verwendung des Markdowns in Jupyter Notebooks natürlich ganz neue Möglichkeiten, da man nicht auf Kommentarzeilen im Code selbst angewiesen ist.

## Logik und Wahrheitswerte
Informationen zu logischen Vektoren und Operatoren erhält man im [R Handbuch](https://cran.r-project.org/doc/manuals/r-release/R-intro.html#Logical-vectors) oder etwas dateillierter an der [ETH Zürich](https://stat.ethz.ch/R-manual/R-devel/library/base/html/Logic.html).

### Einfache Vergleiche

In [None]:
5 > 6

In [None]:
(5 + 1) != 5

In [None]:
-5 < -4

### Logische Verknüpfungen

In [None]:
(1 >= 0) && (9 == 3^2) # Logisches UND

In [None]:
(1 == 0) || (9 == 3^2) # Logisches ODER

In [None]:
FALSE || TRUE

***Wichtig:*** Die Doppeloperatoren $||$ und $\$\$ $ werden nur so lange ausgewertet, bis das Ergebnis fest steht. Bei den Einzeloperatoren werden alle Teilausdrücke evaluiert (siehe die folgenden Schritte). Genauer spricht man von *vektorwertiger* (bei den Einzeloperatoren) bzw. *nicht vektorwertiger* (bei den Doppeloperatoren) Evaluierung.

In [None]:
x <- 1
x

In [None]:
TRUE || (x <- 2)  # Ausdruck ist TRUE und die Auswertung des ersten Teilausdrucks genügt

In [None]:
x

In [None]:
FALSE || (x <- 2)  # Hier muss auch der zweite Teilausdruck evaluiert werden

In [None]:
x

In [None]:
TRUE | (x <- 3)  # Beide Teilausdrücke werden evaluiert

In [None]:
x

In [None]:
logicalVector1 <- c(TRUE, TRUE)
logicalVector2 <- c(FALSE, TRUE)
logicalVector3 <- c(FALSE, FALSE)
logicalVector4 <- c(TRUE, FALSE)


In [None]:
logicalVector1 & logicalVector2  # vektorwertig, d.h. es gibt ein Ergebnis für beide Vektorelemente

In [None]:
logicalVector1 && logicalVector2  # NICHT vektorwertig, d.h. es wird nur das erste Element evaluiert

In [None]:
logicalVector3 | logicalVector2  # vektorwertig, d.h. es gibt ein Ergebnis für beide Vektorelemente

In [None]:
logicalVector3 || logicalVector2  # NICHT vektorwertig, d.h. es wird nur das erste Element evaluiert

In [None]:
logicalVector3 || logicalVector4  # NICHT vektorwertig, d.h. es wird nur das erste Element evaluiert

### Vektorielle logische Funktionen

In [None]:
vec <- c(7, 6, 5, 4, 3, 2, 1)  # einfacher Vektor
einige <- vec > 3
alle <- vec < 10

In [None]:
any(einige)  # gibt es wahre Elemente in "einige"?

In [None]:
any(alle)  # gibt es wahre Elemente in "alle"?

In [None]:
any(!alle)  # gibt es wahre Elemente in NICHT "alle" (der logischen Negation von "alle")?

In [None]:
all(einige)  # sind sämtliche Elemente von "einige" wahr?

In [None]:
all(alle)  # sind sämtliche Elemente von "alle" wahr?

In [None]:
which(einige)  # an welchen Stellen ist "einige" wahr?

In [None]:
which.max(vec)  # an welcher Stelle ist das Maximum von vec?

### Logische Konstante für fehlende Werte

In [None]:
logisch <- NA

In [None]:
str(logisch) # Strukur (Typ und Wert) der Variable "logisch" anzeigen

**Achtung:** Wie man sieht, hat die `str`-Funktion in __R__ eine gnaz andere Bedeutung als in *Python*!!

In [None]:
numVec <- c(5, logisch)
str(numVec)

Der Vektor ist also numerisch, d.h. fehlende Werte können sich vom Datentyp her *anpassen*!

## Datentypen (Modi)

Es gibt die folgenden Datentypen

| Beschreibung |   Beispiel $\phantom{Platz!}$   | Datentyp (Modus)|
|--------------|----------|---------|
| die leere Menge $\emptyset$ | <tt>NULL</tt> | *NULL* |
| logische Werte | <tt>TRUE</tt> | *logical* |
| ganze und reelle Zahlen | $3.141$ | *numeric* |
| komplexe Zahlen | $2.718+3\mathrm{i}$ | *complex* |
| Buchstaben und Zeichenfolgen | "Hallo!" | *character* |

Diese kann man mit `mode()` abfragen, während der Speichertyp mit `typeof()` abgefragt wird. 

Die Tabelle gibt dabei eine *Hierarchie* der Modi wieder, wobei die leere Menge eine Sonderrolle einnimmt. Abgesehen davon kann ein Wert eines weiter oben stehenden Modus durch einen weiter unten stehenden repräsentiert werden.

In [None]:
(x <- exp(1))         # äußere Klammer bewirkt gleichzeitig die Ausgabe des Variablenwertes
(y <- as.integer(x))  # Informationsverlust!

In [None]:
mode(x)

In [None]:
typeof(x)

In [None]:
mode(y)

In [None]:
typeof(y)

In [None]:
is.character(y)  # Test auf Zeichenkette

In [None]:
z <- -1
sqrt(z)

In [None]:
sqrt(as.complex(z))

## Datenstrukturen

In R gibt es die Datenstrukturen *Vekotr*, *Matrix*, *Array*, *Datensatz* (Data Frame) und *Liste*. Selbst die sonst üblichen *Skalare* sind in R in Wahrheit Vektoren der Länge 1.

### Vektoren

Vektoren werden aus anderen mit Hilfe der Funktion `c()` (*combine* bzw. *concatenate*) gebildet.

In [None]:
(vec <- c(3.14, 6.2, 6.7))

In [None]:
(vec <- c(2.2, vec, 7.9))

In [None]:
typeof(vec)

In [None]:
(zVec <- c("Hallo", "Welt"))

In [None]:
typeof(zVec)

In [None]:
(zVec <- c(zVec, TRUE, vec))  # die reellen Zahlen und der logische Wert werden in eine Zeichenkette umgewandelt

In [None]:
typeof(zVec)

In [None]:
length(zVec)

In [None]:
(cVec <- c(5,0+1i))  # die (reelle) Zahl 5 wird in eine komplexe Zahl umgewandelt

#### Assoziative Vektoren
Man kann die Elemente eines Vektors auch benennen und später durch den Namen oder den Index darauf zugreifen.

In [None]:
(aVec <- c(Alter = 37, Hausnummer = 88))

*Zugriff auf Vektorelemente*

In [None]:
aVec[1]  # per Index (immer möglich)

In [None]:
aVec['Alter']  # bei assoziativen Vektoren auch per Key (Name des Elements)

**Bemerkung:** Assoziative Vektoren entsprechen also *Dictionaries* in Python.

#### Folgen und Wiederholungen

In [None]:
4:11  # Ganzzahlige Zahlenfolge mit Abstand 1

In [None]:
7:-3

In [None]:
seq(3,15, by = 2)  # Zahlenfolge mit beliebigem Abstand

In [None]:
seq(4, -1, by = -0.5)

In [None]:
rep(2, 17)  # 17-malige Wiederholung der Zahl 2

In [None]:
rep(c(2,3), 3) # 3-malige Wiederholung des Vektors (2,3)

In [None]:
rep(2:4, 3:5) # 3 mal 2, 4 mal 3, 5 mal 4

In [None]:
(vec <- c(3.2, 4.5, 5.7) * 2)  # Skalarmultiplikation, d.h. jedes Vektorelement wird verdoppelt

In [None]:
vec + 3:5  # Vektoraddition elementweise

In [None]:
2:4 - 1:6 # 2-1, 3-2, 4-3, 2-4, 3-5, 4-6 (!! Länge des zweiten Vektors ist Vielfaches der Länge des ersten !!)

In [None]:
2:4 - 1:4  # Länge kein Vielfaches --> Warnung!

#### Matrixmultiplikation
Hier sollen zunächst die Spezialfälle des *Skalarprodukts* $(1\times n \cdot n \times 1 \rightarrow 1\times 1)$ bzw. des *Matrix-Vektor-Produkts* $(n\times 1 \cdot 1 \times n \rightarrow n\times n)$ betrachtet werden. Der Operator für die Matrixmultiplikation ist `%*%`.

In [None]:
t(3:5) %*% 2:4  # (3,4,5)^t * (2,3,4) -- Skalarprodukt (1x3 * 3x1)

In [None]:
2:4 %*% t(3:5) # Vektorprodukt (3x1 * 1x3)

#### Umgang mit Vektorelementen
Das folgende Beispiel erläutert den Umgang mit Vektorelemeneten noch einmal zusammenfassend (siehe die jeweiligen Kommentare).

In [None]:
(vec <- c(2, 7, 3, 4, 2 , 1, 5))  # Initialisierung mit combine

In [None]:
length(vec)

In [None]:
vec[5]  # das 5. Element

**Achtung:** In __R__ beginnt die Zählung mit 1, in Python mit 0!

In [None]:
vec[c(6,3)]  # das 6. und das 3. Element (in dieser Reihenfolge!)

In [None]:
vec[-c(2:4)]  # Ausschluss des 2. bis 4. Elements

In [None]:
(logVec <- vec < 3)  # TRUE, wenn das jeweilige Element von vec kleiner als 3 ist, sonst FALSE

In [None]:
vec[logVec]  # logische Indizierung, also alle Elemente von vec, die kleiner als 3 sind

In [None]:
vec[vec < 3]  # auf direktem Wege

In [None]:
nameVec <- c(Apfel = 4, Birne = 2, Orange = 5)  # assoziativer Vektor (benannte Elemente)
nameVec['Birne']  # Zugriff mittels Namen

In [None]:
nameVec['Birne'] <- 10  # Zuweisung eines neuen Werts für ein Element (überschreiben des Elements)
nameVec

In [None]:
vec[9:10] <- 12:11  # dem 9. und 10. Element Werte zuweisen

In [None]:
vec  # Achtung: NA für das 8. Element, da diesem noch nichts zugewiesen wurde!

In [None]:
length(vec)

In [None]:
vec[] <- 0  # alle 10 Elemente durch 0 ersetzen

In [None]:
vec

In [None]:
vec <- 0 # überschreiben, d.h. man erhält einen einelementigen Vektor (Skalar) mit dem Wert 0

In [None]:
vec

In [None]:
length(vec)

## Matrizen
Matrizen sind *zweidimensional*, d.h., man spricht von $n\times m$-Matrizen, wobei $n$ die Anzahl der Zeilen und $m$ die Anzahl der Spalten bezeichnet. In R heißen diese Dimensionsgrößen `nrow` bzw. `ncol` und eine der beiden muss zumindest angegeben werden, wenn eine Matrix mit Hilfe der `matrix()`-Funktion erzeugt wird.

In [None]:
(X <- matrix(c(1,1,2,3,5,8), nrow = 2))

In [None]:
X[1, ]  # erste Zeile

In [None]:
X[, 2]  # zweite Spalte

Beim *Zugriff* auf Matrixelemente ist Vorsicht geboten. Je nachdem, ob man wirklich nur den *Wert* des Elements braucht (eindimensional) oder ob man eine $1\times1$-Matrix (zweidimensional) als Ergebnis möchte, muss man ggf. verhindern, dass eine Dimension *fallen gelassen* wird.

In [None]:
X[2,3]  # Skalar (eindimensional)

In [None]:
X[2, 3, drop = FALSE]  # 1x1-Matrix (zweidimensional)

Eine Übersicht über **Matrixfunktionen** findet man z.B. bei [Quick-R](http://www.statmethods.net/advstats/matrix.html). Im Folgenden sehen wir exemplarisch die Verwendung der Funktion `diag()`.

In [None]:
(A <- matrix(3:6, nrow = 2))  # Erzeugug einer 2x2 Matrix

In [None]:
diag(A)  # Ausgabe der Diagonale von A

In [None]:
diag(A) <- 0  # Diagonalelemente von A auf Null setzen
A

In [None]:
diag(3)  # die 3x3 Einheitsmatrix

#### Struktur einer Matrix
aus Sicht von R ist eine Matrix ein Vektor mit zwei Dimensionsattributen. Dies schauen wir uns im einzelnen an und lernen noch einen weiteren Weg kennen, eine Matrix zu erzeugen.

In [None]:
str(X)  # Struktur der Matrix X beschreiben

In [None]:
(Y <- c(1,1,2,3,5,8))  # eindimensionaler Vektor mit den gleichen Werten, wie in der Matrix X

In [None]:
str(Y)  # Struktur von Y

In [None]:
dim(Y) <- c(2,3)  # aus Y eine Matrix machen (die gleiche wie X!)
Y

In [None]:
str(Y)  # Struktur von Y

## Arrays
Diese können beliebig viele Dimsionen besitzen, wobei aber zumeist nicht mehr als drei Dimensionen verwendet werden. Arrays sind somit *Verallgemeinerungen* von Matrizen.

In [None]:
(Ar <- array(seq(2,24, by = 2), dim = c(2,2,3)))  # Ausgabe erfolgt linear

In [None]:
str(Ar)  # Struktur des Arrays (--> wie erwartet)

In [None]:
print(Ar)  # strukuriert ausgeben

In [None]:
Ar[2,1,3]  # Zugriff auf ein bestimmtes Element

## Listen
Listen sind einfach *Sammlungen* verschiedener Objekte. Erzegut werden sie mit `list()`. Der Zugriff auf Listenelemente erfolgt mittels der eckigen Doppelklammer `[[]]`.

In [None]:
(L1 <- list(3:6, matrix(c(2,5,8,13), 2), c("Ein","Text")))

In [None]:
str(L1)

In [None]:
L1[[3]]  # 3. Element von L1

In [None]:
L1[[2]][1,1]  # 1. Element des 2. Elements von L1

In [None]:
L1[[c(3,2)]]  # rekursive Angabe: 2. Element des dritten Elements von L1

In [None]:
(L2 <- list(Idee = 'Uwe Ligges', Liste1 = L1))  # Elemente können auch benannt werden (assoziative Listen)

In [None]:
L2$Idee  # Zugriff mit dem $-Operator

In [None]:
L2[['Liste1']][c(1,3)]  # 1. und 3. Element des Elements Liste1 von L2 (Ergebnis ist auch eine Liste!)

In [None]:
str(L2[['Liste1']][c(1,3)])

## Datensätze - Data Frames
Dies ist *die* Datenstruktur in R für Data Science - eigentlich benötigen die meisten Funktionen in R Data Frames als Eingabe. Datensätze entsprechen beispielsweise auch Tabellen in relationalen Datenbanken.

Aus Sicht von R sind Data Frames spezielle Listen, nämlich solche, deren Elemente jeweils Vektoren gleicher Länge sind (genau wie Spalten einer Datenbank-Tabelle). Meist sind diese auch benannt (wie die Attribute (= Spalten) einer Datenbank-Tabelle). Erzeugt werden sie mit der Funktion `data.frame()`.

Normalerweise werden Data Frames daher auch auf Basis *externer Datenquellen* wie <tt>csv</tt>-Dateien oder Datenbank-Tabellen erzaugt. Hier betrachten wir zunächst ein Beispiel von Hand. Näheres zu Data Frames dann in einer eigenen Veranstaltung zum Thema.

In [None]:
THU <- data.frame(Studiengang = c('WF', 'IG', 'DSM', 'INF', 'CTS', 'IEW', 'WL', 'DM', 'ET'),
                         Fakultaet   = c('I',  'I',  'I',   'I',    'I', 'P',  'P',  'E',  'E' ),
                         Studierende = c(167,  133,  60,    73,    55, 112,   143,  87 ,  101 ))

In [None]:
THU

In [None]:
str(THU)

Die Strukturuntersuchung zeigt, dass Studiengang und Fakultaet als *Faktoren* aufgefasst werden. Nähere Informationen hierzu findet man etwa im [Gnu R Wikibook](https://de.wikibooks.org/wiki/GNU_R:_factor). Allgemein sind Faktoren *unabhängige Variablen* in einem (statistischen) Experiment und die Werte, die diese annehmen können, nennt man *Faktorstufen* (siehe auch [StatistikGuru](http://statistikguru.de/lexikon/faktor-faktorstufe.html)).

Der *Zugriff* auf einzelne Elemente kann wie bei Listen oder wie bei Matrizen erfolgen.

In [None]:
THU$Studiengang[1]  # erste Variante

In [None]:
THU[[1]][1]  # zweite Variante

In [None]:
THU[1,1]  # dritte Variante

In [None]:
THU$Studiengang[Hochschule$Studierende > 120]  # lästig: wiederholte Angabe des Data Frame

In [None]:
with(THU, Studiengang[Studierende > 120])  # praktisch: Data Frame als Namensraum (nur temporär)

In [None]:
Studiengang[Studierende > 120] # Studiengang wird OHNE vorangestellte `THU` nicht gefunden

In [None]:
attach(THU) # Data Frame in Suchpfad einbinden -> Namensraum permanent vorhanden

In [None]:
Studiengang[Studierende > 120] # Studiengang wird jetzt im Suchpfad auch OHNE vorangestellte `THU` gefunden

In [None]:
detach(THU) # Data Frame wieder aus Namensraum entfernen

In [None]:
Studiengang[Studierende > 120] # Studiengang wird jetzt im Suchpfad auch OHNE vorangestellte `THU` gefunden

### Selektieren in Data Frames

In [None]:
THU[THU[['Fakultaet']] == 'I',]  # wieder lästig (auch das Komma am Ende des Index ...)

In [None]:
subset(THU, Fakultaet == 'I')  # wieder praktisch: Teilmenge mit Funktion mit Namensraum

In [None]:
subset(THU, Fakultaet == 'I', select = c(1,3))  # die Fakultät kennen wir ja

In [None]:
subset(THU, Fakultaet == 'I', select = -2)  # das Gleiche durch Ausschließen der zweiten Spalte

In [None]:
subset(THU, Fakultaet %in% c('I', 'E'))  # Enthaltensein mit %in% testen

In [None]:
subset(THU, Fakultaet %in% c('I', 'E') & Studierende > 100)  # kombinierte Bedingung

#### Aufteilung von Datensätzen
Mittels `split()` lassen sich Data Frames in mehrere andere aufteilen.

In [None]:
split(THU, THU$Fakultaet)

In [None]:
(XING <- data.frame(Studiengang = c('WF', 'IG', 'WI'), XINGGruppe = c('ja', 'ja', 'nein')))

#### Zusammenführen von Datensätzen
Mittels `merge()` lassen sich Datensätze (mit gemeinsamen Attributen) zusammen führen.

In [None]:
merge(THU, XING, all = TRUE)

## Programm-Ablaufsteuerung
Schleifen und bedingte Anweisungen ermöglichen erst das eigentliche Prgrammieren.
### Bedingte Anweisungen
An verschiedenen Stellen in einem Programm werden *Fallunterscheidungen* benötigt. Dabei werden meist in Abhängigkeit vom Wahrheitswert einer *Bedingung* unterschiedliche Programmteile durchlaufen oder aber Schleifendurchläufe abgebrochen.

In R können Fallunterscheidungen mittels der Konstrukte
1. `if(Bedingung){Ausdruck1} else {Ausdurck2}`
2. `ifelse(Bedingung, Ausdruck1, Ausdruck2)`
getroffen werden oder aber mit Hilfe der Funktion `switch()`.

Dabei ist bei der ersten Variante des `if`-Konstrukts zu beachten, dass durch die Verwendung der geschweiften Klammern `{}` die Möglichkeit geschaffen wird, mehrere zusammenhängende Befehle zu einem Ausdruck zusammen zu fassen, also einen ganzen *Block* von Anweisungen bedingt ausführen zu lassen.

#### if ... else
Bei diesem Konstrukt ist zu beachten, dass die Bedingung *nicht vektorwertig* betrachtet wird. Dies bedeutet, dass im Falle einer vektorwertigen Bedingung nur das erste Element betrachtet würde. Außerdem ist es erlaubt, den `else`-Zweig wegzulassen. Das folgende kleine Beispiel verdeutlicht die Möglichkeiten.

In [None]:
x <- 8
if (x == 8) {
    x <- x + 1
    y <- 5
} else y<-7  # keine {}, da nur eine Anweisung
c(x = x, y = y)

In [None]:
if (x < 10) print("x ist kleiner als 10")
x

#### ifelse
Hier erfolgt ein *vektorwertiger Vergleich*, d.h., es wird eine komponentenweise Auswertung der Bedingung vorgenommen. Führen wir das Beispiel von eben weiter (wo $x$ derzeit den Wert 9 hat), dann könnten wir beispielsweise folgende Überprüfung samt Ausgabe vornehmen:

In [None]:
ifelse(x == c(8,9), c("v11", "v12"), c("v21", "v22"))

In der ersten Komponente wird geprüft, ob $x=8$ gilt. Das ist nicht der Fall, also ergibt sich der Wert `v21` aus der zweiten Alternative. Bei der zweiten Komponente wird geprüft, ob $x=9$ gilt. Das ist der Fall, also ergibt sich der Wert `v12` aus der ersten Alternative.
#### switch()
Mit `switch()` lassen sich in Abhängigkeit von einem Ausdruck mehrere Alternativen angeben.

In [None]:
switch(2, a = 1, b = 2, cc = 3, dd = 4)  # das 2. Element ausgeben 

In [None]:
# das Element namens "c" (nicht existent!) ausgeben 
switch("c", a = 1, b = 2, cc = 3, dd = 4)  

In [None]:
# das Element namens "cc" ausgeben 
switch("cc", a = 1, b = 2, cc = 3, dd = 4)  

Weitere Beispiele sowie die Unterschiede zwischen einem numerischen Ausdruck und einem Zeichenketten-Ausdruck als Bedingung erhält man unter Verwendung der Hilfe mittels `?switch`.

### Schleifen
In R gibt es folgende Schleifentypen und Kontrollworte.


Schlleife bzw. Kontrollwort | Beschreibung
-------|------
`repeat{Ausdruck}` | Wiederholung des *Ausdruck*s
`while(Bedingung){AUsdruck}` | Wiederholung, solange *Bedingung* erfüllt ist
`for(i in M){Ausdruck}` | Wiederhole *Ausdruck* für jedes $i\in M$
`next` | Sprung in den nächsten Iterationsschritt
`break`| Sofortiges Verlassen der Schleife

#### repeat, next und break
Will man in R eine sogenannte *fußgesteuerte Schleife*, also eine Schleife, die mindestens einmal durchlaufen wird, verwenden, so geschieht das mit `repeat`. Allerdings bekäme man so eine *Endlosschleife*, wenn man nicht die Möglichkeit hätte, die Schelife auch wieder zu verlassen. Dies geschieht aufgrund des Eintretens einer Bedingung somit mit Hilfe der bereits betrachteten *bedingten Anweisung*.

In [None]:
i <- 0
repeat{
    i <- i + 1        # wiederholte Anweisung
    if(i == 5) break  # Abbruchbedingung
}
i

Nun lassen wir das Ergebnis noch innerhalb der Schleife ausgeben. Da dies nur ganz am Ende geschehen soll, müssen wir dafür sorgen, dass anderenfalls der nächste Schleifendurchlauf begonnen wird. Das ganze sieht dann so aus (ist aber natürlich für das Beispiel *kein guter Stil*; es dient lediglich zur Verdeutlichung des Prinzips!)

In [None]:
i <- 0
repeat{
    i <- i + 1        # wiederholte Anweisung
    if(i < 5) next    # nächste Iteration
    print(i)
    if(i == 5) break  # Abbruchbedingung
}

#### while
Die vorhergehenden Beispiele hätte man auch *kopfgesteuert* lösen können, wofür sich eine `while`-Schleife anbietet. Hier wird *vor* der Ausführung der Anweisungen überprüft, ob die Bedingung erfüllt ist. Dies führt dazu, dass eine solche Schleife unter Umständen gar nicht durchlaufen wird. Unser Beispiel sähe dann wie folgt aus:

In [None]:
i <- 0
while(i < 5)
    i <- i + 1  # ohne {}, da nur eine Anweisung
i

***Anmerkung:*** Zwar können `break` und `next` auch in `while`-Schleifen verwendet werden, aber dies ist definitiv nicht zu empfehlen und wird allgemein als *schlechter Stil* betrachtet.
#### for
In einer `for`-Schleife wird über die Elemente einer Menge (häufig eines *Vektors*) iteriert. D.h. die *Laufvariable* nimmt die Werte sämtlicher Elemente der Menge an und die Schleife wird mit diesem Wert ausgeführt. Unser bisheriges Beispiel sähe dann wie folgt aus:

In [None]:
ivec <- 0:4
for(i in ivec)  # Laufvariable i
    i <- i + 1
i

Ein weitergehendes Beispiel wäre das folgende:

In [None]:
set <- c(2, 5, 3, 7, 6, 0)  # ein Vektor
for(i in set)
    print(i^2)

Allerdings geht das auch einfacher (und *effizienter*!):

In [None]:
print(set^2)

#### Keine Schleifen!
Wie das gerade gesehene Beispiel zeigt, können Schleifen in R oft durch den Einsatz *vektorwertiger Funktionen* vermieden werden. Dies sollte man unbedingt anstreben, da Schleifen in einer *interpretierten* Sprache wie R recht *ineffizient* sind!

## Zeichenketten
Eine kleinere Übersicht über die Funktionen zur Manipulation von Zeichenketten findet man wieder bei [Quick-R](http://www.statmethods.net/management/functions.html). Etwas umfangreicher ist die folgende Übersicht, wobei sich für die genaue Syntax zur Verwendung immer ein Blick auf die entsprechende Hilfeseite empfiehlt.

Funktion | Beschreibung
----|-----
`cat()` | Zusammenfügen und Ausgabe (auch in Dateien)
`deparse()` | Ausdruck in Zeichenfolge wandeln
`format()` | Formatierung
`grep()` | Suche von Zeichenfolgen in Vektoren
`match()`, `pmatch()` | Suche von (Teil-)Zeichenketten in anderen
`nchar()` | Anzahl Zeichen in einer Zeichenkette
`parse()` | Konvertierung in einen Ausdruck
`paste()` | Zusammensetzung von Zeichenketten
`strsplit()` | Zerlegen von Zeichenketten
`sub()`, `gsub()` | Ersetzen von (Teil-)Zeichenfolgen
`substring()` | Ausgabe (und Ersetzung) von Teil-Zeichenfolgen
`toupper()`, `tolower()` | Umwandlung in Groß-/Kleinbuchstaben

Eine extensive Behandlung des Themas findet man im eBook von [Gaston Sanchez](http://gastonsanchez.com/Handling_and_Processing_Strings_in_R.pdf).

Es folgen ein paar wenige Beispiele.

In [None]:
# informative Ausgabe
x <- 7.4217
cat("Der Wert von x ist:", x, "\n", sep="\t")

In diesem Beispiel wurde als Trenner zwischen den Elementen nicht das standardmäßige Leerzeichen verwendet, sondern ein *Tabulator* (`\t`). Ebenso wurde für einen *Zeilenumbruch* (engl. *newline*; `\n`) gesorgt. Möchte man statt einer Ausgabe ein neues Objekt erzeugen, so verwendet man `paste()`.

In [None]:
dateien <- paste("Datei",1:3,".txt", sep="")
dateien

In [None]:
# Aufteilung in Name und Endung
strsplit(dateien[1],"[.]")

Hier ist zu *beachten*, dass es sich bei der Zeichenfolge, anhand derer getilt werden soll, um einen [*regulären Ausdruck*](https://de.wikipedia.org/wiki/Regul%C3%A4rer_Ausdruck) handelt. Dabei ist der Punkt ein *Metazeichen*, welcher innerhalb der durch die eckigen Klammern getroffenen *Zeichenauswahl* seine ursprüngliche Bedeutung erhält. Dies wird auch explizit in der Hilfe zu `?strsplit` aufgegriffen.

In [None]:
?strsplit

In [None]:
# regulären Ausdruck suchen
grep("2", dateien)  # Ausgabe des Elements, in dem regexp gefunden wurde

In [None]:
grep("ei", dateien)  # Ausgabe der Elemente, in denen regexp gefunden wurde

In [None]:
# Ersetzung von "txt" durch "csv"
sub("txt","csv",dateien)

In [None]:
# überschrieben wurde nicht!
dateien

In [None]:
# so wird überschrieben!
dateien <- sub("txt","csv",dateien)

In [None]:
toupper(dateien)

**Bemerkung:** In Python sind die entsprechenden Funktionalitäten als *Methoden der String-Objekte* implementiert. Hat man etwa die Zeichenkette `zk`, so würde man aufsplitten mittels `zk.split()` oder in Großbuchstaben wandeln mittels `zk.upper()`.

#### parse
Diese Funktion eröffnet die Möglichkeit, *berechnete Variablen* zur Laufzeit zu erzeugen, wenn man möchte (ob das gut ist, muss jeder selbst entscheiden). Man kann mit Hilfe von `parse()` einen *Ausdruck* erzeugen und diesen dann auswerten, als habe man ihn direkt eingegeben. Das folgende Beispiel verdeutlichet die Funktionsweise.

In [None]:
(ep <- parse(text = "neueVariable <- 9"))

In [None]:
# Ausdruck auswerten
eval(ep)

In [None]:
# neue Variable existiert und hat den Wert 9
neueVariable

#### Anführungszeichen
Will man Anführungszeichen innerhalb einer Zeichenkette haben, so muss man zwischen einfachen und doppelten Anführungszeichen wechseln oder den *Bsckslash* (`\`) zum escapen verwenden. Man hat also folgende Möglichkeiten:

In [None]:
(zk = "'str' in str")
print(zk)

In [None]:
(zk = "\"str\" in str")
print(zk)

In [None]:
(zk = '"str" in str')
print(zk)

In [None]:
(zk = '\'str\' in str')
print(zk)

#### Ungewöhnliche Objektnamen
Unter Zuhilfenahme von rückwärtsgerichteten Anführungszeichen (*Backticks*; \`) lassen sich beliebige Objektnamen vergeben, was aber unbedingt zu vermeiden ist. Wir werden nun der Variablen "`Das ist nicht gut auch wegen des ö!?* 1/2`" den Wert 5 zuweisen und anschließend damit rechnen:

In [None]:
(`Das ist nicht gut auch wegen des ö!?* 1/2` <- 5)

In [None]:
`Das ist nicht gut auch wegen des ö!?* 1/2` - 3

Dennoch ist es nützlich, dies zu wissen, da es im Zusammenhang mit dem Laden von Datensätzen vorkommen kann, dass Spalten Namen haben, auf die man dann nur auf diese Art zugreifen kann.

## Datum und Zeit
In sehr vielen Analysen gibt es eine Zeitdimension, so dass ein Analysewerkzeug mit Zeitangaben umgehen können muss. Dabei gibt es einige Herausforderungen wie beispielsweise Zeitzonen, Sommer-/Winterzeit und vor allem auch regionale Unterschiede in der *Darstellung* von Datum und Uhrzeit. So ist nicht von vornherein klar, wie etwa die folgende *Datumsangabe* zu interpretieren ist: 06/09/12
1. Es könnte ich nach deutscher Lesart um den 6. September 2012 hndeln
2. Ein Amerikaner würde wohl denken, es handle sich um dem 9. Juni 2012
3. Ein nach ISO-Norm arbeitender Computer würde daraus den 12. September 2006 lesen

Bei *Zeitangaben* ist es zwar meist klar, wie diese zu interpretieren sind, aber es gibt eben sehr unterschiedliche Formate (man denke nur an die im angelsächsichen Sprachraum gebräuchliche 12-Stunden-Darstellung unter Hinzufügen von `a.m.` (ante meridies = Vormittag = vor 12 Uhr mittags) und `p.m.?` (post meridies = Nachmittag = nach 12 Uhr mittags). Einen Überblick findet man in den entsprechenden Artikeln bei Wikipedia zu [Datumsangaben](https://de.wikipedia.org/wiki/Datumsformat) und [Schreibweisen von Uhrzeiten](https://de.wikipedia.org/wiki/Uhrzeit#Schreibweise).

Eine kurze Einführung zum Umgang von R mit Datum und Zeit findet man am im [Gnu R Wikibook](https://de.wikibooks.org/wiki/GNU_R:_Datum-_und_Zeitfunktionen). Wir betrachten ein ähnliches Beispiel, welches aber außerdem zeigt, dass die zum Parsen der Zeichenketten mit den Zeitangaben verwendete Funktion `strptime()` auch mit deutschen Monatsnamen umgehen kann und außerdem die Umstellung von Winter- auf Sommerzeit berücksichtigt.

In [None]:
# Zeitangaben als Zeichenketten
zeiten <- c("17. Mär 2017 14:00", "24. Mär 2017 15:45", "31. Mär 2017 17:15")
str(zeiten)

Die Elemente des Vektors `zeiten` sind also *Zeichenketten*.

In [None]:
(zeitenParsed <- strptime(zeiten, format="%d. %b %Y %R"))

In [None]:
str(zeitenParsed)

Die Elemente des Vektors `zeitenParsed` sind also *POSIX Zeitangaben*.

Genauere Informationen zur Funktion `strptime()` erhält man wieder über die eingebaute Hilfeseite. Hier lohnt sich insbesndere ein Blick auf die Möglichkeiten, die der Parameter `format` bietet (während man sich erst einmal nicht darum kümmern muss, was genau S3 bzw. S4 Klassen sind :smile:).

Weitere nützliche Funktionen sind `ISOdate(Jahr,Monat,Tag,Stunde,Minute,Sekunde)` zur einfachen Definition eines Datums sowie `Sys.time()` zur Ermittlung des aktuellen Datums und `difftime()` zur Berechnung von Zeitintervallen.

In [None]:
# Zeitpunkt des Mauerfalls
(mauerfall <- ISOdate(1989,11,09,18,57, tz="CET"))

In [None]:
# Aktuelle Zeit
(jetzt <- Sys.time())

In [None]:
vergangeneZeit <- jetzt-mauerfall
str(vergangeneZeit)

In [None]:
as.numeric(vergangeneZeit, units="hours")

In [None]:
as.numeric(vergangeneZeit, units="days")

In [None]:
cat('Seit dem Mauerfall sind ',length(seq(mauerfall,jetzt,"months"))-1,' volle Monate vergangen')

In [None]:
cat('Seit dem Mauerfall sind ',length(seq(mauerfall,jetzt,"years"))-1,' volle Jahree vergangen')

Dies beschließt die Einführung in die wichtigsten Grundlagen von R, wobei die Stärken von R natürlich in den umfangreichen *statistischen Funktionalitäten* inkl. *grafischer Ausgabe* liegen. Diese Themen werden später aufgegriffen, nachdem ebenfalls später der Umgang mit *(externen) Datenquellen* betrachtet wurde.