# BI - R-Kenntnis Übung 01 & 02: Basis Datenstrukturen in R

## Hinweise
Dieses Übungsblatt bezieht sich auf den R-Kurs ***R-Kenntnis*** zur Vorlesung Business Intelligence im Wintersemester 2021/2022.

Bitte lesen Sie die folgenden Kapitel und die enthaltenen Hinweise ***sorgfältig*** durch. Die Aufgaben sind zum Teil in den Kapiteln enthalten.

## Quellen und weitere Materialien

Bitte nutzen Sie für die Lösung die folgenden Hilfen/Quellen:<br>

* ***Die bisherigen Vorlesungsunterlagen*** 
* ***Bücher zu R:***
    * **Sebastian Sauer:** *"Moderne Datenanalyse mit R: Daten einlesen, aufbereiten, visualisieren und modellieren"*, Springer, DOI: <https://doi.org/10.1007/978-3-658-21587-3>, 2019.
    * **Generelle Hilfe zu R:** <https://www.r-project.org/help.html>
    * **R Cheat Sheets:** <https://www.rstudio.com/resources/cheatsheets/>
* ***R Markdown:***
    * <https://yihui.name/knitr/> 
    * <https://bookdown.org/yihui/rmarkdown/>.
    


# Source Code zur Übung: Datenstrukturen in R

## Mathematische Operationen mit R
### R als Taschenrechner

In [None]:
6 + 3

In [None]:
3^3

In [None]:
22 * 15 + 6

In [None]:
22 * (15 + 6)

In [None]:
22 ^ 2 + 7

In [None]:
22 ^ (2 + 7)

In [None]:
(2 * (17.2 + 5)) / 56

### Logische Operationen 

In [None]:
3 == 3

In [None]:
3 == 4

In [None]:
3 != 4

In [None]:
3 <= 4 & 3 == 3

In [None]:
3 <= 4 | 3 == 4

In [None]:
(3 <= 4 | 3 == 3) & 3 == 4

### Was zum Üben...

1. Schätzen Sie die Einwohner Hessens und speichern Sie Ihre Schätzung in eine neue Variable namens hessen.
2. Schätzen Sie die Einwohner Deutschlands und speichern Sie Ihre Schätzung in die Variable deutschland.
3. Berechnen Sie eine neue Variable ant_hessen, die den Anteil der Einwohner Hessens an Gesamt-Deutschland enthält.

In [None]:
### Ihr Source Code


## Datenstrukturen: Vektoren

### Grundlagen Vektoren

Ein Vektor ist eine geordnete Sammlung mehrerer Objekte gleicher Art. Die Objekte werden mit fortlaufender Nummer hintereinander geschrieben und können so auch angesprochen werden.

### Vektoren erstellen (Die `c()` Funktion)

Mit dem Operator (Befehl) `c()` wird den Objekten a, b und c ein Vektor mit Elementen zugewiesen, indem die Funktion `c()` (vom englischen “concatenation”, d. h. ”Verkettung“) diese Werte zu einem Vektor zusammenfasst. 

In [None]:
# Erstellung von Vektoren mittels der combine/concatenate Funktion "c()"
a <- c(5, 3, 2)
a

In [None]:
b <- c("A", "B", "C")
b

In [None]:
c <- c("a", "b", "c")
c 

In [None]:
# Erstellt einen Vektor x mit den Zahlen 1 bis 6
# vorwärts
x <- 1:6
x
# rückwärts
y <- 6:1
y
# Zufallszahlen
# runif() erzeugt einen Vektor mit 6 Zufallszahlen im Bereich [0,100]
z <- runif(6,min=0,max=100) 
z

In [None]:
# Zusammenfassende ansicht eines Vektors mittels der summary() Funktion
summary(x)
summary(y)
summary(z)

### Operationen mit Vektoren

In [None]:
#Vergleiche
a == b
b == c

In [None]:
# Typen und Klasse von Vektoren überprüfen
typeof(a)
class(a) 
is.numeric(b); 
is.character(b)

In [None]:
# Länge des Vektors a
length(a)

In [None]:
# Selektieren von Elementen eines Vektors
# das 2. Element
a[2]
#das 2. bis 4. Element von x
x[2:4]

In [None]:
# Alle Elemente des Vektors a um den Wert 3 erhöhen
x+3
# Alle Elemente des Vektors a mit dem Wert 3 multiplizieren
x*3

In [None]:
# Vektor x zurücksetzen
x <- 1:6

# löschen des 3. Wertes
x <- x[-3]

In [None]:
# Anhängen weiterer Komponenten an einen bestehenden Vektor
(y1 = append(x, c(10,11), after=5))
(y2 = c(-1, 0, x, 10))
y1
y2

In [None]:
# Vergleich der Werte in a, ob diese > 4 sind
a > 4
# Vergleich der Werte in a, ob diese gleich 3 sind
a == 3

In [None]:
# Wie viele Vektor-Komponenten sind grösser als 3
sum(a>3)

# Welche Vektor-Komponenten sind groesser als 2.5 sowie deren Werte
which(a>2.5) 

a[a>2.5]

## Datenstrukturen: Matrizen und Arrays

### Erstellen von Matrizen und Arrays

In [None]:
# Matrix == Anordnung mehrerer Vektoren in einer Tabelle
# Array == beliebige Dimension
gewicht <- c(56, 63, 80, 49, 75)
groesse <- c(1.64, 1.73, 1.85, 1.6, 1.81) 
alter <- c(22, 21.5, 24, 28, 39)

In [None]:
#spaltenweise (c = columns) zusammenbinden
# hierfür nutzen wir dei Funktion cbind() --> column bind
Spalte <- cbind(alter, gewicht, groesse) ## alter gewicht groesse
Spalte

Erzeugt die folgende Tabelle:

| alter| gewicht| groesse|
|-----:|-------:|-------:|
|  22.0|      56|    1.64|
|  21.5|      63|    1.73|
|  24.0|      80|    1.85|
|  28.0|      49|    1.60|
|  39.0|      75|    1.81|

In [None]:
# zeilenweise (r = rows) zusammenbinden
Zeile <- rbind(alter, gewicht, groesse)
Zeile

Erzeugt die folgende Tabelle:

|        |      |      |      |     |      |
|:-------|-----:|-----:|-----:|----:|-----:|
|alter   | 22.00| 21.50| 24.00| 28.0| 39.00|
|gewicht | 56.00| 63.00| 80.00| 49.0| 75.00|
|groesse |  1.64|  1.73|  1.85|  1.6|  1.81|

In [None]:
# Zugriff auf Matrizen analog zu Vektoren: Spalte[i, j] entspricht dem Eintrag 
# in der i−ten Zeile und j−ten Spalte von Spalte
Spalte[5,1]

Spalte[1,]

Spalte[c(1,3,5),]

In [None]:
# Namen vergeben
colnames(Spalte)

namen = c("Gerda", "Karin", "Hans", "Doris", "Ludwig") 
rownames(Spalte) = namen
Spalte["Doris", "gewicht"]

Spalte[4,2]

### Funktionen zum Arbeiten mit Matrizen oder Arrays

In [None]:
# hilfreiche Funktionen zum Arbeiten mit Matrizen oder Arrays

length(Spalte)

dim(Spalte)

# structure Funktion
str(Spalte)

In [None]:
# Alternative Erzeugung einer Matrix aus einem Vektor
# Beispiel hier: Ein Vektor x mit den Zahlen 1 bis 12

x = 1:12
matrix(data <- x, nrow=3)

matrix(data <- x, ncol=3)

## Datenstrukturen: Data Frames

### Einen Data Frame erstellen

In [None]:
# häufigste Verwendungsform für statistische Daten
# Matrix-ähnliche Struktur für verschiedene Datentypen

gewicht <- c(56, 63, 80, 49, 75)
groesse <- c(1.64, 1.73, 1.85, 1.6, 1.81) 
alter <- c(22, 21.5, 24, 28, 39)

#spaltenweise (c = columns) zusammenbinden
Spalte <- cbind(alter, gewicht, groesse) ## alter gewicht groesse

Spalte
Geschlecht <- c("weiblich","weiblich","männlich","weiblich","männlich")
daten <- data.frame(Spalte,Geschlecht)
daten
str(daten)
dim(daten)

### Zugriff auf Data Frames

Oftmals ist es notwendig, nur auf spezifische Zeilen bzw. Spalten des Data Frames zurückzugreifen

![Ein Bild](pics/data_frame.jpg "Data Frame")

In [None]:
# Zugriff auf Data Frames und ihre Spalten über den "$" Operator

daten$gewicht

daten[,"gewicht"]

daten["Doris",]

daten[4,]

### Zugriff mittels attach() Funktion

In [None]:
# direkter Zugriff auf Unterelemente mittels Suchpfad durch die
# attach() Funktion setzen
attach(daten)

gewicht

# Suchpfad fuer Objekt "daten" wieder loeschen
detach(daten)
# Zugriff auf Unterelemente wieder nur via objekt$unterobjekt 
daten$gewicht

### Arbeiten mit Faktoren
Die bisher vorgestellten zusammengesetzten Datentypen wie Vektoren, Felder, Listen oder Data Frames kann man auch als Container auffassen: sie dienen dazu, Tupel von Zahlen (oder Zeichenketten) nach gewissen Regeln abzuspeichern. Je nachdem welcher innere Zusammenhang zwischen den Komponenten besteht und wie man sie weiterverarbeiten möchte, wird man den einen oder anderen Container auswählen. Mit Faktoren wird ein Container angeboten, der schon eine Auswertung beinhaltet: Die Daten werden gruppiert (oder wie man auch sagt: in Klassen eingeteilt) – so wie etwa jedem Datum ein bestimmter Wochentag zugeordnet werden kann.

Mehr unter folgender URLs: 
* <http://de.jberries.com/artikel/faktoren-in-r-der-datentyp-factor-86> 
* <https://de.jberries.com/artikel/faktoren-in-r-anwendungen-92>

In [None]:
x <- c(rep(1 ,10) , rep(2 ,10))
geschl.factor.labeled <- factor(x, labels=c("w", "m"))
geschl.factor.labeled
is.factor(geschl.factor.labeled)

In [None]:
# Über die Funktion levels() lassen sich die Faktorstufen einer bestehenden 
# Faktorvariablen im Nachhinein noch verändern:
levels(geschl.factor.labeled) <- c("weiblich", "männlich")
geschl.factor.labeled

Die Funktion split() hat einen Vektor mit Hilfe der Level eines Faktors in eine Liste verwandelt, wobei jede Komponente der Liste derjenige Teilvektor ist, der dem Level zugeordnet ist. Mit der Funktion unlist() kann man aus der Liste den Vektor wieder zurückgewinnen:

In [None]:
# Aufsplitten mittels split()
my_parts <- split(x = x, f = geschl.factor.labeled)
# Parts ausgeben
my_parts
# Zählen der Parts pro Faktor
lengths(my_parts)

In [None]:
# Zusammenfassung der Parts mittels unsplit in einen neune Vektor v
v <- unsplit(value = my_parts, f = geschl.factor.labeled)
# Vektor v ausgeben
v
# Struktur von v ausgeben
str(v)

### Alternative Dateneingabe (funtioniert nur in RStudio)

In [None]:
# 1. Leeren Data Frame anlegen
mydata <- data.frame()
# 2. Beispielsweise Daten über Data Editor manuell eingeben
# mydata <- edit(mydata)
# Hinweis MacOS: XQuartz von xquartz.macosforge.org wird benötigt

# weitere nützliche Befehle
#head(mydata)
#fix(mydata)
#View(mydata)

#save(mydata, file <- "mydata.RData")
#load("mydata.RData")

### Beispiel: Plot von Daten aus einem Data Frame

In [None]:
boxplot(daten$gewicht~daten$Geschlecht, main = "Gewicht")
plot(daten)

# Übungsaufgaben

Folgende kleine Aufgaben an Sie:

1. Erstellen Sie einen Vektor meine_Zahlen mit den Zahlen 20 runter bis zur 1 (Reihenfolge beachten.
2. Erstellen Sie einen zweiten Vektor (meine_Buchstaben), der die Buchstaben A, B, C und D enthält. Der Vektor soll auch insgesamt 20 Elemente enthalten. Die Anzahl der einzelnen Buchstaben ist dabei egal.
3. wandeln Sie den Vektor meine_Buchstaben in einen Vektor vom Typ Factor um. Folgende Übersetzung:
    * A -> grün
    * B -> gelb
    * C -> rot
    * D -> blau
4. Zählen die Ausprägungen der einzelnen Farben (Faktoren) einmal tabellarisch zusammen.
5. Erstellen Sie aus den Vektoren meine_Zahlen und dem foktorisierten Vektor meine_Buchstaben einen Data Frame mit dem Namen mein.df

In [None]:
# Hier kommt Ihr Source Code hin: