In [None]:
## Importing packages

# This R environment comes with all of CRAN and many other helpful packages preinstalled.
# You can see which packages are installed by checking out the kaggle/rstats docker image: 
# https://github.com/kaggle/docker-rstats

library(tidyverse) # metapackage with lots of helpful functions

## Running code

# In a notebook, you can run a single code cell by clicking in the cell and then hitting 
# the blue arrow to the left, or by clicking in the cell and pressing Shift+Enter. In a script, 
# you can run code by highlighting the code you want to run and then clicking the blue arrow
# at the bottom of this window.

## Reading in files

# You can access files from datasets you've added to this kernel in the "../input/" directory.
# You can see the files added to this kernel by running the code below. 

list.files(path = "../input")

## Saving data

# If you save any files or images, these will be put in the "output" directory. You 
# can see the output directory by committing and running your kernel (using the 
# Commit & Run button) and then checking out the compiled version of your kernel.

# DS Bootcamp Teil 1b - R Basic & Advanced #

## R Basics ##

### Installieren und Laden von Paketen

R-Pakete sind Sammlungen von Funktionen und Datensätzen, die von der Community entwickelt wurden. Sie erhöhen die Leistungsfähigkeit von R, indem sie vorhandene Basis-R-Funktionalitäten verbessern oder neue hinzufügen. Wenn Sie beispielsweise normalerweise mit Datenrahmen arbeiten, haben Sie wahrscheinlich schon von dplyroder gehört data.table, zwei der beliebtesten R-Pakete. Hier eine Übersicht der verfügbaren [Packages](https://cran.r-project.org/). 

Die **Bibliothek** (Library) ist eine Sammlung von Paketen. 

Ein Repository ist ein Ort, an dem sich Pakete befinden, die sich von dort aus installieren lassen. Obwohl Sie oder Ihre Organisation möglicherweise über ein lokales Repository verfügen, sind sie in der Regel online und für alle zugänglich. Die beliebtesten Repos sind:
* [CRAN](https://cran.r-project.org/)
* [Bioconductor](https://www.bioconductor.org/)
* [GitHub](https://github.com/)


In [None]:
# Mit dem folgenden Befehl kann man auf die Dokumentation oder Online im Repository des Pakets auf die Beschreibungsdatei in R zugreifen .
packageDescription('stats')
help(package = 'stats')

In [None]:
# Pakete lassen sich im R mit folgendem Befehl in eine beliebige Library installieren (einzeln oder mehrere)
# Der Library Pfad lässt sich mit installed.packages() herausfinden.

install.packages('vioplot', lib='/usr/local/lib/R/site-library')

# Möchte man ein Paket von einem bestimmten Repo laden 
install.packages('vioplot', repo = 'https://lib.ugent.be/CRAN/', lib='/usr/local/lib/R/site-library')


In [None]:
# Mit dem folgenden Befehl können wir uns eine Übersicht der bereits installierten Pakete machen

installed.packages()

In [None]:
# Mit dem folgenden Befehl lassen sich Pakete einfach wieder entfernen

remove.packages('vioplot', lib = '/usr/local/lib/R/site-library')

### Welche Pakete aktualisiert werden müssen lässt sich wie folgt ermitteln.
old.packages()

In [None]:
# Aktualisieren lassen sie sich wie folgt:

update.packages(lib = '/usr/local/lib/R/site-library')

#### Pakete installieren über devtools ####

Wie Sie oben gelesen haben, hat jedes Repository seine eigene Möglichkeit, ein Paket von ihnen zu installieren. Wenn Sie also regelmäßig Pakete aus verschiedenen Quellen verwenden, kann dieses Verhalten etwas frustrierend sein. Ein effizienterer Weg ist wahrscheinlich die Verwendung des devtoolsPakets, um diesen Prozess zu vereinfachen, da es spezifische Funktionen für jedes Repository enthält, einschließlich CRAN.

Sie können devtoolswie gewohnt mit installieren install.packages("devtools"), müssen jedoch möglicherweise auch Rtools unter Windows , Xcode-Befehlszeilentools unter Mac oder r-base-dev und r-devel unter Linux installieren. Hier haben Sie weitere Details zu devtoolsund Installation.

Nach der devtoolsInstallation können Sie mithilfe der Dienstprogrammfunktionen weitere Pakete installieren. Die Optionen sind:

* install_bioc()von Bioconductor ,
* install_bitbucket()von Bitbucket ,
* install_cran()von CRAN ,
* install_git()aus einem Git- Repository,
* install_github()von GitHub ,
* install_local() aus einer lokalen Datei,
* install_svn()aus einem SVN-Repository ,
* install_url() von einer URL und
* install_version() von einer bestimmten Version eines CRAN-Pakets

In [None]:
install.packages('devtools' , lib = '/usr/local/lib/R/site-library')

In [None]:
devtools:install_github('hadley/babynames', lib = '/usr/local/lib/R/site-library')

#### Pakete Initialisieren ####

Nach der Installation eines Pakets können Sie dessen Funktionen nutzen. Wenn Sie nur eine sporadische Verwendung einiger Funktionen oder Daten in einem Paket benötigen, können Sie mit der Notation darauf zugreifen packagename::functionname(). Nachdem Sie beispielsweise das babynamesPaket installiert haben , können Sie eines seiner Datasets durchsuchen.


In [None]:
# Mit dem folgenden Befehl lassen sich Pakete laden
library(tidyverse)

### Rechnen mit R ###

In seiner grundlegendsten Form kann R als ein einfacher Rechner verwendet werden. Beachten Sie folgende Rechenoperatoren:

Addition: +
Subtraktion: -
Multiplikation: *
Division: /
Potenzierung: ^
Modulo: %%
Die letzten beiden Operatoren benötigen eine Erklärung:

Der ^ Operator steigert die linke Zahl durch die Größe der rechten Zahl: zum Beispiel 3^2 ist 9.

Der Operator Modulo liefert den Rest durch die Division der linken Zahl durch die rechte Zahl, zum Beispiel 5 Modulo 3 oder 5 %% 3 ist 2.

In [None]:
# Addition
5 + 5

# Subtraktion 
5-5

# Multiplikation
5 * 5

# Division
10 / 2

# Potenzierung
3^2

# Modulo
5 %% 3


### Variablenzuweisung ###

Ein grundlegendes Konzept in der (statistischen) Programmierung sind Variablen.

Eine Variable ermöglicht es Ihnen, einen Wert (z.B. 4) oder ein Objekt (z.B. Funktionsbeschreibung) in R zu speichern. Später können Sie den Namen der Variable nutzen, um einfach auf den Wert oder das Objekt zuzugreifen, die innerhalb dieser Variable hinterlegt sind

In [None]:
# Ein Variable lässt sich in R mit den folgenden Möglichkeiten zuweisen.

# Option 1
x = 20
y = 10
x * y


# Option 2
xx <- 30
yy <- 20
xx * yy

### Basisdatentypen in R ###
R arbeitet mit zahlreichen Datentypen. Einige der grundlegendsten Datentypen sind:

* Dezimalwerte, wie 4.5 werden auch numerics (Numerik) genannt.
* Natürliche Zahlen, wie 4, heißen auch integers (Ganze Zahlen). Ganze Zahlen sind auch Numerik.
* Boolesche Werte (TRUE oder FALSE) werden auch logical (logisch) genannt.
* Text- (oder String-) Werte werden auch als characters (Zeichen) bezeichnet.

In [None]:
# Nummerische Werte
dez_num_var = 4.5
int_num_var = 4

# String Werte
str_var = 'Das ist ein String'

# Boolesche (logische) Wert
bol_var = TRUE

# Überprüfung der Datentypen
class(dez_num_var)
class(str_var)
class(bol_var)

### Vektors ###

Vektoren sind eindimensionale Arrays, die numerische Daten, Zeichendaten oder logische Daten sein können. Mit anderen Worten ist ein Vektor ein einfaches Werkzeug, um Daten zu speichern. Zum Beispiel können Sie mit Vektoren Ihre täglichen Glückspspiel-Gewinne und -Verluste speichern.

In R erstellen Sie einen Vektor mit der ******combine** Funktion c()**. Die Vektorelemente werden in der runden Klammer mit einem Komma getrennt.


In [None]:
# Erstellen eines Vektors

num_vec = c(1,2,4,8,16,32)
str_vec = c('eins','zwei','vier')
bol_vec = c(TRUE,FALSE,TRUE)

num_vec  
str_vec  
bol_vec

#### Benennen eines Vektors ####
Als Datenanalyst ist es sehr wichtig, eine klare Sicht auf die Daten zu haben, die Sie nutzen. Zu verstehen, worauf sich jedes Element bezieht, ist deshalb entscheidend.

Sie können den Elementen eines Vektors mit der Funktion names() einen Namen geben. Dabei muss die Anzahl der zugewiesenen Elemente immer übereinstimmen.

In [None]:
# Aktienpreise
stock_price = c(240,356,450,520)

# Zuweisung der Aktiennamen
names(stock_price) = c('Tesla','Apple','Microsoft','HP')

# Name
name = c('Patrick', 'Di Lena')
names(name) = c('Vorname', 'Nachname')

# Der Output sieht dann wie folgt aus
name

# Die Ausgabe eines Vektors kann auch Elementweise erfolgen ...
stock_price[1]
stock_price['Tesla']
name['Vorname']

# oder Elementerange ...
stock_price[1:3]

# oder mehrere einzelner Elemente
stock_price[c(1,3)]
stock_price[c('Microsoft','Tesla')]

# oder über den Namen



#### Rechnen mit Vektoren ####

Nun werden wir arithmetische Berechnungen auf Vektoren durchführen.

Dabei ist zu beachten, dass wenn Sie zwei Vektoren in R zusammenfassen, diese elementeweise zu summieren. Zum Beispiel sind folgende drei Erklärungen völlig äquivalent:

In [None]:
c(1,2,3) + c(4,5,6) + c(7,8,9)

# Das Beispiel oben wird wie folgt berechnet
c(1+4,2+5,3+6)

# Die einzelen Vektoren sind also wie Spalten und werden Zeile für Zeile gerechnet


Fassen wir die Erkenntnisse in Bezug auf den Vektor mal mit einem kleinen Beispiel zusammen

In [None]:
# Aktienprice 
stock_price_w1 = c(240,356,450,520,500)
stock_price_w2 = c(260,300,500,520,620)

# Aktiennamen
stock_name = c('Tesla','Apple','Microsoft','Google','IBM')

# Zuweisung Aktienname zu Preis
names(stock_price_w1) = stock_name
names(stock_price_w2) = stock_name

# Berchnung Gewinn oder Verlust von Woche 1 auf Woche 2
stock_win_loss = stock_price_w2 - stock_price_w1
stock_win_loss

# 
total_win = sum(stock_win_loss)


#### Vergleichsoperatoren ####

Durch die Verwendung von Vergleichsoperatoren können wir uns an die vorherige Frage annähern.

Logische Vergleichsoperatoren sind:

* < für weniger als
* > für mehr als
* <= für kleiner oder gleich
* >= für größer oder gleich
* == für gleich
* != für ungleich

Wie im vorherigen Kapitel gesehen, gibt 6 > 5 TRUE zurück. Das Gute an R ist, dass Sie diese Vergleichsoperatoren auch auf Vektoren anwenden können


In [None]:
# Nachfolgend ein paar einfach Vergleichsoperationen
4 > 1
4 == 4
4 != 5
4 < 2
4 <= 5

# Wir können auch Vergleichsoperationen innerhalb der Vektoren durchführen
stock_price_w1 = c(240,356,450,520,500)
vergleich_stock <- stock_price_w1 > 250 # Hier wollen wir wissen welche Aktion höher als 250 ist. 
vergleich_stock

### Matrix ###

In R ist eine Matrix eine Sammlung von Elementen des gleichen Datentyps (numeric, character oder logic) in einer festen Anzahl an Zeilen und Spalten angeordnet. Da Sie nur mit Zeilen und Spalten arbeiten, wird eine Matrix zweidimensional genannt.

Sie können eine Matrix in R mit der Funktion matrix() erstellen.
In der Funktion matrix():

* Das erste Argument ist die Sammlung von Elementen, die R in die Zeilen und Spalten einer Matrix ordnet. Hier verwenden wir 1:9, was eine Abkürzung für c(1, 2, 3, 4, 5, 6, 7, 8, 9) ist.
* Das Argument byrow zeigt an, dass die Matrix zeilenweise befüllt wird. Wenn wir die Matrix spaltenweise füllen wollen, dann verwenden wir einfachbyrow = FALSE.
* Das dritte Argument nrow zeigt an, dass die Matrix drei Zeilen haben sollte.


In [None]:
# Erstellung einer Matrix und zeilenweise Befüllung
matrix(1:9, byrow = TRUE, nrow=3)

# Erstellung einer Matrix und spaltenweise Befüllung
matrix(1:9, byrow = FALSE, nrow=3)

Nehmen wir mal das bereits verwendete Beispiel mit den Aktion um eine Matrix zu bauen

In [None]:
stock_price_w1 = c(240,356,450,520,500)
stock_price_w2 = c(260,300,500,520,620)
stock_all = c(stock_price_w1, stock_price_w2)

stock_matrix = matrix(stock_all, byrow = TRUE, nrow=2)
stock_matrix

#### Benennung einer Matrix ####

Damit Sie sich daran erinnern, was in einer Matrix gespeichert ist, sollten Sie die  den Zeilen hinzufügen. Nicht nur, dass diese Ihnen helfen werden, die Daten zu lesen, sie sind auch sehr nützlich, um bestimmte Elemente aus der Matrix zu wählen. Ähnlich wie bei Vektoren, können Sie Namen für die Zeilen und Spalten einer Matrix hinzufügen.

In [None]:
stock_price_w1 = c(240,356,450,520,500)
stock_price_w2 = c(260,300,500,520,620)
stock_all = c(stock_price_w1, stock_price_w2)

stock_names = c('Tesla','Apple','Microsoft','HP','Google')

stock_matrix = matrix(stock_all, byrow = TRUE, nrow=2)

# Die Zuweisung eines Spalten und Zeilen Names geht in R wie folgt
colnames(stock_matrix) <- stock_names
rownames(stock_matrix) <- c('Week1','Week2')
stock_matrix


#### Rechnen mit einer Matrix ####

Wie auch schon bei den Vektoren können Berechnungen in der Matrix durchgeführt werden

In [None]:
# Summieren wir zuerst 

stock_price_tesla = c(201:230)
stock_price_google = c(351:380)
stock_price_apple = c(421:450)
stock_price_microsoft = c(511:540)


stock_price_all = c(stock_price_tesla,stock_price_google,stock_price_apple,stock_price_microsoft)
stock_price_matrix = matrix(stock_price_all, byrow = FALSE, nrow=30)

colnames(stock_price_matrix) = c('Tesla','Google','Apple','Microsoft')
rownames(stock_price_matrix) = c(1:30)

# Mit cbind() können wir der Matrix eine Spalte hinzufügen
stock_price_matrix = cbind(stock_price_matrix, c(31:60))

# Mit rbind() fügen wir eine Zeile hinzu
stock_price_matrix = rbind(stock_price_matrix, c(1:5))
stock_price_matrix

# Zeilenweise zusammenzählen
rowSums(stock_price_matrix)

# Spaltenweise zusammenzählen
colSums(stock_price_matrix)


#### Auswahl der Matrixelemente

Ähnlich wie Vektoren können Sie die eckigen Klammern [ ] verwenden, um ein oder mehrere Elemente aus einer Matrix auszuwählen. Während Vektoren eine Dimension haben, haben Matrizen zwei Dimensionen. Sie sollten daher ein Komma zum Trennen verwenden, was Sie aus den Reihen und den Spalten auswählen wollen. Zum Beispiel:

* my_matrix[1,2] wählt das Element in der ersten Reine und zweiten Spalte.
* my_matrix[1:3,2:4] ergibt in einer Matrix mit den Daten in den Zeilen 1, 2, 3 und Spalten 2, 3, 4.

Wenn Sie alle Elemente einer Zeile oder einer Spalte auswählen möchten, wird keine Zahl vor oder nach dem Komma benötigt, bzw.:

* my_matrix[,1] wählt alle Elemente der ersten Spalte aus
* my_matrix[1,] wählt alle Elemente der ersten Zeile aus

** Hinweis ** Zuerst werden immer die Zeilen und dann die Spalten angegeben. **

In [None]:
# Summieren wir zuerst 

stock_price_tesla = c(201:230)
stock_price_google = c(351:380)
stock_price_apple = c(421:450)
stock_price_microsoft = c(511:540)


stock_price_all = c(stock_price_tesla,stock_price_google,stock_price_apple,stock_price_microsoft)
stock_price_matrix = matrix(stock_price_all, byrow = FALSE, nrow=30)

colnames(stock_price_matrix) = c('Tesla','Google','Apple','Microsoft')
rownames(stock_price_matrix) = c(1:30)

# Auswahl Zeile 1 Spalte 2
stock_price_matrix[1,2]

# Auswahl Zeile 1,2,3 und Spalte 2,3,4
stock_price_matrix[1:3,2:4]

# Auswahl nur Spalte 1
stock_price_matrix[,1]

#Auswahl nur Zeile 1
stock_price_matrix[1,]

# Auswahl mit Berechnung
stock_price_matrix [2,2] + stock_price_matrix [2,1]
2 * stock_price_matrix [2,2]

# Vergleichsoperationen
stock_price_matrix [2,2] < 400 

# Mit Summary bekommen wir einen guten Überlick über die Struktur einer Matrix
summary(stock_price_matrix)

#### Faktor ####

Der Begriff Faktor bezieht sich auf einen statistischen Datentyp, der verwendet wird, um kategoriale Variablen zu speichern. Der Unterschied zwischen kategorialen Variablen und einer fortlaufenden Variable ist, dass eine kategoriale Variable nur einer begrenzten Anzahl von Kategorien annehmen kann. Andererseits kann eine fortlaufende Variable einer unendlichen Anzahl von Werten entsprechen.

Es ist wichtig, dass R weiß, ob sie mit einer fortlaufenden oder kategorialen Variable zu tun haben, da abhängig vom jeweiligen Typ unterschiedliche statistische Modelle erzeugt werden müssen. (Sie werden später sehen, warum dies der Fall ist.)

Ein gutes Beispiel für kategoriale Variablen ist die Variable 'Geschlecht'. Ein menschliches Individuum kann entweder "männlich" oder "weiblich" sein. So sind hier "männlich" und "weiblich", im vereinfachten Sinn, die beiden Werte der kategorialen Variable "Geschlecht" und jede Beobachtung kann entweder dem Wert "männlich" oder "weiblich" zugewiesen werden.

In [None]:
gen_vec = c('Male','Female','Male','Female','Male')

gen_vec_fac = factor(gen_vec)
gen_vec_fac

Es gibt zwei Arten von kategorialen Variablen: eine nominalskalierte Variable und eine ordinalskalierte Variable.

Eine nominale Variable ist eine kategoriale Variable ohne eine implizite Ordnung. Dies bedeutet, dass es unmöglich ist zu sagen, dass 'eine Variable mehr Wert als die andere Variable hat'. Ein Beispiel: Denken Sie an die kategoriale Variable animals_vector mit den Kategorien"Elephant", "Giraffe", "Donkey" und "Horse". Hier ist es unmöglich zu sagen, dass ein Tier über oder unter dem anderen Tier steht. (Beachten Sie, dass einige von Ihnen vielleicht nicht zustimmen werden ;-) ).

Im Gegensatz dazu, haben die ordinalen Variablen eine natürliche Ordnung. Betrachten wir, zum Beispiel, die kategorialen Variablen temperature_vector mit den Kategorien: "Low", "Medium" und "High". Hier ist es offensichtlich, dass "Medium" über "Low" steht und "High" über "Medium".

In [None]:
# Norminalskalierte Variable
animals_vector = c("Elephant", "Giraffe", "Donkey", "Horse")
animal_vec_fac = factor(animals_vector)
animal_vec_fac

# Ordinalskalierte Variable
temp_vec = c("Low", "Medium","High")
temp_vec_fac = factor(temp_vec, order = TRUE)

# Für ein bessere Verständnis lassen sich die Faktor Level auch ändern.
levels(temp_vec_fac) = c('Tief', 'Medium', 'Hoch')
temp_vec_fac

# Mit R lassen sich Verktoren mit lediglich Buchstaben auch in Levels umwandeln.
survey_vector = c('M','F','F','M','F')
survey_vec_fac = factor(survey_vector)
levels(survey_vec_fac) = c('Male','Female')
survey_vec_fac

# Mit summary() bekommen man einen schnellen Überblick über den Inhalt eines Vektors oder Matrix
summary(survey_vector)
summary(survey_vec_fac)

### Dataframes ###

Was ist ein Dataframe?
Können Sie sich an das Kapitel über Matrizen erinnern, in dem Sie gelernt haben, dass alle Elemente, die Sie in eine Matrix platzieren, vom gleichen Typ sein sollten? In Ihrem damaligen Datensatz waren nur numerische Elemente enthalten.

Wenn Sie eine Marktforschungsstudie durchführen, werden Sie oft auf Fragen, wie diese stoßen:

'Sind Sie verheiratet?' oder 'ja/nein' Fragen (logical)
'Wie alt sind Sie?' (numeric)
'Was ist Ihre Meinung zu diesem Produkt?' oder andere 'offene' Fragen (character)
...
Die Antworten auf die oben formulierten Fragen ergeben einen Datensatz von verschiedenen Datenarten. Sie werden sich oft dabei erwischen, wie Sie mit Datensätzen arbeiten, die unterschiedliche Datentypen enthalten.

Ein Dataframe erfasst die Variablen eines Datensatzes als Spalten und die Beobachtungen als Zeilen. Dies wird ein vertrautes Konzept für jene sein, die von anderen statistischen Softwarepaketen, wie SAS oder SPSS kommen.

In [None]:
# Wie auch im Pandas lassen sich Teile des Dataframes mittels head()aufrufen
# Anders wie im Python erfolgt die Funktion nicht mittels .head() sondern...
head(mtcars) # zeigt die Ersten 6 Zeilen
tail(mtcars) # zeigt die Letzten 6 Zeilen


Eine andere oft verwendete Methode, um einen schnellen Überblick über Ihre Daten zu bekommen, ist die Funktion str(). Diese Funktion str() zeigt Ihnen die Struktur ihres Datensatzes. Für einen Dataframe bekommen Sie:

* Die Gesamtzahl der Beobachtungen (z.B. 32 Fahrzeugtypen)
* Die Gesamtzahl der Variablen (z.B. 11 Automerkmale)
* Eine vollständige Liste der Variablennamen (z.B. mpg, cyl ... )
* Den Datentyp jeder Variable (z.B. num)
* Die ersten Beobachtungen

Die Anwendung der Funktion str() wird oft das Erste sein, was Sie machen, wenn Sie einen neuen Datensatz oder Dataframe erhalten. Es ist eine gute Möglichkeit, um vor der wirklichen Analyse mehr Einblick in Ihre Daten, zu bekommen.

In [None]:
str(mtcars)

#### Erstellen eines Dataframes ####
Wie auch im Pandas lässt sich ein Dataframe von Hand erstellen. Dies wir normalerweise nicht oft der Fall sein.

Sie konstruieren mit der Funktion data.frame() einen Dataframe. Als Argument übergeben Sie die Vektoren von vorher: sie werden verschiedene Spalten Ihrer Dataframe bekommen. Da alle Spalten die gleiche Länge haben, sollten die Vektoren auch dieselbe Länge haben. Aber vergessen Sie nicht, dass es möglich (und wahrscheinlich) ist, dass sie verschiedene Arten von Daten enthalten.

In [None]:
# Zuerst erstellen wir verschiedene Vektoren

vorname = c('Peter', 'Gabi', 'Wilfried', 'Susanne')
nachname = c('Meier', 'Müller', 'Berger', 'Speich')
alter = c(55, 45, 42, 60)

# Nun erstellen wir ein Dataframe aus diesen Vektoren
person_df = data.frame(vorname, nachname, alter)
str(person_df)
person_df

# Die Auswahl eines Elements aus dem DataFrame funktioniert analog eines
# Vektors oder Matrix
person_df[1,2]
person_df[1:2,3:2]
person_df[1,] # Auswahl nach Zeile
person_df[,1] # Auswahl nach Spalte
person_df['vorname'] # Auswahl mittels Spaltenname

# Eine weitere Art eine Spalte auszuwählen geht wie folgt:
person_df$nachname
person_df$alter


In [None]:
# Wir können natürlich auch nur einen Teilbereich der Daten, ein sogenanntes Subset mit Conditionen ausgeben
subset(person_df, subset = alter < 50)

# Mittels der folgenden Funktion können wir die Rangpositionen jedes Elements im Datensatz ausgeben. Dies kommt einer
# Sortierung gleich.
person_df$alter
order(person_df$alter)

### Listen ###

Eine Liste in R ist ähnlich zu Ihren to-do Listen bei der Arbeit oder in der Schule: Die verschiedenen Punkte auf der Liste unterscheiden sich vermutlich unter anderem in Länge, Merkmal und, Art der zu erledigenden Aktivität.

Eine Liste in R ermöglicht es Ihnen, eine Vielzahl von Objekten unter einem Namen (dem Name der Liste) in einer geordneten Art und Weise zu sammeln. Diese Objekte können neben Matrizen, Vektoren und, Dataframes, auch andere Listen usw. sein. Es ist nicht erforderlich, dass diese Objekte miteinander in einer Beziehung stehen.

**Sie könnten sagen, dass eine Liste eine Art 'Super Datentyp' ist: Sie können praktisch jede Information darin speichern!**



In [None]:
# Zuerst erstellen wir verschieden Elemente
car_df = mtcars[1:10,]
dig_vec = c(10:100) 
dig_mat = matrix(1:9, ncol = 3)
name_vec =c('Martin','Peter')

# Nun erstellen wir aus allen Elementen eine Liste
all_list = list(car_df, dig_vec, dig_mat)

# Nun tätigen wir einen Zugriff auf die einzelnen Elemente in der Liste
all_list[1]

# Wir können natürlich auch die erste Spale der ersten Liste auswählen.
all_list[[1]][1]

# Wir können die Liste auch jederzeit durch eine weitere Liste erweitern.
all_new_list = c(all_list, name_vec)
all_new_list

## R Advanced ##

### Datenvisualisierung mit ggplot2

R verfügt über mehrere Systeme, um Diagramme zu erzeugen, doch ggplot2 ist eines der elegantesten und flexibelsten. Das R Paket ggplot2 befindet sich in der Bibliothek Tidyverse.

Auf dem folgenden Link gibt es eine Übersicht der verschiedenen Plots und ihre Konfigurationsoptionen:
![](http://)http://sape.inf.usi.ch/quick-reference/ggplot2

In [None]:
# Um ggplot zu laden geben wir folgendes ein
library(tidyverse)

# Will man eine spezifisch Funktion nutzen, dann verwendet man
ggplot2::ggplot()

In [None]:
# Das Paket ggplot besitzt einen Datensatz mit Automarken und verschiedenen 
# Spezifikationen

# Den Datensatz laden wir mittels:
ggplot2::mpg

# Informationen über den Datensatz bekommen wir so
?mpg

In [None]:
# Wir können nun einen ganz einfach plot erstellen, in welchem wir eine 
# negative Beziehung zwischen Hubraum (displ) und Kraftstoffeffizienz (hwy)
# darstellen können

# Merkmale:
# displ = Hubraum
# hwy = Kraftstoffverbrauch Meilen pro Gallone (3.7 Liter)

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy),color = 'blue', fill = 'blue', shape = 24, size = 3)

In [None]:
# Wir stellen nun den Plot mit den gleichen Merkmalen erneut dar  
# Zusätzlich wollen wir nun aber noch wissen mit welcher Klasse von Auto
# wir es zu tun haben und stellen diese mittels dem Attribut color dar.
ggplot (data=mpg) + geom_point(mapping = aes (x = displ, y = hwy, color = class))

In [None]:
# Auch eine solche Darstellung ist denkbar jedoch nur bedingt etwas fürs Auge ;-)

# Oben werden die Punkt in einer Grauskalierung dargestellt

# Merkmale:
# displ = Hubraum
# hwy = Kraftstoffverbrauch Meilen pro Gallone (3.7 Liter)
# class = Autoklasse

ggplot (data = mpg) + 
    geom_point(mapping = aes (x = displ, y = hwy, alpha = class))

# Unten mit verschiedenen Symbolen
ggplot (data=mpg) + 
    geom_point(mapping = aes (x = displ, y = hwy, shape = class))

### Facceten (Facets) ###
Merkmale in einem einzelnen Plot darzustellen ist nicht immer zielführend. Manchmal ist es sinnvoller diese in sogenannte Teildiagramme zu unterteilen.
Hierzu bietet sich das Argument facet () an.

** Hinweis ** 

Das Tilde Symbol (~) kann auf dem Mac mittels (Alt + n) aufgerufen werden

In [None]:
ggplot(data=mpg) +
 geom_point(mapping = aes (x = displ, y = hwy)) + 
 facet_wrap(~class, nrow=2)

In [None]:
# Merkmale:
# displ = Hubraum
# hwy = Kraftstoffverbrauch Meilen pro Gallone (3.7 Liter)
# class = Autoklasse
# drv = Antriebsart Vorne, Hinten, Allrad
# cyl = Anzahl Zylinder

# Nachfolgend erstellen wir ein Plot in welchem die Daten nach Antriebsart und Zylinder unterteilen.
ggplot(data = mpg) +
    geom_point(mapping = aes (x = displ, y = hwy, color = class)) +
    facet_grid(cyl ~ drv)

# Wir können aber auch nur eine zusätzliche Unterteilung nach Antriebsart machen.
ggplot(data = mpg) + 
    geom_point(mapping = aes (x = displ, y = hwy, color = class)) +
    facet_grid (.~ drv)

Wenn wir uns nun den unteren Plot ansehen, dann sticht uns ein Ausreisser besonders ins Auge.
Es handelt sich dabei um eine Auto der Minivan Klasse welches im Gegensatz zu den anderen Autos der gleichen Klasse einen
relativ hohen Verbrauch hat (Mit einer Gallone unter 20 Meilen).

Eine weiteres klares Muster welches es sich aus dem Plot auslesen lässt ist, dass Pickups und SUVs mit 4WD zu den Klassen mit dem höchsten 
Kraftstoffverbrauch gehören.

### Geometrische Objekte ###

Im ggplot2 Syntax gibt es verschiedene geometrische Objekte (geoms)

In [None]:
library(tidyverse)

ggplot(data = mpg) + 
 geom_smooth(mapping = aes(x = displ, y = hwy, linetype = drv, color = drv))

In [None]:
# Möchte man mehr über den Syntax des Geom wissen
?geom_smooth

In [None]:
# Je nach dem macht es auch Sinn verschiedene Plots übereinander zu legen.

ggplot(data = mpg) +
    geom_point(mapping = aes (x = displ, y = hwy, color = drv)) +
    geom_smooth (mapping = aes (x = displ, y = hwy))

In [None]:
# Legen wir mehrere Plot übereinander können wir den Code auch etwas einfacher machen.

ggplot(data=mpg, mapping=aes (x=displ, y=hwy, color=drv)) +
    geom_point() +
    geom_smooth()