# R for Beginners - Introduction to R
R ist eine funktionale Programmiersprache mit Fokus auf mathematische und statistische Operationen. Dabei versucht R möglichst intuitiv für den Nutzer zu sein.

Im Ersten Teil der Introduction beschäftigen wir uns mit den R Basics:
* Zuweisung von Variablen
* Vektoren
* Basic Operations
* Data Frames

Um dieses Notebook auszuführen wähle die jeweilige "Line of Code" und drücke **CTRL+ENTER**. Mit **SHIFT+ENTER** führst du eine Zeile aus und springst automatisch zur nächsten 

### Zuweisung von Variablen
Im Grunde genommen funktioniert die Basis von R wie ein Taschenrechner. Wir können Berechnungen durchführen und die Ergebnisse Variablen zuweisen. Mit diesen Variablen können wir weitere Berechnungen durchführen:

Grundsätzlich sind sowohl "=" als auch "<-" möglich für die Zuweisung von Variablen möglich. Worin genau sich die beiden Operatoren unterscheiden kannst du hier nachlesen: 
#https://stackoverflow.com/questions/1741820/what-are-the-differences-between-and-assignment-operators

In [1]:
#Einfache Taschenrechnerfunktion
1+1

In [2]:
#Zuweisung von Variablen. 
a <- 1
b = 3
c <- a+b
print(c)

[1] 4


* Addition +
* Subtraktion -
* Multiplikation *
* Division /
* Modulo %%
* Potenz ^

In [None]:
#Logische Variablen
richtig <- TRUE
falsch <- FALSE

In [10]:
#Relationale Operatoren
richtig==falsch
3 <= c

* Größer als > (bzw kleiner als <)
* Größer gleich >= (bzw kleiner gleich <=)
* Gleichheit ==
* Ungleichheit !=

In [3]:
#Auch Strings können assigned werden.
hi <- "Hello World"

In [4]:
#Ein Print wird nicht zwingend für die Ausgabe benötigt:
print(hi)
hi

[1] "Hello World"


### Vektoren
Vektor sind das Herzstück der Datenverarbeitung mit R. Mit Vektoren können einer einzigen Variable eine Vielzahl an Werten bzw. Parametern übergeben werden. Für die Zuweisung nutzen wir die Funktion c() - sie kombiniert (combine) Werte zu einem Vektor. 

In [39]:
a <- c(1,2,3) #Variable a kann ohne Probleme neu zugewiesen werden
print(a)

[1] 1 2 3


In [40]:
a <- 1:10 #Vereinfachte Möglichkeit eine Reihenfolge natürlicher Daten darzustellen
b <- seq(from=10,to=100,by=10) #Sequenz für Reihenfolge von reellen Zahlen
c <- seq(from=0.1,to=1,by=0.1)
print(a)
print(b)
print(c)

 [1]  1  2  3  4  5  6  7  8  9 10
 [1]  10  20  30  40  50  60  70  80  90 100
 [1] 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0


In [41]:
long_vector <- c(a,b,c)
print(long_vector)

 [1]   1.0   2.0   3.0   4.0   5.0   6.0   7.0   8.0   9.0  10.0  10.0  20.0
[13]  30.0  40.0  50.0  60.0  70.0  80.0  90.0 100.0   0.1   0.2   0.3   0.4
[25]   0.5   0.6   0.7   0.8   0.9   1.0


In [44]:
#Indexbasierte Abfrage
long_vector[13]

### Grundlegende mathematische Funktionen
Die folgenden Operationen können sowohl mit einzelnen Werten als auch mit Vektoren durchgeführt werden:
* Addition und Multiplikation von Variablen + Vektoren
* Polynome (^)
* Modulo (%%)
* Sinus sin() und Cosinus() sowie pi
* Logarithmus + Exponentialfunktionen

In [62]:
print(a*b)
print(a^3)   #Potenzen
print(a%%3)  #Modulo

 [1]   10   40   90  160  250  360  490  640  810 1000
 [1]    1    8   27   64  125  216  343  512  729 1000
 [1] 1 2 0 1 2 0 1 2 0 1


In [63]:
print(sin(3.14))
print(cos(pi))

[1] 0.001592653
[1] -1


In [64]:
exp(1) # Eulers Zahl

In [65]:
print(log(8)) #Logarithums, default base = Eulers Zahl
print(log(8,base=2)) #Logarithmus, custom base

[1] 2.079442
[1] 3


### Matrizen
Matrizen sind zweidimensioale Objekte in denen Daten des **selben** Datentyps gespeichert werden. Die Datenpunkte sind in rechteckiger Form (n x m) angeordnet. Auch wenn man theoretisch logische oder character Datentypen verwenden kann ist das Hauptziel von Matrizen das speichern und rechnen mit numerischen Werten



In [28]:
M <- matrix(c(3:14), nrow = 4, byrow = FALSE)
print(M)

     [,1] [,2] [,3]
[1,]    3    7   11
[2,]    4    8   12
[3,]    5    9   13
[4,]    6   10   14


In [30]:
rownames <- c("Kunde1", "Kunde2", "Kunde3", "Kunde4")
colnames <- c("Produkt1", "Produkt2", "Produkt3")

In [33]:
Produkte <- matrix(c(3:14), nrow = 4, byrow = FALSE, dimnames = list(rownames, colnames))
print(Produkte)

       Produkt1 Produkt2 Produkt3
Kunde1        3        7       11
Kunde2        4        8       12
Kunde3        5        9       13
Kunde4        6       10       14


##### Subselektionen
Über den **Spalten- und Zeilenindex** können einzelne Elemente gezielt abgefragt werden

* Wie oft hat Kunde 1 das Produkt 3 gekauft?
* Wie viele Einheiten von Produkt 1 and die jeweiligen Kunden verkauft?
* Welche und wie viele Einheiten von Produkten hat Kunde 3 gekauft

In [54]:
Produkte[1,3] #Zuerst der Reihenindex, danach der Spaltenindex

In [57]:
Produkt1 <- Produkte[,1,drop=FALSE]
print(Produkt1)

       Produkt1
Kunde1        3
Kunde2        4
Kunde3        5
Kunde4        6


In [67]:
Kunde3 <- Produkte[3, ,drop=FALSE]
Kunde3

Unnamed: 0,Produkt1,Produkt2,Produkt3
Kunde3,5,9,13


##### Frage:
Abfragen über einen numerischen Index sind etwas unintuitiv. Kann es dafür eine andere Lösung geben?

In [70]:
Kunde3 <- Produkte[, ,drop=FALSE] #Tipp: wenn wir rownames setzen, können wir diese auch als index nutzen
Kunde3

Unnamed: 0,Produkt1,Produkt2,Produkt3
Kunde1,3,7,11
Kunde2,4,8,12
Kunde3,5,9,13
Kunde4,6,10,14


### Dataframes
Data Frames organisieren Daten in einer zweidimensionalen Struktur von Rows und Columns. (-> Ähnlichkeiten zu Spreadsheets).
Sie sind die häufigste Datenstruktur für moderne Data Analytics, vor Allem, weil sie besonders flexibel und intuitiv sind.