# R for Beginners - Introduction to R
R ist eine funktionale Programmiersprache mit Fokus auf mathematische und statistische Operationen. Dabei versucht R möglichst intuitiv für den Nutzer zu sein.

Im Ersten Teil der Introduction beschäftigen wir uns mit den R Basics:
* Zuweisung von Variablen
* Vektoren
* Basic Operations
* Data Frames

Um dieses Notebook auszuführen wähle die jeweilige "Line of Code" und drücke **CTRL+ENTER**. Mit **SHIFT+ENTER** führst du eine Zeile aus und springst automatisch zur nächsten 

### Zuweisung von Variablen
Im Grunde genommen funktioniert die Basis von R wie ein Taschenrechner. Wir können Berechnungen durchführen und die Ergebnisse Variablen zuweisen. Mit diesen Variablen können wir weitere Berechnungen durchführen:

Grundsätzlich sind sowohl "=" als auch "<-" möglich für die Zuweisung von Variablen möglich. Worin genau sich die beiden Operatoren unterscheiden kannst du hier nachlesen: 
#https://stackoverflow.com/questions/1741820/what-are-the-differences-between-and-assignment-operators

In [None]:
#Einfache Taschenrechnerfunktion
1+1

In [None]:
#Zuweisung von Variablen. 
a <- 1
b = 3
c <- a+b
print(c)

* Addition +
* Subtraktion -
* Multiplikation *
* Division /
* Modulo %%
* Potenz ^

In [None]:
#Logische Variablen
richtig <- TRUE
falsch <- FALSE

In [None]:
#Relationale Operatoren
richtig==falsch
3 <= c

* Größer als > (bzw kleiner als <)
* Größer gleich >= (bzw kleiner gleich <=)
* Gleichheit ==
* Ungleichheit !=

In [None]:
#Auch Strings können assigned werden.
hi <- "Hello World"
hi <- "Hello'World"
hi <- 'Hello World'

In [None]:
"Hello" World"

In [None]:
"Hello\"World"

In [None]:
#Ein Print wird nicht zwingend für die Ausgabe benötigt:
print(hi)
hi

In [None]:
person <- "weiblich"
as.factor("weiblich")

### Grundlegende mathematische Funktionen
Die folgenden Operationen können sowohl mit einzelnen Werten als auch mit Vektoren durchgeführt werden:
* abs()
* round()
* Sinus sin() und Cosinus() sowie pi
* Logarithmus + Exponentialfunktionen

In [None]:
abs(-1)

In [None]:
#Informationen zu den Funktionen (help)
?abs
#help(abs)

In [None]:
xx <- -9:9
plot(xx, sqrt(abs(xx)),  col = "red")

In [None]:
print(sin(3.14))
print(cos(pi))

In [None]:
exp(1) # Eulers Zahl

In [None]:
print(log(8)) #Logarithums, default base = Eulers Zahl
print(log(8,base=2)) #Logarithmus, custom base

### Vektoren
Vektor sind das Herzstück der Datenverarbeitung mit R. Mit Vektoren können einer einzigen Variable eine Vielzahl an Werten bzw. Parametern übergeben werden. Für die Zuweisung nutzen wir die Funktion c() - sie kombiniert (combine) Werte zu einem Vektor. 

Vektoren können immer nur Daten eines einzigen Datentyps aufnehmen. Falls mehrere Datentypen vorkommen so wird der höchstwertige genommen.

In [None]:
a <- c(1,2,3) #Variable a kann ohne Probleme neu zugewiesen werden
print(a)

In [None]:
b <- c(FALSE, 1)
b

In [None]:
a <- c(FALSE, 1, "Hello World")
print(a)

In [None]:
vec0 <- c(TRUE,FALSE,TRUE,TRUE,FALSE,TRUE)
vec0

In [None]:
vec1 <- 1:6 #Vereinfachte Möglichkeit eine Reihenfolge natürlicher Daten darzustellen
vec2 <- seq(from=30,to=80,by=10) #Sequenz für Reihenfolge von reellen Zahlen
vec3 <- seq(from=0.1,to=1,by=0.1)

print(vec1)
print(vec2)
print(vec3)

In [None]:
long_vector <- c(vec1,vec2,vec3)
print(long_vector)

In [None]:
#Indexbasierte Abfrage
long_vector[13]

In [None]:
vec4 <- as.factor(c("männlich","weiblich","weiblich","männlich","männlich","weiblich"))
vec4

### Listen
Im Unterschied zu Vektoren können Listen verschiedene Datentypen aufweisen. Es ist sogar möglich Listen zu verschachteln und Listen in Listen zu erstellen

In [None]:
my_list1 <- list("Produkt1","Produkt2","Produkt4")
my_list1

In [None]:
my_list2 <- list("Maria", "Musterfrau", 1980,"weibich", TRUE)

In [None]:
my_list3 <- list("Maria", "Musterfrau", 1980, "weiblich", TRUE, my_list1)
my_list3

In [None]:
my_list3[1]
my_list3[[1]]

In [None]:
my_list4 <- list(
    Name = "Markus",
    Nachname = "Sieder",
    Jahr = 1997, 
    Geschecht = "männlich", 
    Kunde = TRUE, 
    Produkte = list("Produkt1","Produkt3"))


In [None]:
my_list4$Nachname
my_list4$Produkte

In [None]:
final_list <- list(Kunde1 = my_list3,Kunde2 = my_list4)

### Matrizen
Matrizen sind zweidimensioale Objekte in denen Daten des **selben** Datentyps gespeichert werden. Die Datenpunkte sind in rechteckiger Form (n x m) angeordnet. Auch wenn man theoretisch logische oder character Datentypen verwenden kann ist das Hauptziel von Matrizen das speichern und rechnen mit numerischen Werten



In [None]:
M <- matrix(c(3:14), nrow = 4, byrow = FALSE)
print(M)

In [None]:
rownames <- c("Kunde1", "Kunde2", "Kunde3", "Kunde4")
colnames <- c("Produkt1", "Produkt2", "Produkt3")

In [None]:
Produkte <- matrix(c(3:14), nrow = 4, byrow = FALSE, dimnames = list(rownames, colnames))
print(Produkte)

##### Subselektionen
Über den **Spalten- und Zeilenindex** können einzelne Elemente gezielt abgefragt werden

* Wie oft hat Kunde 1 das Produkt 3 gekauft?
* Wie viele Einheiten von Produkt 1 and die jeweiligen Kunden verkauft?
* Welche und wie viele Einheiten von Produkten hat Kunde 3 gekauft

In [None]:
Produkte[1,3] #Zuerst der Reihenindex, danach der Spaltenindex

In [None]:
Produkt1 <- Produkte[,1,drop=FALSE]
print(Produkt1)

In [None]:
Kunde3 <- Produkte[3, ,drop=FALSE]
Kunde3

##### Frage:
Abfragen über einen numerischen Index sind etwas unintuitiv. Kann es dafür eine andere Lösung geben?

In [None]:
Kunde3 <- Produkte[, ,drop=FALSE] #Tipp: wenn wir rownames setzen, können wir diese auch als index nutzen
Kunde3

### Dataframes
Data Frames organisieren Daten in einer zweidimensionalen Struktur von Rows und Columns. (-> Ähnlichkeiten zu Spreadsheets). R intern werden sie als als eine Liste interpretiert, in der jeder Eintrag ein Vektor der selben Länge ist. In jedem Vektor (Spalte) müssen die Daten dem selben Typen entsprechen. Jede Spalte/Vektor kann jedoch einen anderen Datentyp besitzen

Sie sind die häufigste Datenstruktur für moderne Data Analytics, vor Allem, weil sie besonders flexibel und intuitiv sind.

In [None]:
df2 <- data.frame(Produkte)
df2

In [None]:
df <- data.frame(vec1,vec2,vec3)

In [None]:
df1 <- data.frame(vec1,vec2,vec0)
df1

In [None]:
df <- data.frame(ID=vec1,Alter=vec2,Kunde=vec0,Geschlecht=vec4)
df

### Indexing
Zuriff auf gespeicherte Daten

In [None]:
vec1
vec1[0] #Startet mit 1
vec1[1] #Zugriff auf Datenpunkt
vec1[-6] #Löschen eines Datenpunktes

In [None]:
my_list <- my_list4
my_list

In [None]:
my_list[1]
my_list[[1]]
my_list$Name

In [None]:
my_list[6]
my_list[6][1]
my_list[[6]][1]
my_list$Produkte[1]

In [None]:
df

In [None]:
df$Alter
df[,2]

In [None]:
df[,-1]
df[,2:4]

In [None]:
df[1,]
df[-1,]

In [None]:
df$Geschlecht == 'männlich'

In [None]:
df[df$Geschlecht == 'männlich',]

In [None]:
df[df$Kunde,]

In [None]:
median(df$Alter)
df[df$Alter>55,]

### Speichern und Einlesen von Daten

In [None]:
write.csv(df,"./Mein_DataFrame")

In [None]:
read.csv("./Mein_DataFrame")
read.csv("./Mein_DataFrame")[-1]

In [None]:
write.csv(df,"./Mein_DataFrame",row.names=FALSE)
read.csv("./Mein_DataFrame")

## Übung 1
mtcars ist ein Standard-Datensatz in R der Daten zu 32 Automarken in 11 Variablen enthält

##### Auszug aus der Hilfe zu mtcars:

A data frame with 32 observations on 11 (numeric) variables.
* [, 1] 	mpg 	Miles/(US) gallon
* [, 2] 	cyl 	Number of cylinders
* [, 3] 	disp 	Displacement (cu.in.)
* [, 4] 	hp 	Gross horsepower
* [, 5] 	drat 	Rear axle ratio
* [, 6] 	wt 	Weight (1000 lbs)
* [, 7] 	qsec 	1/4 mile time
* [, 8] 	vs 	Engine (0 = V-shaped, 1 = straight)
* [, 9] 	am 	Transmission (0 = automatic, 1 = manual)
* [,10] 	gear 	Number of forward gears
* [,11] 	carb 	Number of carburetors 


Beantworten Sie folgende Fragen zu dem Datensatz:
1. Wie viele PS (=Gross HorsePower) hat das Auto "Honda Civic"?
2. Wie viele Autos im Datensatz haben 8 Zylinder?
3. Was passiert, wenn sie die Funktion summary() am Datensatz anwenden?
3. Welches Auto ist das Schwerste? Welches das leichteste?
4. Was ist die durchschnittliche 1/4 Meilen Zeit?

In [None]:
?mtcars

In [None]:
data(mtcars)
mtcars