# R for Beginners

### Fabian Pribahsnik und Dietmar Hareter 
### 08.11.2021

***

Zunächst werden alle benötigten *Pakete* (Package, Erweiterungen) geladen.

In [None]:
library(tidyverse) # Installiert die wichtigsten Packages für "Tidyverse"
library(data.table)

Das Package `datasets` enthät eine große Anzahl von Datensätzen, die zum Üben verwendet werden können:

In [None]:
library(help = "datasets")

Ein Datensatz, der häufig zu Trainingzwecken herangezogen werden ist `mtcars`. Dieser Datensatz ist beim Start von *R* bereits geladen und kann direkt angesprochen werden.

Für die Einlese von Daten gibt es viele Funktionen. Die Standardfunktionen sind `read.table` und `read.csv`.

In [None]:
Testdaten <- read.table(file = "Daten/Testdaten.csv", header = TRUE, sep = ";", dec = ",")
Testdaten[1:5,]

Für große Datensätze ist die Funktion `fread` aus dem Paket `data.table` empfehlenswert, da die Einlese parallel erfolgt.

### Erste Analysen und Bereinigung der Daten:

Im ersten Schritt sollen zunächst die Daten grob analysiert und auf Datenfehler untersucht werden.

In [None]:
head(mtcars, n = 10) # Anzeige der ersten Einträge im Datensatz

In [None]:
tail(mtcars, n = 10) # Anzeige der letzten Einträge im Datensatz

Die Dimension der Daten (Zeilen- und Spaltenanzahl) kann mit der Funktion `dim()` abgefragt werden bzw. die Zeilenanzahl mit der Funktion `nrow()` und die Spaltenanzahl mit der Funktion `ncol()`.

In [None]:
dim(mtcars)  # Dimension eines Datensatzes
nrow(mtcars) # Anzahl der Zeilen in einem Datensatz
ncol(mtcars) # Anzahl der Spalten in einem Datensatz

Die Struktur der Daten kann mit der Funktion `str()` angezeigt werden.  
In der Struktur wird die Dimension des Datensatzes sowie Informationen zu jeder Ausprägung (Name, Datentyp und die ersten Werte) angezeigt. 

In [None]:
str(object = mtcars)

**Hinweis:** Der Datensatz enthält 32 Beobachtungen mit jeweils 11 (numerische) Variablen.
* `mpg`: Miles / (US) gallon (Reichweite)
* `cyl`: Number of cylinders
* `disp`: Displacement (Hubraum)
* `hp`: Gross horsepower (PS)
* `drat`: Rear axle ratio (Hinterachsenübersetzung)
* `wt`: Weight in 1000 lbs (Gewicht)
* `qsec`: 1/4 mile time (Beschleunigung)
* `vs`: Engine (0 = V-shaped, 1 = straight)
* `am`: Transmission (0 = automatic, 1 = manual)
* `gear`: Number of forward gears (Anzahl der Gänge)
* `carb`: Number of carburetors (Anzahl der Vergaser)

Zunächst wird der Datensatz ein wenig aufbereitet, indem numerischen Variablen in Faktoren umgewandelt werden.

In [None]:
mtcars2 <- within(data = mtcars, {
  vs <- factor(vs, labels = c("V-shaped", "Straight"))
  am <- factor(am, labels = c("Automatik", "Manuell"))
  cyl  <- factor(cyl)
  gear <- factor(gear)
  carb <- factor(carb)
})
colnames(mtcars2) <- c("Reichweite", "Anz_Zylinder", "Hubraum", "PS", "Hinterachse", "Gewicht", "Beschl.", 
                       "Motorart", "Getriebe", "Anz_Gänge", "Anz_Vergaser")

Die Änderungen sind auch in der Struktur ersichtlich.

In [None]:
str(mtcars2)

In [None]:
head(mtcars2)

Einen ersten Überblick über die Ausprägungen der einzelnen Daten kann mit der Funktion `summary()` angezeigt werden.

In [None]:
summary(mtcars2)

Die Häufigkeit einer Ausprägungen eines Merkmals kann mit `table()` abgefragt werden.

In [None]:
table(mtcars2$Anz_Gänge)

Die Funktion kann auch für die Analyse des Zusammenhangs von zwei Variablen verwendet werden.

In [None]:
table(mtcars2$Anz_Gänge, mtcars2$Anz_Zylinder)

Die Funktion `with()` führt eine Funktion auf einem vorgegeben Datensatz aus. Der Vorteil bei der Verwendung ist, dass der Namen des Datensatzes nur einmal mit angegeben werden muss.

Die obige Abfrage kann auch in folgender Form durchgeführt werden:

In [None]:
with(mtcars2, table(Anz_Gänge, Anz_Zylinder))

Oft beinhaltet der Zeilennamen ebenfalls Informationen und sollte deshalb wünschenswerterweise als Spalte zur Verfügung stehen. 

In [None]:
head(mtcars2)

Eine Möglichkeit, die Zeilennamen als Spalte zu erhalten, sind die folgenden Schritte:

In [None]:
Modell <- rownames(mtcars2)                  # Abfrage der Zeilennamen
mtcars2_Modell <- cbind(Modell, mtcars2)     # cbind(): "columns"-bind - Kombiniert Datensätze spaltenweise
rownames(mtcars2_Modell) <- c()              # Die Zeilennamen werden gelöscht
head(mtcars2_Modell, 10)

Für zahlreiche Umformungen dieser Art wurden entsprechende Funktionen definiert. 

Die Funktion `rownames_to_column()` aus dem Paket `tibble` fügt die Zeilennamen in eine Spalte ein, deren Spaltennamen mit dem Argument `var` vorgegeben werden kann:

In [None]:
mtcars2_Modell <- rownames_to_column(.data = mtcars2, var = "Modell")
head(mtcars2_Modell, 10)

Die entsprechende inverse Funktion ist `column_to_rownames()`.

In [None]:
Original <- column_to_rownames(.data = mtcars2_Modell, var = "Modell")
head(Original, 10)

### Bearbeitung der Daten

Für die Bearbeitung eines Datensatzes stehen verschiedene Funktion zur Verfügung:
* `filter`: Filtert den Datensatz nach einzelnen Beobachtungen
* `select`: Filter einzeler Variablen
* `mutate`: Bearbeitung einzelner Variablen
* `summarize`: Summation der Beobachtungen
* `group_by`: Gruppierung des Datensatz
* `arrange`: Sortierung des Datensatzes

`filter()`  Filter den Datensatz nach einzelnen Beobachtungen

In [None]:
mtcars2 %>%
  filter(Anz_Gänge == 4) %>%
  head()

In [None]:
mtcars2 %>%
  filter(Anz_Gänge == 4, Reichweite > 22) %>%
  head()

`select()` Filter einzeler Variablen

In [None]:
mtcars2 %>%
  select(Reichweite, PS) %>%
  head()

In [None]:
mtcars2 %>%
  select(Reichweite:PS, Getriebe) %>%
  head()

In [None]:
mtcars2 %>%
  select(-Hubraum,-Gewicht) %>%
  head()

`mutate()` Bearbeitung einzelner Variablen

In [None]:
mtcars2 %>%
  mutate(KW = PS / 1.35962) %>%
  head()

`summarize()` Summation der Beobachtungen
`group_by()` Gruppierung des Datensatz

In [None]:
mtcars2 %>% 
  summarize(Mittlere_Reichweite = mean(Reichweite), Anzahl = n())

In [None]:
mtcars2 %>% 
  group_by(Anz_Zylinder) %>%
  summarize(Mittlere_Reichweite = mean(Reichweite), Anzahl = n())

In [None]:
mtcars2 %>% 
  group_by(Anz_Zylinder, Getriebe) %>%
  summarize(Mittlere_Reichweite = mean(Reichweite), Anzahl = n())

In [None]:
mtcars2 %>% 
  group_by(Anz_Zylinder, Getriebe) %>%
  summarize(Mittlere_Reichweite = mean(Reichweite), Anzahl = n(), .groups = 'drop')

`arrange()` Sortierung des Datensatzes

In [None]:
mtcars2 %>%
  arrange(Reichweite) %>%
  head()

In [None]:
mtcars2 %>%
  arrange(desc(Reichweite)) %>%  # Sorteirung in absteigender Reihenfolge
  head()

Alle Funktionen zusammen

In [None]:
mtcars2 %>%
  mutate(KW = PS / 1.35962) %>%
  group_by(Anz_Zylinder, Getriebe) %>%
  summarize(Mittlere_Reichweite = mean(Reichweite), Anzahl = n(), .groups = 'drop') %>%
  filter(Anzahl > 5)