# R for Beginners

### Fabian Pribahsnik und Dietmar Hareter 
### 08.11.2021

***

Zunächst werden alle benötigten *Pakete* (Package, Erweiterungen) geladen.

In [1]:
library(tidyverse) # Installiert die wichtigsten Packages für "Tidyverse"
library(data.table)

-- [1mAttaching packages[22m ------------------------------------------------------------------------------- tidyverse 1.3.1 --

[32mv[39m [34mggplot2[39m 3.3.5     [32mv[39m [34mpurrr  [39m 0.3.4
[32mv[39m [34mtibble [39m 3.1.5     [32mv[39m [34mdplyr  [39m 1.0.7
[32mv[39m [34mtidyr  [39m 1.1.4     [32mv[39m [34mstringr[39m 1.4.0
[32mv[39m [34mreadr  [39m 2.0.2     [32mv[39m [34mforcats[39m 0.5.1

-- [1mConflicts[22m ---------------------------------------------------------------------------------- tidyverse_conflicts() --
[31mx[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31mx[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()


Attache Paket: 'data.table'


Die folgenden Objekte sind maskiert von 'package:dplyr':

    between, first, last


Das folgende Objekt ist maskiert 'package:purrr':

    transpose




Das Package `datasets` enthät eine große Anzahl von Datensätzen, die zum Üben verwendet werden können:

In [2]:
library(help = "datasets")

Ein Datensatz, der häufig zu Trainingzwecken herangezogen werden ist `mtcars`. Dieser Datensatz ist beim Start von *R* bereits geladen und kann direkt angesprochen werden.

Für die Einlese von Daten gibt es viele Funktionen. Die Standardfunktionen sind `read.table` und `read.csv`.

In [3]:
Testdaten <- read.table(file = "Daten/Testdaten.csv", header = TRUE, sep = ";", dec = ",")
Testdaten[1:5,]

Unnamed: 0_level_0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Unnamed: 0_level_1,<dbl>,<int>,<dbl>,<int>,<dbl>,<dbl>,<dbl>,<int>,<int>,<int>,<int>
Mazda RX4,21.0,6,160,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360,175,3.15,3.44,17.02,0,0,3,2


Für große Datensätze ist die Funktion `fread` aus dem Paket `data.table` empfehlenswert, da die Einlese parallel erfolgt.

### Erste Analysen und Bereinigung der Daten:

Im ersten Schritt sollen zunächst die Daten grob analysiert und auf Datenfehler untersucht werden.

In [4]:
head(mtcars, n = 10) # Anzeige der ersten Einträge im Datensatz

Unnamed: 0_level_0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


In [5]:
tail(mtcars, n = 10) # Anzeige der letzten Einträge im Datensatz

Unnamed: 0_level_0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
AMC Javelin,15.2,8,304.0,150,3.15,3.435,17.3,0,0,3,2
Camaro Z28,13.3,8,350.0,245,3.73,3.84,15.41,0,0,3,4
Pontiac Firebird,19.2,8,400.0,175,3.08,3.845,17.05,0,0,3,2
Fiat X1-9,27.3,4,79.0,66,4.08,1.935,18.9,1,1,4,1
Porsche 914-2,26.0,4,120.3,91,4.43,2.14,16.7,0,1,5,2
Lotus Europa,30.4,4,95.1,113,3.77,1.513,16.9,1,1,5,2
Ford Pantera L,15.8,8,351.0,264,4.22,3.17,14.5,0,1,5,4
Ferrari Dino,19.7,6,145.0,175,3.62,2.77,15.5,0,1,5,6
Maserati Bora,15.0,8,301.0,335,3.54,3.57,14.6,0,1,5,8
Volvo 142E,21.4,4,121.0,109,4.11,2.78,18.6,1,1,4,2


Die Dimension der Daten (Zeilen- und Spaltenanzahl) kann mit der Funktion `dim()` abgefragt werden bzw. die Zeilenanzahl mit der Funktion `nrow()` und die Spaltenanzahl mit der Funktion `ncol()`.

In [6]:
dim(mtcars)  # Dimension eines Datensatzes
nrow(mtcars) # Anzahl der Zeilen in einem Datensatz
ncol(mtcars) # Anzahl der Spalten in einem Datensatz

Die Struktur der Daten kann mit der Funktion `str()` angezeigt werden.  
In der Struktur wird die Dimension des Datensatzes sowie Informationen zu jeder Ausprägung (Name, Datentyp und die ersten Werte) angezeigt. 

In [7]:
str(object = mtcars)

'data.frame':	32 obs. of  11 variables:
 $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
 $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
 $ disp: num  160 160 108 258 360 ...
 $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
 $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
 $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
 $ qsec: num  16.5 17 18.6 19.4 17 ...
 $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
 $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
 $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
 $ carb: num  4 4 1 1 2 1 4 2 2 4 ...


**Hinweis:** Der Datensatz enthält 32 Beobachtungen mit jeweils 11 (numerische) Variablen.
* `mpg`: Miles / (US) gallon (Reichweite)
* `cyl`: Number of cylinders
* `disp`: Displacement (Hubraum)
* `hp`: Gross horsepower (PS)
* `drat`: Rear axle ratio (Hinterachsenübersetzung)
* `wt`: Weight in 1000 lbs (Gewicht)
* `qsec`: 1/4 mile time (Beschleunigung)
* `vs`: Engine (0 = V-shaped, 1 = straight)
* `am`: Transmission (0 = automatic, 1 = manual)
* `gear`: Number of forward gears (Anzahl der Gänge)
* `carb`: Number of carburetors (Anzahl der Vergaser)

Zunächst wird der Datensatz ein wenig aufbereitet, indem numerischen Variablen in Faktoren umgewandelt werden.

In [8]:
mtcars2 <- within(data = mtcars, {
  vs <- factor(vs, labels = c("V-shaped", "Straight"))
  am <- factor(am, labels = c("Automatik", "Manuell"))
  cyl  <- factor(cyl)
  gear <- factor(gear)
  carb <- factor(carb)
})
colnames(mtcars2) <- c("Reichweite", "Anz_Zylinder", "Hubraum", "PS", "Hinterachse", "Gewicht", "Beschl.", 
                       "Motorart", "Getriebe", "Anz_Gänge", "Anz_Vergaser")

Die Änderungen sind auch in der Struktur ersichtlich.

In [9]:
str(mtcars2)

'data.frame':	32 obs. of  11 variables:
 $ Reichweite  : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
 $ Anz_Zylinder: Factor w/ 3 levels "4","6","8": 2 2 1 2 3 2 3 1 1 2 ...
 $ Hubraum     : num  160 160 108 258 360 ...
 $ PS          : num  110 110 93 110 175 105 245 62 95 123 ...
 $ Hinterachse : num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
 $ Gewicht     : num  2.62 2.88 2.32 3.21 3.44 ...
 $ Beschl.     : num  16.5 17 18.6 19.4 17 ...
 $ Motorart    : Factor w/ 2 levels "V-shaped","Straight": 1 1 2 2 1 2 1 2 2 2 ...
 $ Getriebe    : Factor w/ 2 levels "Automatik","Manuell": 2 2 2 1 1 1 1 1 1 1 ...
 $ Anz_Gänge   : Factor w/ 3 levels "3","4","5": 2 2 2 1 1 1 1 2 2 2 ...
 $ Anz_Vergaser: Factor w/ 6 levels "1","2","3","4",..: 4 4 1 1 2 1 4 2 2 4 ...


In [10]:
head(mtcars2)

Unnamed: 0_level_0,Reichweite,Anz_Zylinder,Hubraum,PS,Hinterachse,Gewicht,Beschl.,Motorart,Getriebe,Anz_Gänge,Anz_Vergaser
Unnamed: 0_level_1,<dbl>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>,<fct>,<fct>
Mazda RX4,21.0,6,160,110,3.9,2.62,16.46,V-shaped,Manuell,4,4
Mazda RX4 Wag,21.0,6,160,110,3.9,2.875,17.02,V-shaped,Manuell,4,4
Datsun 710,22.8,4,108,93,3.85,2.32,18.61,Straight,Manuell,4,1
Hornet 4 Drive,21.4,6,258,110,3.08,3.215,19.44,Straight,Automatik,3,1
Hornet Sportabout,18.7,8,360,175,3.15,3.44,17.02,V-shaped,Automatik,3,2
Valiant,18.1,6,225,105,2.76,3.46,20.22,Straight,Automatik,3,1


Einen ersten Überblick über die Ausprägungen der einzelnen Daten kann mit der Funktion `summary()` angezeigt werden.

In [11]:
summary(mtcars2)

   Reichweite    Anz_Zylinder    Hubraum            PS         Hinterachse   
 Min.   :10.40   4:11         Min.   : 71.1   Min.   : 52.0   Min.   :2.760  
 1st Qu.:15.43   6: 7         1st Qu.:120.8   1st Qu.: 96.5   1st Qu.:3.080  
 Median :19.20   8:14         Median :196.3   Median :123.0   Median :3.695  
 Mean   :20.09                Mean   :230.7   Mean   :146.7   Mean   :3.597  
 3rd Qu.:22.80                3rd Qu.:326.0   3rd Qu.:180.0   3rd Qu.:3.920  
 Max.   :33.90                Max.   :472.0   Max.   :335.0   Max.   :4.930  
    Gewicht         Beschl.          Motorart       Getriebe  Anz_Gänge
 Min.   :1.513   Min.   :14.50   V-shaped:18   Automatik:19   3:15     
 1st Qu.:2.581   1st Qu.:16.89   Straight:14   Manuell  :13   4:12     
 Median :3.325   Median :17.71                                5: 5     
 Mean   :3.217   Mean   :17.85                                         
 3rd Qu.:3.610   3rd Qu.:18.90                                         
 Max.   :5.424   Max. 

Die Häufigkeit einer Ausprägungen eines Merkmals kann mit `table()` abgefragt werden.

In [12]:
table(mtcars2$Anz_Gänge)


 3  4  5 
15 12  5 

Die Funktion kann auch für die Analyse 

In [13]:
table(mtcars2$Anz_Gänge, mtcars2$Anz_Zylinder)

   
     4  6  8
  3  1  2 12
  4  8  4  0
  5  2  1  2

Die Funktion `with()` führt eine Funktion auf einem vorgegeben Datensatz aus. Der Vorteil bei der Verwendung ist, dass der Namen des Datensatzes nur einmal mit angegeben werden muss.

Die obige Abfrage kann auch in folgender Form durchgeführt werden:

In [14]:
with(mtcars2, table(Anz_Gänge, Anz_Zylinder))

         Anz_Zylinder
Anz_Gänge  4  6  8
        3  1  2 12
        4  8  4  0
        5  2  1  2

Oft beinhaltet der Zeilennamen ebenfalls Informationen und sollte deshalb wünschenswerterweise als Spalte zur Verfügung stehen. 

In [15]:
head(mtcars2)

Unnamed: 0_level_0,Reichweite,Anz_Zylinder,Hubraum,PS,Hinterachse,Gewicht,Beschl.,Motorart,Getriebe,Anz_Gänge,Anz_Vergaser
Unnamed: 0_level_1,<dbl>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>,<fct>,<fct>
Mazda RX4,21.0,6,160,110,3.9,2.62,16.46,V-shaped,Manuell,4,4
Mazda RX4 Wag,21.0,6,160,110,3.9,2.875,17.02,V-shaped,Manuell,4,4
Datsun 710,22.8,4,108,93,3.85,2.32,18.61,Straight,Manuell,4,1
Hornet 4 Drive,21.4,6,258,110,3.08,3.215,19.44,Straight,Automatik,3,1
Hornet Sportabout,18.7,8,360,175,3.15,3.44,17.02,V-shaped,Automatik,3,2
Valiant,18.1,6,225,105,2.76,3.46,20.22,Straight,Automatik,3,1


Eine Möglichkeit, die Zeilennamen als Spalte zu erhalten, sind die folgenden Schritte:

In [16]:
Modell <- rownames(mtcars2)                  # Abfrage der Zeilennamen
mtcars2_Modell <- cbind(Modell, mtcars2)     # cbind(): "columns"-bind - Kombiniert Datensätze spaltenweise
rownames(mtcars2_Modell) <- c()              # Die Zeilennamen werden gelöscht
head(mtcars2_Modell, 10)

Unnamed: 0_level_0,Modell,Reichweite,Anz_Zylinder,Hubraum,PS,Hinterachse,Gewicht,Beschl.,Motorart,Getriebe,Anz_Gänge,Anz_Vergaser
Unnamed: 0_level_1,<chr>,<dbl>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>,<fct>,<fct>
1,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,V-shaped,Manuell,4,4
2,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,V-shaped,Manuell,4,4
3,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,Straight,Manuell,4,1
4,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,Straight,Automatik,3,1
5,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,V-shaped,Automatik,3,2
6,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,Straight,Automatik,3,1
7,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,V-shaped,Automatik,3,4
8,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,Straight,Automatik,4,2
9,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,Straight,Automatik,4,2
10,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,Straight,Automatik,4,4


Für zahlreiche Umformungen dieser Art wurden entsprechende Funktionen definiert. 

Die Funktion `rownames_to_column()` aus dem Paket `tibble` fügt die Zeilennamen in eine Spalte ein, deren Spaltennamen mit dem Argument `var` vorgegeben werden kann:

In [17]:
mtcars2_Modell <- rownames_to_column(.data = mtcars2, var = "Modell")
head(mtcars2_Modell, 10)

Unnamed: 0_level_0,Modell,Reichweite,Anz_Zylinder,Hubraum,PS,Hinterachse,Gewicht,Beschl.,Motorart,Getriebe,Anz_Gänge,Anz_Vergaser
Unnamed: 0_level_1,<chr>,<dbl>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>,<fct>,<fct>
1,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,V-shaped,Manuell,4,4
2,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,V-shaped,Manuell,4,4
3,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,Straight,Manuell,4,1
4,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,Straight,Automatik,3,1
5,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,V-shaped,Automatik,3,2
6,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,Straight,Automatik,3,1
7,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,V-shaped,Automatik,3,4
8,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,Straight,Automatik,4,2
9,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,Straight,Automatik,4,2
10,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,Straight,Automatik,4,4


Die entsprechende inverse Funktion ist `column_to_rownames()`.

In [18]:
Original <- column_to_rownames(.data = mtcars2_Modell, var = "Modell")
head(Original, 10)

Unnamed: 0_level_0,Reichweite,Anz_Zylinder,Hubraum,PS,Hinterachse,Gewicht,Beschl.,Motorart,Getriebe,Anz_Gänge,Anz_Vergaser
Unnamed: 0_level_1,<dbl>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>,<fct>,<fct>
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,V-shaped,Manuell,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,V-shaped,Manuell,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,Straight,Manuell,4,1
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,Straight,Automatik,3,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,V-shaped,Automatik,3,2
Valiant,18.1,6,225.0,105,2.76,3.46,20.22,Straight,Automatik,3,1
Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,V-shaped,Automatik,3,4
Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,Straight,Automatik,4,2
Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,Straight,Automatik,4,2
Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,Straight,Automatik,4,4


### Bearbeitung der Daten

Für die Bearbeitung eines Datensatzes stehen verschiedene Funktion zur Verfügung:
* `filter`: Filtert den Datensatz nach einzelnen Beobachtungen
* `select`: Filter einzeler Variablen
* `mutate`: Bearbeitung einzelner Variablen
* `summarize`: Summation der Beobachtungen
* `group_by`: Gruppierung des Datensatz
* `arrange`: Sortierung des Datensatzes

`filter()`  Filter den Datensatz nach einzelnen Beobachtungen

In [19]:
mtcars2 %>%
  filter(Anz_Gänge == 4) %>%
  head()

Unnamed: 0_level_0,Reichweite,Anz_Zylinder,Hubraum,PS,Hinterachse,Gewicht,Beschl.,Motorart,Getriebe,Anz_Gänge,Anz_Vergaser
Unnamed: 0_level_1,<dbl>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>,<fct>,<fct>
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,V-shaped,Manuell,4,4
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,V-shaped,Manuell,4,4
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,Straight,Manuell,4,1
Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,Straight,Automatik,4,2
Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,Straight,Automatik,4,2
Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,Straight,Automatik,4,4


In [20]:
mtcars2 %>%
  filter(Anz_Gänge == 4, Reichweite > 22) %>%
  head()

Unnamed: 0_level_0,Reichweite,Anz_Zylinder,Hubraum,PS,Hinterachse,Gewicht,Beschl.,Motorart,Getriebe,Anz_Gänge,Anz_Vergaser
Unnamed: 0_level_1,<dbl>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>,<fct>,<fct>
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,Straight,Manuell,4,1
Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,Straight,Automatik,4,2
Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,Straight,Automatik,4,2
Fiat 128,32.4,4,78.7,66,4.08,2.2,19.47,Straight,Manuell,4,1
Honda Civic,30.4,4,75.7,52,4.93,1.615,18.52,Straight,Manuell,4,2
Toyota Corolla,33.9,4,71.1,65,4.22,1.835,19.9,Straight,Manuell,4,1


`select()` Filter einzeler Variablen

In [21]:
mtcars2 %>%
  select(Reichweite, PS) %>%
  head()

Unnamed: 0_level_0,Reichweite,PS
Unnamed: 0_level_1,<dbl>,<dbl>
Mazda RX4,21.0,110
Mazda RX4 Wag,21.0,110
Datsun 710,22.8,93
Hornet 4 Drive,21.4,110
Hornet Sportabout,18.7,175
Valiant,18.1,105


In [22]:
mtcars2 %>%
  select(Reichweite:PS, Getriebe) %>%
  head()

Unnamed: 0_level_0,Reichweite,Anz_Zylinder,Hubraum,PS,Getriebe
Unnamed: 0_level_1,<dbl>,<fct>,<dbl>,<dbl>,<fct>
Mazda RX4,21.0,6,160,110,Manuell
Mazda RX4 Wag,21.0,6,160,110,Manuell
Datsun 710,22.8,4,108,93,Manuell
Hornet 4 Drive,21.4,6,258,110,Automatik
Hornet Sportabout,18.7,8,360,175,Automatik
Valiant,18.1,6,225,105,Automatik


In [23]:
mtcars2 %>%
  select(-Hubraum,-Gewicht) %>%
  head()

Unnamed: 0_level_0,Reichweite,Anz_Zylinder,PS,Hinterachse,Beschl.,Motorart,Getriebe,Anz_Gänge,Anz_Vergaser
Unnamed: 0_level_1,<dbl>,<fct>,<dbl>,<dbl>,<dbl>,<fct>,<fct>,<fct>,<fct>
Mazda RX4,21.0,6,110,3.9,16.46,V-shaped,Manuell,4,4
Mazda RX4 Wag,21.0,6,110,3.9,17.02,V-shaped,Manuell,4,4
Datsun 710,22.8,4,93,3.85,18.61,Straight,Manuell,4,1
Hornet 4 Drive,21.4,6,110,3.08,19.44,Straight,Automatik,3,1
Hornet Sportabout,18.7,8,175,3.15,17.02,V-shaped,Automatik,3,2
Valiant,18.1,6,105,2.76,20.22,Straight,Automatik,3,1


`mutate()` Bearbeitung einzelner Variablen

In [24]:
mtcars2 %>%
  mutate(KW = PS / 1.35962) %>%
  head()

Unnamed: 0_level_0,Reichweite,Anz_Zylinder,Hubraum,PS,Hinterachse,Gewicht,Beschl.,Motorart,Getriebe,Anz_Gänge,Anz_Vergaser,KW
Unnamed: 0_level_1,<dbl>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>,<fct>,<fct>,<dbl>
Mazda RX4,21.0,6,160,110,3.9,2.62,16.46,V-shaped,Manuell,4,4,80.90496
Mazda RX4 Wag,21.0,6,160,110,3.9,2.875,17.02,V-shaped,Manuell,4,4,80.90496
Datsun 710,22.8,4,108,93,3.85,2.32,18.61,Straight,Manuell,4,1,68.40147
Hornet 4 Drive,21.4,6,258,110,3.08,3.215,19.44,Straight,Automatik,3,1,80.90496
Hornet Sportabout,18.7,8,360,175,3.15,3.44,17.02,V-shaped,Automatik,3,2,128.71243
Valiant,18.1,6,225,105,2.76,3.46,20.22,Straight,Automatik,3,1,77.22746


`summarize()` Summation der Beobachtungen
`group_by()` Gruppierung des Datensatz

In [25]:
mtcars2 %>% 
  summarize(Mittlere_Reichweite = mean(Reichweite), Anzahl = n())

Mittlere_Reichweite,Anzahl
<dbl>,<int>
20.09062,32


In [26]:
mtcars2 %>% 
  group_by(Anz_Zylinder) %>%
  summarize(Mittlere_Reichweite = mean(Reichweite), Anzahl = n())

Anz_Zylinder,Mittlere_Reichweite,Anzahl
<fct>,<dbl>,<int>
4,26.66364,11
6,19.74286,7
8,15.1,14


In [27]:
mtcars2 %>% 
  group_by(Anz_Zylinder, Getriebe) %>%
  summarize(Mittlere_Reichweite = mean(Reichweite), Anzahl = n())

`summarise()` has grouped output by 'Anz_Zylinder'. You can override using the `.groups` argument.



Anz_Zylinder,Getriebe,Mittlere_Reichweite,Anzahl
<fct>,<fct>,<dbl>,<int>
4,Automatik,22.9,3
4,Manuell,28.075,8
6,Automatik,19.125,4
6,Manuell,20.56667,3
8,Automatik,15.05,12
8,Manuell,15.4,2


In [28]:
mtcars2 %>% 
  group_by(Anz_Zylinder, Getriebe) %>%
  summarize(Mittlere_Reichweite = mean(Reichweite), Anzahl = n(), .groups = 'drop')

Anz_Zylinder,Getriebe,Mittlere_Reichweite,Anzahl
<fct>,<fct>,<dbl>,<int>
4,Automatik,22.9,3
4,Manuell,28.075,8
6,Automatik,19.125,4
6,Manuell,20.56667,3
8,Automatik,15.05,12
8,Manuell,15.4,2


`arrange()` Sortierung des Datensatzes

In [29]:
mtcars2 %>%
  arrange(Reichweite) %>%
  head()

Unnamed: 0_level_0,Reichweite,Anz_Zylinder,Hubraum,PS,Hinterachse,Gewicht,Beschl.,Motorart,Getriebe,Anz_Gänge,Anz_Vergaser
Unnamed: 0_level_1,<dbl>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>,<fct>,<fct>
Cadillac Fleetwood,10.4,8,472,205,2.93,5.25,17.98,V-shaped,Automatik,3,4
Lincoln Continental,10.4,8,460,215,3.0,5.424,17.82,V-shaped,Automatik,3,4
Camaro Z28,13.3,8,350,245,3.73,3.84,15.41,V-shaped,Automatik,3,4
Duster 360,14.3,8,360,245,3.21,3.57,15.84,V-shaped,Automatik,3,4
Chrysler Imperial,14.7,8,440,230,3.23,5.345,17.42,V-shaped,Automatik,3,4
Maserati Bora,15.0,8,301,335,3.54,3.57,14.6,V-shaped,Manuell,5,8


In [30]:
mtcars2 %>%
  arrange(desc(Reichweite)) %>%  # Sorteirung in absteigender Reihenfolge
  head()

Unnamed: 0_level_0,Reichweite,Anz_Zylinder,Hubraum,PS,Hinterachse,Gewicht,Beschl.,Motorart,Getriebe,Anz_Gänge,Anz_Vergaser
Unnamed: 0_level_1,<dbl>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<fct>,<fct>,<fct>,<fct>
Toyota Corolla,33.9,4,71.1,65,4.22,1.835,19.9,Straight,Manuell,4,1
Fiat 128,32.4,4,78.7,66,4.08,2.2,19.47,Straight,Manuell,4,1
Honda Civic,30.4,4,75.7,52,4.93,1.615,18.52,Straight,Manuell,4,2
Lotus Europa,30.4,4,95.1,113,3.77,1.513,16.9,Straight,Manuell,5,2
Fiat X1-9,27.3,4,79.0,66,4.08,1.935,18.9,Straight,Manuell,4,1
Porsche 914-2,26.0,4,120.3,91,4.43,2.14,16.7,V-shaped,Manuell,5,2


Alle Funktionen zusammen

In [31]:
mtcars2 %>%
  mutate(KW = PS / 1.35962) %>%
  group_by(Anz_Zylinder, Getriebe) %>%
  summarize(Mittlere_Reichweite = mean(Reichweite), Anzahl = n(), .groups = 'drop') %>%
  filter(Anzahl > 5)

Anz_Zylinder,Getriebe,Mittlere_Reichweite,Anzahl
<fct>,<fct>,<dbl>,<int>
4,Manuell,28.075,8
8,Automatik,15.05,12
