
# Beleg 1 – Datentypen

### Hinweise zum Dokument:

1. **Fette Schrift** beinhalten die Bezeichnungen der Schaltflächen in RStudio bzw. Schlüsselwörter in R#
2. Texte in spitzen Klammern < ... > sind Platzhalter, die durch eigene Namen ersetzt werden sollen
4. Texte in *kursiver Schrift* beschreiben Hinweise, wie Tastenbefehle, die Ihnen bspw. die Arbeit mit RStudio erleichtern können.
5. Texte in ***fetter kursiver Schrift*** enthalten weiterführende Hinweise, die Sie bei Interesse selbst weiterverfolgen können
6. Zeilen, die mit > beginnen, bezeichnen ausführbaren R-Code, z. B. über die Console von RStudio; Zeilen, die mit [1] bzw. [n] (n = natürl. Zahl) beginnen, markieren die Ausgaben von R auf der Console
7.  Kommentare und Erklärungen zum R-Code werden wie in den R-Skripten selbst mit # gekennzeichnet 

Werte müssen nicht immer, wie in Übung 0 gezeigt, direkt auf der Konsole ausgegeben werden (print()), sondern lassen sich auch als Variablen für die weitere Nutzung speichern. Der Zuweisungsoperator <- weist einer Variablen einen Wert zu. (Alternativ kann das = Zeichen genutzt werden (station_height = 227). Hiervon wird aber abgeraten (siehe [Styleguide](https://jef.works/R-style-guide/))

In [5]:
station_height <- 227 #Stationshöhe DD-Klotzsche

Die für diese Veranstaltungen wichtigsten Datentypen in R sind (geordnet nach absteigender Komplexität):

| Datentyp  | Erklärung                                                                    | Beispiel           |
|-----------|------------------------------------------------------------------------------|--------------------|
| character | Zeichenkette                                                                 | "Dresden-Klotzsche |
| numeric   | Numerische Werte (Zahlen), fasst die Datentypen  integer und double zusammen | 3 oder 12.7        |
| double    | Zahlen mit Nachkommastellen                                                  | 12.7 oder -5.34    |
| integer   | Ganze Zahlen im Zahlenraum von -2*10^9 bis +2*10                             | -12 oder 5         |
| logical   | Logische Konstanten                                                          | TRUE oder FALSE    |


### Vektoren

Der Verkettungsoperator c (concatenate/combine) weist einer Variablen mehrere Werte zu. Es entsteht ein Datenvektor:

In [1]:
station <- c(227, 51.1280, 13.7543, "Dresden-Klotzsche")

Es sind zu unterscheiden:
- Numerische Vektoren: `temperature <- c (12, 13.5, 11.7, 9.1)`
  - Ein mit Nullen gefüllter numerischer Vektor wird mit dem Schlüsselwort 
    `numeric` und der Anzahl der Einträge erzeugt:`numeric(12)`
- Zeichenvektoren: `stations <- c ("Dresden-Klotzsche", "Dresden-Hosterwitz", "Dresden-Strehlen"`
- Logische Vektoren: `quality_checked_data <- (TRUE, TRUE, FALSE)`

Ein Vektor kann immer nur einen Datentyp enthalten. Werden mehrere verschiedene Datentypen angegeben, z. B. `c("Dresden-Klotzsche", 12, 13, TRUE`, werden alle Elemente automatisch in den gleichen (komplexesten, hier: character) Datentyp umgewandelt. Die Ausgabe des Vektors sieht dann folgendermaßen aus:

In [3]:
stations <- c("Dresden-Klotzsche", 12, 13, TRUE) 
print (stations)

[1] "Dresden-Klotzsche" "12"                "13"               
[4] "TRUE"             


Eine Addition der Werte "12" und "13" ist dann nicht mehr möglich.   
Die Werte eines Vektors können auch benannt werden. Beachten Sie, dass in diesem Fall das Zeichen = genutzt werden muss.

In [4]:
station_klotzsche <- c (height = 227, geoWidth = 51.1280, geoLength = 13.7543)

### Zugriff auf Einträge des Vektors

Auf Elemente in Vektoren werden durch Angabe des Namens des Vektors und der gewünschten Position in eckigen Klammern zugegriffen:

In [5]:
stations <- c ("Dresden-Klotzsche", "Dresden-Hosterwitz", "Dresden-Strehlen")
stations[1]

Bei benannten Elementen innerhalb der Variablen kann der Name der Elemente des Vektors genutzt werden:

In [6]:
station_klotzsche <- c (height = 227, geoWidth = 51.1280, geoLength = 13.7543)
station_klotzsche["height"]

Für das Zugreifen auf mehrere Werte kann in den Klammern ein Vektor definiert werden:

In [7]:
station_klotzsche <- c (height = 227, geoWidth = 51.1280, geoLength = 13.7543)
station_klotzsche[c("geoWidth", "geoLength")]

Alternativ dazu kann ein Bereich angegeben werden:

In [8]:
temperature <- c (12, 13.5, 11.7, 9.1)
temperature[2:4]

#### Nützliche Funktionen und Befehle zum Befüllen der Datenstrukturen:
- Mit Doppelpunktoperator `:` werden Zahlenreihen definiert, z. B. 1:12 entspricht 1, 2, 3, ..., 12
- Die Funktion`rep` ermöglicht das Wiederholen von Zahlen oder Zeichen zu definieren, z. B. `rep("a", 3)` oder `rep(1:2, 4)` oder `rep(1:4,4:1)` (wiederholt die Zahl 1 vier Mal, die Zahl 2 drei Mal, ...)
- Die Funktion`seq` ermöglicht das Erzeugen einer Sequenz, z. B.`seq(2,4,0.5)` ergibt 2.0 2.5 3.0 3.5 4.0
- Die Funktionen `runif` oder `sample` ermöglichen das Erzeugen von Zufallszahlen, z. B.`runif (3, min=0, max=101)` oder `sample(1:100, 3, replace=TRUE)` erzeugt je 3 Zahlen zwischen 0 und 100.  


### Faktoren
Ein Faktor beschreibt eine nominale (kategoriale) Variable mit einer begrenzten Anzahl möglicher bekannter Werte (Level). Dieser Datentyp kann für Kategorien verwendet werden, bei der eine Kategorie immer den gleichen Namen aufweist.  
`device_type <- factor(c("Thermohygrograph", "PT 100")`  
Ein geordneter Faktor beschreibt eine ordinale Variable.  
`quality_classes <- ordered(c("Q1", "Q3", "Q5", "Q6", "Q7")`  

### Matrizen
Eine Matrix wird über den Befehl matrix() erzeugt. Optional können Anzahl der Zeilen (nrow), Anzahl der Spalten (ncol) angegeben werden.  
In einer Matrix sind alle Einträge vom gleichen Typ, z. B. character oder integer. Jede Zeile bzw. Spalte hat die gleiche Anzahl an Einträgen.  

In [12]:
temperature_matrix <- matrix(nrow = 3, ncol = 12)

#### Füllen der Matrix und Zugriff auf Einträge
Durch Angabe der Zeile und Spalte in eckigen Klammern kann ein Eintrag ausgewählt werden.

In [13]:
# fills the element in the first row & column with the value 12 
temperature_matrix [1,1] <- 12
# fills the element in the second row & column with the value 13 
temperature_matrix [2,1] <- 13
# prints the value of the element in the first row & column 
print( temperature_matrix[1,1] )
# sum values of the first and second row in the first column 
print ( temperature_matrix[1,1] + temperature_matrix[2,1] )

[1] 12
[1] 25


Lässt man Zeilen- bzw. Spaltenangabe weg, dann erhält man jeweils alle Einträge der Zeile bzw. Spalte:  
(NA bedeutet "not available", da diese Werte noch nicht vergeben sind)

In [14]:
print ( temperature_matrix [,3] ) # third column
print ( temperature_matrix [1,] ) # first row

[1] NA NA NA
 [1] 12 NA NA NA NA NA NA NA NA NA NA NA


Durch Angabe eines Vektors können mehrere Einträge ausgewählt werden.  
`temperature_matrix [c(1,3),] # first and third row`  
Mit dem Doppelpunktoperator können Bereiche (von:bis) innerhalb der Matrix ausgewählt werden.  
`temperature_matrix [c(1:3),] # first, second and third row`

## Datentabellen  
Eine Datentabelle wird über den Befehl **data.frame()** erzeugt. Optional kann u. a. definiert werden, welche Namen die Spalten haben sollen (col.names). In einer Datentabelle können verschiedene Datentypen vorgehalten werden, pro Spalte ist allerdings nur ein Datentyp möglich. Die Zeilen bzw. Spalten der Datentabellen müssen jeweils die gleiche Länge haben (Beispiel: Spalte 1 hat 4 Einträge => Spalte 2 braucht auch 4 Einträge, Abbildung 1).  
![Tabelle](/Users/johannesfricke/Downloads/image.jpg)   

Im folgenden Beispiel werden zunächst drei Vektoren (stations, temp_jan, temp_feb) mit jeweils drei Einträgen erstellt. Anschließend wird eine Datentabelle mit dem Namen dwd_data_frame und den Spaltennamen stations, jan_temp und feb_temp erzeugt. Den Spalten werden die Inhalte der zuvor erstellten Vektoren zugewiesen ("Spaltenname" = "Vektorname"), wodurch im Ergebnis eine Tabelle mit drei Spalten und drei Zeilen entsteht (Abbildung 2).


In [9]:
stations <- c ("Dresden-Klotzsche", "Dresden-Hosterwitz", "Dresden-Strehlen")
temp_jan <- c (1.3, 1.9, -2.0)
temp_feb <- c(-2.0, -1.3, -1.8)
dwd_data_frame <- data.frame(stations = stations, temp_jan = temp_jan, temp_feb = temp_feb)
print(dwd_data_frame)

            stations temp_jan temp_feb
1  Dresden-Klotzsche      1.3     -2.0
2 Dresden-Hosterwitz      1.9     -1.3
3   Dresden-Strehlen     -2.0     -1.8


### Zugriff auf Einträge der Datentabelle  
Der Zugriff auf die Einträge erfolgt wie bei Matrizen durch Angabe der Zeile bzw. Spalte in eckigen Klammern: 


In [15]:
dwd_data_frame [1,] # first row stations temp_jan temp_feb

Unnamed: 0_level_0,stations,temp_jan,temp_feb,mar
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<dbl>
1,Dresden-Klotzsche,1.3,-2,10


In [11]:
dwd_data_frame [ ,1] # first column

Haben die Spalten Namen, dann kann mittels Schlüsselzeichen $ auf die Einträge unter der Spalte mit dem jeweiligen Namen zugegriffen werden: 

In [12]:
dwd_data_frame$stations

### Hinzufügen von Einträgen in die Datentabelle  

Das Hinzufügen von Zeilen bzw. Spalten erfolgt über die Schlüsselwörter rbind (row binding) bzw. cbind (column binding):

In [13]:
dwd_data_frame <- cbind(dwd_data_frame, mar = c (10, 9.3, 10.8))

### Filtern von Einträgen einer Datentabelle
Das Filtern von Einträgen kann auf verschiedene Weise erfolgen, z. B. über die Funktion **subset()**. Mit der Funktion subset können aus einer Datentabelle (1. Argument der Funktion) Einträge gewählt werden, die eine bestimmte Bedingung erfüllen (2. Argument der Funktion).

In [14]:
dwd_set <- subset(dwd_data_frame, temp_jan < 1.0)
print(dwd_set)

          stations temp_jan temp_feb  mar
3 Dresden-Strehlen       -2     -1.8 10.8


Alternativ können Sie die Werte für die Argumente auch über deren Namen zuweisen (und dadurch z. B. die Reihenfolge vertauschen, für die Bezeichnung sei auf die Hilfe zu den Funktionen verwiesen (`?subset()`).

In [16]:
dwd_set <- subset(subset=temp_jan < 1.0, x=dwd_data_frame)

Alternativ kann eine Datentabelle mittels Funktion **split()** gefiltert werden. Die Funktion bekommt eine Datentabelle (**x**), sowie den Vektor (**f**), nach dem aufgespalten werden soll, übergeben, z. B. Temperaturen im Februar (siehe unten). Das Ergebnis ist eine Liste mit allen voneinander verschiedenen Einträgen des Vektors.

In [17]:
dwd_split <- split(x=dwd_data_frame, f=dwd_data_frame$temp_feb)
print(dwd_split)

$`-2`
           stations temp_jan temp_feb mar
1 Dresden-Klotzsche      1.3       -2  10

$`-1.8`
          stations temp_jan temp_feb  mar
3 Dresden-Strehlen       -2     -1.8 10.8

$`-1.3`
            stations temp_jan temp_feb mar
2 Dresden-Hosterwitz      1.9     -1.3 9.3



## Listen
Eine Liste wird über den Befehl **list()** erzeugt. Sie kann Einträge beliebiger Typen und Länge enthalten (und verschachtelt werden, d. h. eine Liste enthält eine weitere Liste).

In [20]:
klotzsche_list <- list(location = c (51.280, 13.7543), full_name = c ("Dresden-Klotzsche"), height = 227)

## Arrays
Ein Array wird über den Befehl **array()** erzeugt.
`values <- array(data = 14.5, dim = length(2), dimnames = NULL)`

## Zeitreihen
Eine Zeitreihe wird über den Befehl **ts()** erzeugt.
`measures <- ts(1:10, frequency = 4, start = c (1989, 2))`
`Measures` erzeugt eine Zeitreihe von 10 Werte (1, 2, 3, ... , 10). Die Zeitreihe beginnt im Jahr 1989 (`start = c (1989, ...)`). Innerhalb des Jahres 1989 können 4 Messwerte gespeichert werden (`frequency = 4`). Der erste Wert der Zeitreihe entspricht dem zweiten Wert im Jahr 1989 (`start = c (..., 2)`).   

## Operatoren
Das Auswählen, Überprüfen oder Vergleichen von Werten kann mittels Operatoren erfolgen. Nützlich sind dabei auch die Schlüsselwörter **any** und **all**, die prüfen, ob es einen oder mehrere Werte gibt, die eine Bedingung erfüllen. Ausgegeben wird ein boolscher Wert (TRUE, FALSE). Mit dem Schlüsselwort **which** kann man den genauen Wert (bzw. dessen Position im Vektor) ermitteln, der eine Bedingung erfüllt.  

| Operator | Erklärung | Beispiel |
|---|---|---|
| == | Gleich | Gibt es in der Messreihe einen Wert, der genau 12°C ist?<br>> `any (temperature == 12)`<br>`[1] TRUE` |
| != | Ungleich | Ist der erste Messwert ungleich 0°C?<br>`> temperature[1] != 0` <br> `[1] TRUE` |
| <<br>> | Kleiner als<br>Größer als | An welcher/n Position/en steht/en Wert/e, der/die kleiner ist/sind als 10°C?<br>`> which (temperature < 10`<br>`[1] 4` |
| <=<br>>= | Kleiner oder gleich<br>Größer oder gleich | Ist der jeweilige Messwert des Vektors größer oder gleich 12°C?<br`> temperature >=12`<br>`[1] TRUE TRUE FALSE FALSE`<br>Sind alle Werte kleiner als oder gleich 12°C?<br>`> all (temperature <= 12` <br> `[1] FALSE` |    


Weitere Funktionen, die für grundlegende Berechnungen genutzt werden können ("c" beschreibt hier jeweils einen numerischen Vektor):
- **sum** ("c") berechnet die Summe aller Einträge von c
- **min** ("c"), **max** ("c") liefert Minimum bzw. Maximum der Einträge in c zurück
- **length** ("c") gibt die Anzahl der Einträge in c zurück
- **sort** ("c") sortiert die Einträge von c aufsteigend (optional kann über das Argument `decreasing=TRUE` auch die absteigende Sortierung parametrisiert werden)
- **prod** ("c") liefert das Produkt aller Einträge von c zurück. 

Variablen werden in RStudio im Umgebungsfenster (oben rechts) angezeigt.  
Mit dem Befehl **print("Variablenname")** können Sie Inhalte der Variable ausgeben.
Per Konvention werden Variablen in R immer klein geschrieben. Auf die Groß- und Kleinschreibung ist bei der Nutzung der Variablen zwingend zu achten, um Fehler zu vermeiden (`klotzsche` und `Klotzsche` sind verschiedene Variablen. Für weitere Information können Sie den Suchbegriff Case Sensitivity nutzen).
Das Ausweisen von Kommentaren im Code erfolgt über das Raute-Zeichen.  
`#Vector klotzsche describes station parameters for DD-Klotzsch#Vector klotzsche describes station parameters for DD-Klotzsche
klotzsche <- c(..)`




## Abgabe (3 Punkte -> OPAL)
Definieren Sie in R eine Datentabelle `measurements`, die 15 zufällig erzeugte (nicht manuell eingetippte) Messpunkte enthält (analog Abbildung 4). Jeder Messpunkt besteht aus einer Ortsangabe in Gauß-Krüger-Koordinaten (Rechtswert 4.500.000 - 4.600.000 m und Hochwert 5.500.000 - 5.700.000 m) und einem Temperatur-Wert (von -6,0°C bis 37,0°C). Runden Sie entsprechend Rechts- und Hochwerte auf ganze Zahlen sowie die Temperaturwerte auf eine Nachkommastelle. Lassen Sie sich die ersten drei Messpunkte auf der Konsole ausgeben. Kommentieren Sie den Quellcode mit mind. zwei Kommentaren (bspw. zum Anlegen der Datentabelle)