# Beleg 2 – Histogramm

### Hinweise zum Dokument:



1. `Äquidistante Schrift (monospaced font)` zeigt Codefragmente oder Schlüsselsymbole in R an.
2. Texte in spitzen Klammern `< ... >` sind Platzhalter, die durch eigene Namen ersetzt werden sollen.
4. Eingerückte Texte mit dem Titel __Tipp__ beschreiben Hinweise, wie Tastenbefehle, die Ihnen bspw. die Arbeit mit Jupyter Notebooks erleichtern können.
5. Eingerückte Texte mit dem Titel __Hinweis__ enthalten weiterführende Hinweise, die Sie bei Interesse selbst weiterverfolgen können

6. Jupyter Codeblocks zeigen ausführbaren Code an. Ein Codeblock wird mit `strg + enter` ausgeführt (siehe *Kurze Einführung Jupyter Notebooks*)

7. Kommentare und Erklärungen zum R-Code werden wie in den R-Skripten selbst mit # gekennzeichnet 

### Daten einlesen

Das Einlesen von Dateien erfolgt über die Funktion `read.<Datenformat>()`. Der entsprechende Funktionsname setzt sich aus diesem Begriff, einem Punkt und dem Typ der einzulesenden Datei zusammen.


Die allgemeine Funktion heißt `read.table()`. Wichtig beim Einlesen von Daten ist, dass Feldtrennzeichen (`sep`) und Dezimaltrennzeichen (`dec`) richtig erkannt werden. Diese können als Argument angegeben werden. In den Funktionen `read.csv()` und `read.csv2()` sind diese Argumente bereits für Dateien im CSV-Format (comma- separated values) angepasst. `read.delim()` und `read.delim2()` haben entsprechende Voreinstellungen für Tab-getrennte Daten (z. B. im TXT-Format). 

Welche Funktion sich für welches Datenformat eignet, ist in der folgenden Tabelle zusammengefasst (und kann auch jederzeit in der Hilfe nachgelesen werden):

| Feldtrennzeichen  | Dezimalkennzeichen | Funktion        | Dateiendung |
|-------------------|--------------------|-----------------|-------------|
| TAB               | . (US-Format)      | `read.delim()`  | z.B. .txt   |
| ,                 | . (US-Format)      | `read.csv()`    | .csv        |
| TAB               | , (deut. Format)   | `read.delim2()` | z.B. .txt   |
| ;                 | , (deut. Format)   | `read.csv2()`   | .csv        |
| beliebig (`sep=`) | beliebig (`dec=`)  | `read.table()`  | z.B. .txt   |

Welches Datenformat eine Datei hat, lässt sich vor dem Einlesen schnell überprüfen, indem man die Datei in einem einfachen Texteditor (z.B. Windows Editor oder Notepad++) öffnet und hinsichtlich Feld- bzw. Dezimaltrennzeichen kontrolliert.
Die Funktion bekommt als Argument den Dateinamen übergeben:


In [None]:
# Führen Sie diesen Codeblock aus!

# In das Objekt data wird der Inhalt der CSV-Datei SBA_Zensus_Sterbefaelle.csv (Feldtrennzeichen ;) geschrieben. 
# Die erste Zeile dieser Datei gibt die Spaltennamen (mit Endung) an:

data <- read.csv(file = "../../Daten/SBA_Zensus_Sterbefaelle.csv", header=TRUE, sep=";")


> __Tipp__
>
> Datenpfade können absolut oder relativ angegeben werden. 
> Dabei ist der absolute Pfad, der volle Pfad im System (in Windows zu finden durch Rechtsklick auf Datei -> Eigenschaften, z.B. `C:/Users/arne/R/Geostatistik/Daten/SBA_Zensus_Sterbefaelle.csv`), während sich der relative Pfad auf den Speicherort der Datei in Bezug zum aktuell geoeffneten Ordner befindet. 
>
>Bei relativen Pfaden bezeichnet `..` den Ordner über dem aktuellen Ordner, d.h. wenn die aktuelle Datei im Ordner `Beleg_2` mit dem Pfad `C:/Users/arne/R/Geostatistik/Beleg_2` liegt, bedeutet `..` `C:/Users/arne/R/Geostatistik/`. Damit ergibt sich der relative Pfad zur Datei `SBA_Zensus_Sterbefaelle.csv` mit `../Daten/SBA_Zensus_Sterbefaelle.csv`.
>
>Allgemein sind relative Pfade zu bevorzugen, da somit eine Ordnerstruktur an einen anderen Ort (z.B. auf einen andern Rechner) kopiert werden kann und die enthaltenen Scripte immernoch funktionieren.

Die eingelesene Tabelle wird als dataframe gespeichert.

Über `print(<Variablenname>)` lässt sich die ganze Tabelle anzeigen.
Um sich nur die ersten bzw. letzten 6 Zeilen einer Datentabelle in der Konsole anzusehen (beispielsweise um zu kontrollieren, ob das Einlesen funktioniert hat), können die Funktionen `head(<Variablenname>)` bzw. `tail(<Variablenname>)` genutzt werden.


In [None]:
# Führen Sie diesen Codeblock aus!

head(data)

Über den Parameter `header` kann definiert werden, ob die erste Zeile Spaltennamen enthält oder nicht. Der Parameter ist optional und wird, wenn nicht explizit angegeben, für `read.table()` auf FALSE gesetzt. Die Standardeinstellungen für `read.csv()`, `read.delim()`, etc. finden Sie in der R-Hilfe.

### Erstellen eines Histogramms
Mit der Funktion `hist(<dataframe>)` wird in R ein Histogramm erstellt.
#### Absolute Häufigkeiten

Erstellen Sie ein Histogramm für die Werte der relativen Luftfeuchte der Wettermessstation mit der ID 1684. Laden Sie dazu zunächst die Datei `Wetter_Station1684.csv` (befindet sich im Ordner `Daten`) in einen R-DataFrame. Die Werte der relativen Leuftfeuchte befinden sich in der Spalte `RF_TU`.

In [None]:
# Passen Sie diesen Codeblock an und führen Sie ihn anschliessend aus!

weather_data <- read.csv(file = ..., header = ..., sep = ...)
hist(weather_data$RF_TU)

Achsen und Namen des Histogramms können angepasst werden. Dazu wird der obige Befehl um die Argumente `main`, `xlab` und `ylab` (jeweils mit Komma getrennt) ergänzt (Hier ist der Titel Temperaturhäufigkeiten):

In [None]:
# Führen Sie diesen Codeblock aus!

hist(weather_data$RF_TU, main = "Station 1684", xlab = "Luftfeuchtigkeit in %", ylab = "Absolute Häufigkeit")

Anhand der Darstellung kann, wie in der Vorlesung beschrieben, ein erster (visueller) Eindruck über die Verteilung der Werte erfolgen.


Das Histogramm besteht nicht nur aus der Visualisierung, sondern auch aus verschiedenen Werten. Diese sind in einer Liste mit sechs Einträgen zu Klassengrenzen (breaks), absoluten Häufigkeiten der Klassenbelegung (counts), Dichteverteilung der Klasse (density), Mitten der Klassen (mids), Namen der Tabellenspalte, für die das Histogramm berechnet wird (xname), und Angaben zur Äquidistanz der Klassen (equidist) enthalten.

Um mit diesen Werten arbeiten zu können, muss das Histogramm also in einer Variablen gespeichert werden, z. B. so:

In [None]:
# Anlegen einer Variablen hist_station1684 und Zuweisung der Werte des Histogramms

hist_stationX <- hist(weather_data$RF_TU, main = "Station 1684", xlab = "Luftfeuchtigkeit in %", ylab = "Absolute Häufigkeit")

Mit dem Zeichen `$` wird auf die Elemente des Histogramms zugegriffen:
`<meinHistogrammName>$<Element>`.
Auf die Klassengrenzen (breaks) für das Histogramm mit dem Namen `hist_StationX` wird so zugegriffen: `hist_stationX$breaks`. Analog wird auf die Anzahl der Klassenbelegung (counts) mittels `hist_stationX$counts` zugegriffen.
Auf die einzelnen Werte in den Elementen (Vektoren) des Histogramms wird mit den Zeichen `<HistogrammName>$<Variablenname>[<PositionDesWertes>]` zugegriffen. Der erste Wert im Vektor breaks wird bspw. mit `hist_stationX$breaks[1]` abgefragt, der zweite Wert mit `hist_stationX$breaks[2]` usw.

In [None]:
# Führen Sie diesen Codeblock aus!

hist_stationX$breaks
hist_stationX$counts
hist_stationX$breaks[1]

#### Relative Häufigkeiten
Um nicht die absoluten, sondern die relativen Häufigkeiten darzustellen, muss das Argument `freq` (frequency) auf `FALSE` oder `F` gesetzt werden. In diesem Fall muss immer die Anzahl der Elemente der verwendeten Stichprobe (n) mit angegeben werden.

In [None]:
# length(...) gibt die Anzahl der Elemente in einem Vektor an (hier die Anzahl der Einträge in der Spalte RF_TU)

hist(weather_data$RF_TU, main = paste("1684 ; n =", length(weather_data$RF_TU)), xlab = "Luftfeuchte in %", ylab = "Relative Häufigkeit", freq = FALSE)


### Kontrollstrukturen
Kontrollstrukturen können verwendet werden, um den Ablauf von Skripten zu steuern. Sie sind entweder Verzweigungen oder Schleifen.

In Schleifen können Vorgänge beschrieben werden, die wiederholt werden, bis eine bestimmte Bedingung erfüllt ist. Es gibt For- und While-Schleifen. In dieser Übung werden nur For-Schleifen verwendet.
#### For-Schleifen
Die For-Schleife hat folgende Struktur:
```R

for (bedingung) {
     inhalt_der_schleife
}
```

In folgendem Beispiel werden die monatlichen Todesfälle im Jahr 1990 aufsummiert. Start- und Endmonat werden als Variablen angegeben. Anschließend wird die Summe durch die Anzahl der Monate geteilt, d. h. das arithmetische Mittel ausgerechnet.

In [None]:
# Führen Sie diesen Codeblock aus!

# Anlegen einer Variablen deaths1990 mit 12 numerischen Einträgen 
# (Todesfälle pro 1000 Einwohner für jeden Monat im Jahr 1990 in Vektor)
deaths1990 <- c (13.9, 12.9, 11.7, 11.6, 11.0, 11.0, 10.5, 10.7, 11, 11.3, 11.4, 12.2)

# Anlegen einer Variablen sumDeathsValue mit dem Wert 0 
sumDeathsValue <- 0

# Anlegen einer Start- und Endvariablen
startMonth <- 1
endMonth <- 5

In [None]:
# Führen Sie diesen Codeblock aus!

# Wiederhole die Addition i-mal von Start- bis Endmonat 
# und gib die Zwischenergebnisse auf der Konsole aus 
for(i in startMonth:endMonth){
# Addiere zum Wert der Variable sumDeathsValue den Wert von #deaths1990 an der Stelle i
sumDeathsValue <- sumDeathsValue + deaths1990[i] 
    print(paste("Summe von Monat", startMonth, "bis Monat", i, ":", sumDeathsValue))
}

> __Tipp__
>
> Die Funktion `paste()` verbindet die übergebenen Variablen und Textabschnitte zu einem zusammenhängenden Text, der dann z. B. mit `print()` auf der Konsole ausgegeben werden kann. Zwischen den übergebenen Elementen wird automatisch ein Leerzeichen eingefügt.

In [None]:
# Führen Sie diesen Codeblock aus!

# Anlegen einer Variablen mit der Anzahl der Monate 
numberOfMonths <- endMonth - startMonth + 1

# Berechnung des arithmetischen Mittels 
meanDeathsValue <- sumDeathsValue / numberOfMonths

print(numberOfMonths)
print(meanDeathsValue)

#### If-Else-Abfragen
Fallunterscheidungen werden mithilfe von If- bzw. If-Else-Anweisungen ausgedrückt. Die Struktur sieht wie folgt aus:
```R

if (bedingung) {
     befehle_wenn_bedingung_erfüllt_ist
} else { befehle_wenn_bedingung_nicht_erfüllt_ist }
```

Der folgende Code überprüft, ob die Anzahl der im Januar verstorbenen Personen (Element an 1. Position im Vektor deaths1990 größer ist als die im Februar (2. Position) und gibt einen entsprechenden Hinweis und die jeweils größere Anzahl der Verstorbenen aus.


In [None]:
# Führen Sie diesen Codeblock aus! 

# Anlegen eines numerischen Vektors
deaths1990 <- c (13.9, 12.9, 11.7, 11.6, 11.0, 11.0, 10.5, 10.7, 11, 11.3, 11.4, 12.2) # deaths per 1000 citizens in 1990
if (deaths1990[1] > deaths1990[2]) {
     # Wenn ja, dann schreibe Folgendes auf die Konsole
print(paste(paste("Im Januar sind mehr Personen gestorben als im Februar. Die Anzahl beträgt", deaths1990[1]), "pro 1000 Einwohner."))
} else {
         # Wenn nicht, dann schreibe auf der Konsole ...
print(paste(paste("Im Januar sind mehr Personen gestorben als im Februar. Die Anzahl beträgt", deaths1990[2]), "pro 1000 Einwohner."))
}


>__Tipp__
>
>Für For- (und While-) Schleifen sowie If-Else-Anweisungen besteht die Möglichkeit, die geschweiften Klammern wegzulassen, wenn der Ausdruck im Schleifenrumpf bzw. nach der Bedingung nur eine Zeile Code umfasst. Die obige Bedingung sieht in Kurzschreibweise wie folgt aus:

In [None]:
# Führen Sie diesen Codeblock aus!

if (deaths1990[1] > deaths1990[2]){
print(paste(paste("Im Januar sind mehr Personen gestorben als im Februar. Die Anzahl beträgt", deaths1990[1]), "pro 1000 Einwohner."))
 } else {
     # Wenn nicht, dann schreibe auf der Konsole ...
print(paste(paste("Im Januar sind mehr Personen gestorben als im Februar. Die Anzahl beträgt", deaths1990[2]), "pro 1000 Einwohner."))
 }

> __Hinweis__
>
> Oben wurde die Operation `paste()` zweimal hintereinander angewandt um eine Variable in die Mitte eines Strings zu integrieren. Um solche Konstrukte zu vermeiden und den Quellcode "schöner" zu gestalten, bietet R die Möglichkeit des C-Style-Formatting. Dabei wird zunächst der auszugebende String geschrieben und an die Stelle der einzusetztenden Variable wird ein Platzhalter - beginnenden mit dem Symbol `%` - gesetzt. Nach dem String folgt ein Komma und die entsprechende Variable. Ein C-Style-Formatted String kann mittels `sprintf()` ausgegeben werden. Für das obere Beispiel ergibt sich:
> 
> `sprintf("Im Februar gab es mehr Tote. Die Anzahl beträgt %s pro 1000 Einwohner.", deaths1990[1])`
> 
> Das `s` hinter dem `%` bestimmt den Datentyp der einzusetzenden Variable, wobei `s` für String steht. Der Platzhalter ist also immer eine Kombination aus dem einleitenden `%` und einem Datentypsymbol (hier also `%s`). Weitere Platzhalter sind `%d` fuer Integer oder `%f` für eine Dezimalzahl mit sechs Kommastellen. Soll der Text ein Prozentzeichen enthalten, kann dies mit einem doppelt Prozentsymbol erreicht werden: 
> 
> `sprintf("Die Sterberate beträgt %s %%.", deaths1990[1]/10)`
> 
>  Weiterführende Informationen finden Sie z.B. unter [https://www.gastonsanchez.com/r4strings/c-style-formatting.html].

#### Logische Operatoren
Mit Hilfe von logischen Operatoren können mehrere Bedingungen miteinander verknüpft werden.

| Operator | Bedeutung       | Beispiel                                                        |
|----------|-----------------|-----------------------------------------------------------------|
| &        | Logisches UND   | `if(a<b&b<c){print( " a kleiner c " ) }`                      |
| \|       | Logisches ODER  | `if (a<b \| a<c) { print ( " a ist nicht der größte Wert " ) }` |
| !        | Logisches NICHT | `if (!a==6) { print( " a ist nicht 6 " ) }`                     |