(Übung_csv)=
# Übung: Arbeiten mit CSV-Dateien in R


Die folgende Lerneinheit soll Ihnen den Ersteinstieg in die Programmiersprache **R** erleichtern. Um der Übungseinheit effektiv folgen zu können, installieren Sie bitte **R** und **RStudio**. Hinweise zur Installation finden Sie im Abschnitt [Technische Voraussetzungen](/Markdown/1_2_technische_voraussetzungen.md).  
Als Fallbeispiel wird eine CSV-Datei mit Rohdaten zum *Personalstand an Hochschulen* eingelesen und ausgewertet. Entweder haben Sie diese Datei schon in Abschnitt 4.2 [XLSX und CSV](/Markdown/4_2_XLSXundCSV.md) heruntergeladen oder Sie klicken [hier](Data/21341-0001_F_2020.csv) um die CSV-Datei aus unserem Repositorium direkt herunterzuladen (Quelle: Statistisches Bundesamt 2022).  

------------------------------------------------------------------------

## Einleitung
```{admonition} Wichtig
:class: keypoint
Für Computersprachen gilt allgemein: Es gibt nie nur einen Weg zum Ziel. Unterschiedliche Befehle können Sie zum gleichen Ziel bringen. Dieses gilt auch für die folgenden angeführten Befehle.
```

Damit Sie die in diesem Skript angeführten Befehle verwenden können, müssen Sie das folgende Package installieren und laden. Hierzu stellen Sie zuerst sicher, dass `tidyverse` installiert ist bzw. installieren das Package:

In [None]:
install.packages("tidyverse")

Installiere Paket nach ‘/opt/homebrew/lib/R/4.5/site-library’
(da ‘lib’ nicht spezifiziert)



Dann laden Sie das Package:

In [None]:
library(tidyverse)

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mggplot2  [39m 3.5.2     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.4     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.0.4     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


(Einlesen_csv)=
## Einlesen von CSV Dateien

Hierfür gibt es zwei Befehle: `read.csv()` oder `read.csv2()`  

- `read.csv()` wird verwendet, wenn die Werte in der CSV Datei durch Kommata separiert werden.
- `read.csv2()` wird verwendet, wenn die Werte in der CSV Datei durch Semikola separiert werden.



**Fallbeispiel:**

In [None]:
#Daten einlesen
data_csv <- read.csv2("Data/21341-0001_F_2020.csv", header = FALSE)

**Erklärung des Codes:**

- `#Daten einlesen`: Durch das setzen eines `#` wird der folgende Inhalt in der Zeile nicht als Code interpretiert und somit auch nicht ausgeführt. Wenn Sie Textbausteine, Kommentare, Überschriften etc. in Ihrem **R-Skript** integrieren möchten, was für eine bessere Nachvollziehbarkeit Ihres Skriptes zu empfehlen ist, benutzen Sie immer das `#`-Symbol, um dies kenntlich zu machen. Ansonsten wird **R** einen Error ausgeben.
- `read.csv2()`: Die verwendete Datei ist durch Semikola separiert. Deswegen wird hier `read.csv2()` verwendet.
  
  *Woraus ist dies ersichtlich? Durch Öffnen der Datei in der Console Ihres Rechners können Sie die verwendeten Trennzeichen erkennen.*
- `"Data/21341-0001_F_2020.csv"`: Hier steht der relative Pfad zur CSV-Datei, die geladen werden soll.
  
  *Bei Verwendung von RStudio: Sie sollten unter **Files** den Ordner aufrufen, in dem Ihre Dateien gespeichert sind. Nach dem Klicken auf die gewünschte Datei, können Sie die Option **Import Dataset…** nutzen.*
- `header = FALSE`: Die CSV Datei hat keine Überschriften, daher muss hier der Zusatz hinzugefügt werden.

- `data_csv <-`: Damit Sie einen Befehl nicht immer wieder ausführen müssen, können Sie dem Befehl mittels eines Pfeils `<-` einem Namen zuordnen.
  
  *Hier: “data\_csv”. Nun können Sie in dem folgenden Skript nur noch den gesetzten Namen verwenden.*


```{admonition} Tipp
:class: hinweis
Wenn Sie die Bedeutung und Syntax eines Befehls besser verstehen wollen, empfielt es sich, diesen Befehl im Handbuch nachzuschlagen. Hierzu setzen Sie ein `?` vor den Befehl Ihres Interesses.
```


*Beispiel:* 

In [None]:
# Funktioniert in R Studio oder im Jupyter Notebook, nicht jedoch in der Web-Ansicht
?read.csv2

read.table                package:utils                R Documentation

_D_a_t_a _I_n_p_u_t

_D_e_s_c_r_i_p_t_i_o_n:

     Reads a file in table format and creates a data frame from it,
     with cases corresponding to lines and variables to fields in the
     file.

_U_s_a_g_e:

     read.table(file, header = FALSE, sep = "", quote = "\"'",
                dec = ".", numerals = c("allow.loss", "warn.loss", "no.loss"),
                row.names, col.names, as.is = !stringsAsFactors, tryLogical = TRUE,
                na.strings = "NA", colClasses = NA, nrows = -1,
                skip = 0, check.names = TRUE, fill = !blank.lines.skip,
                strip.white = FALSE, blank.lines.skip = TRUE,
                comment.char = "#",
                allowEscapes = FALSE, flush = FALSE,
                stringsAsFactors = FALSE,
                fileEncoding = "", encoding = "unknown", text, skipNul = FALSE)
     
     read.csv(file, header = TRUE, sep = ",", quote =

## Daten sichten

Es ist immer ratsam, einen ersten Blick auf die Daten zu werfen, um deren Struktur zu verstehen. Dazu verwenden Sie folgenden Befehl. (Achtung, die Ausgabe ist recht lang.)

In [None]:
show(data_csv)

                                                                V1          V2
1                                      GENESIS-Tabelle: 21341-0001            
2                     Personal an Hochschulen: Deutschland, Jahre,            
3  Personalgruppen nach Besch\xe4ftigungsverh\xe4ltnis, Geschlecht            
4                                 Statistik des Hochschulpersonals            
5                                                      Deutschland            
6                                 Personal an Hochschulen (Anzahl)            
7                                                                             
8                Wissenschaftliches und k\xfcnstlerisches Personal m\xe4nnlich
9                Wissenschaftliches und k\xfcnstlerisches Personal    weiblich
10               Wissenschaftliches und k\xfcnstlerisches Personal   Insgesamt
11            Hauptberufl. wissenschaftl. u. k\xfcnstler. Personal m\xe4nnlich
12            Hauptberufl. wissenschaftl. u. k\xfcns

### Dateiinhalt interpretieren

Die Datei hat drei Spalten (V1, V2, V3):
- **V1:** In den Zeilen 1-6 und 87-88 stehen die Metadaten der Datei. Hier finden Sie Infos zum Herausgeber, Inhalt der Daten, etc.. In den Zeilen 8-85 befinden sich Bezeichnung zum Angestelltenverhältnis des Hochschulpersonals (Dozent, Gastprofessoren, etc.).
- **V2:** Diese Spalte unterteilt die Beschäftigten nach Geschlecht (männlich, weiblich & Insgesamt).
- **V3:** In den Zeilen 8-85 sind die jeweiligen absoluten Personalzahlen enthalten. In der Zeile 7 ist die Spaltenüberschrift “2020” gegeben. Diese bezieht sich auf das Erhebungsjahr der Daten.


### Anmerkungen zu der Ausgangsdatei

Es fallen hier direkt mehrere Punkte auf, welche die CSV-Datei
schlechter maschinenlesbar machen:  

1. Der Titel des Datensatzes ist nicht prägnant und verständlich.

2. Metadaten (übergeordnete Informationen über die vorliegenden Daten) sollten nicht in der Tabelle selbst auftauchen sondern separiert in dem dafür vorgesehenen Metadatenbereich abgespeichert werden. Die CSV-Datei sollte neben der Kopfzeile und der Inhaltsdaten keine weiteren Informationen enthalten.

3. Spalten sollten immer Überschriften haben. Dies fehlt hier für **V1** und **V2**.

4. Auf Umlaute und Sonderzeichen ist zu verzichten. Dies führt zu einer fehlerhaften Anzeige. In **V1 Zeile 87** wird das Sonderzeichen “Copyright” nicht logisch erkannt und als “\xa9” angezeigt. In den Spalten **V1** und **V2** werden Wörter mit Umlauten wie *“männlich”, “für”, “Lehrkräfte”* etc. alle fehlerhaft angezeigt. Um größtmögliche Kompatibilität zu anderen Programmen zu gewährleisten, sollten Dateien immer der <a href="https://de.wikipedia.org/wiki/UTF-8" target="_blank">UTF-8-Zeichenkodierung</a> folgen. Andernfalls können Probleme bei der maschinellen Verarbeitung entstehen, wie Sie in der Tabelle erkennen können.

Wenn Sie mehr zum Thema “hochwertiger Datenaufbau” wissen möchten, werfen Sie gerne nochmal einen Blick in den Abschnitt  [Datenstruktur](/Markdown/6_1_Datenstruktur.md) oder auch den <a href="https://nqdm-projekt.de/de/downloads/leitfaden" target="_blank">NQDM-Leitfaden</a>.

## Daten aufbereiten 

Im folgenden Abschnitt werden die zuletzt erwähnten Qualitätsmängel der
Datendarstellung behoben und die Daten zur Auswertung vorbereitet.

**Problem der Zeichenkodierung**  
Im Default interpretiert **R** Dokumente als UTF-8 (Unicode) kodiert.
Dies ist die Ausgangseinstellung und **R-Skripte** werden mit dieser
Zeichenkodierung ebenfalls abgespeichert, solange Sie dies nicht manuell
ändern. Beim Laden von nicht UTF-8 kodierten Dateien kann es jedoch zu
Anzeigeproblemen kommen, wie in der Tabelle feststellbar. Siehe
beispielsweise Zelle V2 Zeile 8:  
```
## [1] "m\xe4nnlich"
```
Solch eine Anzeige spricht dafür, dass ein ISO 8859-1 (“Latin-1”)
kodiertes Dokument inklusive Umlauten als UTF-8 interpretiert wird.
Damit Ihre Datei kompatibel und gut maschinell lesbar für andere
Programme bleibt, sollten Sie stets eine UFT-8 Kodierung beibehalten.
Eine bessere Anzeige können Sie trotzdem mit folgenden Schritten
erreichen.


```{admonition} Hinweis
:class: hinweis
Je nach Einstellung von RStudio kommt dieses Problem ggf. nicht auf und Umlaute werden korrekt angezeigt.
```

**Lösungsansätze bei falscher Anzeige**  
Sie können die Datei als ISO 8859-1 (“Latin-1”) kodiert laden. Hierzu
müssen Sie zum bekannten Einlesebefehl nur den Zusatz
`encoding = "latin1"` hinzufügen, damit **R** weiß, welche
Zeichenkodierung im Dokument verwendet wurde. Die neu eingelesene Datei bezeichnen wir als `data_csv_clean`:

In [None]:
data_csv_clean <- read.csv2("Data/21341-0001_F_2020.csv", header = FALSE, encoding = "latin1")

Wenn Sie schnell überprüfen möchten, ob die Umlaute nun korrekt angezeigt werden, können Sie den Befehl `head()` benutzen. Hierdurch werden nur die ersten Zeilen Ihrer Tabelle angezeigt.

In [None]:
head(data_csv_clean)

Unnamed: 0_level_0,V1,V2,V3
Unnamed: 0_level_1,<chr>,<chr>,<chr>
1,GENESIS-Tabelle: 21341-0001,,
2,"Personal an Hochschulen: Deutschland, Jahre,",,
3,"Personalgruppen nach Beschäftigungsverhältnis, Geschlecht",,
4,Statistik des Hochschulpersonals,,
5,Deutschland,,
6,Personal an Hochschulen (Anzahl),,


An dem Wort “Beschäftigungsverältnis” in Zeile 3 sehen Sie, dass die CSV-Datei nun korrekt gelesen wird. Wie bereits erwähnt sollte Sie auf Umlaute jedoch in Gänze verzichten.

*Alternative:*  
Um Probleme mit der Zeichenkodierung zu vermeiden, speichern Sie am
besten schon im Vorhinein Ihre Datei mit UTF-8 Kodierung ab. Dies können
Sie meist direkt unter den `Speichern unter...` Dateiformaten auswählen:

```{figure} _images/UTF8_Zeichenkodierung.png
---
name: utf8-speichern
alt: Ein Screenshot, der das Abspeichern als UTF-8 Code zeigt.
---
Abspeichern mit UTF-8 Zeichenkodierung.
```

### Umlaute entfernen 

Mittels des Befehls `str_replace_all` können Sie einzelne Buchstaben in
Ihrer Tabelle ersetzen. Dies ist jedoch nur separat für einzelne Spalten
möglich.

In [None]:
data_csv_clean$V1 <- str_replace_all(data_csv_clean$V1, c("ä" = "ae", "ö" = "oe", "ü" ="ue", "ß" ="ss"))
data_csv_clean$V2 <- str_replace_all(data_csv_clean$V2, c("ä" = "ae", "ö" = "oe", "ü" ="ue", "ß" ="ss"))

**Erklärung des Codes:**  

-   `data_csv_utf8$V1`:  
    Durch das Anhängen eines `$`- Zeichens an den Namen der Tabelle
    signalisieren Sie **R**, dass Sie sich nur auf einen bestimmte
    Variable - hier die Spalte **V1** - beziehen möchten.  

-   `str_replace_all`:  
    Suchen und ersetzen von einzelnen Zeichen(-ketten) in ihrer
    Tabelle.  

-   `c("ä" = "ae", "ö" = "oe",...)`:  
    Der Befehl `c` erstellt einen Vektor. Ein Vektor kombiniert von
    Ihnen festgelegte Zahlen- oder Zeichenketten (letzteres wird auch
    **“String”** genannt. Beispiele für "Strings" sind “Apfel”, “Birne” oder
    “Kiwi”).  
    Im hier verwendeten Zusammenhang mit `str_replace_all()` wird **R**
    befohlen, alle “ä” durch “ae” zu ersetzen und alle “ö” durch “oe”
    usw.

**Ergebnis ansehen**:  
Über die `show()`-Funktion könnten Sie jetzt die Tabelle erneut sichten
und überprüfen, ob die Zeichenumkodierung funktioniert hat. Wenn Ihre
Tabelle jedoch sehr lang ist (so wie in diesem Fall) und Sie nur einen
Teil Ihrer Tabelle betrachten möchten, können Sie sich auch nur
bestimmte Bereiche anzeigen lassen. Hierfür setzen Sie hinter den
Dateinamen eckige Klammern und bestimmen den
Wertebereich:`[*Zeilenbereich*,*Spaltenbereich*]`.  

```{admonition} Hinweis
:class: hinweis
Wenn Sie einen Wertebereich angeben wollen, platzieren Sie
zwischen den ersten und letzten Wert einen Doppelpunkt`:` und **R**
inkludiert alle dazwischenliegenden Werte (“von… bis…”). Ein Komma
separiert Bereiche.
```
**Allgemeines Beispiel:**

In [None]:
1:5

Ein Vektor mit Wertebereichen:

In [None]:
c(1:5, 11:15)

**Angewendet auf die vorliegende CSV-Tabelle:**

In [None]:
show(data_csv_clean[8:20,1:3])

                                                     V1        V2     V3
8       Wissenschaftliches und kuenstlerisches Personal maennlich 247720
9       Wissenschaftliches und kuenstlerisches Personal  weiblich 167112
10      Wissenschaftliches und kuenstlerisches Personal Insgesamt 414832
11   Hauptberufl. wissenschaftl. u. kuenstler. Personal maennlich 159567
12   Hauptberufl. wissenschaftl. u. kuenstler. Personal  weiblich 109708
13   Hauptberufl. wissenschaftl. u. kuenstler. Personal Insgesamt 269275
14                                          Professoren maennlich  36344
15                                          Professoren  weiblich  12949
16                                          Professoren Insgesamt  49293
17                             Dozenten und Assistenten maennlich   2182
18                             Dozenten und Assistenten  weiblich   1546
19                             Dozenten und Assistenten Insgesamt   3728
20     Wissenschaftliche und kuenstlerische Mitarbe

Wie Sie erkennen können, wurden die Umlaute erfolgreich umgeschrieben.

### Tabelle unterteilen 

Damit die Tabelle eine bessere Struktur erlangt, empfiehlt sich eine
Separierung in Metadaten und Tabellendaten.  

In [None]:
Metadaten <- data_csv_clean[c(1:6, 87:88), 1]
Tabellendaten <- data_csv_clean[8:85, 1:3]

In [None]:
show(Metadaten)

[1] "GENESIS-Tabelle: 21341-0001"                                
[2] "Personal an Hochschulen: Deutschland, Jahre,"               
[3] "Personalgruppen nach Beschaeftigungsverhaeltnis, Geschlecht"
[4] "Statistik des Hochschulpersonals"                           
[5] "Deutschland"                                                
[6] "Personal an Hochschulen (Anzahl)"                           
[7] "© Statistisches Bundesamt (Destatis), 2023"                 
[8] "Stand: 04.04.2024 / 18:30:01"                               


In [None]:
head(Tabellendaten)

Unnamed: 0_level_0,V1,V2,V3
Unnamed: 0_level_1,<chr>,<chr>,<chr>
8,Wissenschaftliches und kuenstlerisches Personal,maennlich,247720
9,Wissenschaftliches und kuenstlerisches Personal,weiblich,167112
10,Wissenschaftliches und kuenstlerisches Personal,Insgesamt,414832
11,Hauptberufl. wissenschaftl. u. kuenstler. Personal,maennlich,159567
12,Hauptberufl. wissenschaftl. u. kuenstler. Personal,weiblich,109708
13,Hauptberufl. wissenschaftl. u. kuenstler. Personal,Insgesamt,269275


### Spaltenüberschriften setzen
Der Befehl `colnames()`ermöglicht es Ihnen Spaltenüberschriften zu
setzen.  

Sie können dies entweder für jede Spalte mit einem einzelnen Befehl
durchführen:

In [None]:
colnames(Tabellendaten)[1] <- "Angestelltenverhaeltnis"

In [None]:
head(Tabellendaten)

Unnamed: 0_level_0,Angestelltenverhaeltnis,V2,V3
Unnamed: 0_level_1,<chr>,<chr>,<chr>
8,Wissenschaftliches und kuenstlerisches Personal,maennlich,247720
9,Wissenschaftliches und kuenstlerisches Personal,weiblich,167112
10,Wissenschaftliches und kuenstlerisches Personal,Insgesamt,414832
11,Hauptberufl. wissenschaftl. u. kuenstler. Personal,maennlich,159567
12,Hauptberufl. wissenschaftl. u. kuenstler. Personal,weiblich,109708
13,Hauptberufl. wissenschaftl. u. kuenstler. Personal,Insgesamt,269275


Oder alle Spaltenüberschriften mittels eines Vektors gleichzeitig neu
setzen:

In [None]:
colnames(Tabellendaten) <- c("Angestelltenverhaeltnis", "Geschlecht", "Angestelltenzahl_2020")

In [None]:
head(Tabellendaten)

Unnamed: 0_level_0,Angestelltenverhaeltnis,Geschlecht,Angestelltenzahl_2020
Unnamed: 0_level_1,<chr>,<chr>,<chr>
8,Wissenschaftliches und kuenstlerisches Personal,maennlich,247720
9,Wissenschaftliches und kuenstlerisches Personal,weiblich,167112
10,Wissenschaftliches und kuenstlerisches Personal,Insgesamt,414832
11,Hauptberufl. wissenschaftl. u. kuenstler. Personal,maennlich,159567
12,Hauptberufl. wissenschaftl. u. kuenstler. Personal,weiblich,109708
13,Hauptberufl. wissenschaftl. u. kuenstler. Personal,Insgesamt,269275


Damit die Nummerierung der Tabellenzeilen nicht bei der Zahl 8 startet,
empfiehlt sich die Nummerierung der Zeilen neu zu setzen. Herzu kann der
Befehl `row.names` eingesetzt werden:

In [None]:
row.names(Tabellendaten) <- 1:78

Vollständig aufbereitet sehen die `Tabellendaten` dann wie folgt aus:

In [None]:
head(Tabellendaten)

Unnamed: 0_level_0,Angestelltenverhaeltnis,Geschlecht,Angestelltenzahl_2020
Unnamed: 0_level_1,<chr>,<chr>,<chr>
1,Wissenschaftliches und kuenstlerisches Personal,maennlich,247720
2,Wissenschaftliches und kuenstlerisches Personal,weiblich,167112
3,Wissenschaftliches und kuenstlerisches Personal,Insgesamt,414832
4,Hauptberufl. wissenschaftl. u. kuenstler. Personal,maennlich,159567
5,Hauptberufl. wissenschaftl. u. kuenstler. Personal,weiblich,109708
6,Hauptberufl. wissenschaftl. u. kuenstler. Personal,Insgesamt,269275


````{admonition} Vollständiger Code zur Fehlerkontrolle 
:class: hinweis, dropdown
```
#TidyVerse Package Installation
install.packages("tidyverse")
library(tidyverse)

#Daten einlesen
data_csv_clean <- read.csv2("Data/21341-0001_F_2020.csv", header = FALSE, encoding = "latin1")

#Ergebnisse ansehen
head(data_csv_clean)

#Umlaute entfernen
data_csv_clean$V1 <- str_replace_all(data_csv_clean$V1, c("ä" = "ae", "ö" = "oe", "ü" ="ue", "ß" ="ss"))
data_csv_clean$V2 <- str_replace_all(data_csv_clean$V2, c("ä" = "ae", "ö" = "oe", "ü" ="ue", "ß" ="ss"))

#Ausgewählte Ergebnisse ansehen
show(data_csv_clean[8:20,1:3])

#Tabelle unterteilen
Metadaten <- data_csv_clean[c(1:6, 87:88), 1]
Tabellendaten <- data_csv_clean[8:85, 1:3]

#Spaltenüberschriften setzen
colnames(Tabellendaten) <- c("Angestelltenverhaeltnis", "Geschlecht", "Angestelltenzahl_2020")

#Nummerierung neu setzen
row.names(Tabellendaten) <- 1:78

#Ergebnis ansehen
head(Tabellendaten) 
```
````