In [None]:
pacman::p_load(tidyverse, nycflights13)

## Exkurs: Code Styles

Nachdem wir nun einige grundlegende Funktionen in R zur Visualisierung, Verarbeitung und zum Import kennengelernt haben, soll an dieser Stelle noch ein kleiner Block zu gutem *coding style* folgen. Coding Style ist wie Interpunktion – es funktioniert auch ohne, aberesistschondeutlicheinfacherzulesenwennallesstimmt. Gerade wenn du dabei bist, Programmieren zu lernen, ist es sinnvoll, sich direkt gute Praktiken anzugewöhnen.

Ähnlich wie beim wissenschaftlichen Schreiben ist es sinnvoll, sich einen konsistenten Stil anzueignen. Das erleichtert sowohl dein eigenes Lesen, aber auch die Teamarbeit. Gerade bei größeren Codeprojekten ist ein durchgängiger Stil sowie präzise Kommentare sehr wichtig. Ein konsistenter Stil erleichtert es aber auch, den eigenen Code online zu teilen und nach Hilfe zu fragen (z. B. bei [stackoverflow](https://stackoverflow.com/)).

> Das `tidyverse` hat einen komplett eigenen [Styleguide](https://style.tidyverse.org/), in dem ausführlich beschrieben wird, wie ein gut leserlicher und aufgeräumter *code style* umgesetzt werden kann. Für Fortgeschrittene gibt es auch Pakete wie [`styler`](https://styler.r-lib.org/), mit dem ganze Dateien automatisch formatiert werden können. Auf diese beiden Links werden wir hier nicht weiter eingehen, schaut euch die Pakete aber gern an, falls ihr Lust draufhabt.

Im Folgenden wird es keinen ausführbaren Code geben, lediglich einige Code-Blöcke zu verschiedenen Aspekten von *code styling*.

### Namen (Benennung von Variablen)
Um Objekte zu benennen, solltest du nur Kleinbuchstaben, Ziffern und den Unterstrich _ benutzen. Der Unterstrich _ sollte dabei benutzt werden, um Wörter zu separieren. Beachte, dass Objektnamen keine Leerzeichen enthalten können.

```
# Strive for:
short_flights <- flights %>%
    filter(air_time < 60)

# Avoid:
SHORTFLIGHTS <- flights %>%
    filter(air_time < 60)
```

Generell ist es besser, einen längeren und dafür deskriptiveren Namen zu wählen, als Abkürzungen. Natürlich spart man erstmal Tipparbeit, wenn man Objekte kürzer benennt. Gerade bei größeren Projekten verliert man jedoch schnell den Überblick. Auch ist der Code dann direkt verständlich für andere. Wenn die Autor*innen des `nycflights13`-Pakets die Variable `air_time` mit `at` abgekürzt hätten, hätten wir den Datensatz nicht so schnell lesen können.

Ebenfalls wichtig ist Konsistenz! Wenn man mehrere Variablen benennt, die alle mit der gleichen Sache zu tun haben, ist es schlau, ein Präfix (ein Wort vor dem Rest) zu benutzen. Wenn man dann z.B. nur den anfang des Namens kenn, kann man nach drücken der Tab-Taste alle Objekte leicht durchsuchen, die genau so anfangen.

### Leerzeichen

Leerzeichen sollten auf jeder Seite eines mathematischen Operators vorkommen (z. B. `+`, `-`, `==`, `<`, ...), sowie um den *assignment operator* (`<-` oder `=`), aber nicht bei dem Operator `^` (dieser entspricht der mathematischen Potenz, also z. B. `2^8` entspricht "2 hoch 8"). Das erhöht die Lesbarkeit (änhlich, wie bei Hausarbeiten nach jedem Punkt ein Leerzeichen folgen sollte).

```
# Strive for
z <- (a + b)^2 / d

# Avoid
z<-( a + b ) ^ 2/d
```

**Keine** Leerzeichen sollten innerhalb oder außerhalb von Klammern erfolgen. Dafür sollte ähnlich wie in der Rechtschreibung nach jedem Komma ein Leerzeichen folgen.

```
# Strive for
mean(x, na.rm = TRUE)

# Avoid
mean (x ,na.rm=TRUE)
```

> Das Argument `na.rm = TRUE` bedeutet in dem Fall, dass fehlende (NA) Werte nicht in die Berechnung einfließen sollen.

Es ist okay, extra Leerzeichen (mit `Space` oder `Tab`) als Einrückungsstil zu verwenden. Z. B. kann es vorkommen, dass die Funktion `mutate()` auf mehrere Variablen angewendet wird. In diesem Fall ist es vielleicht sinnvoll, für die bessere Lesbarkeit, diese einzurücken, sodass die Gleichzeichen alle auf einer Linie zu lesen sind.


```
flights %>%
    mutate(
        speed      = distance / air_time,
        dep_hour   = dep_time %/% 100,
        dep_minute = dep_time %%  100
    )
```

> Da die Variable `dep_time` im `HMM` oder `HHMM`-Format vorliegt (H steht für Stunde und M für Minute), muss die Stunde über eine ganzzahlige Division (`%/%`) und die Minute über eine sogenannte Modulo-Divison (`%%`) berechnet werden. Wenn du das gerade nicht verstehst, ist das kein Problem - es geht ja eigentlich um den Code Style und nicht um mathematische Operatoren.

### Pipes

`%>%` sollte immer ein Leerzeichen davor haben und ist typischerweise das letzte Element einer Zeile. Dadurch wird es einfacher, neue Schritte zur Pipe hinzuzufügen oder diese umzuordnen oder zu ändern.

```
# Strive for
flights %>%
    filter(!is.na(arr_delay), !is.na(tailnum)) |>
    count(dest)

# Avoid
flights|>filter(!is.na(arr_delay), !is.na(tailnum))|>count(dest)
```

Wenn eine Funktion mehrere Argumente hat (z.B. `mutate()` oder `summarise()`), kann es sinnvoll sein, jedes Argument in eine eigene Zeile zu schreiben. Bei anderen Funktionen, wie `select()` oder `filter()` sollte die Funktion in einer Zeile stehen (außer es passt nicht, dann nach sinnvollen Umbrüchen suchen).

```
# Strive for
flights |>  
    group_by(tailnum) |>
    summarize(
        delay = mean(arr_delay, na.rm = TRUE),
        n = n()
  )

# Avoid
flights |>
    group_by(
        tailnum
    ) |>
    summarize(delay = mean(arr_delay, na.rm = TRUE), n = n())
```

### Einrückungen

Generell ist es sinnvoll, dass durch Einrückungen der Code übersichtlich formatiert wird. RStudio, aber auch ChatGPT folgen der Richtlinie, in jeder neuen Zeile nach der Pipe zwei Leerzeichen einzufügen. In Jupyter Notebooks ist es allerdings so, dass durch einen Tab i.d.R. vier Leerzeichen eingefügt werden. Daher werden wir 4 Leerzeichen als Empfehlung geben.
```
# Strive for
flights |>  
    group_by(tailnum) |>
    summarize(
        delay = mean(arr_delay, na.rm = TRUE),
        n = n()
  )

# Avoid
flights|>
  group_by(tailnum) |>
  summarize(
             delay = mean(arr_delay, na.rm = TRUE),
             n = n()
           )

# Avoid
flights|>
  group_by(tailnum) |>
  summarize(
  delay = mean(arr_delay, na.rm = TRUE),
  n = n()
  )
```

Meistens ist es ok, einige dieser Regeln nicht zu befolgen, wenn der Code in eine Zeile passt. Der Code kann eventuell trotzdem einen aufgeräumten Eindruck machen. Langfristig spart guter Code Style sehr viel Zeit, weil man manchmal auch Code schreibt, ihn dann länger nicht benutzt, und sich dann viel besser wieder einlesen kann, wenn der Code ordentlich lesbar und gut kommentiert ist.

```
# Das passt in eine Zeile
df |> mutate(y = x + 1)

# Auch wenn das jetzt 4 Zeilen in Anspruch nimmt, ist es in
# Zukunft einfacher erweiterbar und vielleicht auch etwas übersichtlicher
df |>
    mutate(
        y = x + 1
  )
```

Zu guter Letzt sollte vermieden werden, sehr lange Pipes von mehr als 10-15 Zeilen zu schreiben. Ab dieser Größe ist es meistens sinnvoll, den Code inhaltlich zu strukturieren und in kleinere Unterblöcke aufzuteilen. Neue Objekte sollten dann einen informativen Namen bekommen, durch den die lesende Person direkt weiß, worum es geht. Nach Transformationen, welche die grundsätzliche Struktur der Daten verändern (z. B. [summarise](https://dplyr.tidyverse.org/reference/summarise.html) oder [pivoting](https://tidyr.tidyverse.org/articles/pivot.html)) ist es ohnehin sinnvoll, direkt ein neues Objket zu erstellen. Und: probieren geht über studieren! Vielleicht entwickelst du auch eigene Ideen, durch die dein Code lesbarer wird. Ganz wie beim richtigen Schreiben hat jeder ja seinen eigenen Stil.


### ggplot2

Ähnlich wie bei der Pipe gibt es Regeln für `ggplot2`. In dem Fall ist der Operator ein `+` statt `%>%`.

```
flights %>%
    group_by(month) %>%
    summarize(
        delay = mean(arr_delay, na.rm = TRUE)
    ) %>%
    ggplot(aes(x = month, y = delay)) +
    geom_point() +
    geom_line()
```

Wieder sollten die Argumente einer Funktion eine eigene Zeile bekommen, wenn sie nicht direkt in eine Zeile passen.

```
flights %>%
    group_by(dest) %>%
    summarize(
        distance = mean(distance),
        speed = mean(distance / air_time, na.rm = TRUE)
    ) %>%
    ggplot(aes(x = distance, y = speed)) +
    geom_smooth(
        method = "loess",
        span = 0.5,
        se = FALSE,
        color = "white",
        linewidth = 4
    ) +
    geom_point()
```

Hier sollte ein Augenmerk auf den Übergang von `%>%` zu `+` gelegt werden. `ggplot2` wurde geschrieben, bevor es die Pipe gab, und daher kommt leider diese Inkonsistenz. Für die Pipe benutzen wir nur `%>%`, für `ggplot()` benutzen wir `+`.

Diese Regeln erscheinen vielleicht zunächst willkürlich und nervig. Mit der Zeit wirst du aber merken, dass ein aufgeräumter Code dir viele Probleme erspart und die Fehlersuche, das Teilen und nachträgliche Bearbeiten von Code sehr vereinfacht. Und eine solche Konsistenz kommt auch automatisch mit der Zeit.

Als kleine Mini-Übung kann, wer Lust hat, an dieser Stelle noch diese beiden Pipes nach den oben genannten Regeln formatieren:

In [None]:
flights|>filter(dest=="IAH")|>group_by(year,month,day)|>summarize(n=n(),
delay=mean(arr_delay,na.rm=TRUE))|>filter(n>10)

flights|>filter(carrier=="UA",dest%in%c("IAH","HOU"),sched_dep_time>
0900,sched_arr_time<2000)|>group_by(flight)|>summarize(delay=mean(
arr_delay,na.rm=TRUE),cancelled=sum(is.na(arr_delay)),n=n())|>filter(n>10)