In [1]:
library(IRdisplay)
# Bitte diese Cell mit Run ausführen, damit die Styles geladen werden
# Bei Änderungen des CSS muss das Notebook im Browser neu geladen werden
display_html('<link rel="stylesheet" href="./styles/sciprolab.css">')

# Scientific Programming Lab

# Einführung in die Sprache R

<img src="./images/RIntro/Rlogo.png" width=300 align=right alt="R Logo">

Diese Einführung kann nur einen kleinen Einblick in R und das große Ökosystem rund um R geben. Nicht umsonst war lange unklar, welche Sprache den Bereich Data Science beherrschen wird - Python oder R. Das artete in einen förmlichen Glaubenskrieg aus, der mit der folgenden Quintessenz beigelegt wurde: <br/>
__Für den Bereich Data Science beherrscht man am besten beide, denn R und Python ergänzen sich gut.__

### Was sagt die [R-Projekt Seite](https://www.r-project.org) über R:

"R is an integrated suite of software facilities for data manipulation, calculation and graphical display. It includes
-   an effective data handling and storage facility,
-   a suite of operators for calculations on arrays, in particular matrices,
-   a large, coherent, integrated collection of intermediate tools for data analysis,
-   graphical facilities for data analysis and display either on-screen or on hardcopy, and
-   a well-developed, simple and effective programming language which includes conditionals, loops, user-defined recursive functions and input and output facilities."

### Was sagen andere dazu?

Dr. Jonathan Carroll in "Beyond Spreadsheets with R":
> Although R (well, S) was originally built for statistics, it can be considered a general purpose language (GPL) in that it isn't tied to completing just one single task."

Joe Cheng, CTO of RStudio (heute **posit**):
> R is not a DSL. It's a language for writing DSLs, which is something that's altogether more powerful.

> One person may have a finance data goal in mind, another may be interested in natural language processing, and someone else may be aiming to predict what decisions a customer will make next. The common link between all these is data, but R is so flexible that it provides a capable mechanism to work within each of these domains.

Hadley Wickham, *Chief Scientist* of RStudio/**posit** - *rstudio::conf 2022*:

<a href="https://en.wikipedia.org/wiki/Hadley_Wickham"><img src="./images/RIntro/Hadley-wickham2016-02-04.jpg" width=200 align=right alt="Hadley Wickham"></a>

> "R is not a language driven by the purity of its philosophy; R is a language designed to get shit done."

### R läßt sich mit folgenden Kategorien klassifizieren

-   **Open Source** - der unterligende Source-Code ist frei und kann nach belieben modifiziert werden
-   **Interpretiert** - R Code wird nicht kompiliert sondern vom Interpreter ausgeführt. Reiner R-Code ist deshalb nicht in jedem Fall die performanteste Wahl (hier kommen die Packages ins Spiel - siehe unten)
-   **Allgemein** - R ist nicht auf einen spezifischen Bereich beschränkt sondern läßt sich auf Probleme in mehreren Domänen anwenden
-   **Funktional** - R macht umfangreichen Gebrauch von Funktionen die auf unveränderlichen Daten operieren
-   **Werkzeugkasten** - R hat ein bewährtes Package-System durch das es sich mit nativen, performanten Funktionen erweitern läßt, z.B. in Fortran, C/C++, Rust ... etc.

## Geschichtliches oder vom Seminarraum  in die New York Times

<a href="https://www.nytimes.com/2009/01/07/technology/business-computing/07program.html"><img src="./images/RIntro/GentlemanIhaka.jpg" width=500 align=right alt="Robert Gentleman (li.) und Ross Ihaka (re.) starten 1992 ihr Projekt und geben 1996 ihr erstes Code-Release frei"></a>

Robert Gentleman (li.) und Ross Ihaka (re.) starten 1992 ihr Projekt und geben 1996 ihr erstes Code-Release frei [^1] , d.h. Python ist nur ca. ein Jahr älter als R

[^1]: [Ashlee Vance, *Data Analysts Captivated by R's Power*, New York Times, Januar 2009](https://www.nytimes.com/2009/01/07/technology/business-computing/07program.html)


### R - vom Seminarraum in die New York Times ...

<img src="./images/RIntro/useR-Logo.png" width=200 align=right alt="useR!">

-   1992 Start von R als studentisches Projekt
-   1995 R unter der GPL
-   1997 R Core Team
-   1998 CRAN (Comprehensive R Archive Network)
-   2002 R-Foundation
-   2004 Erste R-User-Konferenz *useR!2004* in Wien, dann 2006 und seit 2007 jährlich

### R - vom Seminarraum in die New York Times ...

-   2007 Gründung von Revolution Analytics - erste große Firma im R-Ökosystem ("RedHat von R")
-   2008 R Foundation Compliance document [^2] für FDA-Submissions - wichtig in streng regulierten Bereichen, wie Gesundheitswesen und Life-Science
-   2009 Gründung von *RStudio* durch J.J. Allaire - heute praktisch das "RedHat von R"
-   2011 RStudio IDE
-   2012 Shiny (Interaktive Dashboards)

[^2]: www.r-project.org/doc/R-FDA.pdf

### R - vom Seminarraum in die New York Times und darüber hinaus ...

-   2015
    -   Microsoft übernimmt Revolution Analytics und kündigt später die Unterstützung von R im SQL Server 2016 an
    -   Gründung des *R Consortium* als Teil der Linux Foundation - Industriekonsortium (Microsoft, IBM, Google, HP, Oracle, RStudio, TIBCO, ...) zur Unterstützung der R-Foundation
-   2016
    -   R Tools for Visual Studio (RTVS)
    -   *Tidyverse* - moderner Ansatz zur datengetriebenen Programmierung in R
-   2020 *rstudio::conf* mit 2250 Teilnehmern
-   2022 RStudio Inc. benennt sich in *posit* um, um mit dem gesamten Data-Science-Bereich assoziiert zu werden


### R zitieren

Wenn man R benutzt sollte man das auch klar dokumentieren. R erklärt selbst wie:

In [2]:
citation()

### R zitieren

... und das gleiche ist auch für genutzte Packages möglich und üblich:

In [3]:
library(ggplot2) # laden des Packages ggplot2 - einer Bibliothek zur Visualisierung
citation("ggplot2")

### ... zum Teil von Prüfungsfragen renommierter Universitäten

<img src="./images/RIntro/RimCambridgePartIIMathematicsTripos.png" width=500 align=center alt="R als Teil des Cambridge Tripos">

### ... in das allgemeine Programmiersprachen Ranking

<img src="./images/RIntro/IEEE_SprachRanking_2024.png" width=300 align=right alt="IEEE-Ranking der Programmiersprachen 2024">

-   Platz 20 im aktuellen IEEE-Ranking für das Jahr 2024 (Matlab dahinter auf 24, SAS auf 16) [^3]
-   Platz 18 im TIOBE Index für Jan. 2025 - von 23 im Jan. 2024 (Matlab davor auf 15, SAS auf 23) [^4]
-   Platz 6 im PYPL(PopularitY of Programming Language)-Index Jan. 2025 [^5]

[^3]: spectrum.ieee.org/top-programming-languages
[^4]: www.tiobe.com/tiobe-index/
[^5]: pypl.github.io/PYPL.html

### R vs. Python vs. Java für Data Science Aufgaben

<img src="./images/RIntro/DataAnalysisWorkflow_Java_vs_Python_vs_R.png" width=600 align="center" alt="R vs. Python vs. Java für Data Science Workflows">



### R vs. Python

... und hier noch einmal eine andere Meinung zur Einordnung:

<a href="https://youtu.be/4lcwTGA7MZw"><img src="./images/RIntro/RvsPython.png" width=500 align=center alt="R vs. Python by IBM"></a>


### R auf einen Blick ....

R eignet sich hervorragend für die Visualisierung von Daten - einfach oder komplex ...


### R auf einen Blick ... 3D

<img src="./images/RIntro/knot_3D2.png" width=600 align="center" alt="3D">

Quelle [R Graph Gallery](www.r-graph-gallery.com)

### R auf einen Blick ... Kontourplots

<img src="./images/RIntro/galaxy_density_contours.png" width=600 align="center" alt="Kontourplots">

Quelle [R Graph Gallery](www.r-graph-gallery.com)

### R auf einen Blick ... Kontour in 3 D &rarr; Kernel Density Estimator

<img src="./images/RIntro/KernelDensityEst.png" width=600 align="center" alt="Kernel Density Estimator">

Quelle [R Graph Gallery](www.r-graph-gallery.com)

### R auf einen Blick ... Linienplots

<img src="./images/RIntro/plot_lines_with_error_envelopes_ggplot2.png" width=600 align="center" alt="Linienplots">

Quelle [R Graph Gallery](www.r-graph-gallery.com)

### R auf einen Blick ... einfache Karten

<img src="./images/RIntro/maps_leafletR1.png" width=600 align="center" alt="Karten">

Quelle [R Graph Gallery](www.r-graph-gallery.com)

### R auf einen Blick ... die US-Wahlen von 2004

<img src="./images/RIntro/USElectionMap2004.png" width=600 align="center" alt="US-Wahlen von 2004">

Quelle [R Graph Gallery](www.r-graph-gallery.com)

### R auf einen Blick ... Karten in besonders schön mit dem Package rayrender/rayshader

<img src="./images/RIntro/rayshader_geo_map.png" width=600 align="center" alt="Geo-Visualisierung mit rayshader">


### R auf einen Blick ... Korrelationsellipsen

<img src="./images/RIntro/CorEllipse.png" width=600 align="center" alt="Korrelationsellipsen">

Quelle [R Graph Gallery](www.r-graph-gallery.com)

### R auf einen Blick ... noch ein wenig mehr Information als Corrgrams

<img src="./images/RIntro/Corrgram.png" width=600 align="center" alt="Corrgrams">

Quelle [R Graph Gallery](www.r-graph-gallery.com)

### R auf einen Blick ... TidyTuesday 2022-23

<img src="https://raw.githubusercontent.com/mvbloois/tidytuesday/main/plots/2022-32/2022-32_Ferris-Wheels.png" width=600 align="center" alt="TidyTuesday 2022-23">

### R auf einen Blick ... TidyTuesday 2022-31

<img src="https://raw.githubusercontent.com/mvbloois/tidytuesday/main/plots/2022-31/2022-31_Oregon-Spotted-Frog.png" width=600 align="center" alt="TidyTuesday 2022-31">

### R auf einen Blick ... TidyTuesday 2022-28

<img src="https://raw.githubusercontent.com/mvbloois/tidytuesday/main/plots/2022-28/2022-28_European-Flights.png" width=600 align="center" alt="TidyTuesday 2022-28">

### R auf einen Blick ... TidyTuesday 2022-26

<img src="https://raw.githubusercontent.com/mvbloois/tidytuesday/main/plots/2022-26/2022-26_UK-Gender-Pay-Gap.png" width=600 align="center" alt="TidyTuesday 2022-26">

### R auf einen Blick ... TidyTuesday 2022-24

<img src="https://raw.githubusercontent.com/mvbloois/tidytuesday/main/plots/2022-24/2022_24_US_Drought.png" width=600 align="center" alt="TidyTuesday 2022-24">

### Grundlegende Konzepte in R (J. Chambers[^10])

-   Funktionale Programmierung
-   OOP
-   Data Frames
-   Open Source
-   Komponenten bzw. Modularisierung - Core/Packages
-   Algorithmen und Interfaces

[^10]: John M. Chambers, *Software for Data Analysis: Programming with R*, Springer Berlin, 2008

### Literatur- und Online-Quellen I

-   [R-Projekt Seite](www.r-project.org "R-Project"):
    -   Manuals www.cran.r-project.org/manuals.html:
        -   *An Introduction to R*
        -   *R Data Import/Export*
        -   *R Installation and Administration*
        -   ...
    -   CRAN → www.cran.r-project.org
    -   FAQ → www.cran.r-project.org/faqs.html
    -   The R Journal → www.journal.r-project.org


### Literatur- und Online-Quellen II

-   Sonstige Online-Quellen
    -   **R**-bloggers www.r-bloggers.com
    -   Verzeichnis aller Mailinglisten (*R-help*, ...) unter www.r-project.org/mail.html
    -   [*The Elements of Statisical Learning*](https://statweb.stanford.edu/~tibs/ElemStatLearn/ "The Elements of Statisical Learning")
    -   [Kurs von den Autoren von *The Elements of Statistical Learning* zum Maschinellen Lernen](https://www.r-bloggers.com/in-depth-introduction-to-machine-learning-in-15-hours-of-expert-videos/ "Youtube-Kurs zum Maschinellen Lernen")
    -   Stack Overflow
    -   Google, Bing, DuckDuckGo, ... etc.
    -   ChatGPT, Claude, DeepSeek, ... etc.


### R for Data Science (2e)

<img src="./images/RIntro/r4ds_cover_2e.jpg" width=300 align="right" alt="R for Data Science (2e) Cover">

-   "Das große Buch zu R" in seiner zweiten Auflage
-   Hadley Wickham, Mine Çetinkaya-Rundel, Garrett Grolemund
-   O'Reilly Media, Inc., Juni 2023
-   ISBN: 9781492097402
-   Online lesbar unter: [R for Data Science (2e)](https://r4ds.hadley.nz/)


### Grundsätzliches zu R

Stärken und Schwächen aus der persönlichen Sicht:

-   Stärken:
    -   Frei
    -   Umfassendes Paket/Sprache zur Statistik, Mathematik, Datenvisualisierung ...
    -   Große Menge bereits vorhandener Packages
    -   Gut erweiterbar durch
        -   eigene R-Skripte
        -   native Routinen in C/C++, Rust, Fortran, Java ...
        -   R-Package-Mechanismus

### Grundsätzliches zu R

-   Schwächen:
    -   Für manche Dinge besteht eine  Lernkurve
    -   In manchen, sehr rechenintensiven Dingen hinkt R (Python und Julia) hinterher (Deep Learning), aber es existieren Ankopplungen an die entsprechende Bibliotheken der anderen Ökosysteme


## Erste Schritte in R

### Einfacher Erstkontakt ohne Anaconda
- R-Umgebungen:
  - _Standard R_ &rarr; www.r-project.org
  - Anaconda Environment mit R &rarr; https://www.anaconda.com
- Editoren/IDE's:
  - RStudio → posit.co/download/rstudio-desktop/
  - *Positron → github.com/posit-dev/positron/* - möglicherweise die zukünftig erste Wahl, aber aktuell noch in der $\beta$-Pahse
  - Visual Studio Code
  - PyCharm
  - JupyterLab 
  - **E**macs **S**peaks **S**tatistics (**ESS**) → http://ess.r-project.org/
  - ...

### Einfacher Erstkontakt ohne Anaconda

Arbeitsumgebung:
-   Konsole
-   Workspace
    -   `ls`, `rm`, `rm(list=ls())`, `attach`, `detach`
    -   `getwd`, `setwd`, `q`
-   History
    -   `loadhistory`, `savehistory` → `.Rhistory`
-   Image
    -   `load`, `save.image` → `*.RData`

→ Explorativ/Demo → R → RStudio

### Einfacher Erstkontakt ohne Anaconda

Wo und wie bekomme ich Hilfe?

Hilfesystem(e):

-   `apropos("so")` → Suche nach Befehlen, die ein `so` enthalten
-   `?solve` → Was macht der Befehl `solve`?
-   `help.start()` → öffnet ein Browserfenster mit den Tutorials und dem Hilfesystem
-   Durchsuchen der Referenz nach (statistischen und/oder ML-)Stichworten
-   `demo()` → Demos zu einzelnen Packeten ansehen
-   `vignette()` → Vignetten, Tutorials als PDF-Dokumente mit R-Code und zugehörigen Erklärungen (Sweave)
-   Jemanden fragen, der sich damit auskennt ... oder eben die KI

### Packages

- Packages widerpiegeln das breite Ökosystem von R 
- Aktuell (06.02.2025) 22001 Packages auf CRAN
    -   Historie:
        -   07.10.2024: 21463
        -   15.10.2023: 20011
        -   16.10.2022: 18733
    -   [Package-Count](https://cran.r-project.org/web/packages/#:~:text=Currently%2C%20the%20CRAN%20package%20repository%20features%2018729%20available%20packages.)
    -   [Verfügbare Packages nach Datum sortiert](https://cran.r-project.org/web/packages/available_packages_by_date.html)
-   Basis-Installation kommt mit grundlegenden Packages, unter anderen:
    -   `base`, `datasets`, `utils`, `grDevices`, `graphics`, `stats`, `methods`, ...


### Verwaltung der Packages

| Funktion | Ergebnis |
|--------------------------------------|----------------------------------|
| `.libPaths()` | Verzeichnisse in denen die R-Packages installiert sind |
| `library()` | Auflistung aller installierten Packages |
| `installed.packages()` | Auflistung aller installierten Packages mit zugehörigen Details |
| `install.packages()` | Startet Dialog zum Installieren eines Packages |
| `install.packages("gclus")` | Installiert das Package `gclus` |
| `update.packages()` | Update der installierten Packages |
| `library(rpart)` | Laden eines installierten Packages in einen Workspace (hier `rpart`) |

### "Stolperfallen"

-   Falsche Groß- und Kleinschreibung → `help()`, `Help()` oder `HELP()`
-   Vergessen der Anführungszeichen, wo sie notwendig sind → `install.packages(gclus)` statt `install.packages("gclus")`
-   Vergessen der Klammern am Ende der Funktion → `help` statt `help()` (Funktionen keine Statements!)

### "Stolperfallen"

-   Verwendung von "`\`" in Pfaden statt "`/`" unter Windows, für R ist der Backslash ein Escape-Zeichen, also statt `setwd(c:\foo)` → `setwd(c:/foo)` oder `setwd(c:\\foo)`
-   Benutzen einer Funktion ohne das die Bibliothek vorher geladen wurde - kann einem schnell beim teilweisen Ausführen von Code passieren, wenn man das Image des alten Workspaces lädt → Bibliotheken werden dabei nicht geladen
-   Das Schließen des graphischen Devices nach dem Plotten nicht vergessen → `dev.off()` schreibt erst alles raus!
-   Sehr große Datensätze - R hält Datensätze im Hauptspeicher → hängt ab vom Hauptspeicherausbau und sehr, sehr große Datensätze (GB- bis TB-Bereich) sind mit speziellen Methoden und Packages möglich

### R als einfacher Taschenrechner

In [4]:
1 + 2 * 3

In [5]:
2 * 5^2 - 10 * 5

In [6]:
4 * sin(pi/2)

In [7]:
0 / 0

### R kennt die Rechenregeln und interpretiert die Eingabe(Typen)

-   Aufruf von `?Syntax` liefert Erklärung zu einzelnen Operatoren und ihrer Präzendenz

In [8]:
"Hello World!"
1.31
-3.2

In [9]:
1,31

R ist standardmäßig internantional und verwendet "`.`" als Dezimalpunkt → "`1,31`" liefert einen Fehler

### "Taschenrechner mit Speicher" - Der Zuweisungsoperator

Aufgrund des "funktionalen Erbes" von R ist für Zuweisungen traditionell der Zuweisungsoperator (Assignment-Opterator) "`<-`" üblich, allerdings kann auch "`=`"

In [10]:
a <- 1.4
a
b = 2.4
b

### Vektoren

Da R von Anfang an auf die Datenverarbeitung und Statistik ausgerichtet war, sind Vektoren und Matrizen ebenfalls als atomare Datenstrukturen angelegt, mit denen viele Funktionen und Operatoren umgehen können.

Einfache Funktionen für Vektoren `c()`, `length()`, `names()`, `rep()`, `seq()`, `:`

In [11]:
a <- c(34,13,3.5) # numerischer Vektor
b <- c("ab","cd","bd","st") # Zeichenketten-Vektor
c <- c(T,T,F,T,F) # logischer Vektor
length(a); length(b); length(c)

In [12]:
names(a) <- c("Val1","Val2","Val3") # Namen für die Elemente
a

In [13]:
rep(c(2,3,4), c(1,2,3)) # Wiederholungen von Elementen

In [14]:
seq(from = -5, to = 5, by = 2) # Sequenzen
2:-3 # Einfache Sequenzen im Abstand 1

In [15]:
a[c(2,3)] # Zugriff über Index-Vektor
a[c("Val2","Val3")] # Gemischter Zugriff über Name und Index
a[c(F,T,T)] # Zugriff über logischen Index-Vektor

### Arithmetische Operatoren

| Operator      | Bedeutung                |
|---------------|--------------------------|
| `^` oder `**` | Potenz                   |
| `*`, `/`      | Multiplikation, Division |
| `+`, `-`      | Addition, Subtraktion    |
| `%/%`         | Ganzzahlige Division     |
| `%%`          | Modulo                   |


In [16]:
3^2
c(-5,1.5,3.6)^2
(1:20)^2
(1:20)%%3

### Vordefinierte Werte

| Wert          | Bedeutung                        |
|---------------|----------------------------------|
| `pi`          | π                                |
| `Inf`, `-Inf` | *Infinity* → Unendlich           |
| `NaN`         | *Not a Number* → nicht definiert |
| `NA`          | *Not Available* → fehlender Wert |
| `NULL`        | Leere Menge                      |

### Mathematische Funktionen

| Funktion | Bedeutung |
|--------------------------------------|----------------------------------|
| `max()`, `min()` | Extremwerte |
| `abs()` | Betrag |
| `sqrt()` | Quadratwurzel |
| `round()`, `floor()`, `ceiling()` | Runden, Ab-, Aufrunden |
| `sum()`, `prod()` | Summe, Produkt |
| `log()`, `log2()`, `log10()` | Logarithmen |
| `exp()` | Exponentialfunktion |
| `sin()`, `cos()`, `tan()`, `asin()`, `acos()`, `atan()` | Trigonometrische Funktionen |


In [17]:
a <- c(-7,-482,50,-48,-148,-295,-381,-185,-449,506)
max(a)
round(sin(a),2)
round(sqrt(abs(a)),2)

<div class="aufgabe">
    <h3>Rechnen mit R</h3>
    Berechnen Sie die Summe und das Produkt der Zahlen 1 bis 10 (nutzen Sie <tt>sum()</tt> und <tt>prod()</tt>) und bestimmen Sie dann den Logarithmus zur Basis 5 der Resultate! <br/>
    Nutzen Sie die Hilfe, um sich über die genaue Implementierung der Logarithmus-Funktion(en) in R zu informieren!
</div>

In [18]:
# YOUR CODE HERE
fail()

### Logische Operatoren

| Wert                      | Bedeutung    |
|---------------------------|--------------|
| `TRUE`, `FALSE` (`T`,`F`) | Wahr, Falsch |

In [19]:
4 < 3
(3+1) != 3
-3< -2

In [20]:
(3 >= 2) && (4 == (3 + 1))
TRUE && FALSE
TRUE || FALSE

### Logische Operatoren

| Funktion, Operator | Bedeutung                     |
|--------------------|-------------------------------|
| `==`, `!=`         | gleich, ungleich              |
| `>`, `>=`          | größer als, größer gleich     |
| `<`, `<=`          | kleiner als, kleiner gleich   |
| `!`                | nicht, Negation               |
| `&`, `&&`          | und                           |
| \|, \|\|           | oder                          |
| `xor()`            | entweder oder (ausschließend) |
| `any()`            | einer der Werte ...    |
| `all()`            | alle Werte ...         |
| `which()`          | welche Werte → Indizes |

### Logische Operatoren

Vektorwertige vs. nicht vektorwertige Auswertung:

In [21]:
c(TRUE, FALSE) & c(TRUE, TRUE)  # vektorwertig
c(TRUE, FALSE) | c(TRUE, TRUE)  # vektorwertig
c(TRUE) && c(FALSE) # nicht vektorwertig!!!
c(TRUE, FALSE) && c(TRUE, TRUE) # -> Fehler 

## Rechnen mit logischen Werten

Manchmal gefährlich, aber mitunter sehr nützlich:

In [22]:
TRUE + FALSE + TRUE + TRUE
TRUE + FALSE - TRUE + TRUE
x <- c(-5,-3,1,7,-2,8,12)
x < 0
sum(x < 0) # Wieviele Zahlen sind kleiner als 0?

In [23]:
a
all(a<0)
a[which(a>0)]

### Der besondere Wert NA

- `NA` ist ein besonderer Wert, der die Abwesenheit einer Zahl anzeigt - im Gegensatz zu `NaN`, das anzeigt, dass eine Zahl nicht berechnet werden konnte
- Testen auf `NA` mit `is.na()` ... und auf `NaN` mit `is.nan()`

In [24]:
x <- c(2,7,9,NA,12)
is.na(x) # vektorwertig
sum(x) # Uns fehlt eine Zahl -> wir werden darauf hingewiesen
sum(x,na.rm=TRUE)

## Mögliche atomare Datentypen

`mode(x)`:

-   `NULL` → `x <- NULL`
-   `logical` → `x <- TRUE`, `x <- logical(length=0)`
-   `numeric` → `x <- 3`, `x <- numeric(length=0)`
-   `complex` → `x <- 3i`, `x <- complex(length=0)`
-   `character`→ `x <- "abcd"`, `x <- character(length=0)`

## Kategoriale Daten - Nominal und Ordinal

Ein Datentyp der für die Statistik und das maschinelle Lernen sehr wichtig ist

-   Nominal - nur Kategorien:
    -   **Diabetes** → *Type1*, *Type2*
-   Ordinal - zusätzlich eine Ordnung der Kategorien:
    -   **Status** → *poor*, *improved*, *excellent*

Wichtiger Typ von Daten, der in R abgebbildet werden muß → Datentyp `factor()`

In [25]:
diabetes <- c("Type1","Type2","Type1","Type1")
diabetes <- factor(diabetes)
diabetes
summary(diabetes)

In [26]:
str(diabetes) # Interne Struktur / Codierung
is.ordered(diabetes) # Ordinaler Datentyp?

In [27]:
status <- c("Poor","Improved","Excellent","Improved")
status <- factor(status,ordered=TRUE, levels = c("Poor","Improved","Excellent"))
status

In [28]:
str(status)
is.ordered(status)

### Matrizen

Für Matrizen stehen alle üblichen Verfahren zur Verfügung, wie in Python über `numpy` auch, z.B.:

In [29]:
a <- c(1,2,3); b <- c(5,6,7)
t(a) %*% b # Skalarprodukt -> Skalar
a %*% t(b) # Äußeres Produkt -> 3x3 Matrix

### Matrizen

Zugehörige Funktionen `matrix()`, `nrow()`, `ncol()`, `dim()`, `[]`, `as.matrix()`, `is.matrix()`, ...

In [30]:
a <- matrix(1:15, nrow = 3, ncol = 5, byrow = FALSE)
a
nrow(a); ncol(a)

### Matrix-Operationen

| Funktion                    | Bedeutung                                   |
|-----------------------------|-------------------------------------------|
| `%*%`                       | Matrix-Multiplikation                       |
| `diag()`                    | Setzen oder Auslesen der Hauptdiagonale     |
| `dim()`, `ncol()`, `nrow()` | Anzahl der Zeilen und Spalten               |
| `dimnames()`, ...           | Zeilen und Spaltennamen Setzen und Auslesen |
| `eigen()`                   | Eigenwerte und -vektoren                    |
| `qr()`    | QR-Zerlegung einer Matrix     |
| `solve()` | Invertieren einer Matrix, Gleichungssystem lösen ... |
| `svd()`   | Singulärwertzerlegung         |
| `t()`     | Transponieren einer Matrix    |

In [31]:
A <- matrix(c(4,7,0,5), nrow = 2)
A.inv <- solve(A)
A.inv

In [32]:
A.inv %*% A

### Listen

Listen sind eine leistungsfähige und flexible Datenstruktur, die auch die Grundlage komplizierterer Objekte bilden, wie z.B. Data-Frames (Datentabellen) und S3-Klassen in R

-   Erzeugen mit `list()`
-   Sehr flexible Datenstruktur
-   Rekursiv definiert
-   Beliebige Länge
-   Beliebiger Typ des Eintrages
    -   Skalar
    -   Vektor
    -   Matrix
    -   Liste
    -   Data-Frame

In [33]:
L <- list(1:4,matrix(1:4,2),c("Bla","Blu"))
str(L)

In [34]:
L[[1]] # Zugriff auf das erste Listenelement
L[[2]][2,2] # Zugriff Matrix-Element
L[[c(3,2)]] # Rekursiver Zugriff - 3. Element der Liste und dann das 2. Element

In [35]:
L.named <- list(Info="Named List Info-String", MyList = L) # Liste mit benannten Elementen
str(L.named)

In [36]:
L.named[[1]] # Zugriff über Index
L.named$Info # Zugriff über Name

### Data-Frame

-   Anlegen mit `data.frame()`
-   **data frames** (Datensätze oder Datentabelle) sind spezielle Listen
-   Können nur Vektoren und Listen gleicher Länge enthalten
-   Typische Datenstruktur für Datensätze
-   Ausgangspunkt für viele Funktionen
-   Waren Vorbild und Namenspate für die Data-Frames der *pandas*-Bibliothek von Python

In [37]:
patient.id <- 1:4
age <- c(23,34,53,31)
diabetes <- c("Type1","Type2","Type1","Type1")
status <- c("Poor","Improved","Excellent","Improved")
pat.data <- data.frame(patient.id, age, diabetes,status)
pat.data

In [38]:
str(pat.data)

In [39]:
summary(pat.data)

### Von statischen Daten zu Dynamik &rarr; Funktionen

R ist eine **Funktionale Sprache** &rarr;

-   Alle Operationen erfolgen im Inneren als Funktionen, wie z.B. auch

    -   Zuweisungen
    -   Operatoren
    -   ...
 - Funktionen können auch in einer Variable gespeichert werden
 - Aufruf immer in Form einer Funktion mit Klammern `fkts-name()` auch wenn keine Parameter angegeben werden
 - Eine Funktion liefert immer einen Wert zurück:
     - Explitzit &rarr; `return(Rückgabewert)` als letzte Anweisung in der Funktion
     - Implizit &rarr; existiert kein return-Statement, wird der letzte Werte innerhalb der Funktion zurückgegeben         

In [40]:
4 + 6
"+"(4,6)
a <- function(x,y) x + y # Anonyme Funktion mit impliziter Rückgabe
a(4,6)

## Funktionsaufruf

`fkts-name(Arg1 = Val1, Arg2 = Val2)`

Dem Funktionsnamen folgen die runden Klammern mit den Parametern:

1.  Argumente mit vollständigem Parameternamen werden zugeordnet und können in beliebiger Reihenfolge stehen
2.  Argumente mit teilweise passendem Namen werden den übrigen formalen Argumenten zugeordnet (Anfangsbuchstaben müssen übereinstimmen und eindeutig einem noch nicht benutztem formalen Argument zuzuordnen sein)
3.  Alle unbenannten Argumente werden, der Reihenfolge nach, den noch übrigen formalen Argumenten zugeordnet
4.  Übrig gebliebene Argumente werden dem möglicherweise vorhandenem *Dreipunktargument* "`...`" zugeordnet - entsprichte dem `**kwargs`-Argument bei Python


In [41]:
a <- c(8,3,2,4,NA)
median(a)
median(a, TRUE) # Reihenfolge korrekt
median(na.rm = TRUE, x = a) # Zuordnung nach Namen
median(na = TRUE, a) # Teilweise Zuordnung nach Namen

### Aufbau einer Funktion

Prinzipieller Aufbau einer Funktion:

In [42]:
my.function <- function(x) {
  a <- x^2
  c <- sum(a)
  return(c)
}

y <- runif(10) # 10 gleichverteilte Zufallszahlen zwischen 0 und 1
my.function(y)

## Daten laden, filtern und visualisieren - Explorative Datenanalyse (EDA)

### Datenquellen

Daten können aus einer Vielzahl von Quellen ausgelesen werden:

- Lokale Files:
  - Textfiles wie CSV-Files (_Comma-Separated Values_)
  - File-Formate diverser Programme wie Excel, SPSS, ... etc.
  - Spezifische binäre Datenforamte, wie Parquet, HDF5, ... etc.
- Datenbanken, wie Oracle, SQL-Server, PostgreSQL, SQLite, DuckDB, ...
- Web-API's
- Web-Scraping
- ...

### Daten aus Files laden

Das Auslesen einer CSV-Datei ist mit den folgenden beiden Befehlen möglich, zu beachten ist dabei die große Menge an einstellbaren Parametern (siehe `?read.csv` oder `?read.table`):

```R
data <- read.table("path-to-file/file-name.csv")

data <- read.csv("path-to-file/file-name.csv")
```

### Der Iris-Datensatz oder Schwertlilien-Datensatz

In R bzw. R-Packages sind sehr oft bereits Datensätze enthalten, um die implementierte Funktionalität am Beispiel zu demonstrieren. Einer dieser Datensätze ist der berühmte _Iris-Datensatz_ ([Wikipedia: Schwertlilien-Datensatz](https://de.wikipedia.org/wiki/Schwertlilien-Datensatz)). Er enthält die Längen- und Breitenmessung von Kelch- und Kronblatt dreier Schwertlilienarten und wird gern zur Demonstration von Klassifikationsverfahren verwendet, die anhand der Breiten- und Längenmessung die jeweillige Schwertlilienart vorhersagt.

Das Hilfesystem von R liefert für Datensätze auch zusätzliche Information, wie Beschreibung und Quelle:
```R
?iris
```
_Anmerkung_: Beim Ausführen kommt einen ensprechend große Hilfeseite mit der Beschreibung der Daten zurück.

In [43]:
ls() # Was ist im Speicher

In [44]:
rm(list=ls()) # löschen aller Objekte im Speicher
ls() # Überprüfen, dass der Speicher auch wirklich leer ist

In [45]:
data(iris) # Laden des Datensatzes als Date-Frame
head(iris) # Anzeigen der ersten 6 Einträge

<div class="aufgabe">
    <h3>Datentypen im Datensatz</h3>
    Aus welchen Datentypen ist der Datensatz bzw. der Data-Frame zusammengesetzt?
    Geben Sie insbesondere bei der Angabe der Schwertlinienart ganz genau an welcher Datentyp hier verwendet wird!
</div>

In [46]:
# YOUR CODE HERE
fail()

Werfen wir noch einmal einen Blick ins "Innere" des Datensatzes bzw. Data-Frames:

In [47]:
str(iris)

Es sind 150 Messungen bzw. Exemplare von 3 verschiedenen Schwertlilienarten, aber wieviele von welcher Sorte?

Verschaffen wir uns einen besseren Überblick über den Datensatz:

In [48]:
summary(iris)

R kann anhand der Datentypen sinnvolle deskriptive Werte berechnen und wir erfahren, dass jeweils 50 Exemplare einer jeden Sorte enthalten sind. 

### Grafische Darstellungen

Der Mensch ist ein "Augentier", d.h. er hat einen sehr gut ausgeprägten optischen Sinn und ein mehr oder weniger eingeschränktes Vorstellungsvermögen von Zahlenräumen. Deshalb sind grafische Darstellung sehr wichtig und verschaffen einen besseren Ein- und Überblick über Zahlenmengen.

R bringt in seiner Grundinstallation schon eine Basisgrafik mit, die auch komplexe Grafiken darstellen kann. 

### Histogramm

Ein Histogramm diskretisiert den Messbereich einer kontinuierlichen Größe ("Binning") und stellt die Häufigkeit des Auftrettens der einzelnen "Bins" als Länge einer Säule an. Man kann das Histogramm als eine empirische (gemessene) Häufigkeitsverteilung bezeichnen.

Schauen wir uns das Histogramm für _Petal Width_ an:

In [49]:
hist(iris$Petal.Width, main="Histogram of Petal Width", xlab="Petal Width")

Hier erkennt man, dass _Petal Width_ zwei Häufungspunkte hat, was in der Summenstatistik nicht zu erkennen war.

<div class="remark">
    <img src="images/caution1695.png" width=120 align=right alt="https://openclipart.org/detail/1695/warning-sign" />   
    <h3>Wert einer Explorativen Datenanalyse (EDA)</h3>
    <p>
    Es ist immer wichtig sich mit seinem Datensatz vertraut zu machen - ihn zu "explorieren" - und ein "Gefühl" für die Daten und das was an Erkenntnissen in ihnen stecken könnte zu entwickeln, bevor man irgendwelche statistischen Auswertungen vornimmt.
    </p>
</div>

### Box-Plot

Der Box-Plot ist eine platzsparende Variante - "vereinfachtes Histogramm von oben" - so dass auch "mehrere Verteilungen" nebeneinander dargestellt und verglichen werden können.

<div class="aufgabe">
    <h3>Box-Plot</h3>
    Schauen Sie sich die Erklärung und Beschreibung des Box-Plots auf der Wikipedia-Seite <a href="https://de.wikipedia.org/wiki/Box-Plot">Box-Plot</a> an und versuchen Sie die nachfolgende Darstellung der einzelnen Blatt-Messungen in Abhängigkeit der Schwertlilienart zu verstehen und zu interpretieren!
</div>

In [50]:
# Sichern der alten Einstellung und Aufteilung des Grafik-Devices in ein 2x2-Layout
op <- par(mfrow = c(2,2))
# 4 Plots für die ersten 4 Variablen des Datensatzes mit 3 parallelen Boxplots für alle 3 Gruppen von Species
for (i in 1:4){
  boxplot(iris[,i] ~ iris$Species, main = colnames(iris)[i], ylab = colnames(iris)[i], xlab = "Species")
}
par(op) # Rücksetzen der Grafikeinstellungen

Testen wir aus, welche Darstellung der Aufruf der Basis-Plot-Funktion auf unserem Datensatz liefert!

In [51]:
plot(iris, main = "Der Iris-Datensatz")

Das ist eine sogenannte Scatterplot-Matrix - manchmal auch kurz als _SPLOM_ bezeichnet - die jede Kombination zweier Variablen aus dem Datensatz gegeneinander darstellt. 

Mit etwas Farbe für die verschiedenen Schwertlilienarten sollte die Dartstellung noch etwas besser interpretierbar sein:

In [52]:
# Ausnutzen der Factor-Codierung und Farb-Codierung in Form von ganzen Zahlen  
plot(iris, main = "Der Iris-Datensatz", col = iris$Species) 

<div class="aufgabe">
    <h3>Scatterplot-Matrizen (SPLOMs)</h3>
    Schauen Sie sich den (SPLOM-)Plot des Iris-Datensatzes an und versuchen Sie genau zu verstehen, was wo wie abgebildet wird und warum! Lassen sich bereits hieraus Vermutungen anstellen, wie gut eine Klassifikation der drei Arten anhand der gemessen Kron- und Kelchblätter gelingen wird oder kann? 
</div>

### ggplot2-Grafik

Die Basis-Grafik ist eigentlich schon sehr gut, funktional und reicht für einen Eindruck während der interaktiven Arbeit aus. Für die Erstellung noch schönerer, finaler Grafiken, die in abschließenden Reports oder Veröffentlichungen verwendet werden, hat sich jedoch das Grafik-Paket _ggplot2_ etabliert.

Schauen wir uns einige grafische Darstellungen mit _ggplot2_ an:

In [53]:
library(ggplot2)
ggplot(data=iris, aes(x=Petal.Width)) +
  geom_histogram(fill="steelblue", color="black", bins=20) +
  ggtitle("Petal Width") +
  xlab("Petal Width")

In [54]:
ggplot(data=iris, aes(x=Species, y=Petal.Width)) + 
  geom_boxplot(fill="steelblue") +
  ggtitle("Petal Width per Species") +
  ylab("Petal Width")

In [55]:
ggplot(data=iris, aes(x=Species, y=Petal.Length)) + 
  geom_boxplot(fill="steelblue") +
  ggtitle("Petal Length per Species") +
  ylab("Petal Length")

In [56]:
ggplot(data=iris,aes(x=Petal.Width, y=Petal.Length,color=Species)) + 
  geom_point() +
  ggtitle("Petal Length vs. Petal Width") +
  xlab("Petal Width") + 
  ylab("Petal Length")

### Entscheidungsbaum

Eine einfache und intuitive Möglichkeit eine Klassfiaktion bzw. Einteilung anhand von Eigenschaften von Objekten vorzunehmen stellen sogenannte Entscheidungsbäume dar. Sie sind dem manuellen Vorgehen bei einer Einordnung von Objekten sehr ähnlich. 
- Schrittweise wird immer genauer unterschieden, ob eine bestimmte Eigenschaft größer oder kleiner als ein bestimmter Schwellenwert für diese Eigenschaft ist.
- Nach der ersten Aufteilung, wird diese mit der nächsten Eigenschaft weiter aufgeteilt ... und immer weiter, bis am Ende die aufgeteilten Teilmengen soweit wie möglich nur einer Klasse oder Art angehören.
- Einen ersten Einblick gibt hierzu auch die Wikipedia-Seite [Entscheidungsbaum](https://de.wikipedia.org/wiki/Entscheidungsbaum)!

### Schätzen eines Entscheidungsbaumes

Es gibt eine Reihe von Verfahren, um Entscheidungsbäume aus Daten zu bestimmen. Als Beispiel benutzen wir ein Verfahren, das im Package _rpart_ implementiert ist, weshalb diese Bibliothek installiert und geladen werden muss. Das genaue Verfahren und die weiteren Einstellungen werden wir hier nicht vertiefen, sondern es standardmäßig anwenden:

In [57]:
library(rpart) # laden der Bibliothek
# Funktion zur Ableitung eines Entscheidungsbaumes, um die 3 Arten aus den Kron- und Kelchblattmessunge 
# zu bestimmen
tree <- rpart(Species ~ ., data = iris) # tree ist das Objekt in dem der Entscheidungsbaum abgelegt wird 
plot(tree, margin = 0.1, branch = 0.5) # Zeichnen des Baums
text(tree) # Beschriften des Baums

Die `summary()`-Funktion für eine zusammenfassende Beschreibung eines übergebenen Objektes ist, ähnlich wie die `plot()`-Funktion eine generische Funktion, die anhand des Typ's des übergebenen Objektes entscheidet, was die passend Funktionalität ist. So liefert
```R
summary(tree)
```
eine genaue Beschreibung des gefundenen Entscheidungsbaumes inklusive verschiedener Leistungsparameter, auf die wir hier nicht näher eingehen.

_Anmerkung_: Vorsicht - falls Sie es ausprobieren - die Ausgabe ist recht umfangreich!

Sehr oft exisitieren ergänzende Bibliotheken, die noch eine schönere Darstellung anbieten. 
Für Entscheidungsbäume ist das zum Beispiel mit der Bibliothek _rpart.plot_ der Fall: 
- Der gezeichnete Entscheidungsbaum ist hier farblich unterlegt
- ... und in den einzelnen Knoten ist die prozentuale Zusammensetzung angegeben. 

In [58]:
library(rpart.plot) # laden der Bibliothek
rpart.plot(tree, main = "Entscheidungsbaum für den Schwertliliendatensatz") # Plot des Entscheidungsbaums

Damit sind lediglich E _Petal Length_ und _Petal Width_ an der Entscheidungsfindung beteilligt:
- _Petal Length_ < 2.5 &rarr; _Setosa_
- _Petal Length_ >= 2.5 &rarr;
    - Petal.Width < 1.8 &rarr; _Versicolor_ (zumindest zu 91 % & 9 % _Virginica_)
    - Petal.Width >= 1.8 &rarr; _Virginica_ (zumindest zu 98 % & 2 % _Versicolor_)

Das kann man grafisch im Scatterplot "_Petal Length_ vs. _Sepal Length_ grafisch darstellen!

In [59]:
ggplot(data=iris,aes(x=Petal.Width, y=Petal.Length,color=Species)) + geom_point() + 
  geom_hline(yintercept=2.5, linetype = "dashed", col="coral4", linewidth=1) + 
  annotate(geom="text", x=0.1, y=2.7, label="2.5", col="coral4", size=7) +
  annotate("rect", xmin = 0.0, xmax = 2.8, ymin = -0.1, ymax = 2.5, alpha = 0.1, fill= "red") + 
  geom_vline(xintercept = 1.8,linetype = "dashed", col="coral4", linewidth=1) +
  annotate(geom="text", x= 1.8, y=1, label="1.8", col="coral4", size=7) +
  annotate("rect", xmin = 0.0, xmax = 1.8, ymin = 2.5, ymax = 7.2, alpha = 0.1, fill= "green") +
  annotate("rect", xmin = 1.8, xmax = 2.8, ymin = 2.5, ymax = 7.2, alpha = 0.1, fill= "blue") +
  ggtitle("Petal Length vs. Petal Width") + xlab("Petal Width") +  ylab("Petal Length")

### Gesamt-Plot des Iris-Datensatzes

Zum Abschluss ist hier noch einmal die "ggplot2-Variante" des Basis-Plot-Aufrufs von vorhin mit Hilfe des Packages _GGally_: 

In [60]:
library(GGally)
ggpairs(iris, columns = 1:4, ggplot2::aes(colour = Species, alpha = 0.5)) +
    ggtitle("Der Iris-Datensatz")

## R - das Fazit

Schon dieser kleine, oberflächliche Ausflug in das R-Ökosystem, sollte ausreichend belegen, wie reichhaltig und vielfältig die Möglichkeiten von R für die Datenbe- und -verarbeitung, sowie deren Darstellung sind.

R ist keine Sprache, die am Reißbrett logisch konsistent entworfen und umgesetzt worden ist. Ihre Entwicklung ist vor allem von praktischen Anforderungen aus der Mathematik, Statistik, Data Science und den verschiedenstene Anwendungsdomänen, wie Bioinformatik, Pharmakologie, Medizin, ... etc. immer weiter vorangetrieben worden.

Das bereits erwähnte Zitat von Hadley Wickham trifft die Charakterisierung von R wirklich außerordentlich gut und sei deshalb zum Abschluss noch einmal wiederholt:
> "R is not a language driven by the purity of its philosophy; R is a language designed to get shit done."

## ... und am Ende noch ein humorvoll satirischer Blick auf R

<a href="https://youtu.be/nziSP3vELCk"><img src="./images/RIntro/TheRInfernoSong.png" width=500 align=center alt="The R Inferno Song"></a>