# Datenanalyse - R Basis 
   **Erwerbe R-Basiskompetenzen am Beispiel von regionalen Daten aus OWL**

In diesem ersten Jupyter Notebook aus dem Kurs ***„Von der Datenanalyse zur Datengeschichte – Datenanalyseergebnisse adressat:innengerecht kommunizieren“*** wollen wir dir, anhand von offen regionalen Daten(-sätzen) der *Stadt Bielefeld* und aus der Region *Ostwestfalen-Lippe (OWL)*, zunächst einige Basiskenntnisse für die Datenanalyse in R vermitteln, die du später benötigen wirst.









## Wie können Daten in R eingegeben werden?

<img align="right" src="North_rhine_w_OWL(2).svg" width="250"/>
 
Stell dir vor, wir möchten die Einwohner:innenzahlen der sechs größten Städte in Ostwestfalen in R eingeben/speichern. Hierzu muss für jede Stadt eine Variable definiert werden, der dann die Einwohner:innenzahl als Wert zugewiesen wird. Nehmen wir zunächst die Einwohner:innenzahl von Bielefeld: 334195 (*Stand 31.12.2019*).

- **Bielefeld:** 334195
- **Paderborn:** 151633
- **Gütersloh:** 100861
- **Minden:** 81716
- **Detmold:** 74254
- **Herford:** 66638

<div class="pull-right">  
<p style="font-size:8px;">Von TUBS, 
  <a href="https://creativecommons.org/licenses/by-sa/3.0/">CC BY-SA 3.0</a> 
  <a href="https://commons.wikimedia.org/w/index.php?curid=4915994">Wikimedia</a>
</p>
</div>

Hierfür verwenden wir den Zuweisungoperator `<-` (Pfeil nach links) um die Einwohner:innenzahl von Bielefeld der Variablen *Bi* zuzuweisen. Um zu kommentieren, was wir in *R* ausführen, können wir das *Rautesymbol* `#` verwenden. 

**Gut zu Wissen**: du könntest an dieser Stelle auch das Gleichheitszeichen `=` verwenden. Allerdings wird in R `<-` bevorzugt. Für die meisten Fälle macht es keinen Unterschied, ob du das Gleichheitszeichen oder den Links-Pfeil verwendest.

In [None]:
Bi <- 334195 # Die Einwohner:innenzahl von Bielefeld Bi zuweisen

Bi2 = 334195 # Die Einwohner:innenzahl von Bielefeld Bi2 zuweisen

Wenn du nun den Namen der Variable eingibst, erhälst du die Einwohner:innenzahl als Ausgabe.

In [None]:
Bi

Bi2

**Aufgabe 1**

Jetzt probier du es  einmal: Definiere Variablen für die 5 restlichen obengenannten OWL-Städte und lass sie dir ausgeben! 

In [None]:
Dt <- 74254
Gt <- 100861
Hf <- 66638
Mi <- 81716
Pb <- 151633


Dt; Gt; Hf; Mi; Pb #  Ausgabe zeigen für alle 5 Städte

## Datentypen in R

Um mit R zu arbeiten, ist es zunächst wichtig zu verstehen, welche unterschiedlichen *Datentypen* von R genutzt werden und wie sich diese unterscheiden. Wir werden dir hier einige ausgewählte, wichtige Datentypen vorstellen:

**Einfache Datentypen**:

* **Ganzzahl** (*integer*) => **Beispiel**: 3L, 500L, 20L

* **Gleitkommazahl** (*numeric*) => **Beispiel**: 2.99, 3, 501.33333

* **Zeichenkette, Worte** (*character*) => **Beispiel**: 'z', "OWL", "209" 

* **Wahr oder Falsch** (*logical*) => **Beispiel**: TRUE, FALSE



### Ganzzahl (*integer*)

Hierbei handelt es sich, wie der Name schon vermuten lässt, um positive oder negative **ganze** Zahlen. Mit der Funktion `is.integer()` können wir überprüfen, ob eine Variable von R als Ganzzahl behandelt wird.

Da es sich bei der Einwohner:innenzahl von Bielefeld um eine Ganzzahl handelt, können wir nun also überpüfen, ob unsere Variable `Bi` von R als Ganzzahl behandelt wird.

**Gut zu Wissen**: R definiert jedoch auch eine Ganzzahl-Eingabe zunächst als Gleitkommazahl *numeric*. 

In [None]:
# Überprüfen, ob unsere Variable Bi als Ganzzahl gespeichert ist

is.integer(Bi)

Wir erhalten als Ausgabe `FALSE`, `Bi` ist also nicht als Ganzzahl gespeichert.

Wenn wir die Variable Bi tatsächlich als **integer** speichern möchten, dann müssen wir `L` für „Long“ hinter die Variable hängen:

In [None]:
Bi_int <- 334195L # Bi als integer

is.integer(Bi_int)

### Gleitkommazahl (*numeric*)

Hierbei handelt es sich, wie der Name schon vermuten lässt, um eine Kommazahl. Allerdings definiert R ohne weitere Angaben auch eine Ganzzahl zunächst als Gleitkommazahl. Das können wir
mit der Funktion `is.numeric()` überprüfen:

In [None]:
# Überprüfen, ob Bi eine Gleitkommazahl ist 

is.numeric(Bi)

Wir erhalten die Ausgabe `TRUE`, das heißt das Bi von *R* als Gleitkommazahl behandelt wird.

### Zeichenkette, Worte (character)

Dieser Datentyp ermöglicht es Text zu speichern. Einzelne Zeichen wie z.B. „z“ werden als *character* oder kurz *char* bezeichnet. Ketten von Zeichen wie Worte als *strings*.

Wir möchten nun statt der Einwohner:innenzahl von Bielefeld als Zahl (334195), die Einwohner:innenzahl als Wort angeben: Dreihundertvierunddreißigtausendeinhundertfünfundneunzig. 

**Gut zu Wissen**: Um eine Variable in R als *character* zu definieren ist es wichtig, diese in Anführungstriche, *doppelt* oder *einfach*, zu setzen.

In [None]:
Bi_Wort <- "Dreihundertvierunddreißigtausendeinhundertfünfundneunzig"; 

Bi_Wort

Bi_Wort2 <- 'Dreihundertvierunddreißigtausendeinhundertfünfundneunzig';

Bi_Wort

is.character(Bi_Wort) # überprüfen ob Character

Bi_Wort2

is.character(Bi_Wort2) # überprüfen ob Character

Wenn wir nun wissen möchten wie lang `Bi_Wort` ist, dann können wir das mit `nchar()` herausfinden:

In [None]:
Anzahl_Char_Bi_Wort <- nchar(Bi_Wort) # nchar kann man sich die Anzahl der Buchstaben ausgeben lassen
Anzahl_Char_Bi_Wort 

length(Bi_Wort)# überprüfen, ob Anzahl_Char_Bi_Wort der Länge von Bi_Wort entspricht

**Gut zu Wissen**: Wie oben zu sehen, gibt `length(character)` nicht die Anzahl der einzelnen Zeichen an.
Hierfür brauchen wir `nchar()`.

**Aufgabe 2**: Speichere die Namen der 6 größten Städte in OWL in jeweils einer Variablen und lass dir den Inhalt der Variablen ausgeben:



In [None]:
Hf_Name <- "Herford"
Bi_Name <- "Bielefeld"
Pb_Name <- "Paderborn"
Mi_Name <- "Minden"
Gt_Name <- "Güthersloh"
Dt_Name <- "Detmold"

Hf_Name;Bi_Name;Pb_Name;Mi_Name;Gt_Name;Dt_Name

## Wichtige Objekttypen in R

*R* ist eine objekt-basierte Programmiersprache. Objekte können z.B. wie oben ausgeführt einzelne Werte (Variablen) oder auch eine Menge von Werten (Datensätze) enthalten. **Alles** in R ist ein Objekt.

Wir möchten dir nun zwei wichtige Objekttypen in R darstellen:

* Vektor
* Dataframe („Datenrahmen“)


### Vektoren

Ein *Vektor* besteht aus einer Anzahl von *n* Elementen. Es gibt unterschiedliche Typen von Vektoren: 

* *numeric* (numerischer Vektor) => nur Zahlenwerte
* *character* (Text-Vektor) => nur Buchstaben 

Um einen Vektor zu erstellen können wir die `c()`-Funktion nutzen: `c(Wert_1, Wert_2, …, Wert_n)`.

**Gut zu Wissen**: Ein Vektor kann in R auch die Länge `n = 1` haben. Das heißt beispielsweise, dass auch die oben berechneten Variablen `Bi` und `Bi2` Vektoren sind. Ob dies auch wirklich stimmt, können wir mit `is.vector()` überprüfen.


In [None]:
is.vector(Bi) # überprüfen, ob die Variablen Bi und Bi2 Vektoren sind
is.vector(Bi2)

**Numerische Vektoren**

Mit `c()` kannst du einen **Vektor** `n > 1` erstellen. Wenn du zum Beispiel einen numerischen Vektor `Einwohner_OWL` erstellen möchtest, der die Einwohner:innenzahlen aller sechs obengenannten OWl-Städte enthält, sähe dies so aus:

In [None]:
Einwohner_OWL <- c(Bi,Pb,Gt,Mi,Dt,Hf)

print(Einwohner_OWL) # Vektor anzeigen

Um auf Elemente eines Vektors zuzugreifen, verwendest du den Namen des Vektors mit dem Index des Vektorteils auf den du zugreifen möchtest in eckigen Klammern: `Vektorname[Index]`:

In [None]:
Einwohner_OWL[1] # gibt das erste Element des Vektors an

In [None]:
Einwohner_OWL[6] # gibt das letzte 6. Element des Vektors an

In [None]:
Einwohner_OWL[2:5] # gibt das zweite bis fünfte Element des Vektors an

In [None]:
Einwohner_OWL[c(2,5)] # gibt das zweite UND fünfte Element des Vektors an

In [None]:
Einwohner_OWL[] # gibt den ganzen Vektor wieder

In [None]:
Einwohner_OWL [length(Einwohner_OWL)] # gibt das letzte Element des Vektors wieder

Schau dir einmal an, was passiert, wenn wir als Index einen negativen Wert verwenden: `Vektorname[-Index]`:

In [None]:
Einwohner_OWL2 <- Einwohner_OWL[-1]
Einwohner_OWL2

**Gut zu Wissen**: Mit einem negativen Index können wir das Element an der angebenen Position aus dem Vektor entfernen.

**Text-Vektoren:**  

Mit `c()` kannst du auch einen Text-Vektor `Staedte_OWL` erstellen, der die Namen der sechs obenangebenen OWl-Städte enthält. Auf die Elemente eines Textvektors kannst du nach den gleichen Prinzipien zugreifen, wie auf einen numerischen Vektor.

In [None]:
Staedte_OWL <- c(Bi_Name,Pb_Name,Gt_Name,Mi_Name,Dt_Name,Hf_Name)

print(Staedte_OWL) # Vektor anzeigen

**Aufgabe 3** 

3a) Lass dir das letzte Element des Vektors `Staedte_OWL` ausgeben:

In [None]:
Staedte_OWL[length(Staedte_OWL)]

3b) Lass dir die ersten drei Elemente des Vektors `Staedte_OWL` ausgeben:

In [None]:
Staedte_OWL[1:3]

3c) Lass dir das 4. und 6. Element des Vektors `Staedte_OWL` ausgeben:

In [None]:
Staedte_OWL[c(4,6)]

### Dataframes 

Die Besonderheit eines Dataframes oder „Datenrahmens“ ist es, dass anders als z. B. in einem Vektor innerhalb eines Dataframes auch unterschiedliche **Datentypen** gespeichert werden können (z. B. `numeric, character`): 

Mit `data.frame()` können einzelne Vektoren zu einem Dataframe zusammengefasst werden. Wichtig ist hier allerdings, dass die Vektoren die gleiche Länge haben.

In [None]:
Jahr <- 2000:2019 # Vektor Jahr von 2000 bis 2019 erstellen

Jahr

length(Jahr)# Länge Vektor Jahr ausgeben

In [None]:
# Vektor mit Bielefelder Einwohner:innenzahlen von 2000 bis 2019 erstellen

Einwohner_Bi_Verlauf <- c(321758,323373,324815,328452,328012, 
                          326925,325846,324912,323615,323084, 
                          323270,327199,328314,328864,329782, 
                          333090,333451,332552,333786,334195)
Einwohner_Bi_Verlauf

length(Einwohner_Bi_Verlauf) # Länge des Vektors ausgeben

In [None]:
# Erstelle Text-Vektor

Bi_Text <- rep("Bielefeld",20)

Bi_Text # Vektor Bi_Text anzeigen

length(Bi_Text) # Länge Vektor Bi_Text anzeigen

In [None]:
Einwohner_Bi_2000_2019 <- data.frame(Einwohner_Bi_Verlauf,Jahr, Bi_Text) # erstelle Data.Frame aus Vektoren

View(Einwohner_Bi_2000_2019)

Schau dir `Einwohner_Bi_2000_2019` zunächst mit `str()` an:

In [None]:
str(Einwohner_Bi_2000_2019) # zeigt die Struktur des Dataframes an

Wenn dich nur die Anzahl der **Reihen** und **Spalten** des Dataframes intessieren, kannst du dir diese
mit `dim()` anzeigen lassen:

In [None]:
dim(Einwohner_Bi_2000_2019) # zeigt die Dimension des Dataframes nach Reihe und Spalte an

Wenn du dir nun für den Dataframe `Einwohner_Bi_2000_2019` z. B. das 3. Element der 2. Spalte ausgeben lassen möchtest, erreichst dies durch:

In [None]:
Einwohner_Bi_2000_2019[3,2] # Index Reihe, Index Spalte

Die ganze 3. Reihe des Dataframes kannst du dir so ausgeben lassen:

In [None]:
Einwohner_Bi_2000_2019[3,] # Index Reihe, Index Spalte

Die ganze 1. Spalte des Dataframes kannst du dir entsprechend so ausgeben lassen:

In [None]:
Einwohner_Bi_2000_2019[,1] # Index Reihe, Index Spalte

Es gibt allerdings noch eine andere Möglichkeit, auf die Spalten eines Dataframes zuzugreifen. Hierfür musst du das Dollarzeichen verwenden: `DataframeName$SpaltenName`.

In [None]:
# ruft die erste Spalte des Dataframes  Einwohner_Bi_2000_2019 auf 

Einwohner_Bi_2000_2019$Einwohner_Bi_Verlauf 

# Bevölkerungsdaten Stadt Bielefeld gesamt
 https://open-data.bielefeld.de/dataset/alters-und-geschlechtsstruktur-2018-2020

In [None]:
# Bevölkerungsdaten Bielfeld als Dataframe einlesen
data_Bv_Bi <- read.csv(url("https://open-data.bielefeld.de/sites/default/files/Alters_und_Geschlechtsstruktur2018bis2020ges_0.csv"), header = TRUE, sep = ';')

In [None]:
str(data_Bv_Bi) #Struktur des Dataframe anzeigen

In [None]:
View(data_Bv_Bi) # zeigt den gesamten Dataframe an

**Aufgabe 4**:

4a) Zeige die ersten 10 Elemente der 5. Spalte des Dataframes `data_Bv_Bi` an:

In [None]:
data_Bv_Bi$Einwohner_innen.am.Ort.der.Hauptwohnung[1:10]

4b) Zeige die 4. Reihe des Dataframes `data_Bv_Bi` an:

In [None]:
data_Bv_Bi[4,]

4c) Lösch die zweite Spalte aus dem Dataframe `data_Bv_Bi` und erstelle dabei den neuen Dataframe `data_Bv_Bi_ohne_Spalte2`:

In [None]:
data_Bv_Bi_ohne_Spalte2 <- data_Bv_Bi[,-2]

View(data_Bv_Bi_ohne_Spalte2)

**Quellen und weiterführende Literatur:**

**R**:
* https://resbaz.github.io/2014-r-materials/lessons/01-intro_r/data-structures.html
* https://databraineo.com/ki-training-resources/r-programmierung/datentypen-in-r-einfach-erklaert/
* https://www.tutorialspoint.com/r/r_data_types.html
* http://de.jberries.com/artikel/%C3%BCbersicht-%C3%BCber-datentypen-in-r-51

**Stadt Bielefeld**:
* https://de.wikipedia.org/wiki/Einwohnerentwicklung_von_Bielefeld
* https://open-data.bielefeld.de/dataset/alters-und-geschlechtsstruktur-2018-2020