# Datenexploration 
   **deskriptive Statistik und einfache Datenvisualsierungen**

<img width="340" align = "right" hspace="40" src="Minden_in_MI.svg.png"/> 

<div style="text-align: left" style=“line-height: 150%“>
<p></p>  
<p>
In diesem zweiten Jupyter Notebook aus dem Kurs „Von der Datenanalyse zur Datengeschichte - Datenanalyseergebnisse adressat:innengerecht kommunizieren“ wollen wir anhand von offenen, regionalen Daten aus der Region OWL Methoden zur Exploration eines Datensatzes zeigen. Hierzu nutzen wir Daten zur Bevölkerungsentwicklung aus der OWL-Stadt Minden.</p>




  <div class="pull-right">  
<p style="font-size:6px;"> Von Hagar66 - Based upon template:<br>, 
   <a href="https://creativecommons.org/licenses/by-sa/3.0/"> CC BY-SA 3.0</a> 
    <a href="https://upload.wikimedia.org/wikipedia/commons/0/09/Petershagen_in_MI.svg"> Wikimedia</a> 
    </p>
</div> 

## Dateneinlesen
Lesen wir hierzu zunächst einen Datensatz der Stadt Minden zur Alterstruktur in Minden 2020 ein, der als csv.Datei vorliegt. Hierzu nutzen wir den Befehl "read.csv".

**Gut zu Wissen**: Nicht alle Dateien sind mit ";" getrennt, dann musst Du bei sep = einen anderes Trennzeichen angeben. Auch das *encoding* der Datei kann sich von unserem Beispiel unterscheiden, etwa **UTF-8**. Wenn Du beim Einlesen der Datei eine Fehlermeldung erhälst, solltest Du Dir diese beiden Parameter ansehen.

In [None]:
## Bevölkerungsdaten aus Minden als Dataframe von Webseite einlesen
data_Bv_Mi_2020 <- read.csv(url("https://www.minden.de/stadt_minden/de/B%C3%BCrger,%20Service,%20Politik/Offene%20Daten/Datens%C3%A4tze/2020_Einwohner_Alter.csv"), header = TRUE,stringsAsFactors = FALSE, sep = ';', encoding = "latin1")

# eingelesene Datei ansehen
data_Bv_Mi_2020



## Eingelesene Daten aufbereiten

Mit dem angezeigten Dataframe können wir so noch nicht weiterarbeiten. Wir müssen u.a. die Spalten und Zeilen, die nur fehlende Werte "**NA**"
enthalten, entfernen.

In [None]:
# den für die weiteren Berechnungen benötigten Teil des Datensatzes auswählen
data_Bv_Mi_2020_Teil <- data_Bv_Mi_2020[1:105 ,1:5]

data_Bv_Mi_2020_Teil






Den so bereinigten Datensatz zur Altersstruktur der Bevölkerung in Minden möchten wir nun näher beschreiben. Hierzu werden nutzen wir **Lage- und Streungsmaße**.

In [None]:
## weitere Datenbereinigung

# da Alter als noch als chr definiert ist, muss Alter in int umgewandelt werden
data_Bv_Mi_2020_Teil$Alter <- as.integer(data_Bv_Mi_2020_Teil$Alter)

# Dataframe nur mit Alter und Gesamt Einwohner:innen erzeugen
Alter_Mi_Gesamt <- data.frame(data_Bv_Mi_2020_Teil$Alter, data_Bv_Mi_2020_Teil$Gesamt)

# Dataframe nach Gesamt Einwohner:innen mit absteigender Reihenfolge sortieren
Alter_Mi_Sortiert <-  Alter_Mi_Gesamt[order(-data_Bv_Mi_2020_Teil$Gesamt),]

# neuen sortieren Dataframe ansehen
Alter_Mi_Sortiert





# Lage- und Streuungsmaße

## Lagemaße
*Lagemaße* geben Auskunft über die **zentrale Tendenz** einer Verteilung.

 ### Modus

Der **Modus (Modalwert)** ist der Messwert, der in der Verteilung der Messwerte am häufigsten vorkommt. Oder anders ausgedrückt die Merkmalsausprägung, die am häufigsten ist. Kommen zwei Werte gleich häufig vor kann, das *arithmetische Mittel* aus beiden Werten als *Modus* bestimmt werden.

* kann für alle Skaleniveaus (*Nominalskala, Ordinalskala, Intervallskala, Verhältnisskala, Absolutskala*) berechnet werden
* eher unempfindlich gegenüber Extremwerten (Ausreißern) 
* niedriger Informationsgehalt

**Gut zu Wissen**: im Gegensatz zu Median und Modus gibt es in R keine einfache Funktion zur Berechnung des Modus (engl. mode). Die Funktion *mode* gibt die Speicherart des R-Objects wieder nicht den Modus. Eine Möglichkeit um den *Modus* zu bestimmen bietet die Funktion **table()**.

Sie gibt uns die Häufigkeiten des entsprechenenden Vektors aus. Wir können nun den **Modus** als häufigsten Wert ablesen:

Da wir den Dataframe **Alter_Mi_Sortiert** bereits nach der absteigenden Anzahl der Gesamtanzahl der Einwohner:innen sortiert haben, können wir den Modus bereits einfach ohne die Table-Funktion ablesen:



<img width="440" align = "center" src="Tabelle_Mi.png"/> 

Hier können wir ablesen, das der Modus des Alters der Mindener Einwohner:innen 57 ist.

Nun lassen wir uns einmal die Einwohner:innenzahl nach Alter plotten.

In [None]:
plot(Alter_Mi_Gesamt)

In [None]:
# bessere Abbildung erzeugen

plot(data_Bv_Mi_2020_Teil$Gesamt ~ jitter(data_Bv_Mi_2020_Teil$Alter),   # jitter, so dass alle Punkte zu sehen sind
     data= Alter_Mi_Gesamt,  
     pch = 16,                 # Punktform
     cex = 1.0,                # Punktgröße
     xlab="Alter",             # Beschriftung x-Achse 
     ylab="Einwohner:innenzahl Gesamt")# Beschriftung y-Achse




### Median


* Messwert, der die aufsteigend angeordneten Messwerte in der Mitte teilt
* 50% aller Werte liegen oberhalb des Medians, 50% liegen unterhalb des Medians
* bei einer ungeraden Anzahl von Messwerten gibt es genau einen Wert, der diese Bedingung erfüllt

* bei einer geraden Anzahl von Werten wird das arithmetische Mittel aus den beiden mittleren Werten gebildet

* berücksichtigt alle Messwerte und ist robust gegen Ausreißer
* ab Ordinalskalenniveau bestimmbar

Die R-function zur Berechnung des Medians lautet **median()**.


In [None]:
# vector d_Mi erstellen, der die Alterstufen entsprechend der Anzahl der Einwohner:innen enthält
d_Mi <- rep(data_Bv_Mi_2020_Teil$Alter,data_Bv_Mi_2020_Teil$Gesamt) 


# Berechnung des Medians
median(d_Mi)




Der Altersmedian in Minden 2020 beträgt somit 45 Jahre.

### Mittelwert (arithmetisches Mittel)

* Durchschnittswert, der stellvertretend für die Verteilung steht
* **Prinzip**: alle Werte werden aufsummiert, dann wird durch die Zahl der Fälle geteilt
* Empfindlich gegen Ausreißer: Extremwerte lassen arithmetisches Mittel sinken oder steigen. (*Modus* und *Median* bleiben hingegen robust.)
* Erfordert *Intervall*- oder *Verhältnisskalenniveau* 

Die R-function zur Berechnung des Mittelwerts lautet **Mittelwert()**.


In [None]:
# Berechnung des Mittelwerts

mean(d_Mi)

Der Altersmittelwert in Minden 2020 beträgt somit 43.7 Jahre.

## Streuungsmaße

*Streuungsmaße* geben Auskunft darüber, wie homogen oder heterogen eine Verteilung ist. Sie helfen, zu verstehen wie (weit) die Werte um den Mittelwert streuen.

Zentrale Streunungmaße sind:

* Spannweite
* Varianz
* Standardabweichung

### Spannweite

* die *Spannweite* (range; Variationsbreite) ist das einfachste Streuungsmaß
* wird als Differenz zwischen größtem (max) und kleinstem Messwert (min) gebildet
* kann direkt aus der Verteilung abgelesen werden
* basiert auf lediglich zwei Messdaten
* wertet nur einen Bruchteil der Daten aus; hat daher insgesamt eher wenig Aussagekraft 
* extrem anfällig für Ausreißer

In [None]:
#Wertebereich: Spannweite muss selbst berechnet werden
range (d_Mi) 

#oder
#zeigt die Spannweite direkt an
diff (range (d_Mi)) 

#Achtung: Sollten einmal Werte für eine Variable in einer Datenmatrix fehlen, dann erweitern sich die Befehle um den Ausdruck na.rm=TRUE zu:

#range (d_Mi, na.rm=TRUE)

Der Alterwertebereich in Minden 2020 beträgt also 0 bis 105 Jahre. Die Spannweite beträgt somit 105 Jahre.

### Varianz

* quantitatives Maß für die Unterschiedlichkeit (Variabilität) von Messwerten
* gibt an, wie stark eine Verteilung um ihren Mittelwert streut
* die Varianz entspricht der durchschnittlichen quadrierten Abweichung der Messwerte von ihrem Mittelwert. *Wie stark weichen die Messwerte vom Mittelwert im Durchschnitt ab?*
* Sind alle Messwerte identisch, dann nimmt die Varianz den Wert 0 an. D.h. 0 = keine Varianz; keine Streuung
* die Varianz wird auch als durchschnittliches Abweichungsquadrat bezeichnet
* durch das Quadrieren wird die inhaltliche Intepretation der Ergbnisse schwierig
* Maßeinheit geht durch das Quadrieren verloren 
* um aus der Varianz eine lineare Maßzahl zu erreichen, zieht man aus der Varianz die Quadratwurzel und erhält die *Standardabweichung*

In [None]:
# Berechung der Varianz
var(d_Mi)

Die Varianz der Altersverteilung in Minden 2020 beträgt also 578.41.

### Standardabweichung

* die Standardabweichung ist die Quadratwurzel aus der Varianz 
* dieser Wert kann wieder im Sinne der Rohdaten interpretiert werden
* drückt die Streuung in der Maßeinheit der Daten aus
* ist ein Maß dafür, wie gut der Mittelwert die Daten repräsentiert
* es gibt jedoch keine einheitliche Klassifikation für die Einschätzung der Standardabweichung


In [None]:
# Berechnung der Standardabweichung
sd(d_Mi)

Die Standardabweichung der Alterverteilung in Minden 2020 beträgt also 24.05 Jahre.

# Übung Lage- und Streuungsmaße

Schauen wir uns nun die Daten zu den 5 staatlichen Hochschulen in OWL an. (https://www.campus-owl.eu/die-fuenf-hochschulen):

**Studierende (ohne Gasthörer, Stand WS 20/21):**

* **Universität Bielefeld**: 24.940
* **Universität Paderborn**: 19.948
* **Fachhochschule Bielefeld**: 11.005
* **Technische Hochschule Ostwestfalen-Lippe**: 6.564
* **Hochschule für Musik Detmold**: 767


**Übung 1**

Erzeuge aus den obengenannten Daten zwei Vektoren: a) einen Textvektor **Hochschule** mit Hochschulname und b)
einen numerischen Vektor **Stud_Zahl** mit der Studierendenanzahl.

In [None]:
## Lösungsvorschlag
Hochschule <- c("Universität Bielefeld","Universität Paderborn","Fachschule Bielefeld",
               "Technische Hochschule Ostwestfalen-Lippe", "Hochschule für Musik Detmold")

Hochschule

In [None]:
## Lösungsvorschlag
Stud_Zahl <- c(24940,19948,11005,6564, 767)

Erzeuge nun aus beiden Vektoren einen Dataframe:

In [None]:
## Lösungsvorschlag

Stud_OWL <-data.frame(Hochschule, Stud_Zahl)
str(Stud_OWL) # Dataframe inspizieren

**Übung** 2 berechne den  *Median* und den *Mittelwert* der Studierendenanzahl:

In [None]:
##Lösungsvorschlag
median(Stud_OWL$Stud_Zahl)

mean(Stud_OWL$Stud_Zahl)

**Übung** 3 berechne die *Varianz* und die *Standardabweichung* der Studierendenanzahl:

In [None]:
##Lösungsvorschlag
var(Stud_OWL$Stud_Zahl)

sd(Stud_OWL$Stud_Zahl)