# Geodatenanalyse 1

## Kapitel 4: Deskriptive Statistik - Übung 

### Aufgabe 1: Daten einlesen und prüfen

- Öffnet zunächst die Datei "Data_GW_KA.csv" in Excel und verschafft Euch einen Überblick über die Daten. Welche Parameter sind vorhanden, wieviele Datenpunkte gibt es, gibt es Datenlücken? Überlegt danach welcher Parameter welchem Datentyp von Folie 8 aus der Vorlesung entspricht. Sind diese stetig oder diskret? Notiert Eure Überlegungen.

- Lest nun im ersten Eingabefeld die Messwerte mit Hilfe von `numpy` in Python (`numpy.genfromtxt()`) eingelesen, und speichert die Grundwassertemperaturen in einem separaten Array. 

In [1]:
# [1]
import numpy as np
data = np.genfromtxt(open("Data_GW_KA.csv", "rb"), delimiter=";", skip_header=1)

# Grundwassertemperaturen in einem neuem Array speichern
GWT = data[:,2]

- Lasst Euch die Werte in dem neuen Vektor anzeigen und prüft die Werte im Hinblick auf Plausibilität für Grundwassertemperaturen.
- Überprüft außerdem um welchen Python Datentyp es sich handelt. 

Hinweis: Je nach Ursprungs-Dateityp und benutzter Einlese-Funktion, kann der resultierende Datentyp variieren (*list*, *array*, *dictionary*, *dataframe*, etc.). Möglicherweise müssen Datentypen vor dem benutzten bestimmter Funktionen konvertiert werden. In dieser Übung jedoch nicht ;)

In [2]:
# [2] Werte und Datentyp anzeigen lassen
print(GWT)
print(type(GWT))

[14.4  14.   12.5  14.4  14.2  12.8  14.9  14.97 13.17 12.17 12.64 15.87
 12.43 11.33 11.4  12.8  11.53 14.17 14.13 14.93 15.43 14.83 17.   16.1
 14.47 13.37 17.53 15.27 15.77 17.33 16.17 10.7  10.9  10.67 10.73 10.47
 10.83 10.7  10.53]
<class 'numpy.ndarray'>


Wenn Werte und Datentyp passen, könnt Ihr anfangen den Datensatz zu charakterisieren. Bestimmt zuerst die Anzahl (*n*) an Werten in dem Datensatz mit dem Befehl `len()`. 

In [3]:
# [3] Anzahl der Messwerte bestimmen
n = len(GWT)
print(n)

39


### Aufgabe 2: Lageparameter

Nun könnt Ihr verschiedene Parameter für das Lagemaß bestimmen. Diese helfen die Werte in dem Datensatz auf einer linearen Skala einzuordnen, und stellen ein typisches Maß da, um die Größenordnung oder eine beste Schätzung der Werte zu erhalten. Das beliebteste Lagemaß ist das arithmetische Mittel. 

- Berechnet nun das arithmetische Mittel der Grundwassertemperaturen als Summe (`sum()`) aller Werte geteilt durch die Anzahl der Werte: 

<img src="https://latex.codecogs.com/gif.latex?\bar{x}&space;=&space;\frac{1}{n}\sum_{i=1}^{n}x_{i}" title="\bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_{i}" />


In [4]:
# [4] händische Berechnung des arithmetischen Mittels
aMittel = (1/n)*sum(GWT)
print(aMittel)

13.526666666666666


Natürlich gibt es in Python auch eine Funktion `mean()`, um das arithmetische Mittel direkt zu berechen. Dazu müsst Ihr zuerst diese Funktion aus dem Package `statistics` in Euer Skript, bzw. Notebook hineinladen: `from statistics import mean`. 
- Berechnet mit Hilfe der importierten Funktion den Mittelwert der Grundwassertemperaturen.  

In [5]:
# [5] Berechnung des arithmetischen Mittels mit mean()
from statistics import mean
amean = mean(GWT)
print (amean)

13.526666666666667


Allerdings ist der arithmetische Mittelwert anfällig für Ausreißer (engl. outliers), also Extremwerte die von der Mehrheit der Werte abweichen. Deshalb wird oft der Median als Lagemaß angegeben. Der Median ist derjenige Wert, der in der Mitte des Datensatzes liegt, d.h. 50% der Werte sind größer als der Median, 50% sind kleiner. Die Formel für den Median eines aufsteigend sortierten Datensatzes lautet daher: 

Für eine gerade Anzahl an Werten: 

<img src="https://latex.codecogs.com/gif.latex?\widetilde{x}&space;=&space;(x_{(n/2)}&plus;x_{(n/2)&plus;1})/2" title="\widetilde{x} = (x_{(n/2)}+x_{(n/2)+1})/2" /> 

Für eine ungerade Anzahl an Werten: 

<img src="https://latex.codecogs.com/gif.latex?\widetilde{x}&space;=&space;x_{(n&plus;1)/2}" title="\widetilde{x} = x_{(n+1)/2}" />

- Berechnet nun den Median Eueres Grundwassertemperatur Arrays. Sortiert dafür zuerst die Werte in aufsteigender Reihenfolge. 
 

In [6]:
# [6] Array mit sortierten Werten erzeugen
GWT_sorted=np.sort(GWT)
print (GWT_sorted)

[10.47 10.53 10.67 10.7  10.7  10.73 10.83 10.9  11.33 11.4  11.53 12.17
 12.43 12.5  12.64 12.8  12.8  13.17 13.37 14.   14.13 14.17 14.2  14.4
 14.4  14.47 14.83 14.9  14.93 14.97 15.27 15.43 15.77 15.87 16.1  16.17
 17.   17.33 17.53]


- Wählt dann basierend auf Eurem `n` die richtige Formel von oben aus und berechnet den Median, indem Ihr auf den entsprechenden Index, z.B. "(n+1)/2", zugreift und diesen mit der Funktion `int()` in einen Integer umwandelt. 

In [7]:
# [7] Median händisch berechnen
Median=GWT_sorted[int((n+1)/2)]
print(Median)

14.13


Das Python `statistics` Package enthält auch dazu eine Funktion. Importiert dazu nun das gesamte Package mit `import statistics`, und berechnet mit `statistics.median()` den Median. Fällt Euch beim Vegleich der beiden Medianwerte etwas auf?

In [8]:
# [8] Median mit statistics package berechnen
import statistics
Median2 = statistics.median(GWT)
print(Median2)

14.0


Ein weiterer häufig benutzter Lageparameter ist der Modus. Macht es Sinn den Modus für die Grundwassertemperatur zu berechnen? Warum oder warum nicht?

Sucht Euch in der Excel-Datei einen geeigneten Parameter aus, und bestimmt dessen Modus mit `statistics.mode()`. 

In [9]:
# [9] Modus eines geeigneten Datensatzes berechnen
Geologie = data[:,11]
Modus = statistics.mode(Geologie)
print (Modus)

4.0


Züruck zur Grundwassertemperatur: Bestimmt nun noch die Intervalpunkte der drei Quartile (0.25, 0.5, 0.75) mit dem Befehl `np.quantile(GWT, [0.25, 0.5, 0.75])`.
Der mittlere sollte dem Median entsprechen. 

In [10]:
# [10] Quartile bestimmen
quart = np.quantile(GWT, [0.25, 0.5, 0.75])
print(quart)

[11.465 14.    14.95 ]


### Streuungsmaß

Das Streuungsmaß hilft uns zu beschreiben wie sehr Daten, z.B. zeitlich oder räumlich, variieren. Das einfachste Streeungsmaß ist der Wertebereich (engl. range), also die Differenz zwischen dem kleinsten und größten Wert. Bestimmt mit Hilfe der Befehle `min()` und `max()` den Wertebereich der Grundwassertemperatur. 

In [11]:
# [11]
Range = max(GWT)-min(GWT)
print(Range)

7.0600000000000005


Da der Wertebereich zwischen den Extremwerten berechnet wird, ist er sehr anfällig für Ausreißer und daher in den meisten Fällen nicht als robustes Schätzwert für das Streuungsmaß geeignet. Besser geeignet ist der Interquartilbereich (IQR), also die mittleren 50% der Datenpunkte. Berechnet nun mit Hilfe der oben bestimmten Quartile den IQR, und vergleicht ihn mit dem Wertebereich. 

In [12]:
# [12]
IQR = quart[2]-quart[0]
print(IQR)

3.4849999999999994


Die am häufigsten benutzen Parameter für das Streeungsmaß sind die Standardabweichung (sigma) und die Varianz (sigma^2). 

Die Standardabweichung der Stichproben des Datensatzes ist die Wurzel des Mittelwerts der Abweichung jedes einzelnen Datenpunktes vom Mittelwert des Datensatzes, also: 

<img src="https://latex.codecogs.com/gif.latex?s&space;=&space;\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}&space;(x_{i}-{\bar{x}})^{2}}" title="s = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n} (x_{i}-{\bar{x}})^{2}}" />

Die Varianz der Stichprobe ist das Quadrat der Standardabweichung: 

<img src="https://latex.codecogs.com/gif.latex?s^{2}&space;=&space;\frac{1}{n-1}\sum_{i=1}^{n}&space;(x_{i}-{\bar{x}})^{2}" title="s^{2} = \frac{1}{n-1}\sum_{i=1}^{n} (x_{i}-{\bar{x}})^{2}" />

Wie Ihr bestimmt schon vermutet gibt es  auch dafür einen Befehl in Python. Das `statistics` Package in Python bietet dabei sowohl die Option die Standardabweichung der Stichprobe zu berechnen (`statistics.stdev()`), als auch die der Grundgesamtheit (`statistics.pstdev()`). Da wir den Mittelwert der Grundgesamtheit nicht kennen, bleiben wir bei der Stichprobe (`statistics.variance()`). 


In [13]:
# [13]
stabw = statistics.stdev(GWT)
print(stabw)
var = statistics.variance(GWT)
print(var)

2.107264794059043
4.440564912280702


### Schiefe und Wölbung

Berechnet nun als letztes noch die Schiefe (skewness) und die Wölbung (kurtosis) der Daten. Für die Schiefe gibt es zwei häufig benutzte Formeln: 

Pearson's Modus Schiefe: 

<img src="https://latex.codecogs.com/gif.latex?skewness&space;=&space;(mean-mode)/standarddeviation" title="skewness = (mean-mode)/standarddeviation" />

Fisher Schiefe: 

<img src="https://latex.codecogs.com/gif.latex?skewness&space;=&space;\sum_{i=1}^{n}\frac{(x_{i}-\bar{x})^{3}}{s^{3}}" title="skewness = \sum_{i=1}^{n}\frac{(x_{i}-\bar{x})^{3}}{s^{3}}" />

Bestimmt nun zuerst den Schiefeparameter nach Pearson für die Grundwassertemperatur, um herauszufinden zu welcher Seite die Stichprobenverteilung geneigt ist. 

In [14]:
# [14]
Pearson = (aMittel - Median)/stabw
print (Pearson)

-0.2863111152591251


Der Schiefeparameter nach Fisher ist etwas komplizierter zu berechnen, da Ihr für jeden einzelnen Wert die Abweichung zum Mittelwert berechnen müsst. Benutzt dazu eine `for` Schleife. Vergleicht dann die beiden Schiefe-Parameter. 

In [15]:
# [15]
Fisher = 0
for i in range(n):
    Fisher += (GWT[i]-amean)**3/var**3
print(Fisher)

0.32475414947615916


Der vierte Parameter zur Beschreibung der Stichprobe ist die Wölbung. Diese beschreibt den relativen Unterschied zur Wölbung einer Normalverteilung dar. Die Wölbung wird dabei sehr ähnlich zur Fisher Schiefe berechnet: 

<img src="https://latex.codecogs.com/gif.latex?kurtosis&space;=&space;\sum_{i=1}^{n}\frac{(x_{i}-\bar{x})^{4}}{s^{4}}" title="kurtosis = \sum_{i=1}^{n}\frac{(x_{i}-\bar{x})^{4}}{s^{4}}" />

Entsprechend könnt Ihr für die Berechnung der Wölbung den Code der Schiefe oben recht einfach anpassen. Ist die Stichprobe der Grundwassertemperatur mehr oder weniger gewölbt wie eine Normalverteilung? 

In [16]:
# [16]
Kurtosis = 0
for i in range(n):
    Kurtosis += (GWT[i]-amean)**4/var**4
print(Kurtosis)

3.5748059925834057


Damit habt Ihr alle vier statistischen Parameter der Stichproben der Grundwassertemperatur bestimmt. Wenn Ihr nun noch Zeit habt, könnt Ihr einen anderen Parameter aus dem Datensatz wählen und diesen charakterisieren. 

Wenn Ihr fast alle deskriptiven Parameter auf einmal bekommen wollt, probiert die Funktion `scipy.stats.describe()`aus. 



## Ende