In [4]:
import numpy as np
import pandas as pd 

In [45]:
#Daten einlesen
data = pd.read_csv("GW_data.csv",delimiter=",")
#einzelnen Parameter, der aus stetigen Daten besteht (Grundwassertemperatur) als Array speichern
GWT = data['T [°C]']

In [6]:
#1.Univariate Statistik 
#Bestimmung der Lageparameter; angefangen mit dem arithmetischen Mittel 
#zu Beginn ist es wichtig sich der Beschaffenheit der Daten anzuschauen und ggf. die 0-Werte zu eliminieren
GWT.isnull().sum()

46

In [46]:
#Elimierung der 0 Werte
GWT_df = GWT.dropna()

In [47]:
#Anzahl (n) der Werte im Datensatz
n = len(GWT_df)

In [48]:
#Berechnung des arithmetrischen Mittel 
amean_GWT = (1/n)*sum(GWT_df)
print(amean_GWT)

12.560178685386111


In [10]:
#Berechnung des Medians; dafür müssen die Daten ersteinmal sortiert werden 
GWT_sorted=sorted(GWT_df)
#print (GWT_sorted)
Median_GWT=GWT_sorted[int((n+1)/2)]
print(Median_GWT)

12.3


In [49]:
#Berechnung der Quartile
import statistics
quart_GWT = statistics.quantiles(GWT_df)
print(quart_GWT)

[11.4, 12.3, 13.4]


In [50]:
#2.Bestimmung des Streuungsmaß
#Berechnung der Range
Range_GWT = max(GWT_df)-min(GWT_df)
print(Range_GWT)

17.4


In [51]:
# Berechnung des Interquartilbereich (IQR) anhand der Quartile 
IQR_GWT = quart_GWT[2]-quart_GWT[0]
print(IQR_GWT)

2.0


In [52]:
# Berechnung der Standartabweichung und Varianz
stabw_GWT = statistics.stdev(GWT_df)
print(stabw_GWT)

var_GWT = statistics.variance(GWT_df)
print(var_GWT)

1.601036041437003
2.5633164059802693


In [22]:
#3. Bestimmung der Schiefe und Wölbung
#Berechnung der Pearson's Modus Schiefe
Pearson_GWT = (amean_GWT - Median_GWT)/stabw_GWT
print (Pearson_GWT)

0.16250645123053448


In [55]:
#Berechnung der Wölbung
from scipy.stats import norm, kurtosis
kurtosis(GWT_df)

3.806095846735044

##2. Parameter Sauerstoffgehalt 


In [56]:
#Indizierung des Sauerstoffgehaltes 
O2 = data['O2 [mg/l]']

In [57]:
#1.Univariate Statistik 
#Bestimmung der Lageparameter; angefangen mit dem arithmetischen Mittel 
#zu Beginn ist es wichtig sich der Beschaffenheit der Daten anzuschauen und ggf. die 0-Werte zu eliminieren
O2.isnull().sum()

685

In [58]:
O2_df = O2.dropna()

In [59]:
#Anzahl (n) der Werte im Datensatz
n = len(O2_df)

In [60]:
#Berechnung des arithmetrischen Mittel 
amean_O2 = (1/n)*sum(O2_df)
print(amean_O2)

2.342525050100202


In [65]:
#Berechnung des Medians; dafür müssen die Daten ersteinmal sortiert werden 
O2_sorted=sorted(O2_df)
#print (GWT_sorted)
Median_O2=O2_sorted[int((n+1)/2)]
print(Median_O2)

1.5


In [66]:
#Berechnung der Quantile
import statistics
quart_O2 = statistics.quantiles(O2_df)
print(quart_O2)

[0.6, 1.5, 3.3]


In [67]:
#2.Bestimmung des Streuungsmaß
#Berechnung der Range
Range_O2 = max(O2_df)-min(O2_df)
print(Range_O2)

11.3


In [68]:
#Da der Wertebereich zwischen den Extremwerten berechnet wird, ist er sehr anfällig für Ausreißer und daher in den meisten Fällen nicht als robustes Schätzwert für das Streuungsmaß geeignet. Besser geeignet ist der Interquartilbereich (IQR), also die mittleren 50% der Datenpunkte. Berechnet nun mit Hilfe der oben bestimmten Quartile den IQR, und vergleicht ihn mit dem Wertebereich.
IQR_O2 = quart_O2[2]-quart_O2[0]
print(IQR_O2)

2.6999999999999997


In [69]:
# Standartabweichung und Varianz wird berechnet 
stabw_O2 = statistics.stdev(O2_df)
print(stabw_O2)
var_O2 = statistics.variance(O2_df)
print(var_O2)

2.3929040122709497
5.725989611942409


In [70]:
#Schiefe nach Pearson
Pearson_O2 = (amean_O2 - Median_O2)/stabw_O2
print (Pearson_O2)

0.3520931244127157


In [71]:
#Wölbung
from scipy.stats import norm, kurtosis
kurtosis(O2_df)

2.148957735954059

In [73]:
#Erstellen eines Datenframes zur Veranschaulichung der Ergebnisse 
uni_stat = pd.DataFrame(
    {
        "Variable": ["arithm. Mittel ", "Median", "Quartile", "Range","IQR","Standardabweichung","Varianz","Skewness Pearson", "Kurtosis"],
        "Grundwassertemperatur [°C]": [amean_GWT, Median_GWT, quart_GWT, Range_GWT, IQR_GWT, stabw_GWT, var_GWT,Pearson_GWT,kurtosis(GWT_df)],
        "O2 [mg/l]": [amean_O2, Median_O2, quart_O2, Range_O2, IQR_O2, stabw_O2, var_O2,Pearson_O2,kurtosis(O2_df)]
    }
)

# Der fertige Datensan
uni_stat

Unnamed: 0,Variable,Grundwassertemperatur [°C],O2 [mg/l]
0,arithm. Mittel,12.5602,2.34253
1,Median,12.3,1.5
2,Quartile,"[11.4, 12.3, 13.4]","[0.6, 1.5, 3.3]"
3,Range,17.4,11.3
4,IQR,2,2.7
5,Standardabweichung,1.60104,2.3929
6,Varianz,2.56332,5.72599
7,Skewness Pearson,0.162506,0.352093
8,Kurtosis,3.8061,2.14896


In [44]:
#Wenn man einen Überblick über den kompletten Datensatz haben will, gibt es den Befehl .describe()
data.describe()

Unnamed: 0,Abstich [cm],LF [µS/cm],pH [ -],O2 [mg/l],O2-Sätt [%],T [°C],F [mg/l],Mg [mg/l],PO4 [mg/l],NH4 [mg/l],...,Mn [mg/l],Na [mg/l],NO3 [mg/l],"P, ges [mg/l]","KS 4,3 [mmol/l]","KS 8,2 [mmol/l]",SO4 [mg/l],GH [mmol/l],Tr.quant [FNU],K [mg/l]
count,1951.0,3014.0,3037.0,2495.0,2523.0,3134.0,509.0,1514.0,710.0,1604.0,...,485.0,1516.0,2174.0,477.0,1494.0,0.0,1494.0,1510.0,205.0,1514.0
mean,443.829951,595.74944,7.168627,2.342525,21.92608,12.560179,0.098012,15.372523,0.150744,0.270106,...,0.254701,19.099208,25.84218,0.047034,5.329806,,92.407631,3.69955,3.71878,4.443719
std,204.221665,230.563299,0.199372,2.392904,22.487564,1.601036,0.044543,6.528096,0.271578,0.368846,...,0.340359,14.857616,26.643337,0.064153,1.435759,,76.995202,1.299756,8.601802,5.269
min,1.234,1.0,6.21,0.1,0.1,6.4,0.05,2.3,0.007,0.01,...,0.0,2.0,0.1,0.003,0.2,,1.0,0.34,0.05,0.0
25%,289.0,547.0,7.08,0.6,5.0,11.4,0.07,11.925,0.03425,0.02,...,0.06,10.375,6.5,0.01,4.7,,44.0,3.08,0.19,1.7
50%,406.0,628.0,7.2,1.5,14.0,12.3,0.09,14.6,0.0795,0.12,...,0.15,15.0,15.5,0.02,5.3,,76.0,3.525,0.5,2.5
75%,558.0,725.0,7.29,3.3,31.0,13.4,0.12,18.0,0.172,0.37,...,0.31,23.0,37.8,0.059,6.04,,113.0,4.2175,1.6,4.8
max,992.0,999.0,7.87,11.4,115.0,23.8,0.37,42.0,5.0,2.58,...,2.64,125.0,164.0,0.559,10.2,,510.0,10.3,65.53,42.2
