# Wiederholung: Berechnung deskriptiver Statistiken
Wir hatten einen Datensatz mit dem Bargeld von Studierenden in einer Liste. Hier berechnen wir zur summarischen Beschreibung dieser Daten Mittelwert, Varianz und Standardabweichung.

In [1]:
bargeld = [32, 4, 46, 12, 18]
mittelwert = sum(bargeld) / len(bargeld) #Mittelwert = Summe durch Anzahl der Messungen
print(mittelwert)

22.4


Uns interessiert, wie sehr die einzelnen Studierenden im Schnitt vom arithmetischen Mittel abweichen. Da die durchschnittliche Abweichung, wie wir gesehen hatten, immer 0 ergibt, berechnen wir stattdessen die quadratischen Abweichungen (Erinnerung: ein Quadrat zweier Zahlen ist immer positiv). Zur Veranschaulichung tun wir dies in einer Schleife für jedes Element der Liste einzeln.

In [2]:
quadrAbw = [] #dies legt eine neue Liste an, in die wir für jede*n Studierenden 
              #die quadrierte Abweichung vom Mittelwert eintragen.
for index in range(len(bargeld)) : #"range(len(bargeld))" gibt den Befehl, durch die Liste zu iterieren.
    studAbw = (bargeld[index] - mittelwert)**2 
    print(studAbw)
    quadrAbw.append(studAbw)
    print(quadrAbw)

92.16000000000003
[92.16000000000003]
338.55999999999995
[92.16000000000003, 338.55999999999995]
556.96
[92.16000000000003, 338.55999999999995, 556.96]
108.15999999999997
[92.16000000000003, 338.55999999999995, 556.96, 108.15999999999997]
19.35999999999999
[92.16000000000003, 338.55999999999995, 556.96, 108.15999999999997, 19.35999999999999]


Bekanntlich ist die Varianz die durchschnittliche quadrierte Abweichung. Wir bilden also aus der Liste quadrAbw wiederum den Mittelwert. Nun gibt es noch das Problem, dass die resultierende Zahl schwierig zu interpretieren ist (Was ist ein Quadrat-Euro?). Deswegen ziehen wir die Wurzel und erhalten die Standardabweichung.

In [3]:
import math #das math-Paket brauchen wir für die Quadratwurzelfunktion
varianz = sum(quadrAbw) / len(quadrAbw)
standardabweichung = math.sqrt(varianz)
print('Die Varianz beträgt: '+ str(varianz))
print('Die Standardabweichung beträgt: '+ str(standardabweichung))

Die Varianz beträgt: 223.04000000000002
Die Standardabweichung beträgt: 14.934523762075576


# Analyse von statistischen Zusammenhängen
Wir haben die Hypothese, dass wohlhabendere Studierende auch mehr Bargeld mit sich herumschleppen. Wir fragen deswegen die gleichen Studierenden (in der gleichen Reihenfolge) nach ihrem Monatseinkommen und halten die Daten wiederum in einer Liste fest. Auch hier berechnen wir Mittelwert, Varianz und Standardabweichung. Die Prozedur ist dieselbe wie oben, nur der Code ist etwas sparsamer.

In [6]:
einkommen = [880, 690, 1012, 744, 870]
mittelwertEinkommen = sum(einkommen) / len(einkommen)
varianzEinkommen = sum([(student - mittelwertEinkommen)**2 for student in einkommen]) / len(einkommen)
standardabweichungEinkommen = math.sqrt(varianzEinkommen)
print(mittelwertEinkommen)
print('Die Varianz beträgt: '+ str(varianzEinkommen))
print('Die Standardabweichung beträgt: '+ str(standardabweichungEinkommen))

839.2
Die Varianz beträgt: 12759.36
Die Standardabweichung beträgt: 112.95733707909372


Nach unserer Hypothese sollten Studierende mit einem überdurchschnittlichen Einkommen tendenziell überdurchschnittlich viel Bargeld dabei haben. Wir können das prüfen, indem wir die so genannte "Kovarianz" berechnen. Dabei multiplizieren wir für jede_n Studierenden die Abweichung vom Mittelwert in der einen Variablen (Bargeld) mit der Abweichung vom Mittelwert in der anderen Variablen. Der Übersichtlichkeit halber programmieren wir das wieder als Schleife: 

In [7]:
koAbw = [] #dies legt eine neue Liste an, in die wir für jede*n Studierenden 
           #das Produkt der Abweichungen vom Mittelwert der beiden Variablen eintragen.
for index in range(len(bargeld)) : #"range(len(bargeld))" gibt den Befehl, durch die Liste zu iterieren.
    studAbw = (bargeld[index] - mittelwert) * (einkommen[index] - mittelwertEinkommen) 
    print(studAbw)
    koAbw.append(studAbw)
    print(koAbw)

391.6799999999996
[391.6799999999996]
2745.2800000000007
[391.6799999999996, 2745.2800000000007]
4078.079999999999
[391.6799999999996, 2745.2800000000007, 4078.079999999999]
990.0800000000004
[391.6799999999996, 2745.2800000000007, 4078.079999999999, 990.0800000000004]
-135.51999999999975
[391.6799999999996, 2745.2800000000007, 4078.079999999999, 990.0800000000004, -135.51999999999975]


Positive Zahlen bedeuten hier einen Zusammenhang in der vermuteten Richtung: entweder geht überdurchschnittliches Einkommen mit überdurchschnittlich viel Bargeld einher, oder unterdurchschnittlich viel Einkommen mit unterdurchschnittlich viel Bargeld (weil minus mal minus ebenfalls plus ergibt). Wenn wir nun also wieder die durchschnittliche Ko-Abweichung berechnen (wie bei der Varianz, nur eben die Ko-Varianz), so gibt uns das schon mal einen ganz guten Hinweis über die Gültigkeit unserer Hypothese.

In [8]:
kovarianz = sum(koAbw) / len(koAbw)
print('Die Kovarianz zwischen Einkommen und Bargeld beträgt: ' + str(kovarianz))

Die Kovarianz zwischen Einkommen und Bargeld beträgt: 1613.9199999999998


Gut, das ist schon mal eine positive Zahl und deutet darauf hin, dass wir mit unserer Hypothese wohl richtig liegen. Allerdings fällt es schwer, die Kovarianz zu interpretieren. Ist das nun ein starker Zusammenhang oder eher ein leichter? Um die Frage zu beantworten, relativieren wir die Kovarianz am Produkt der Standardabweichungen der beiden Variablen und erhalten den sog. Korrelationskoeffizienten nach Pearson.

In [9]:
pearsonKorrelation = kovarianz / (standardabweichung * standardabweichungEinkommen)
print('Die Korrelation zwischen Einkommen und Bargeld beträgt: ' + str(pearsonKorrelation))

Die Korrelation zwischen Einkommen und Bargeld beträgt: 0.9567008939102087


Der Korrelationskoeffizient nach Pearson (abgekürzt mit r oder griechisch rho) kann sich mathematisch nur zwischen r=1 (für einen perfekten Zusammenhang) und r=-1 (für einen perfekten negativen Zusammenhang, d.h. in dem Beispiel, wer höheres Einkommen hat, hätte weniger Bargeld dabei) bewegen. Wenn es keinen Zusammenhang gibt, ist r=0. In unserem Beispiel spricht der empirisch gefundene Wert von etwa r = 0,96 für einen ziemlich starken, fast perfekten Zusammenhang. D.h. es ist tatsächlich so, dass Studierende mit einem höheren Einkommen auch tendenziell mehr Bargeld dabei haben. Nicht vergessen, dass das ein hypothetisches Beispiel war. In der Praxis kommen derart starke Zusammenhänge so gut wie nicht vor; alles ab etwa r=0.5 ist als empirisch ziemlich bedeutsamer Zusammenhang zu betrachten.

# Berechnung mit Pandas
Natürlich ist es wiederum nicht sehr effizient, solche Rechnungen mit Listen und Schleifen zu programmieren. Natürlich hat Pandas eine eingebaute Korrelationsfunktion. Um sie zu nutzen, wandeln wir die Listen zunächst in Pandas-Serienobjekte um. Dann benutzen wir die Funktion "corr" (Dokumentation siehe: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.corr.html), um unsere Rechnung abzukürzen.

In [10]:
import pandas as pd #nicht vergessen ;)

einkommenPd = pd.Series(einkommen)
bargeldPd = pd.Series(bargeld)

pearsonKorrelationPandas = einkommenPd.corr(bargeldPd) 
print(pearsonKorrelationPandas)

0.95670089391


Nun sind wir in der Lage, einfache Zusammenhangshypothesen für unsere städtischen Beispiele zu untersuchen. Wir nehmen etwa an, dass in Potsdamer Stadtvierteln, in denen wenige junge Menschen wohnen, viele ältere Menschen wohnen. Mit anderen Worten, wir vermuten r < 0 für die Zahl der Potsdamer U18 und Ü65 aus dem Beispieldatensatz, den wir nun zunächst wieder in Python laden.

In [11]:
potsdam = pd.read_csv('PotsdamBezirke.csv')
potsdam.head() #dies ist übrigens ein netter Befehl, um nur die ersten 5 Zeilen eines Dataframe anzuzeigen.

Unnamed: 0,Bezirk,Einwohner,Einwohner 0-18,Einwohner 18-65,Einwohner 65+
0,Babelsberg Nord,11016,2294,7188,1534
1,Babelsberg Süd,11377,1672,7770,1935
2,Berliner Vorstadt,2415,406,1464,545
3,Bornim,2747,483,1816,448
4,Bornstedt,9169,1972,5767,1430


In [12]:
korrelationJungeAlte = potsdam['Einwohner 0-18'].corr(potsdam['Einwohner 65+'])
print(korrelationJungeAlte)

0.826088137969


Mhm. Das ist unerwartet. Was ist hier los? Mit folgendem Code verschaffen wir uns einen Überblick über alle Variablenzusammenhänge in dem DataFrame.

In [13]:
potsdam.corr()

Unnamed: 0,Einwohner,Einwohner 0-18,Einwohner 18-65,Einwohner 65+
Einwohner,1.0,0.952538,0.996135,0.942113
Einwohner 0-18,0.952538,1.0,0.953333,0.826088
Einwohner 18-65,0.996135,0.953333,1.0,0.914253
Einwohner 65+,0.942113,0.826088,0.914253,1.0


Ach so, wir haben nicht an der Gesamteinwohnerzahl relativiert. In Vierteln mit vielen Einwohnern überhaupt wohnen natürlich sowohl viele Ältere als auch viele Jüngere. Daher die positive, nicht negative, Korrelation. Wir definieren daher zunächst mal neue Variablen mit dem relativen Anteil Älterer und Jüngerer pro Stadtviertel.

In [14]:
potsdam['U18rel'] = potsdam['Einwohner 0-18'] / potsdam['Einwohner']
potsdam['Ue65rel'] = potsdam['Einwohner 65+'] / potsdam['Einwohner']

In [15]:
potsdam.head() #Mal schauen, ob das geklappt hat.

Unnamed: 0,Bezirk,Einwohner,Einwohner 0-18,Einwohner 18-65,Einwohner 65+,U18rel,Ue65rel
0,Babelsberg Nord,11016,2294,7188,1534,0.208243,0.139252
1,Babelsberg Süd,11377,1672,7770,1935,0.146963,0.17008
2,Berliner Vorstadt,2415,406,1464,545,0.168116,0.225673
3,Bornim,2747,483,1816,448,0.175828,0.163087
4,Bornstedt,9169,1972,5767,1430,0.215073,0.15596


Nun probieren wir es nochmal: Gibt es in Stadtteilen mit verhältnismäßig vielen jüngeren Potsdamer_innen verhältnismäßig wenige Ältere (und umgekehrt)?

In [16]:
korrelationJungeAlte = potsdam['U18rel'].corr(potsdam['Ue65rel'])
print(korrelationJungeAlte)

-0.625188003383


Nun fällt das Ergebnis wie erwartet aus. Man sieht: Korrelationsrechnung hat ihre Tücken und man muss sich sehr genau überlegen, welche Daten man benutzt.