# Scheinkorrelation bei unabhängigen Messungen

Das Konzept der Korrelation bezeichnet, dass zwischen zwei Attributen eine Kopplung besteht.
Eine positive Korrelation bedeutet, dass zwei Dinge gemeinsam auftreten, z. B. bedeutet viel Autoverkehr in den Innenstädten eine höhere Schadstoffbelastung.
Eine negative Korrelation bedeutet, dass die Kopplung umgekehrt ist.
Je mehr Kühe auf einer Weide stehen, desto weniger Fläche bleibt der einzelnen Kuh.

Eine Scheinkorrelation (Englisch: *spurious correlation*) bezeichnet den Fall, dass zwei Attribute rein zufällig miteinander korrelieren.
Hierfür gibt es auf http://www.tylervigen.com/spurious-correlations viele Beispiele.

In diesem Notebook wird gezeigt, weswegen Scheinkorrelationen für das Maschinelle Lernen eine Herausforderung darstellen.
Dabei schauen wir uns unabhängige Messungen an.

In [None]:
import random
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Nun erstellen wir uns einen zufälligen Datensatz.
Er soll aber doch nicht ganz zufällig sein, damit wir das Seminar rechtzeitig abschließen können.
Deswegen setzen wir den Zufallsgenerator fest.
Dadurch hat jeder Durchlauf die gleichen Ergebnisse.

In [None]:
np.random.seed(0)

Nun erstellen wir uns einen Datensatz mit 26 verschiedenen Attributen.
Dies könnten zum Beispiel Sensormesswerte oder Eigenschaften von Benutzern sein.
Der Datensatz hat insgesamt 100 Reihen, sprich so viele verschiedene Messungen bzw. Anzahl von Benutzern.

In [None]:
df = pd.DataFrame(np.random.randint(0, 100, size=(100, 26)), columns=list('ABCDEFGHIJKLMNOPQRSTUVWXYZ'))
df

Nun visualisieren wir uns die Daten.
Es ist eine sehr zufällige Punktewolke.

In [None]:
df.plot(style=".")
plt.legend(bbox_to_anchor=(1.1, 1.05))
plt.show()

Nun berechnen wir die Korrelation zwischen sämtlichen Attributen.
Falls es eine Korrelation gibt, ist diese rein zufällig.
Schließlich ist der gesamte Datensatz reiner Zufall.

Die Interpretation von dem Korrelationskoeffizienten $r$ nach Cohen (1988):

| Effekt                        | r     |
|-------------------------------|-------|
|großer negativer Effekt 	    | -.50  |
|mittlerer negativer Effekt 	| -.30  |
|kleiner negativer Effekt 	    | -.10  |
|kleiner positiver Effekt 	    | .10   |
|mittlerer positiver Effekt 	| .30   |
|großer positiver Effekt 	    | .50   |

Wenn der Wert um und bei 0 ist, spricht man davon, dass in den Daten keine Korrelation vorliegt.
Nun schauen wir uns die Korrelation zwischen sämtlichen Attributen auf einmal an.

In [None]:
df.corr()

Auffällig ist die Diagonale:
Hier korreliert alles mit sich selbst mit `1`.
Die ürbigen Korrelationen sind im Bereich der kleinen bis mittleren Effekte.
Weil es ist schwierig ist, über die Zahlen einen Überblick zu behalten, plotten wir diese gleich noch mal.

In [None]:
fig = plt.figure(figsize=(19, 15))
plt.matshow(df.corr(), fignum=fig.number, cmap='RdBu', vmin=-1, vmax=1)
plt.xticks(range(df.shape[1]), df.columns)
plt.yticks(range(df.shape[1]), df.columns)
plt.colorbar()
plt.show()

In [None]:
cor_values = df.corr().values.flatten()
cor_values = cor_values[cor_values != 1]  # Entferne die perfekten Korrelationen
cor_values

In [None]:
pd.DataFrame(cor_values).plot.hist()
plt.show()

Hier lässt sich noch erkennen, dass jedes Attribut tatsächlich nur mit sich selbst korreliert und die übrigen zufälligen Korrelationen eher schwach ausgeprägt sind.

## Die Gefahr von Scheinkorrelation bei kleinen Datensätzen

Wenn wir nun weniger Beobachtungen (Reihen) heranziehen, steigt die Gefahr, dass es zufällige Korrelationen gibt.
Wenn wir nun nur 10 statt 100 Beobachtungen heranziehen, werden auf einmal in der Matrix bereits ganz andere Felder gelb, sprich es liegt eine hohe Korrelation vor.

Ein Lernalgorithmus verfügt meist über keine inhaltlichen Konzepte.
Jede Form von Korrelation wird genutzt, um Muster in den Daten zu erkennen - auch wenn diese Muster rein zufällig sind.

In [None]:
df_small = pd.DataFrame(np.random.randint(0, 10, size=(10, 26)), columns=list('ABCDEFGHIJKLMNOPQRSTUVWXYZ'))
fig = plt.figure(figsize=(19, 15))
plt.matshow(df_small.corr(), fignum=fig.number, cmap='RdBu', vmin=-1, vmax=1)
plt.xticks(range(df_small.shape[1]), df_small.columns)
plt.yticks(range(df_small.shape[1]), df_small.columns)
cb = plt.colorbar()
plt.show()

In [None]:
cor_values = df_small.corr().values.flatten()
cor_values = cor_values[cor_values != 1]  # Entferne die perfekten Korrelationen
pd.DataFrame(cor_values).plot.hist()
plt.show()

In [None]:
cor_values[((cor_values < -.5) | (cor_values > .5))]

## Die Gefahr von Scheinkorrelation bei zu vielen Attributen

Das Gleiche passiert natürlich auch, wenn wir viel zu viele Attribute auf einmal betrachten.
Dies ist mehr oder weniger der gleiche Fall wie oben.
Wenn wir mehr Attribute haben, benötigen wir noch mehr Beobachtungen (Reihen im Datensatz), um eine Scheinkorrelation sehr unwahrscheinlich werden zu lassen.

In [None]:
df_large = pd.DataFrame(np.random.randint(0, 1000, size=(50, 500)), columns=list(range(500)))
fig = plt.figure(figsize=(19, 15))
plt.matshow(df_large.corr(), fignum=fig.number, cmap='RdBu', vmin=-1, vmax=1)
plt.colorbar()
plt.show()

In [None]:
cor_values = df_large.corr().values.flatten()
cor_values = cor_values[cor_values != 1]  # Entferne die perfekten Korrelationen
pd.DataFrame(cor_values).plot.hist()
plt.show()

In [None]:
cor_values[((cor_values < -.5) | (cor_values > .5))]