# Simulation: Die Data-Mining-Falle!
Beim *Data Mining* versucht man, automatisiert Abhängigkeiten zwischen den Daten zu bestimmen. Dabei darf man aber den Zufall nicht außer Acht lassen! Bei dem häufig verwendeten Konfidenzniveau von 5 Prozent bedeutet dies, dass bei 5 Prozent der Fälle wir durch reinen Zufall einen vermeintlich statistisch signifikanten Zusammenhang finden, der gar nicht existiert!

Um dies zu verdeutlichen wird im folgenden kleinen Skript ein Dataframe mit normal verteilten Zufallszahlen generiert. Obwohl es sich um Zufallszahlen handelt, werden immer wieder Abhängigkeiten zwischen der abhängigen Variable Y und unabhängigen Variablen entdeckt. Ggf. muss das Skript häufiger gestartet werden, um Ausgaben zu erhalten.

In [125]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf


anzahl_spalten = 25
anzahl_zeilen = 30
mu = 30 # Erwartungswert
std = 3 # Standardabweichung

df = pd.DataFrame()

df["y"] = np.random.normal(loc=mu, scale=std, size=anzahl_zeilen)
formula = "y~"

for i in range(1,anzahl_spalten):
    columnname = f"x{i}"
    formula = formula + columnname
    if i<anzahl_spalten-1:
       formula += "+"
    df[columnname] = np.random.normal(loc=0.0, scale=1.0, size=anzahl_zeilen)

model = smf.ols(formula, data=df).fit()    

# Gib die Spalten aus, bei denen der p-Wert < 0,05 ist (angeblich statistisch signifikanter Zusammenhang zwischen Y und der jeweiligen Spalte)
np.round(model.pvalues[model.pvalues<0.05],2)




Intercept    0.00
x1           0.04
x9           0.02
x13          0.02
x14          0.03
x16          0.01
x24          0.01
dtype: float64