## Der Chi-Quadrat-Unabhängigkeitstest
----------------------------------------

In [19]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from random import sample
#from scipy.stats import t
from scipy.stats import chi2

#from scipy import stats
#import scipy.stats
#import statsmodels.api as smi
#import pylab
from scipy.stats import chi2_contingency

%run ../src/notebook_env.py


---------------------------------
Working on the host: LAPTOP-9LETB4SJ

---------------------------------
Python version: 3.10.2 | packaged by conda-forge | (main, Mar  8 2022, 15:52:24) [MSC v.1929 64 bit (AMD64)]

---------------------------------
Python interpreter: C:\Users\zak\anaconda3\envs\srh\python.exe


Der **$\chi^2$ Unabhängigkeitstest** ist eine inferentielle Methode, um zu entscheiden, ob ein Zusammenhang zwischen zwei Variablen besteht. Ähnlich wie bei anderen Hypothesentests besagt die Nullhypothese, dass die beiden Variablen nicht miteinander verbunden sind. Im Gegensatz dazu besagt die Alternativhypothese, dass die beiden Variablen miteinander verbunden sind.

Es sei daran erinnert, dass statistisch **abhängige Variablen** als **assoziierte Variablen** bezeichnet werden. Im Gegensatz dazu werden nicht-assoziierte Variablen als statistisch unabhängige Variablen bezeichnet. Erinnern Sie sich auch an das Konzept der <a href="https://en.wikipedia.org/wiki/Contingency_table">Kontingenztabellen</a> (auch als Zwei-Wege-Tabellen oder Kreuztabellen bezeichnet), in denen die Häufigkeitsverteilungen von bivariaten Daten dargestellt werden.

### $\chi^2$-Unabhängigkeitstest

Die Grundidee des **$\chi^2$-Unabhängigkeitstests** besteht darin, die **beobachteten Häufigkeiten** in einer Kontingenztabelle mit den **erwarteten Häufigkeiten** zu vergleichen, unter der Annahme das die Nullhypothese der Nicht-Assoziation wahr ist. Die erwartete Häufigkeit für jede Zelle einer Kontingenztabelle ist gegeben durch

$$E = \frac{R\times C}{n} \text{,}$$

wobei $R$ die Zeilensumme ist, $C$ die Spaltensumme und $n$ der Stichprobenumfang ist.

Lassen Sie uns zum besseren Verständnis ein Beispiel konstruieren. Wir betrachten eine Exit Poll in Form einer Kontingenztabelle, die das Alter von $n=1189$ in den Kategorien $18-29$, $30-44$, $45-64$ und $\gt 65$ Jahre und ihre politische Zugehörigkeit, d. h. "Konservativ", "Sozialistisch" und "Andere". Diese Tabelle entspricht den beobachteten Häufigkeiten.

**Beobachtete Häufigkeiten:**

$$
\begin{array}{|l|c|}
\hline
\ & \text{Konservativ} & \text{Sozialistisch} & \text{Andere} & \text{Insgesamt} \\
\hline
\ \text{18-29}  & 141 & 68 & 4 & 213\\
\ \text{30-44}  & 179 & 159 & 7 & 345\\
\ \text{45-64} & 220 & 216 & 4 & 440\\
\ \text{65 & älter} & 86 & 101 & 4 & 191\\
\hline 
\  \text{Insgesamt} & 626 & 544 & 19 & 1189\\
\hline 
\end{array}
$$

Auf der Grundlage der oben genannten Gleichung berechnen wir die erwartete Häufigkeit für jede Zelle.

**Erwartete Häufigkeiten:**

$$
\begin{array}{|l|c|}
\hline
\ & \text{Konservativ} & \text{Sozialistisch} & \text{Andere} & \text{Insgesamt} \\
\hline
\ \text{18-29}  & \frac{213 \times 626 }{1189} \approx 112.14 & \frac{213 \times 544 }{1189} \approx97.45 & \frac{213 \times 19 }{1189} \approx3.4 & 213\\
\ \text{30-44}  & \frac{345 \times 626 }{1189} \approx181.64 &\frac{345 \times 544 }{1189} \approx 157.85 & \frac{345 \times 19 }{1189} \approx5.51 & 345\\
\ \text{45-64} & \frac{440 \times 626 }{1189} \approx231.66 & \frac{440 \times 544 }{1189} \approx201.31 &\frac{440 \times 19 }{1189} \approx 7.03 & 440\\
\ \text{65 & älter} &\frac{191 \times 626 }{1189} \approx 100.56 &\frac{191 \times 544 }{1189} \approx 87.39 & \frac{191 \times 19 }{1189} \approx3.05 & 191\\
\hline 
\ \text{Insgesamt} & 626 & 544 & 19 & 1189\\
\hline 
\end{array}
$$

Sobald wir die erwarteten Häufigkeiten kennen, müssen wir zwei Annahmen überprüfen. Erstens müssen wir sicherstellen, dass alle erwarteten Häufigkeiten $1$ oder größer sind, und zweitens, dass höchstens $20 \%$ der erwarteten Häufigkeiten kleiner als $5$ sind. Ein Blick auf die Tabelle bestätigt, dass beide Annahmen erfüllt sind.

Der eigentliche Vergleich erfolgt auf der Grundlage der $\chi^2$
Teststatistik für die beobachtete Häufigkeit und die erwartete Häufigkeit. Die -Teststatistik folgt der $\chi^2$-Verteilung und ist gegeben durch

$$\chi^2= \sum{\frac{(O-E)^2}{E}}\text{,}$$

wobei $O$ für die beobachtete Häufigkeit und $E$ für die erwartete Häufigkeit steht. Bitte beachten Sie, dass $\frac{(O-E)^2}{E}$ für jede Zelle ausgewertet und dann aufsummiert wird.

Die Anzahl der Freiheitsgrade ist gegeben durch

$$df = (r-1) \times (c-1)\text{,}$$

wobei $r$ und $c$ die Anzahl der möglichen Werte für die beiden betrachteten Variablen sind.

Übertragen auf das obige Beispiel führt dies zu einem etwas langen Ausdruck, der der Kürze halber nur für die erste und die letzte Zeile der interessierenden Kontingenztafeln angegeben wird.

$$\chi^2 = \frac{(141 - 112,14)^2}{112,14} + \frac{(68 - 97,45)^2}{97,45} + \frac{(4 - 3,4)^2}{3,4}  + \cdots + \frac{(86 - 100,56)^2}{100,56} + \frac{(101 - 87,39)^2}{87,39} + \frac{(4 - 3,05)^2}{3,05}$$

Wenn die Nullhypothese wahr ist, sind die beobachtete und die erwartete Häufigkeit ungefähr gleich, was zu einem kleinen Wert der $\chi^2$-Teststatistik führt und somit $H_0$ unterstützt. Ist der Wert der $\chi^2$-Teststatistik jedoch groß, liefern die Daten Beweise gegen $H_0$. In den nächsten Abschnitten wird weiter erörtert, wie der Wert der $\chi^2$-Teststatistik im Rahmen der Hypothesentests zu bewerten ist.

### $\chi^2$ Unabhängigkeitstest: Ein Beispiel

Um praktische Erfahrungen zu sammeln, wenden wir den $\chi^2$ Unabhängigkeitstest in einer Übung an. Dazu laden wir den `students` Datensatz. Sie können die Datei `students.csv` <a href="https://userpage.fu-berlin.de/soga/200/2010_data_sets/students.csv">hier</a> herunterladen. Importieren Sie den Datensatz und geben Sie ihm einen passenden Namen.

In [20]:
# Lese Datei students.csv als Dataframe ein; Indexspalte wird übersprungen
students = pd.read_csv('students.csv', index_col=0)

Der `students` Datensatz besteht aus $8239$ Zeilen, von denen jede einen bestimmten Studenten repräsentiert, und $16$ Spalten, von denen jede einer Variable/einem Merkmal entspricht, das sich auf diesen bestimmten Studenten bezieht. Diese selbsterklärenden Variablen sind: *stud.id, name, gender, age, height, weight, religion, nc.score, semester, major, minor, score1, score2, online.tutorial, graduated, salary.*

In dieser Übung wollen wir untersuchen, **ob es einen Zusammenhang zwischen den Variablen `gender` und `major` gibt, oder mit anderen Worten, wir wollen wissen, ob männliche Studenten andere Studienfächer bevorzugen als weibliche Studenten.**

### Vorbereitung der Daten

Wir beginnen mit der Datenaufbereitung. Da wir nicht den gesamten Datensatz von $8239$ Einträgen bearbeiten wollen, wählen wir zufällig $865$ Studenten aus dem Datensatz aus. Der erste Schritt der Datenvorbereitung besteht darin, die interessierenden Daten in Form einer Kontingenztabelle darzustellen. Python bietet die ausgefallene Funktion `unique()`, die diese Aufgabe übernehmen wird.

In [21]:
n = 865

data = students.sample(n,random_state=1)
table_df = pd.crosstab(index = data['major'], columns = data['gender'])
table_df

gender,Female,Male
major,Unnamed: 1_level_1,Unnamed: 2_level_1
Biology,89,65
Economics and Finance,55,79
Environmental Sciences,99,96
Mathematics and Statistics,39,92
Political Science,112,40
Social Sciences,70,29


Außerdem bestimmen wir die Spaltensummen und die Zeilensummen. Python bietet das Argument `margins = True`, das die Zeilensummen und die Spaltensummen für uns hinzufügt.

In [22]:
table_df2 = pd.crosstab(index = data['major'], columns = data['gender'], margins = True)
table_df2

gender,Female,Male,All
major,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Biology,89,65,154
Economics and Finance,55,79,134
Environmental Sciences,99,96,195
Mathematics and Statistics,39,92,131
Political Science,112,40,152
Social Sciences,70,29,99
All,464,401,865


Im nächsten Schritt konstruieren wir die **erwarteten Häufigkeiten**. Erinnern Sie sich an die Gleichung von oben:

$$E = \frac{R\times C}{n} \text{,}$$

wobei $R$ die Zeilensumme ist, $C$ die Spaltensumme und $n$ der Stichprobenumfang ist.

Wir berechnen die erwarteten Häufigkeiten zellenweise, indem wir eine verschachtelte for-Schleife implementieren. Dabei gehen wir alle Zeilen der Matrix Spalte für Spalte durch und berechnen die erwartete Häufigkeit $E$ für jede einzelne Zelle.

In [23]:
expected_frequencies = pd.DataFrame()
expected_frequencies['Female'] =np.array(table_df2.iloc[[6]])[0][0]*table_df2['All']/table_df2['All'][6]
expected_frequencies['Male'] =np.array(table_df2.iloc[[6]])[0][1]*table_df2['All']/table_df2['All'][6]
expected_frequencies = expected_frequencies.drop(['All'])
expected_frequencies

Unnamed: 0_level_0,Female,Male
major,Unnamed: 1_level_1,Unnamed: 2_level_1
Biology,82.608092,71.391908
Economics and Finance,71.879769,62.120231
Environmental Sciences,104.601156,90.398844
Mathematics and Statistics,70.27052,60.72948
Political Science,81.53526,70.46474
Social Sciences,53.105202,45.894798


Sobald wir die erwarteten Häufigkeiten kennen, müssen wir zwei Annahmen überprüfen. Erstens müssen wir sicherstellen, dass alle erwarteten Häufigkeiten $1$ oder größer sind, und zweitens, dass höchstens $20 \%$ der erwarteten Häufigkeiten kleiner als $5$ sind. Durch einen Blick auf die Tabelle können wir bestätigen, dass beide Annahmen erfüllt sind.

Jetzt haben wir alle Daten, die wir für einen $\chi^2$ Unabhängigkeitstest durchzuführen.

### Überprüfung der Hypothesen

Zur Durchführung des **$\chi^2$-Unabhängigkeitstests** folgen wir dem Verfahren der schrittweisen Durchführung von Hypothesentests. Der **$\chi^2$-Unabhängigkeitstest** folgt demselben schrittweisen Verfahren wie in den vorangegangenen Abschnitten beschrieben. 

$$
\begin{array}{l}
\hline
\ \text{Schritt 1}  & \text{Geben Sie die Nullhypothese } H_0 \text{ und alternative Hypothese } H_A \text{ an.}\\
\ \text{Schritt 2}  & \text{Legen Sie das Signifikanzniveau, } \alpha\text{ fest.} \\
\ \text{Schritt 3}  & \text{Berechnen Sie den Wert der Teststatistik.} \\
\ \text{Schritt 4} &\text{Bestimmen Sie den p-Wert.} \\
\ \text{Schritt 5} & \text{Wenn} \ p \le \alpha \text{, } H_0 \text{ ablehnen } \text{; ansonsten } H_0 \text{ nicht ablehnen} \text{.} \\
\ \text{Schritt 6} &\text{Interpretieren Sie das Ergebnis des Hypothesentests.} \\
\hline 
\end{array}
$$

**Schritt 1 : Geben Sie die Nullhypothese $H_0$ und alternative Hypothese $H_A$ an**

Die Nullhypothese besagt, dass es keinen Zusammenhang zwischen dem Geschlecht und dem Hauptstudienfach der Studierenden gibt.

$$H_0:\text{Kein Zusammenhang zwischen Geschlecht und Studienschwerpunkt}$$

**Alternative Hypothese**

$$H_A:\text{Es gibt einen Zusammenhang zwischen dem Geschlecht und dem Hauptstudienfach}$$

**Schritt 2: Legen Sie das Signifikanzniveau,$\alpha$ fest**

$$\alpha = 0,05$$

In [24]:
alpha = 0.05

**Schritt 3 und 4: Berechnen Sie den Wert der Teststatistik und den $p$-Wert**

Zur Veranschaulichung berechnen wir die Teststatistik manuell in Python. Erinnern Sie sich an die Gleichung für die Teststatistik von oben:

$$\chi^2= \sum{\frac{(O-E)^2}{E}}\text{,}$$

wobei $O$ für die beobachtete Häufigkeit und $E$ für die erwartete Häufigkeit steht.

Zur Berechnung der Teststatistik führen wir die Berechnungen Zelle für Zelle durch. Wir wenden also wieder eine verschachtelte for-Schleife an. Um den Code besser lesbar zu machen, ordnen wir die beobachteten und erwarteten Häufigkeiten den Variablen `of` bzw. `ef` zu.

In [25]:
of = table_df
ef = expected_frequencies
chi_2 = ((of - ef)**2 / ef).sum(axis=1).sum()
chi_2

76.42971653913816

Der numerische Wert der Teststatistik beträgt $\approx 76,43$.

Um den $p$-Wert zu berechnen, verwenden wir die Funktion `chi2.cdf()`. Erinnern Sie sich daran, wie man die Freiheitsgrade berechnet:

$$df = (r-1) \times (c-1)\text{,}$$

wobei $r$ und $c$ die Anzahl der möglichen Werte für die beiden betrachteten Variablen sind.

In [26]:
df =5
p = chi2.sf(chi_2, df, loc=0, scale=1)
p

4.678888864647207e-15

**Schritt 5: Wenn $p \le \alpha , H_0$ ablehnen; ansonsten $H_0$ nicht ablehnen**

In [9]:
p <= alpha

True

Der $p$-Wert ist kleiner als das angegebene Signifikanzniveau von $0,05$; wir verwerfen $H_0$. Die Testergebnisse sind statistisch signifikant auf dem $5 \%$-Niveau und liefern einen sehr starken Beweis gegen die Nullhypothese.

**Schritt 6: Interpretieren Sie das Ergebnis des Hypothesentests**

$p=4,67888886 \cdot 10^{-15}$. Bei einem Signifikanzniveau von $5 \%$ lassen die Daten den Schluss zu, dass es einen Zusammenhang zwischen dem Geschlecht und dem Hauptstudienfach gibt

### Hypothesentests in Python

Wir haben gerade einen $\chi^2$ Unabhängigkeitstest manuell durchgeführt. Wir können dasselbe in Python mit nur einer Zeile Code tun!

Dazu wenden wir die Funktion `chi2_contingency()` an. Für die Funktion stellen wir das Tabellenobjekt `table_df` als Dateneingabe bereit.

In [10]:
stat, p, dof, expected = chi2_contingency(table_df)
print('p- Wert :',p)
print('Freiheitsgrade :',dof)
print('chi^2 :',stat)

p- Wert : 4.6788888646472395e-15
Freiheitsgrade : 5
chi^2 : 76.42971653913814


Perfekt! Vergleichen Sie die Ausgabe der Funktion `chi2_contingency()` mit unserem Ergebnis von oben. Auch hier können wir zu dem Schluss kommen, dass die Daten bei einem Signifikanzniveau von $5 \%$ sehr starke Anhaltspunkte dafür liefern, dass es einen Zusammenhang zwischen dem Geschlecht und dem Hauptstudienfach gibt.