## Der Chi-Quadrat-Unabhängigkeitstest
----------------------------------------

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from random import sample
from scipy.stats import t
from scipy.stats import chi2
from scipy import stats
import scipy.stats
import statsmodels.api as smi
import pylab

%run ../src/notebook_env.py


---------------------------------
Working on the host: LAPTOP-9LETB4SJ

---------------------------------
Python version: 3.10.2 | packaged by conda-forge | (main, Mar  8 2022, 15:52:24) [MSC v.1929 64 bit (AMD64)]

---------------------------------
Python interpreter: C:\Users\zak\anaconda3\envs\srh\python.exe


Der **$\chi^2$ Unabhängigkeitstest** ist eine inferentielle Methode, um zu entscheiden, ob ein Zusammenhang zwischen zwei Variablen besteht. Ähnlich wie bei anderen Hypothesentests besagt die Nullhypothese, dass die beiden Variablen nicht miteinander verbunden sind. Im Gegensatz dazu besagt die Alternativhypothese, dass die beiden Variablen miteinander verbunden sind.

Es sei daran erinnert, dass statistisch **abhängige Variablen** als **assoziierte Variablen** bezeichnet werden. Im Gegensatz dazu werden nicht-assoziierte Variablen als statistisch unabhängige Variablen bezeichnet. Erinnern Sie sich auch an das Konzept der <a href="https://en.wikipedia.org/wiki/Contingency_table">Kontingenztabellen</a> (auch als Zwei-Wege-Tabellen oder Kreuztabellen bezeichnet), in denen die Häufigkeitsverteilungen von bivariaten Daten dargestellt werden.

### $\chi^2$-Unabhängigkeitstest

Die Grundidee des $\chi^2$-Unabhängigkeitstests besteht darin, die beobachteten Häufigkeiten in einer Kontingenztabelle mit den erwarteten Häufigkeiten zu vergleichen, unter der Annahme das die Nullhypothese der Nicht-Assoziation wahr ist. Die erwartete Häufigkeit für jede Zelle einer Kontingenztabelle ist gegeben durch

$$E = \frac{R\times C}{n} \text{,}$$

wobei $R$ die Zeilensumme ist, $C$ die Spaltensumme und $n$ der Stichprobenumfang ist.

Lassen Sie uns zum besseren Verständnis ein Beispiel konstruieren. Wir betrachten eine Exit Poll in Form einer Kontingenztabelle, die das Alter von $n=1189$ in den Kategorien $18-29, 30-44, 45-64$ und $\gt 65$ Jahre und ihre politische Zugehörigkeit, d. h. "konservativ", "sozialistisch" und "andere". Diese Tabelle entspricht den beobachteten Häufigkeiten.

**Beobachtete Häufigkeiten:**

\begin{array}{|l|c|}
\hline
\ & \text{Konservativer} & \text{Sozialist} & \text{Anderes} & \text{Insgesamt} \\
\hline
\ \text{18-29}  & 141 & 68 & 4 & 213\\
\ \text{30-44}  & 179 & 159 & 7 & 345\\
\ \text{45-64} & 220 & 216 & 4 & 440\\
\ \text{65 & älter} & 86 & 101 & 4 & 191\\
\hline 
\  \text{Insgesamt} & 626 & 544 & 19 & 1189\\
\hline 
\end{array}

Auf der Grundlage der oben genannten Gleichung berechnen wir die erwartete Häufigkeit für jede Zelle.

**Erwartete Häufigkeiten:**

\begin{array}{|l|c|}
\hline
\ & \text{Konservativer} & \text{Sozialist} & \text{Anderes} & \text{Insgesamt} \\
\hline
\ \text{18-29}  & \frac{213 \times 626 }{1189} \approx 112.14 & \frac{213 \times 544 }{1189} \approx97.45 & \frac{213 \times 19 }{1189} \approx3.4 & 213\\
\ \text{30-44}  & \frac{345 \times 626 }{1189} \approx181.64 &\frac{345 \times 544 }{1189} \approx 157.85 & \frac{345 \times 19 }{1189} \approx5.51 & 345\\
\ \text{45-64} & \frac{440 \times 626 }{1189} \approx231.66 & \frac{440 \times 544 }{1189} \approx201.31 &\frac{440 \times 19 }{1189} \approx 7.03 & 440\\
\ \text{65 & älter} &\frac{191 \times 626 }{1189} \approx 100.56 &\frac{191 \times 544 }{1189} \approx 87.39 & \frac{191 \times 19 }{1189} \approx3.05 & 191\\
\hline 
\ \text{Insgesamt} & 626 & 544 & 19 & 1189\\
\hline 
\end{array}

Sobald wir die erwarteten Häufigkeiten kennen, müssen wir zwei Annahmen überprüfen. Erstens müssen wir sicherstellen, dass alle erwarteten Häufigkeiten $1$ oder größer sind, und zweitens, dass höchstens $20 \%$ der erwarteten Häufigkeiten kleiner als $5$ sind. Ein Blick auf die Tabelle bestätigt, dass beide Annahmen erfüllt sind.

Der eigentliche Vergleich erfolgt auf der Grundlage der $\chi^2$
Teststatistik für die beobachtete Häufigkeit und die erwartete Häufigkeit. Die -Teststatistik folgt der $\chi^2$-Verteilung und ist gegeben durch

$$\chi^2= \sum{\frac{(O-E)^2}{E}}\text{,}$$

wobei $O$ für die beobachtete Häufigkeit und $E$ für die erwartete Häufigkeit steht. Bitte beachten Sie, dass $\frac{(O-E)^2}{E}$ für jede Zelle ausgewertet und dann aufsummiert wird.

Die Anzahl der Freiheitsgrade ist gegeben durch

$$df = (r-1) \times (c-1)\text{,}$$

wobei $r$ und $c$ die Anzahl der möglichen Werte für die beiden betrachteten Variablen sind.

Übertragen auf das obige Beispiel führt dies zu einem etwas langen Ausdruck, der der Kürze halber nur für die erste und die letzte Zeile der interessierenden Kontingenztafeln angegeben wird.

$$\chi^2 = \frac{141 \times 112,14}{112,14} + \frac{68 \times 97,45}{97,45} + \frac{4 \times 3,4}{3,4}  + \cdots + \frac{86 \times 100,56}{100,56} + \frac{101 \times 87,39}{87,39} + \frac{4 \times 3,05}{3,05}$$

Wenn die Nullhypothese wahr ist, sind die beobachtete und die erwartete Häufigkeit ungefähr gleich, was zu einem kleinen Wert der $\chi^2$-Teststatistik führt und somit $H_0$ unterstützt. Ist der Wert der $\chi^2$-Teststatistik jedoch groß, liefern die Daten Beweise gegen $H_0$. In den nächsten Abschnitten wird weiter erörtert, wie der Wert der $\chi^2$-Teststatistik im Rahmen der Hypothesentests zu bewerten ist.

### $\chi^2$ Unabhängigkeitstest: Ein Beispiel

Um praktische Erfahrungen zu sammeln, wenden wir den $\chi^2$ Unabhängigkeitstest in einer Übung an. Dazu laden wir den `students` Datensatz. Sie können die Datei `students.csv` <a href="https://userpage.fu-berlin.de/soga/200/2010_data_sets/students.csv">hier</a> herunterladen. Importieren Sie den Datensatz und geben Sie ihm einen passenden Namen.

In [2]:
# Lese Datei students.csv als Dataframe ein; Indexspalte wird übersprungen
students = pd.read_csv('students.csv', index_col=0)

Der `students` Datensatz besteht aus $8239$ Zeilen, von denen jede einen bestimmten Studenten repräsentiert, und $16$ Spalten, von denen jede einer Variable/einem Merkmal entspricht, das sich auf diesen bestimmten Studenten bezieht. Diese selbsterklärenden Variablen sind: *stud.id, name, gender, age, height, weight, religion, nc.score, semester, major, minor, score1, score2, online.tutorial, graduated, salary.*

In dieser Übung wollen wir untersuchen, ob es einen Zusammenhang zwischen den Variablen `gender` und `major` gibt, oder mit anderen Worten, wir wollen wissen, ob männliche Studenten andere Studienfächer bevorzugen als weibliche Studenten.

### Vorbereitung der Daten

Wir beginnen mit der Datenaufbereitung. Da wir nicht den gesamten Datensatz von $8239$ Einträgen bearbeiten wollen, wählen wir zufällig $865$ Studenten aus dem Datensatz aus. Der erste Schritt der Datenvorbereitung besteht darin, die interessierenden Daten in Form einer Kontingenztabelle darzustellen. Python bietet die ausgefallene Funktion `unique()`, die diese Aufgabe übernehmen wird.

In [7]:
n = 865

data = students.sample(n,random_state=1)
pd.crosstab(index = data['major'], columns = data['gender'])

gender,Female,Male
major,Unnamed: 1_level_1,Unnamed: 2_level_1
Biology,89,65
Economics and Finance,55,79
Environmental Sciences,99,96
Mathematics and Statistics,39,92
Political Science,112,40
Social Sciences,70,29


Außerdem bestimmen wir die Spaltensummen und die Zeilensummen. Python bietet das Argument `margins = True`, das die Zeilensummen und die Spaltensummen für uns hinzufügt.

In [9]:
pd.crosstab(index = data['major'], columns = data['gender'], margins = True)

gender,Female,Male,All
major,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Biology,89,65,154
Economics and Finance,55,79,134
Environmental Sciences,99,96,195
Mathematics and Statistics,39,92,131
Political Science,112,40,152
Social Sciences,70,29,99
All,464,401,865


Im nächsten Schritt konstruieren wir die **erwarteten Häufigkeiten**. Erinnern Sie sich an die Gleichung von oben:

$$E = \frac{R\times C}{n} \text{,}$$

wobei $R$ die Zeilensumme ist, $C$ die Spaltensumme und $n$ der Stichprobenumfang ist.

Wir berechnen die erwarteten Häufigkeiten zellenweise, indem wir eine verschachtelte for-Schleife implementieren. Dabei gehen wir alle Zeilen der Matrix Spalte für Spalte durch und berechnen die erwartete Häufigkeit $E$ für jede einzelne Zelle.

In [None]:
# initialize empty matrix
expected_frequencies = matrix(data = NA, 
                               nrow = nrow(conti.table), 
                               ncol = ncol(conti.table))

# nested for-loop
for (row.idx in 1:nrow(conti.table)){
  for (col.idx in 1:ncol(conti.table)){
    expected.frequencies[row.idx, col.idx] <- (row.sum[row.idx]*col.sum[col.idx])/sum(conti.table)
      }
  }
expected.frequencies