# Lab 4.03 - Bivariate Analysis of Qualitative Data


In [1]:
# Importing the necessary packages
import numpy as np                                  # "Scientific computing"
import scipy.stats as stats                         # Statistical tests

import pandas as pd                                 # Data Frame
from pandas.api.types import CategoricalDtype

import matplotlib.pyplot as plt                     # Basic visualisation
from statsmodels.graphics.mosaicplot import mosaic  # Mosaic diagram
import seaborn as sns                               # Advanced data visualisation

## Exercise 3 - Discrimination in schoolteacher hiring

African Americans in a St. Louis suburb sued the city 
claiming they were discriminated against in schoolteacher hiring. Of the city's population, 5.7% were 
African American; of 405 teachers in the school system, 15 were African American. Set up appropriate 
hypotheses and determine whether African Americans 
are underrepresented.  
Calculate the standardized residuals. 

Results of the main calculations:
- Chi-squared        χ² = 3.0027
- Critical value      g = 3.8415
- p-value             p = 0.0831
- standardized residuals for african american = -1.7328 > - 2

## ✅ STAP 1 – Hypothesen opstellen
- **$( H_0 $)**: Het percentage Afrikaanse Amerikanen onder de leraren is representatief voor de populatie (geen discriminatie).
- **$( H_1 $)**: Afrikaanse Amerikanen zijn **ondervertegenwoordigd** (discriminatie → verschil met populatie).


## ✅ STAP 2 – Gegeven data omzetten naar tabelvorm

In [None]:
import numpy as np

# Aantal Afro-Amerikaanse leerkrachten (geobserveerd)
observed = np.array([15, 390])  # [African American, Not African American]
n = observed.sum()

# Populatieverhouding
expected_p = np.array([0.057, 0.943])
expected = expected_p * n

# Observed: 15 Afr.American van 405
# Expected: volgens 5.7% van de populatie

405


## ✅ STAP 3 – Voer chi-squared test uit

###  Verschil tussen `chisquare()` en `chi2_contingency()`

| Functie                    | Wanneer gebruik je het?                                                                 | Wat analyseert het?                          |
|----------------------------|------------------------------------------------------------------------------------------|-----------------------------------------------|
| `stats.chisquare()`        |  Als je **één variabele** hebt en je vergelijkt de **geobserveerde vs verwachte verdeling** | Goodness-of-Fit test                          |
| `stats.chi2_contingency()` |  Als je **twee categorische variabelen** hebt en je wil weten of ze **(on)afhankelijk** zijn | Test voor onafhankelijkheid (contingency table) |

---

### Voorbeelden

**Gebruik `chisquare()` bij:**
```python
# Goodness-of-Fit test (1 variabele)
observed = [15, 390]
expected = [23.085, 381.915]
stats.chisquare(f_obs=observed, f_exp=expected)
```

**Gebruik `chi2_contingency()` bij:**
```python
# Verband tussen 2 categorische variabelen
observed = pd.crosstab(df["Gender"], df["Preference"])
stats.chi2_contingency(observed)
```

---

### 🎯 Kort samengevat:

| Type analyse                          | Te gebruiken functie          |
|---------------------------------------|-------------------------------|
| 1 variabele vs theoretische verwachting | `stats.chisquare()`           |
| 2 variabelen in kruistabel             | `stats.chi2_contingency()`    |

In [3]:


chi2, p = stats.chisquare(f_obs=observed, f_exp=expected)
print("Chi-squared:", chi2)
print("p-value:", p)

Chi-squared: 3.0027451685653417
p-value: 0.0831235620095611


✅ STAP 4 – Bereken kritieke waarde bij α = 0.05

##  Vrijheidsgraden (`df`) bij een Chi-squared test

---

### ❓ Is `df = 1` altijd zo?
➡️ **Nee**, het hangt af van het aantal categorieën in je analyse.

---

###  Algemene formule voor `df` (degrees of freedom)

---

### 1️⃣ Goodness-of-Fit test (1 variabele):

$$
df = k - 1
$$

waarbij:  
- $( k $) = aantal categorieën (in je `observed` vector)

---

### 2️⃣ Chi-squared test voor onafhankelijkheid (2 variabelen):

$$
df = (r - 1) \times (c - 1)
$$

waarbij:  
- $( r $) = aantal rijen in de kruistabel  
- $( c $) = aantal kolommen in de kruistabel

---

###  Voorbeelden:

| Situatie                                | Aantal categorieën   | Vrijheidsgraden (`df`)     |
|-----------------------------------------|-----------------------|------------------------------|
| Goodness-of-Fit: `[15, 390]`            | 2                     | $( 2 - 1 = 1 $)              |
| Goodness-of-Fit: `[10, 20, 30]`         | 3                     | $( 3 - 1 = 2 $)              |
| Onafhankelijkheid: 3 rijen × 4 kolommen | —                     | $( (3 - 1) \times (4 - 1) = 6 $) |

---

###  Samengevat:

- `df = 1` ➤ Alleen bij **Goodness-of-Fit** met **2 categorieën**
- Meer categorieën of een kruistabel? ➤ `df` wordt automatisch hoger

---


In [4]:
alpha = 0.05
df = 1
critical = stats.chi2.isf(alpha, df)

print("Critical value:", critical)

Critical value: 3.8414588206941285


## ✅ STAP 5 – Trek een besluit

In [5]:
if chi2 > critical:
    print("Verwerp H0: Afrikaanse Amerikanen zijn ondervertegenwoordigd.")
else:
    print("Verwerp H0 niet: Er is geen significant bewijs van ondervertegenwoordiging.")

Verwerp H0 niet: Er is geen significant bewijs van ondervertegenwoordiging.


## ✅ STAP 6 – Bereken gestandaardiseerde residuen
- Gestandaardiseerde residuen vertellen hoe ver het geobserveerde aantal afwijkt van het verwachte, gemeten in standaardafwijkingen.

$$
r_i = \frac{o_i - e_i}{\sqrt{e_i}}
$$

In [11]:
standardized_residuals = (observed - expected) / np.sqrt(expected)
print("Gestandaardiseerde residuen:", standardized_residuals)

Gestandaardiseerde residuen: [-1.68273251  0.41371062]
