# Lab 4.04 - Bivariate Analysis of Qualitative Data

In [1]:
# Importing the necessary packages
import numpy as np                                  # "Scientific computing"
import scipy.stats as stats                         # Statistical tests

import pandas as pd                                 # Data Frame
from pandas.api.types import CategoricalDtype

import matplotlib.pyplot as plt                     # Basic visualisation
from statsmodels.graphics.mosaicplot import mosaic  # Mosaic diagram
import seaborn as sns                               # Advanced data visualisation

- Dit is opnieuw een Goodness-of-Fit test met maar één categorie die je wil toetsen tegen een drempelwaarde (20%).

## Exercise 4 - Golf balls

Callaway is thinking about entering the golf ball market. The company will make a profit if its market share is more than 20%. A market survey indicates that 140
of 624 golf ball purchasers will buy a Callaway golf ball.

Is this enough evidence to persuade Callaway to enter the golf ball market?

Results of the main calculations

- χ² = 2.3141
- p-value  p = 0.1282

### ❓ Vraag:
> Is er voldoende bewijs dat **meer dan 20%** van de markt bereid is om Callaway golfballen te kopen?


## ✅ STAP 1 – Hypothesen opstellen
- $( H_0 $): Het marktaandeel van Callaway is **maximaal 20%** (≤ 20%)  
- $( H_1 $): Het marktaandeel is **groter dan 20%**

## ✅ STAP 2 – Geobserveerde en verwachte waarden

In [2]:
# Gegevens uit marktonderzoek
n = 624                       # totaal aantal kopers
observed = np.array([140, 484])  # [Koopt Callaway, Koopt niet]

# Verwachte verdeling als H0 waar is (20%)
expected_p = np.array([0.20, 0.80])
expected = expected_p * n
print(expected)

[124.8 499.2]


## ✅ STAP 3 – Chi-squared test uitvoeren

In [3]:
chi2, p = stats.chisquare(f_obs=observed, f_exp=expected)
print("Chi-squared: %.4f" % chi2)
print("p-value    : %.4f" % p)

Chi-squared: 2.3141
p-value    : 0.1282


## ✅ STAP 4 – Kritieke waarde berekenen en beslissen

In [5]:
alpha = 0.05
df = 1
critical = stats.chi2.isf(alpha, df)

print("Critical value: %.4f" % critical)

if chi2 > critical:
    print(" Verwerp H0: Marktaandeel is > 20%")
else:
    print(" Verwerp H0 niet: Geen voldoende bewijs voor > 20%")

Critical value: 3.8415
 Verwerp H0 niet: Geen voldoende bewijs voor > 20%


- $( \chi^2 = 2.3141 $)
- $( p = 0.1282 $)
- $( \alpha = 0.05 $)
- Kritieke waarde: $( g = 3.8415 $)

##  Interpretatie

- Omdat $( \chi^2 = 2.3141 < 3.8415 $) en $ p = 0.1282 > 0.05 $),  
➤ **Verwerpen we $( H_0 $) niet**

 Er is **geen voldoende statistisch bewijs** dat Callaway **meer dan 20%** van het marktaandeel heeft.

---

## ✅ Conclusie

>  De gegevens zijn **niet overtuigend genoeg** voor Callaway om de markt binnen te stappen.

---

|  Element                     |  Wat moet je weten/doen?                                                                 |
|-------------------------------|--------------------------------------------------------------------------------------------|
| **Formule van χ²**            |  Niet van buiten leren<br> Gebruik `stats.chisquare()` in Python                       |
| **Wanneer je H₀ verwerpt**    |  Begrijp de beslissingsregels:<br>– Als $( p < 0.05 $) → **Verwerp $( H_0 $)**<br>– Als $( \chi^2 > g $) → **Verwerp $( H_0 $)** |
| **Kritieke waarde $( g $)**   |  Weten dat die afhangt van α en df<br> Bereken via: `stats.chi2.isf(alpha, df)`       |
| **Conclusie formuleren**      |  Zeg duidelijk of je \( H_0 \) verwerpt of niet<br> Benoem of er **voldoende bewijs** is |

---

###  Extra geheugensteun

>  Als $( p < \alpha $) → **Verwerp $( H_0 $)**  
>  Als $( p > \alpha $) → **Verwerp $( H_0 $) niet**

---