# Kan vi se en forskjell?
## Sammenligning av to grupper med boksplott og 2-utvalgs t-test

### Læringsmål:

I denne notatboken lærer du å sammenligne populasjonsgjennomsnitt (forventningsverdi) i to populasjoner basert på tilfeldige utvalg fra populasjonene. Sammenligningen gjennomføres (i Python) ved bruk av data-visualisering (boksplott) og to-utvalgs t-test. 

In [None]:
import numpy as np
from scipy import stats  # t-test
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import statistics

## Repetisjon: T-test

Vi starter med å repetere teorien bak t-tester, som vi gjennomgikk i uke 8 i fellesmodulen. La de uavhengige stokastiske variablene $X_1, X_2, \ldots, X_n$ representere et tilfeldig utvalg fra en populasjon, og anta $X_i \sim N(\mu, \sigma)$ for $i = 1, 2, \ldots, n$. Vi ønsker å bruke observasjoner av et slikt utvalg til å (f.eks.) teste

$$ H_0: \mu \leq \mu_0 \text{ mot } H_1: \mu > \mu_0, $$

altså er vi interessert i å undersøke om forventningsverdien $\mu$ er større enn et valgt tall $\mu_0$. Som null-hypotese har vi $\mu \leq \mu_0$, som vi også gjerne representerer med grensetilfellet $\mu = \mu_0$.

Som testobservator kan vi bruke 
$$ T = \frac{\bar{X} - \mu_0}{S/\sqrt{n}}$$

som under null-hypotesen er $t$-fordelt med parameterverdi (frihetsgrader) $\nu = n-1$. I testobservatoren $T$ inngår $\bar{X}$ som er en estimator for $\mu$, samt estimatoren for standardavviket $\sigma$, $S = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2}$.

Ved signifikansnivå $\alpha$ forkaster vi null-hypotesen til fordel for (den høyresidige) alternativhypotesen dersom vi observerer $t_{obs} > t_{\alpha, n-1}$ der $t_{obs}$ er den observerte verdien av testobservatoren ($\bar{X}$ og $S$ erstattes med observasjoner $\bar{x}$ og $s$) og $t_{\alpha, n-1}$ er en kritisk verdi fra $t$-fordelingen. 

### Eksempel med Python
Vi ønsker å teste om $\mu < 25$ ved hjelp av et tilfeldig utvalg med $n = 5$ og ved signifikansnivå $\alpha = 0.01$. Vi skal dermed gjøre en venstresidig test og vil forkaste $H_0 : \mu \geq 25$ til fordel for $H_1 : \mu < 25$ dersom vi observerer $t_{obs} < -t_{0.01, 4}$. Den kritiske verdien kan vi finne i en tabell ($-t_{0.01, 4} = -3.747$) eller med Python (se under). Ved bruk av stats-modulen i Scipy-pakken kan vi enkelt gjennomføre $t$-testen ("1-sample t test"):

In [None]:
# finner kritisk verdi (i venstre hale)
t_kritisk = stats.t.ppf(0.01,4)
print(t_kritisk)

In [None]:
# skriver ned observasjoner, mu0 og gjennomfører test
observasjoner = [20, 21, 22, 23, 24]
mu0 = 25
stats.ttest_1samp(observasjoner, mu0, alternative = 'less')

Vi ser at testobservatoren vår tok verdi $t_{obs} = -4.243$ basert på observasjonene $x_1 = 20$, $x_2 = 21$, osv. Siden $t_{obs}$ er lavere enn kritisk verdi $-3.747$ vil vi forkaste nullhypotesen til fordel for alternativhypotesen. Det er grunn til å tro at $\mu < 25$. Dette kan vi også komme frem til ved hjelp av $p$-verdien på 0.0066 som er lavere en det valgte signifikansnivået $\alpha = 0.01$.

## To-utvalgs t-test

I en to-utvalgs t-test ønsker vi å sammenligne to populasjonsgjennomsnitt $\mu_1$ og $\mu_2$ fra to (uavhengige) populasjoner. En to-utvalgs t-test er basert på et tilfeldig utvalg $X_1, X_2, \ldots, X_{n_1}$ fra den første populasjonen, slik at $E(X) = \mu_1$, og et annet tilfeldig utvalg $Y_1, Y_2, \ldots, Y_{n_2}$ fra den andre populasjonen, slik at $E(Y) = \mu_2$. Vi har tre mulige par av hypoteser vi kan undersøke: 

1. Forventningsverdien er størst i populasjon 1: $H_0: \mu_1 \leq \mu_2$ mot $H_1: \mu_1 > \mu_2$
2. Forventningsverdien er størst i populasjon 2: $H_0: \mu_1 \geq \mu_2$ mot $H_1: \mu_1 < \mu_2$
1. Forventningsverdiene er ulike i de to populasjonene: $H_0: \mu_1 = \mu_2$ mot $H_1: \mu_1 \neq \mu_2$

Det er som regel ikke naturlig å anta lik varians (og standardavvik) i de to tilfeldige utvalgene, og i gjennomføring av testen estimeres standardavvikene $\sigma_1$ og $\sigma_2$ basert på estimatorene 

$$ S_X = \sqrt{\frac{1}{n_1 - 1} \sum_{i=1}^{n_1} (X_i - \bar{X})^2} \text{ og } S_Y = \sqrt{\frac{1}{n_2 - 1} \sum_{j=1}^{n_2} (Y_j - \bar{Y})^2}$$

Testobservatoren i en to-utvalgs t-test med ukjente populasjonsvarianser som vi ikke vet er like er 

$$ T = \frac{\bar{X} - \bar{Y}}{\sqrt{S_X^2/n_1 + S_Y^2/n_2}}. $$

Dersom null-hypotesen er sann er testobservatoren $t$-fordelt med parameterverdi (antall frihetsgrader, angitt med den greske bokstaven $\nu$ (uttal "ny"))

$$ \nu = \frac{\left(S_X^2/n_1 + S_Y^2/n_2\right)^2}{\frac{\left( S_X^2/n_1\right)^2}{n_1-1}+\frac{\left( S_Y^2/n_2\right)^2}{n_2-1}}$$

og testen forkastes basert på samme type forkastningsregler som ett-utvalgs $t$-tester (fra fellesmodul).

*Merk:* I ISTx1002 forventer vi ikke at du pugger en to-utvalgs t-test, og spesielt ikke det kronglete uttrykket for $\nu$. Men vi ønsker at du skal vite hva testen innebærer, og bruke den for å sammeligne to (uavhengige) serier med målinger som dere skal gjennomføre i prosjektoppgaven.

### Eksempel 1: Medisin vs placebo?
*Eksempelet er inspirert av Løvås, kap 8.2 og 8.3.*

En lege ønsker å undersøke om en ny blodtrykksmedisin er bedre enn placebo i en populasjon av pasienter med omtrent samme alder, kjønn osv. Legen definerer $\mu_M$ som forventet reduksjon i blodtrykk for en tilfeldig valgt pasient fra denne populasjonen ved en måneds bruk av medisinen. Legen definerer $\mu_P$ som forventet reduksjon i blodtrykk for en tilfeldig valgt pasient fra denne populasjonen ved en måneds bruk av placebo-piller. Legens hypotese kan dermed uttrykkes ved

$$ H_0: \mu_M = \mu_P \text{ mot } H_1: \mu_M > \mu_P $$

Vi må anta at det er substansielle variasjoner mellom enkeltpersoners respons på medisin, og generelt variasjon mellom målinger som gjøres etter hverandre. Da er det naturlig å modellere *reduksjon* i blodtrykk hos en tilfeldig valgt pasient satt på blodtrykksmedisin med en stokastisk variabel $X$ der $E(X) = \mu_M$ og standardavvik $SD(X) = \sigma_M$. For pasienter som kun bruker placebo-piller vil vi også forvente variasjon mellom to målinger på grunn av måleusikkerhet og andre endringer hos pasientene over tid. For placebo-pasientene kan vi modellere *reduksjon* i blodtrykk hos en tilfeldig valgt pasient med en stokastisk variabel $Y$ der $E(Y) = \mu_P$ og standardavvik $SD(Y) = \sigma_P$. 

(Merk at dersom det ikke finnes en placebo-effekt er det naturlig å tro at $\mu_P = 0$ men det skal vi ikke ta stilling til her).

De innsamlede dataene til legen, og en 2-utvalgs $t$-test med python er presentert under. Hva blir konklusjonen av legens forsøk? Vi gjennomfører testen ved signifikansnivå $\alpha = 0.05$.

In [None]:
x = [8, 5, 6, -3, 10, 5, -1, 2, 9, 7] # observert endring med medisin (positivt tall = reduksjon) 
y = [2, 3, -2, 0, 1, 1, -1, 3, 0] # observert endring med placebo (positivt tall = reduksjon)

n1 = len(x)
n2 = len(y)

mean_x = statistics.mean(x)
mean_y = statistics.mean(y)

sd_x = statistics.stdev(x)
sd_y = statistics.stdev(y)

# antall frihetsgrader:
ny = (sd_x**2/n1+sd_y**2/n2)**2/((sd_x**2/n1)**2/(n1-1)+(sd_y**2/n2)**2/(n2-1))
print("Antall frihetsgrader (ny) = ", ny)

t_kritisk = stats.t.ppf(1-0.05,ny)
print("t_kritisk = ", t_kritisk)

stats.ttest_ind_from_stats(mean_x, sd_x, n1, mean_y, sd_y, n2, equal_var=False, alternative = 'greater')

Konklusjonen av (den høyresidige) $t$-testen kan vi finne direkte ved å se på $p$-verdien, som her er $0.0088$. Siden $p$-verdien er mindre enn signifikansnivået $\alpha = 0.05$ forkaster vi nullhypotesen; vi har grunnlag i dataene til å konkludere at medisin har bedre effekt enn placebo. Vi kan også sammenligne testobservatoren $t_{obs} = 2.746$ med kritisk verdi $t_{0.05, 12.09} = 1.781$. Siden $t_{obs} > t_{0.05, 12.09}$ forkaster vi $H_0$ til fordel for $H_1$.

*Merk:* Det er lite hensiktsmessig å kun gjennomføre testen og få et ja/nei svar. Vi burde også se nøyere på dataene vi har samlet inn:

In [None]:
mean_x = sum(x)/len(x)
mean_y = sum(y)/len(y)

print(f"Gjennomsnitt blodtrykksreduksjon med medisin: {round(mean_x,2)}")
print(f"Gjennomsnitt blodtrykksreduksjon med placebo: {round(mean_y,2)}")

data = pd.DataFrame({
    'Blodtrykksreduksjon': x + y,
    'Gruppe': ['Medisin'] * len(x) + ['Placebo'] * len(y)
})
plt.figure(figsize=(8, 6))
sns.boxplot(x='Gruppe', y='Blodtrykksreduksjon', data=data)
plt.title('Boksplott for to grupper av pasienter')
plt.show()

*Diskuter:* Trengte vi å gjennomføre en hypotesetest her? Vi ser tydelig fra boksplottene at reduksjon i blodtrykk (positivt tall) er mye høyere hos pasienter på medisin enn hos pasienter på placebo. Vi ser også større variasjon av gruppen pasienter på medisin, som kan tilsi at ikke alle responderer like godt på medisinen. Dermed lærer vi mer om gruppene våre ved å visualisere dataene enn ved å gjennomføre en hypotesetest, men testen kan brukes som et godt supplement i konklusjonen vår om at medisin (i snitt) fremstår bedre enn placebo. 

### Eksempel 2: Høydehus
*Eksempelet er hentet fra kurset HBIOT2025 vår 2022*

Vi ønsker å sjekke om det er forskjell i hemoglobinkonsentrasjonen hos tilsynelatende like idrettsutøvere der noen har vært i høydehus og andre har ikke. Målinger av hemoglobin (i g/100 ml) gjennomføres i to grupper av idrettsutøvere. Data-analyse med Python er vist under:

In [None]:
x = [16.3, 15.4, 14.2, 13.7, 14.8, 12.9] # utøvere som har vært i høydehus
y = [15.0, 14.3, 14.8, 13.2, 12.2, 13.1, 12.8] # ikke høydehus

n1 = len(x)
n2 = len(y)

mean_x = statistics.mean(x)
mean_y = statistics.mean(y)

sd_x = statistics.stdev(x)
sd_y = statistics.stdev(y)

print(f"Gjennomsnittlig hemoglobin høydehus: {round(mean_x,2)}")
print(f"Gjennomsnittlig hemoglobin ikke høydehus: {round(mean_y,2)}")

print(f"Standardavvik hemoglobin høydehus: {round(sd_x,2)}")
print(f"Standardavvik hemoglobin ikke høydehus: {round(sd_y,2)}")

dataHH = pd.DataFrame({
    'Hemoglobin': x + y,
    'Gruppe': ['Høydehus'] * len(x) + ['Ikke høydehus'] * len(y)
})
plt.figure(figsize=(8, 6))
sns.boxplot(x='Gruppe', y='Hemoglobin', hue='Gruppe', data=dataHH,palette=["y", "g"],legend = False)
plt.title('Boksplott for to grupper av idrettsutøvere')
plt.show()

Vi obsererverer at gjennomsnittet av hemoglobin er noe lavere blant utøvere som ikke har vært i høydehus enn hos de som er det, differansen er omtrent 0.92. Det samme gjelder medianen (midterste stripe i boksplottet). Vi ser også at boksplottet for utøvere som har vært i høydehus ligger høyere enn boksplottet for utøvere som ikke har vært i høydehus. Men fordi variasjonen innad i gruppene er relativt stor (f.eks er empriske standardavvik 1.22 og 1.07) sammenlignet med differansen i gjennomsnitt er det vanskelig å fastslå med sikkerhet at det *på populasjonsnivå* er en reell gjennomsnittsforskjell. Dette reflekteres i den store graden av overlapp mellom boksplottene. Vi gjennomfører derfor en to-utvalgs t-test ved signifikansnivå $\alpha = 0.05$:

In [None]:
ny = (sd_x**2/n1+sd_y**2/n2)**2/((sd_x**2/n1)**2/(n1-1)+(sd_y**2/n2)**2/(n2-1))
print("Antall frihetsgrader (ny) = ", ny)

t_kritisk = stats.t.ppf(1-0.05,ny)
print("t_kritisk = ", t_kritisk)

stats.ttest_ind_from_stats(mean_x, sd_x, n1, mean_y, sd_y, n2, equal_var=False, alternative = 'greater')

*Konklusjon*: Ifølge testen har vi ikke grunnlag for å konkludere at gjennomsnittlig hemoglobin-nivå vil være høyere i en populasjon av idrettsutøvere som bruker høydehus enn i en populasjon av idrettsutøvere som ikke bruker høydehus.

*Merk*: For å øke sjansen for å avdekke en eventuell effekt av høydehus kan vi foreslå å studerere et større utvalg av idrettsutøvere i håp om å redusere støy/variasjon i gjennomsnittsmålingene. 