In [50]:
import pandas as pd
import numpy as np
import scipy.stats as scs
import matplotlib.pyplot as plt
import seaborn as sns
df = pd.read_excel("health.xlsx")

# Remove unwanted columns
del df['Åldersgrupp']
del df['Sömngrupp']

# Assign gender string
df['Kön'] = df['Kön'].replace({1,2},{'Kvinna','Man'})

# Assign civilstånd
mapping = {1: 'Gift/Sambo',
           2: 'Änka/Änkling ej omgift',
           3: 'Skild, ej omgift',
           4: 'Särbo',
           5: 'Ogift',
           6: 'Annat'}
df['Civilstånd'] = df['Civilstånd'].map(mapping)

# Assign utbildningsnivå
mapping = {1: 'Folkskolenivå eller lägre',
           2: 'Grundskola/Realexamen',
           3: 'Studentexamen',
           4: 'Fölkhögskola/Yrkesutbildning',
           5: 'Ofullständig akademisk utbildning',
           6: 'Universitet/Högskola med examen'}
df['Utbildningsnivå'] = df['Utbildningsnivå'].map(mapping)

# Assign sysselsättning
mapping = {1: 'Arbete', 
           2: 'Studier', 
           3: 'Arbetslös', 
           4: 'Sjukskriven/sjukersättning', 
           5: 'Ålderspensionär', 
           6: 'Icke-förvärvsarbetande av annan orsak'}
df['Sysselsättning'] = df['Sysselsättning'].map(mapping)

# Assign boende
mapping = {1: 'Hyresrätt', 
           2: 'Bostadrätt', 
           3: 'Radhus, villa eller liknande', 
           4: 'Särskilt boende', 
           5: 'Annat'}
df['Boende'] = df['Boende'].map(mapping)

# Assign living situation
mapping = {1: 'Ensamboende', 
           2: 'Make/maka/sambo', 
           3: 'Barn', 
           4: 'Förälder', 
           5: 'Annan',
           6: 'Familj (Partner och barn/ föräldrar och syskon)'}
df['Tillsammans_med'] = df['Tillsammans_med'].map(mapping)

# Data on self-reported satisfaction levels were originally ordered reverse, e.g. 5 being 'low' and 1 'high'.
mapping = {1: 5, 2: 4, 3: 3, 4: 2, 5: 1} # Reversing this.
df['Vardagstillfredsställelse'] = df['Vardagstillfredsställelse'].map(mapping)

# Same with health
df['Hälsa'] = df['Hälsa'].map(mapping)


df

Unnamed: 0,Deltagare,Ålder,Kön,Civilstånd,Utbildningsnivå,Sysselsättning,Boende,Tillsammans_med,Vardagstillfredsställelse,Hälsa,Arbete,Skötsel,Lek,Rekreation,Sömn,Tid_ensam,Tid_familj,Tid_vänner,Tid_övriga
0,1,33,Kvinna,Gift/Sambo,Universitet/Högskola med examen,Arbete,Bostadrätt,Make/maka/sambo,4,4,420,270,120,150,480,1140,180,0,120
1,2,32,Kvinna,Gift/Sambo,Studentexamen,Arbete,Hyresrätt,Familj (Partner och barn/ föräldrar och syskon),5,5,420,195,60,240,525,1080,360,0,0
2,3,30,Kvinna,Gift/Sambo,Universitet/Högskola med examen,Arbete,Bostadrätt,Make/maka/sambo,4,4,450,210,0,300,480,810,330,0,300
3,4,32,Kvinna,Gift/Sambo,Universitet/Högskola med examen,Arbete,Hyresrätt,Familj (Partner och barn/ föräldrar och syskon),4,3,420,300,0,240,480,1095,165,90,60
4,5,34,Man,Gift/Sambo,Universitet/Högskola med examen,Arbete,Hyresrätt,Make/maka/sambo,4,4,405,315,0,180,540,870,390,0,180
5,6,30,Kvinna,Annat,Universitet/Högskola med examen,Arbete,Hyresrätt,Ensamboende,3,3,480,165,60,180,555,1320,0,0,120
6,7,34,Man,Gift/Sambo,Ofullständig akademisk utbildning,Icke-förvärvsarbetande av annan orsak,"Radhus, villa eller liknande",Familj (Partner och barn/ föräldrar och syskon),4,5,0,420,0,420,600,720,720,0,0
7,8,45,Man,Gift/Sambo,Fölkhögskola/Yrkesutbildning,Arbete,"Radhus, villa eller liknande",Familj (Partner och barn/ föräldrar och syskon),4,4,480,270,0,210,480,660,300,0,480
8,9,38,Kvinna,Ogift,Ofullständig akademisk utbildning,Arbete,Hyresrätt,Ensamboende,4,3,600,135,0,180,525,840,0,0,600
9,10,31,Man,Särbo,Studentexamen,Arbete,"Radhus, villa eller liknande",Ensamboende,3,4,480,270,0,210,480,960,0,0,480


In [51]:
# Finding patterns in 

In [52]:
df["Ålder"].median()

35.0

In [53]:
df["Arbete"].median()/60

8.0

In [54]:
df["Sömn"].median()/60

8.0

In [55]:
df["Tid_ensam"].median()/60

12.5

In [56]:
w = (df["Tid_familj"].median() + df["Tid_vänner"].median())/60
w

3.0

In [57]:
df["Vardagstillfredsställelse"].median()

4.0

In [58]:
df["Vardagstillfredsställelse"].value_counts()

4    23
3    14
5     2
2     2
1     1
Name: Vardagstillfredsställelse, dtype: int64

<h3>Hypotestest 1: Varians mellan män och kvinnor i vardagstillfredtställelse</h3>

Konstruerar ett hypotestest som undersöker om variansen vad gäller vardagstillfredställelse är större för män än för kvinnor med $\alpha = 0.05$

Vi börjar med att formulera våra hypoteser. Här vill vi göra ett ensidigt test mellan två varianser $\sigma^2_1$ och $\sigma^2_2$.

Vi anger vår alternativhypotes:

$H_A: \sigma^2_{man} > \sigma^2_{kvinna}$ <br>

Det följer att nollhypotesen, alltså komplementet till alternativhypotesen då blir: <br>

$H_0: \sigma^2_{man} \leq \sigma^2_{kvinna}$
    
<br><br>
Vi delar upp vårt ursprungsdataset i två delar, en som innehåller alla män och en som innehåller alla kvinnor.

In [59]:
male = df[df['Kön'] == 'Man']
female = df[df['Kön'] == 'Kvinna']

n_male = len(male)
n_female = len(female)

n_male + n_female

42

In [60]:
print(male['Vardagstillfredsställelse'].sum()/n_male)
print(female['Vardagstillfredsställelse'].sum()/n_female)

3.7222222222222223
3.4166666666666665


Nästa steg är att beräkna testfunktionen, i fallet med två varianser är det enkelt. Den ges av:

$F=\frac{\sigma^2_1}{\sigma^2_2}$


Vi kan alltså lätt räkna ut den med våra kända NumPy-metoder enligt följande:

In [61]:
statistic = np.var(male['Vardagstillfredsställelse'], ddof=1) / np.var(female['Vardagstillfredsställelse'], ddof=1)
print('F-statistic: ' + str(statistic))

F-statistic: 0.4256917720359171


Vi kan jämföra den med det kritiska värdet för vår F-fördelning (givet $\alpha = 0.05$) genom att hämta F-fördelningen i SciPy och kika i dess kumulativa fördelningsfunktion:

In [62]:
from scipy.stats import f

result = f.ppf(q=0.05, dfn=n_male-1, dfd=n_female-1)
print('F-critical :' +str(result))

F-critical :0.4548122708950203


Värdet på vår beräknade F-statistika (0.4257) är lägre än det kritiska värdet (0.4548), och vi kan därmed förkasta alternativhypotesen. Utifrån vårt test kan vi alltså konstatera att med ett konfidens på 95%, så skiljer sig **variansen** i vardagstillfredsställelse inte åt mellan män och kvinnor.

---

<h3>Exempel: Hypotestest för stickprovsmedelvärde med okänt sigma</h3>
Konstruera ett hypotestest som undersöker om vardagstillfredtställelse för olika boendeformer skiljer sig.
Vardagstillfredsställelse mäts på en skala mellan 1 och 5:

5 = Utmärkt

4 = Mycket god

3 = God

2 = Någorlunda

1 = Dålig

Populationsmedelvärdet är:

In [63]:
df['Vardagstillfredsställelse'].sum()/len(df)

3.5476190476190474

Vi utgår därför från att populationsmedelvärdet $\mu_0$ = 3.5476). Använd en signifikansnivå på $\alpha = 0.05$.

Eftersom standardavvikelsen för populationen är okänd, kommer vi här använda oss av ett t-test.

In [64]:
from scipy.stats import t # Importera t-fördelningen ur SciPy

Vi börjar med att bestämma alternativhypotesen som:<br>
    $H_A: \mu \neq 3.5476\,mm$<br>
Och sedan nollhypotesen som dess komplement:<br>
    $H_0: \mu = 3.5476\,mm$

Sedan, beräknar vi teststatistikan för vår nollhypotes, d.v.s:
<h3>

$t = \frac{\overline{X} - \mu_0}{s \,/\sqrt{n}}$

</h3>

Det här kan vi göra på lite olika sätt. Först kan vi göra det med klassiska beräkningsmetoder vi kan i NumPy

In [65]:
Hyresrätt = df[df['Boende'] == 'Hyresrätt']
sample = Hyresrätt['Vardagstillfredsställelse']

xbar = sample.mean() # Beräkna stickprovsmedelvärde
mu = 3.5476 # Sätt mu till värde för nollhypotesen
std = sample.std(ddof=1) # beräkna standardavvikelsen för stickprovet
n = len(sample) # beräkna storleken på stickprovet

statistic = (xbar - mu) / (std / np.sqrt(n)) # Beräkna värdet på test-statistiskan
print('Test statistic: ' +str(statistic)) # Printa test-statistikan

p_value = 1 - t.cdf(x=statistic, df=n-1) # Beräkna p-värdet för stick provet som 1 - F(x=statistic)
print('p-value: ' + str(2*p_value)) # Printa p-värdet (2x beräknat värde p.g.a. två-sidigt test.

Test statistic: 0.19883879744260527
p-value: 0.8438785807172322


<h5>Det finns också inbyggda funktioner för t.ex. t-test i SciPy, ni ska vi använda oss utav en av dem, vilket gör hela operationen mycket enklare.</h5>
Vi använder oss av den inbyggda funktionen ttest_1samp(), vilken beräknar t-test statistiska samt dess p-värde givet ett set data och ett populationsmedelvärde. Vi använder oss här av alternative='two-sided', vilket ger oss det dubbel-sidiga testet för att vårt stickprovsmedelvärde är skilt från populationsmedelvärdet.<br>
Dokumentationen till ttest_1samp() hittar vi <a href=https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_1samp.html>här</a>.

In [69]:
import scipy.stats as scs
result = scs.ttest_1samp(a=sample, popmean=mu, alternative='two-sided') # Genomför två-sidigt t-test m.h.a. ttest_1samp() i SciPy 

print(result) # Printa resultatet

TtestResult(statistic=0.19883879744260527, pvalue=0.8438785807172322, df=27)


Att använda den här funktionen blir väldigt praktiskt om vi t.ex. vill ändra på vår nollhypotes, låt säga att vi undrar om medelvärdet är större än 3.5476 istället (en en-sidig nollhypotes). Vi ändrar då bara alternative till 'greater'. Vi vet sen tidigare att det här egentligen mest bara lägger till en faktor 1/2 på p-värdet. På samma sätt kan vi också ändra till 'less', vilket då beräknar utifrån nollhypotesen att stickprovsmedelvärdet är mindre än populationsmedelvärdet.

In [70]:
result = scs.ttest_1samp(a=sample, popmean=mu, alternative='greater') # Genomför ensidigt t-test.

print(result) # Printa resultatet

TtestResult(statistic=0.19883879744260527, pvalue=0.4219392903586161, df=27)


Eftersom $p=0.042 < \alpha = 0.05$ kan vi med 95% konfidensgrad förkasta nollhypotesen att boenden i hyresrätter är samma som för alla boendeformer. Testet stödjer alltså tesen att hyresgäster har en vardagstillfredsställelse som skiljer sig från övriga boendeformer.

In [66]:
sample

1     5
3     4
4     4
5     3
8     4
10    4
11    3
12    4
13    3
14    3
15    4
16    4
17    3
18    4
19    4
20    3
22    4
27    3
28    4
30    3
31    3
32    2
35    3
36    4
37    4
38    3
39    4
41    4
Name: Vardagstillfredsställelse, dtype: int64

sample

<h3>Hypotestest 2: Varians mellan boende i hyresrätt och icke-hyresrätter i vardagstillfredtställelse</h3>

Konstruera ett hypotestest som undersöker om vardagstillfredtställelse för boenden i hyresrätter skiljer sig från vardagstillfredtställelse för alla boendeformer (antag att populationsmedelvärdet $\mu_0$ = XXXSDDSD mm). Använd en signifikansnivå på $\alpha = 0.05$.

Eftersom standardavvikelsen för populationen är okänd, kommer vi här använda oss av ett t-test.