# Lösningar till Ordinarie Tentamen - Statistika Metoder AI 22 - 2023-02-10

In [1]:
import numpy as np
import scipy.stats as scs
import pandas as pd
from math import factorial, e

from statsmodels.formula.api import ols
from statsmodels.stats import proportion

### Uppgift 1

Låt de två händelserna A och B representeras grafiskt på följande sätt:

<div>
<img src="Fotbollsplan.png" width="200"/>
</div>
 
Händelsen A är hela cirkeln i mitten av figuren. Händelsen B är den vänstra halvan av figuren. Skugga de delar av figuren som motsvarar:<br><br>
a. $A^c$ (1p)<br>
b. $A\cup B$ (1p)<br>
c. $A\cap B^c$ (1p)

#### Lösning 1

<div>
<img src="Lösning uppgift 1.png" width="500"/>
</div>

### Uppgift 2

Låt $X$ vara ett stickprov med värden ${6, 3, 9, 12, 5, 7, 9}$. Beräkna följande deskriptiva 
mått:<br><br>
a. Stickprovsmedelvärde (2p)<br>
b. Stickprovsstandardavvikelse (2p)<br>
c. Median (1p)<br>
d. Typvärde (1p)

In [2]:
X = np.array([6,3,9,12,5,7,9])

#### Lösning 2a

### $\bar{x} = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n}x_i = \dfrac{6+3+9+12+5+7+9}{7} = 7.29$

In [3]:
np.mean(X)

7.285714285714286

#### Lösning 2b

### $s^2=\frac{1}{n-1}\displaystyle\sum_{i=1}^{n}\left(x_i-{\bar x}\right)^2=\frac{1}{n-1}\left(\displaystyle\sum_{i=1}^{n}x_i^2-n\left({\bar x}\right)^2\right) = \dfrac{6^2+3^2+9^2+12^2+5^2+7^2+9^2-7*7.29^2}{6}=8.9$
### $s = \sqrt{s^2} = \sqrt{8.9}=2.98$

In [4]:
var, std = np.var(X, ddof=1), np.std(X, ddof=1)
print(f'Variance: {var = :.2f}')
print(f'Standard deviation: {std = :.2f}')

Variance: var = 8.90
Standard deviation: std = 2.98


#### Lösning 2c

Sortera $X$ i storleksordning: ${3, 5, 6, 7, 9, 9, 12}$. Medianen ges av det mittersta värdet (som delar datamängden i två lika stora delar).<br><br>
Median: 7

In [20]:
median = np.median(X)
print(f'Median: {median}')

Median: 7.0


#### Lösning 2d

Typvärdet är det värde som förekommer flest gånger i en datamängd. Det enda värdet som förekommer mer än 1 gång är 9, alltså är typvärdet 9.<br><br>
Typvärde: 9

In [5]:
mode = scs.mode(X, keepdims=True)[0][0]
print(f'Typvärde: {mode}')

Typvärde: 9


### Uppgift 3

Använd funktioner ur Pandas, NumPy eller SciPy för att beräkna följande mått. Svara 
med en kod-rad (inga explicita loopar, utan endast inbyggda funktioner). OBS! Inga 
uträknade svar krävs, utan enbart kod.<br><br>
a. Medelvärdet av en kolumn A i en dataframe df. (1p)<br>
b. Stickprovsstandardavvikelsen av en kolumn A i en dataframe df . (1p)<br>
c. Värdet på 𝑧 som tillfredsställer uttrycket 𝑃(𝑍 ≤ 𝑧) = 0.025. Utgå från 
standardnormalfördelningen. (2p)<br>
d. Låt X vara en normalfördelad slumpvariabel, med ett medelvärde på 12, och en 
standardavvikelse på 2. Uttryck sannolikheten att X antar värden mindre än 10, 
samt skriv en kodrad i SciPy för att beräkna sannolikheten. Antag att du redan 
importerat alla de fördelningar vi talat om i kursen. Inget uträknat svar krävs
(2p)<br>
e. Du arbetar med att sälja plastlådor, och vet att det är 50% sannolikhet att du
når försäljningsmålet och säljer fler än 12 lådor per dag. Nu vill du beräkna 
sannolikheten att du uppnår den försäljningen 4 dagar på en vecka. Låt X vara 
en slumpvariabel som räknar antalet dagar i veckan där du uppnår
försäljningsmålet (Räkna på 7 dagar i en vecka). Skriv ett utttryck för 
ovanstående sannolikhet, samt skriv en kodrad för att beräkna den med hjälp 
av SciPy. Antag att du redan importerat alla de fördelningar vi talat om i 
kursen. Inget uträknat svar krävs. (3p)

#### Lösning 3a

Pandas: <code>X['A'].mean()</code><br>
NumPy: <code>np.mean(X['A'])</code>

#### Lösning 3b

Pandas: <code>X['A'].std()</code><br>
NumPy: <code>np.std(X['A'], ddof=1)</code>

#### Lösning 3c

Anropa Point percentile function i SciPy: <code>scs.norm.ppf(0.025)</code>

In [6]:
scs.norm.ppf(0.025)

-1.9599639845400545

#### Lösning 3d

Sannolikheten att $X$ tar värden mindre än 10: $P(X<10)$<br>
Beräknas i SciPy: <code>scs.norm.pdf(x=10, loc=12, scale=2)</code>

In [7]:
scs.norm.pdf(x=10, loc=12, scale=2)

0.12098536225957168

#### Lösning 3e

Situationen kan beskrivas som en serie repeterade Bernoulliexperiment med $p=0.5$. Antalet lyckade experiment på 7 dragningar (en vecka), kommer då vara en slumpvariabel $X$ med fördelningen $X~Bin(n=7, p=0.5)$.<br>
Sannolikheten att få exakt 4 lyckade experiment skrivs som: $P(X=4)$.<br>
Sannolikheten kan beräknas i SciPy med: <code>scs.binom.pmf(k=4, n=7, p=0.5)</code>

In [8]:
scs.binom.pmf(k=4, n=7, p=0.5)

0.27343749999999983

### Uppgift 4

Låt X vara en diskret slumpvariabel med fördelningen: $X\sim Bin(8, 0.2)$. Beräkna 
följande sannolikheter: <br>
a. $P(X=4)$ (2p)<br>
b. $P(X\geq 2)$ (2p)<br><br>
Låt X vara en kontinuerlig slumpvariabel med fördelningen: $X\sim Exp(2)$. Beräkna 
följande sannolikheter:<br>
c. $P(X>2.6)$ (2p)<br>
d. $P(0.4 < X < 0.9)$ (2p)

#### Lösning 4a

PMF för binomialfördelningen: $P(X=x)=\begin{pmatrix}n\cr x\end{pmatrix}p^xq^{n-x}$.<br>
$P(X=4) = \begin{pmatrix}8\cr 4\end{pmatrix}0.2^40.8^{8-4}=\frac{8!}{4!4!}*0.0016*0.4096=0.046$

In [9]:
factorial(8) / factorial(4)**2 * 0.2**4 * 0.8**4

0.04587520000000001

In [10]:
scs.binom.pmf(k=4, n=8, p=0.2)

0.04587520000000002

#### Lösning 4b

$P(X\geq 2)=1-P(X<2)=1-(P(X=0)+P(X=1))$

$P(X=0) = \begin{pmatrix}8\cr 0\end{pmatrix}0.2^00.8^8=\frac{8!}{8!0!}*1*0.167=0.167$<br>
$P(X=1) = \begin{pmatrix}8\cr 1\end{pmatrix}0.2^10.8^7=\frac{8!}{7!1!}*0.2*0.21=0.336$

In [11]:
factorial(8) / (factorial(7)*factorial(1)) * 0.2**1 * 0.8**7

0.3355443200000001

$1-(P(X=0)+P(X=1))=1-0.167-0.336=0.497$

In [12]:
1-scs.binom.cdf(k=1, n=8, p=0.2)

0.4966835200000004

#### Lösning 4c

$P(X>2.6)=1-P(X<2.6)$<br>
CDF för exponentialfördelning: $P(X<x)=1-e^{-\frac{x}{\mu}}$<br><br>
$P(X<2.6)=1-e^{-\frac{2.6}{2}}=0.727$<br>
$P(X>2.6)=1-P(X<2.6)=1-0.727=0.273$

In [13]:
1-e**(-2.6/2)

0.7274682069659875

In [14]:
scs.expon.cdf(x=2.6, scale=2)

0.7274682069659875

#### Lösning 4d

$P(0.4<X<0.9)=P(X<0.9)-P(X<0.4)$<br>
$P(X<0.4)=1-e^{-\frac{0.4}{2}}=0.181$<br>
$P(X<0.9)=1-e^{-\frac{0.9}{2}}=0.362$<br>

In [15]:
1-e**(-0.4/2), 1-e**(-0.9/2)

(0.18126924692201818, 0.36237184837822667)

$P(0.4<X<0.9)=P(X<0.9)-P(X<0.4)=0.362-0.181=0.181$

In [16]:
scs.expon.cdf(x=0.9, scale=2)-scs.expon.cdf(x=0.4, scale=2)

0.18110260145620857

### Uppgift 5

Tre kompisar startar ett odlingsprojekt i sin gemensamma koloniträdgård. De tänker 
satsa järnet på att odla morötter. För att utmana sig själva tänker de väga 
morotsskörden och använda sig av sina statistiska kunskaper för att förbättra skörden 
inför kommande år. De har fått till en riktigt stor morotsodling, och orkar inte väga
alla morötter enskilt, utan nöjer sig med ett stickprov på 10 morötter. Vikterna (gram) 
är: ${64, 86, 88, 77, 85, 109, 122, 124, 74, 91}$. (Stickprovsstandardavvikelsen beräknas 
till $s = 20.13$)<br><br>
a. Utgå från stickprovet ovan och konstruera ett 90% konfidensintervall för 
medelvikten på kompisarnas morötter. Antag att morotsvikten är 
normalfördelad. (4p)<br>
b. Till nästa år provar kompisarna ett tips de fått av några andra på koloniområdet 
att extragödsla morötterna med klippt gräs en gång under försommaren. De tar 
ett lika stort stickprov från den nya skörden
${96, 107, 105, 121, 127, 71, 99, 113, 89, 110}$. Gör ett hypotestest som testar 
på 95% konfidens om medelvikten för morötterna har ökat med den nya 
metoden. Antag att populationsstandardavvikelsen är densamma som före 
gödslingen. (Stickprovsstandardavvikelsen för det nya stickprovet beräknas till
$s_2 = 16.15$). (6p)


#### Lösning 5a

Konfidensintervall för populationsmedelvärde med okänd populationsstandardavvikelse:<br>
#### $\mu = \bar{x}\pm t_{\alpha/2, n-1}\dfrac{s}{\sqrt{n}}$<br>
$\bar{x} = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n}x_i = \dfrac{64+86+88+77+85+109+122+124+74+91}{10} = 92$<br>
$s = 20.13$<br>
$n = 10$<br>
$\alpha = 0.1$<br>
$t_{\alpha/2, n-1} = t_{0.05, 9} =$ {kolla upp i tabell} $= 1.83$<br><br>

#### $\mu = 92\pm 1.83*\dfrac{20.13}{\sqrt{10}} = 92 \pm 11.65$<br>
90% CI: $[80.35, 103.65]$


In [17]:
carrot1 = np.array([64,86,88,77,85,109,122,124,74,91])
carrot2 = np.array([96,107,105,121,127,71,99,113,89,110])

scs.t.interval(0.9, loc=np.mean(carrot1), scale=np.std(carrot1, ddof=1)/np.sqrt(10), df=len(carrot1)-1)

(80.3293409540332, 103.67065904596679)

#### Lösning 6b

Hypotestest för medelvärdesskillnad med okända populationsstandardavvikelser, men som antas lika:<br><br>
Testfunktion:<br>
#### $\dfrac{\bar{x_1}-\bar{x_2}}{S_p\sqrt{(\dfrac{1}{n_1}+\dfrac{1}{n_2})}}\sim t_{n_1+n_2-2}$
#### $S_p = \sqrt{\dfrac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}}$<br><br>

$\bar{x_1}=92$<br>
$\bar{x_2}=\dfrac{96+107+105+121+127+71+99+113+89+110}{10}=103.8$<br>
$s_1 = 20.13 \quad s_2 = 16.15$<br>
$n_1 = n_2 = 10$<br>
$\alpha = 0.05$<br>
$S_p = \sqrt{\dfrac{(10-1)20.13^2+(10-1)16.15^2}{10+10-2}}=18.25$<br><br><br>


$H_0: \mu_2-\mu_1 \leq 0 \quad H_A: \mu_2-\mu_1 > 0$

$t_{test} = \dfrac{103.8-92}{18.25\sqrt{(\dfrac{1}{10}+\dfrac{1}{10})}} = 1.45$<br>
$t_{crit} = t_{\alpha, 10+10-2} = t_{0.05, 18} = 1.734$<br><br>
$t_{test} < t_{crit} \rightarrow H_0$ ej förkastad.<br><br>
Vi kan inte, givet våra två stickprov, påvisa någon skillnad med den nya metoden.

In [18]:
statistic, pvalue = scs.ttest_ind(carrot2, carrot1, alternative='greater', equal_var=True)
print(f'Test-statistic: {statistic = :.2f}')
print(f'p-value: {pvalue = :.2f}')
print(f'p-value > {0.05}: Null hypothesis not rejected')

Test-statistic: statistic = 1.45
p-value: pvalue = 0.08
p-value > 0.05: Null hypothesis not rejected


### Uppgift 6

En kollega har samlat in 10 datapunkter som beskriver ett förväntat linjärt samband. 
Nu är kollegan mitt uppe i att göra en regressionsanalys, men får ett annat brådskande 
ärende och lägger över ansvaret på dig istället. Gör färdigt regressionsanalysen nedan 
genom att beräkna värden på intercept och lutning, samt prediktera värdet för $x = 6$.
(6p)<br><br>
Antal observationer = $10$<br>
$SS_{XY} = 448.3$<br>
$SS_X = 83.6$<br>
$SS_Y = 3094.1$<br>
Stickprovsmedelvärde (Y) = $24.2$
Stickprovsmedelvärde (X) = $7.6$

#### Lösning 6

Linjär regression med kvadratsummor:<br>
$y = b_1x + b_0$<br>
$b_1 = \dfrac{SS_{XY}}{SSX} \quad b_0 = \bar{y}-b_1\bar{x}$<br><br>
$b_1 = \dfrac{448.3}{83.6}=5.36 \quad b_0 = 24.2 - 5.36*7.6 = -16.54$<br><br>
Modell: $y = 5.36x-16.54$<br>
Prediktion: $y(6) = 5.36*6-16.54 = 15.62$

### Uppgift 7

En elev tror att andelen med blåa ögon i skolan är mindre än populationsandelen i 
Sverige (78%). Eleven undersöker alla i sin skolklass ($n=20$) och konstaterar att 14
av de tillfrågade hade blå ögon. Nu behöver eleven hjälp att analysera sitt resultat.<br><br>
a. Konstruera ett konfidensintervall ($\alpha=0.05$) för proportionen blåögda i 
Sverige utifrån elevens undersökning. Stödjer konfidensintervallet elevens 
teori? Motivera ditt svar. (4p)<br><br>
b. Ungefär hur många elever skulle behöva undersökas för att ett 
konfidensintervall likt det i (a) skulle stödja elevens teori, givet att eleven 
finner samma stickprovsproportion ($p=0.7$)? (4p).

#### Lösning 7a

Konfidensintervall för populationsproportion:<br>
$p = \bar{p} \pm z_{\alpha/2} \sqrt{\dfrac{\bar{p}(1-\bar{p}}{n}}$<br><br>

Undersök möjligheter till normalapproximation:<br>
$np = 20*0.7 = 14 \quad n(1-p) = 20*0.3 = 6$ Båda värdena är över 5, alltså är normalapproximationen giltig.<br><br>

$\bar{p} = 14/20 = 0.7$<br>
$n = 20$
$\alpha = 0.05$
$z_{\alpha/2} = z_{0.025} = $ {kolla upp i tabell} $ = 1.96$<br><br>

$p = 0.7 \pm 1.96 \sqrt{\dfrac{0.7*0.3}{20}} = 0.7 \pm 0.201$<br>
95% CI: $[0.50, 0.90]$<br>
Eftersom konfidensintervallet innehåller rikssnittet kan vi inte använda det som stöd för att säga att klassen skulle ha lägre proportion blåögda än rikssnittet.

In [19]:
lower, upper = proportion.proportion_confint(14, 20, alpha=0.05, method='normal')

print(f'Confidence interval (\u03B1=0.05) for proportion of blue eyes: {round(lower,2)}-{round(upper,2)}')

Confidence interval (α=0.05) for proportion of blue eyes: 0.5-0.9


#### Lösning 7b

För att stickprovet med säkerhet skall kunna påvisa en skillnad behöver rikssnittet hamna utanför konfidensintervallet. För att det skall inträffa behöver felmarginalen ($z_{\alpha/2} \sqrt{\dfrac{\bar{p}(1-\bar{p}}{n}}$) bli mindre än skillnaden mellan stickprovsproportionen och rikssnittet ($0.78-0.7=0.08$).<br><br>
D.v.s.: $z_{\alpha/2} \sqrt{\dfrac{\bar{p}(1-\bar{p}}{n}} < 0.08$<br><br>
Ommöblering av formeln ger:<br>
$ n > \dfrac{\bar{p}(1-\bar{p})}{(0.08/z_{\alpha/2})^2}$<br>
Insättning av värden $\bar{p}=0.7$ samt $z_{\alpha/2}=1.96$ ger: <br>
$ n > \dfrac{0.7(1-0.7)}{(0.08/1.96)^2} = 126.05 \approx $ {avrundning uppåt} $ \approx 127$<br><br>
Det krävs alltså minst 127 studenter för att med samma stickprovsproportion kunna säga att rikssnittet ligger utanför det 95%-iga konfidensintervallet.