### Laboration Statistiska Metoder
_Björn Winterfjord_

Vi börjar med att importera nödvändiga bibliotek, inklusive filen <span style = "color:green">LR.py</span>, där våra funktioner för linjär regression finns. Därefter läser vi in datafilen <span style = "color:green">Small-diameter-flow.csv</span>.

In [38]:
import pandas as pd
import numpy as np
import scipy.stats as stats
import LR

data_path = "Small-diameter-flow.csv"
df = pd.read_csv(data_path, index_col=0)


Vi låter responsvektorn y vara kolumnen <span style = "color:green">Flow</span>, och vi ska undersöka om det finns något samband mellan denna och de tre variablerna <span style = "color:green">Kinematic</span>, <span style = "color:green">Geometric</span> och <span style = "color:green">Inertial</span>. Vi sparar dessa tre kolumner i vår designmatris <span style = "color:green">X</span>, tillsammans med en kolumn med 1:or.

Vi tar alltså inte med kolumnen <span style = "color:green">Observer</span> i nuläget, men kommer senare att underöka om det finns något observatörsbias i experimentet.

In [39]:
y = df["Flow"]
X = np.column_stack([np.ones(y.shape[0]), df['Kinematic'], df['Geometric'], df['Inertial']])

Nu utför vi (med hjälp av linjär algebra) vår linjära regression genom att anropa funktionen <span style = "color:green">fit</span> från <span style = "color:green">LR.py</span>. Vi söker ett linjärt samband på formen
$$
y=\beta_0 + \beta_1 [Kinematic] + \beta_2 [Geometric] + \beta_3[Inertial]
$$
där $\beta_0$ är interceptet och $\beta_1$, $\beta_2$ och $\beta_3$ är parametrar för de olika x-variablerna. Vi kommer senare att utvärdera rimligheten i denna modell.

De olika $\beta$-värdena lagras i listan _b_.

In [40]:

m = LR.LinearRegression()
b = m.fit(X, y)
print(f"Vi får β0 = {b[0]:.7f}, β1 = {b[1]:.7f}, β2 = {b[2]:.7f}, β3 = {b[3]:.7f}")


Vi får β0 = -2.5597931, β1 = 0.8687152, β2 = 3.6104182, β3 = -0.7536877


Det finns en risk att de olika x-variablerna inte är oberoende av varandra, och vi kommer därför senare att göra en _dependency check_ för att utröna om så är fallet. Men vi ska börja med att utvärdera ovanstående modell. Det första vi gör är att ta fram dimensionstalet _d_ (vi vet redan att det kommer att bli 3), samt storleken på stickprovet, _n_. Dessa värden kommer vi att behöve vid flera tillfällen i vår kommande analys.

In [41]:
d = m.dimension(b)
n = m.sample_size(y)
print(f"d = {d}, n = {n}")

d = 3, n = 198


Nu ska vi beräkna _variansen_ i vårt material, och för att kunna göra det behöver vi först beräkna SSE, _sum of square errors_. 

In [42]:
# X = designmatrisen, y = responsvektorn, b = listan över β-värden
# n = sample size, d = dimensionen, var = variansen
SSE = m.SSE(y, X, b)
var = m.variance(SSE, n, d)
print(f"Variansen är {var:.7f}")


Variansen är 0.0063087


Värdet på variansen säger oss inte så mycket, dels eftersom den är dimensionslös, och dels eftersom vi inte har något liknande experiment att jämföra med. Dessutom är både våra x- och y-värden logaritmerade.

Nu ska vi beräkna standardavvikelsen $S$ (som ju är roten ur variansen) och variansen bland y-värdena, $S_{yy}$. Därefter kan vi beräkna $SSR$, _sum of square residuals_.

In [43]:
S = m.deviation(var)
Syy = m.Syy(n, y)
SSR = m.SSR(Syy, SSE)

print(f"S = {S:.7f}, Syy = {Syy:.7f}, SSR = {SSR:.7f}")


S = 0.0794272, Syy = 425.1441930, SSR = 423.9203080


Värdet på standardavvikelsen har samma dimension som x-variablerna, men eftersom dessa var logaritmerade, så blir även S dimensionslös. Det är dock ett slags mått på hur stora avvikelserna är från medlet, i medeltal.

SSR och Syy säger oss inte heller så mycket i nuläget, utan behövs mest för att räkna fram de viktiga statistikor vi behöver för att avgöra modellens relevans.

Nu ska vi beräkna F-värdet ("_F-statistic_"). Ett högt F-värde (långt från 1) innebär att det finns ett relevant samband mellan vårt X och y, alltså att vår modell i någon mening "makes sense".

In [44]:
F = m.Fstatistic(SSR, d, var)
print(f"F = {F}")


F = 22398.7658956827


Ett högt värde, så det är ingen tvekan om att det finns ett tydligt samband. Fortfarande finns dock en risk att sambandet är "skevt", då det kan påverkas av att X-variablerna inte är oberoende, vilket vi återkommer till.

Vi kan även beräkna $R^2$ (ibland kallad _Rsq_), som ger ett mått på hur stor andel av variansen i materialet som kan förklaras av vår modell:

In [45]:
Rsq = m.Rsq(SSR, Syy)
print(f"Rsq = {Rsq}")


Rsq = 0.9971212473210772


Vi fick alltså ett mycket högt värde på $R^2$, 0,997 motsvarar inte mindre än 3 standardavvikelser (3 $\sigma$) ! En mycket stor del av variansen kan alltså förklaras av vår modell.

Men - kanske är det så att vår modell är "för bra för att vara sann"? Om våra x-variabler inte är oberoende, kan det påverka modellen i stor utsträckning. Det kan både vara så att de "ger varandra draghjälp", eller motverkar varandra. Det kan också vara så att någon variabel är mer eller mindre betydelselös.

För att testa detta, gör vi ett s.k. _dependency check_, "beroende-test". Vi beräknar Pearson-r för varje kombination av två x-variabler, i vårt fall blir det alltså sammanlagt tre tester. Om vi får r-värden nära 1 eller -1, innebär det att det är ett tydligt samband. I samband med detta får vi även fram _p-värdet_, som är ett mått på sannolikheten att det inte skulle finnas något samband. Ett p-värde nära 0 gör att vi kan vara mycket säkra på att det _finns_ ett samband.

In [46]:
# Dependency check

print(f"kinematic / geometric: r = {m.Pearsonr(X, 1, 2)[0]:.7f}, p = {m.Pearsonr(X, 1, 2)[1]}")
print(f"kinematic / inertial: r = {m.Pearsonr(X, 1, 3)[0]:.7f}, p = {m.Pearsonr(X, 1, 3)[1]}")
print(f"geometric / inertial: r = {m.Pearsonr(X, 2, 3)[0]:.7f}, p = {m.Pearsonr(X, 2, 3)[1]}")

kinematic / geometric: r = 0.8631351, p = 4.5604633624399433e-60
kinematic / inertial: r = 0.9686708, p = 1.588545639896567e-120
geometric / inertial: r = 0.9183300, p = 7.951572627158216e-81


Vi har alltså "tyvärr" tydliga beroenden mellan alla tre x-variablerna, vilket gör att den modell vi räknat ut är näst intill värdelös! Det kan vara så att de olika variablerna påverkar varandra, eller så kan en av variablerna "följa med på köpet" när en annan ökar, och därmed vara ganska irrelevant på egen hand!

Vi ska titta lite på signifikansen hos de olika β-parametrarna, för att se om vi kan få någon ledtråd. Vi börjar med att beräkna varians/kovarians-matrisen:

In [47]:
# Beräkna varians/kovarians-matris
c = m.var_covar(X, var)
print(c)

[[ 0.1786122  -0.01993074 -0.00513088  0.01567684]
 [-0.01993074  0.00237237  0.00043044 -0.00168614]
 [-0.00513088  0.00043044  0.00108079 -0.0008474 ]
 [ 0.01567684 -0.00168614 -0.0008474   0.00154512]]


Vi kommer att göra ett tvåsidigt relevanstest, där vi kommer att välja den minsta av de två "svansarna" som vi får genom att titta på den kumulativa distributionsfunktionen, respektive "survival-funktionen". För att göra detta test vehövs värdena längs diagonalen i varians/kovariansmatrisen: 

In [48]:
# beräkna signifikans för de enskilda β-parametrarna
sig=[]
for a in range(d+1):
    sig.append(m.significance(a,b,c,S))
for a in range(d+1):
    print(f"Relevansen för β{a} är {m.relevance(sig, a, n, d)}")
    

Relevansen för β0 är 1.369442865878956e-146
Relevansen för β1 är 2.279977868333894e-236
Relevansen för β2 är 0.0
Relevansen för β3 är 1.9192830886558436e-242


Vi ser att vi har värden extremt nära 0 i samtliga fall, det är alltså i princip omöjligt att de inte är signifikanta. Men återigen, detta kan påverkas av deras inbördes beroende.

Vi vill även presentera ett konfidensintervall för de olika β-parametrarna, och vi vill välja en konfidensnivå på 95%. Därmed behöver vi börja med att beräkna lämpligt $t_{\alpha/2}$ på T-kurvan, alltså hur många standardavvikelser vi avviker.

In [49]:
print(f"t-värdet är {stats.t.ppf(1-0.05/2,n-d-1)}")
for a in range(d+1):
    ci=m.confidence_interval(n,d,var,c,a)
    print(f"Konfidensintervallet för β{a} på 95%-nivån är mellan {b[a]+ci} och {b[a]-ci}")


t-värdet är 1.972267532579456
Konfidensintervallet för β0 på 95%-nivån är mellan -2.554534655293283 och -2.5650516160478123
Konfidensintervallet för β1 på 95%-nivån är mellan 0.8693212249244441 och 0.8681091588053166
Konfidensintervallet för β2 på 95%-nivån är mellan 3.610827229208975 och 3.610009129744773
Konfidensintervallet för β3 på 95%-nivån är mellan -0.7531986370351633 och -0.754176809399355


$t_{\alpha/2}$-värdet på ca 1,97 motsvarar alltså ungefär 2 standardavvikelser, så vi kan ge ovanstående mått på β-parametrarna med 95% säkerhet.

Men, som vi tidigare konstaterat så är alla dessa siffror egentligen ganska ointressanta, då vi konstaterat att vår modell har en stor svaghet; de olika x-variablerna är i olika grad beroende av varandra. Vi bör därför testa andra modeller, vi skulle exempelvis kunna testa att låta en variabel vara $x_2 * x_3$, ellar att göra en regression på bara två av x-variablerna, eller någon annan kombination. Det blir dock litte tids- och utrymmeskrävande, så vi nöjer oss med att helt enkelt 