##### Observer-bias?

Vi ska göra en kort undersökning för att se om det finns någon skevhet i materialet utifrån vilken av två observatörer som utfört varje test. Vi har i tidigare modeller inte tagit med observatörskolumnen alls, då detta normalt sett faller under felkällor i en rapport.

Vi börjar med att importera nödvändiga bibliotek och datafilen.

In [1]:
import pandas as pd
import numpy as np
import scipy.stats as stats
import LR

data_path = "Small-diameter-flow.csv"
df = pd.read_csv(data_path, index_col=0)

Eftersom vi inte ska ställa upp en helt ny modell, utan bara kontrollera om det finns någon korrelation, behöver vi inte dela upp materialet i y- och X-variabler. Vi behöver inte heller någon kolumn med 1:or.

In [2]:
X = np.column_stack([df['Flow'], df['Kinematic'], df['Geometric'], df['Inertial'], df['Observer']])

I första hand är vi ute efter att se om variabeln _Observer_ har påverkat responsvariabeln _Flow_, så vi kommer helt enkelt att med hjälp av _Pearson-r_ beräkna korrelationen dem emellan:

In [3]:
r = stats.pearsonr(X[:, 0], X[:, 4])
print(f"Korrelationen mellan 'Observer' och 'Flow' är {r[0]:.8f}")
print(f"p-värdet är {r[1]:.8f}")


Korrelationen mellan 'Observer' och 'Flow' är 0.18148989
p-värdet är 0.01050020


Vi får alltså ett värde på ca 0.18 (på en skala där 0 innebär ingen korrelation alls, och 1 eller -1 är maximal korrelation). Det är att betrakta som lågt, men inte försumbart. Det kan mycket väl vara så att valet av observatör kan ha haft en (liten) inverkan på resultatet. Om vi tittar på p-värdet så ser vi att det är nära 0, men inte "extremt" nära. Det finns alltså en liten möjlighet att korrelationen bara beror på slumpen, men det är mycket otroligt.

Vi vill nu också se om det finns någon korrelation mellan _Observer_ och de övriga x-variablerna (_Kinematic_, _Geometric_ och _Inertial_). Det framgår inte hur dessa värden har mätts, och om det i så fall finns någon möjlighet för en observatör att påverka dem. Men vi beräknar helt enkelt Pearson-r, och ser om vi kan utläsa något. 

In [4]:
for j in range(1,4):
    r = stats.pearsonr(X[:, j], X[:, 4])
    print(f"Korrelationen mellan Observer och {df.columns[j]} är {r[0]:.8f}, p-värdet är {r[1]:.8f}")
    

Korrelationen mellan Observer och Kinematic är 0.10322659, p-värdet är 0.14784118
Korrelationen mellan Observer och Geometric är 0.17519913, p-värdet är 0.01355720
Korrelationen mellan Observer och Inertial är 0.12198107, p-värdet är 0.08690459


I samtliga fall får vi alltså r-värden som är mycket nära 0, och p-värdena är numera såpass höga att en eventuell korrelation mycket väl kan bero på slumpen, möjligen med undantag för _Observer_ vs. _Geometric_.

Sammantaget för hela undersökningen kan man ändå säga att risken att det finns ett observatörsbias är såpass stor att man bör överväga att ta reda på vad den kan bero på, samt kanske göra om åtminstone delar av undersökningen.
