# Importerar Data

In [1]:
import numpy as np
from lab import LinearRegression

csv_data = []
with open("Small-diameter-flow.csv","r") as lines:
    header_line = lines.readline() # variabel for header line som representerar rubriker den ska skippas. 
    
    for line in lines:
        list_row = line.split(",") # datan använder komma för att splittra varje kolumn så vi dela det på varje kolumn en lista  där alla elementer representerar dess columner
        values = [float(x) for x in list_row[1:]] # plockar ut värde från lista men eftersom det är loop så varje lista kommer representera rader. första elementen i listan represesenterar index i csv filen så den hoppar man över och man tolkar andra värde som float.
        csv_data.append(values) # lägger till listan i csv så varje rad representeras som listan av listan.
    
    data = np.array(csv_data) # representerar csv_data listan som np array form. Varje rad är lista av Y och X(n) värderna som sedan byggs vidare på nästa rad alltså hela är lista av listor.

# Skapa data relaterad variabler som är beroende och oberoende

In [2]:
# Data variabel har vi arrays där varje värde representerar kolumner: [Flow, Kinematic, Geometric, Inertial, Observer].

Y = data[:, 0]      # Väljer kolumn 0 alltså Flow som Y
X = data[:, 1:]     # Väljer kolumn 1-4 resterande som X

# Skapar variabel genom att köra klassen

In [3]:
# Skapar model med valda data
model = LinearRegression(X, Y)

# G metoder test

In [4]:
# Beräknar modelens varians
model.calculate_variance()


0.00627229253835668

In [5]:
# Beräknar modelens standardavvikelse
model.calculate_standard_deviation()

0.07919780639864137

In [6]:
# Beräknar F-test för att se om hela modelen är signifikant dess f-stat och p-värde
model.calculate_f_test_significance()

(16897.077024462742, 2.1976043176933036e-244)

In [7]:
# Beräknar R^2 värdet
model.calculate_r2()

0.9971526073276518

# VG metoder test

In [8]:
# Beräknar T-test för att kunna se signifikansen för varje koefficient
model.calculate_coefficients_significance()

[(-77.35899810247139, 3.227368859576785e-147),
 (226.15296032230145, 5.7305800459623275e-236),
 (1372.1137729776603, 0.0),
 (-242.10379744779928, 1.1628066742155072e-241),
 (18.408987070684557, 2.3422411253725926e-44)]

In [9]:
# Beräknar Pearson korrelationsmatrisen för att se insatsvariablerna
model.calculate_pearson_correlation_matrix()

array([[1.        , 0.86313508, 0.96867075, 0.10322659],
       [0.86313508, 1.        , 0.91833003, 0.17519913],
       [0.96867075, 0.91833003, 1.        , 0.12198107],
       [0.10322659, 0.17519913, 0.12198107, 1.        ]])

In [10]:
# Beräknar konfidensintervall för varje koefficient
model.calculate_coefficients_confidence_intervals()

[(-2.64964441777957, -2.5178937556040677),
 (0.8624201737656193, 0.8775952460885984),
 (3.597971371570156, 3.6083299997976206),
 (-0.7580149532930897, -0.7457642108016135),
 (0.015071933506170976, 0.018689074725656035)]

# G uppgifter resultat

In [11]:
# Skriver ut resultatet
print("Modelens form")
print(f"Antal rader (n): {model.n}")
print(f"Antal variabler (d): {model.d}")

print("\nRegressionskoefficienter (b)")
print(f"beta_0: {model.b[0]:.4f}")
print(f"beta_1: {model.b[1]:.4f}")
print(f"beta_2: {model.b[2]:.4f}")
print(f"beta_3: {model.b[3]:.4f}")
print(f"beta_4: {model.b[4]:.4f}")

print("\nStatistiska analyseringar")
print(f"Varians : {model.var:.4f}")
print(f"Standardavvikelse: {model.std:.4f}")
print(f"R^2-värde: {model.calculate_r2():.4f}")

# Hämtar ut och sedan skriver ut F-test statistiken och p-värdet
F_stat, p_val = model.calculate_f_test_significance()
print("\nSignifikanser")
print(f"F = {F_stat} p = {p_val}")

Modelens form
Antal rader (n): 198
Antal variabler (d): 4

Regressionskoefficienter (b)
beta_0: -2.5838
beta_1: 0.8700
beta_2: 3.6032
beta_3: -0.7519
beta_4: 0.0169

Statistiska analyseringar
Varians : 0.0063
Standardavvikelse: 0.0792
R^2-värde: 0.9972

Signifikanser
F = 16897.077024462742 p = 2.1976043176933036e-244


# VG Uppgifter Resultat

In [12]:
# Hämtar ut sedan skriver ut T-test resultat för varje koefficient inkluderad intercept och p-värdet
print("t-värde och p-värde för varje koefficient:")
coeff_sign = model.calculate_coefficients_significance()
for i, (t_stat, p_val) in enumerate(coeff_sign):
    print(f"beta_{i}: t = {t_stat:.4f} p = {p_val}")
    
# Hämtar ut sedan skriver ut konfidensintervall för varje koefficient
print("\nKonfidensintervall:")
ci_list = model.calculate_coefficients_confidence_intervals()
for i, (low, high) in enumerate(ci_list):
    print(f"beta_{i}: från {low:.4f} till {high:.4f}")

# Hämtar ut och skriver ut Pearson korrelationsmatrisen
print("\nPearson Korrelationsmatris:")
corr_matrix = model.calculate_pearson_correlation_matrix()
print(corr_matrix)

t-värde och p-värde för varje koefficient:
beta_0: t = -77.3590 p = 3.227368859576785e-147
beta_1: t = 226.1530 p = 5.7305800459623275e-236
beta_2: t = 1372.1138 p = 0.0
beta_3: t = -242.1038 p = 1.1628066742155072e-241
beta_4: t = 18.4090 p = 2.3422411253725926e-44

Konfidensintervall:
beta_0: från -2.6496 till -2.5179
beta_1: från 0.8624 till 0.8776
beta_2: från 3.5980 till 3.6083
beta_3: från -0.7580 till -0.7458
beta_4: från 0.0151 till 0.0187

Pearson Korrelationsmatris:
[[1.         0.86313508 0.96867075 0.10322659]
 [0.86313508 1.         0.91833003 0.17519913]
 [0.96867075 0.91833003 1.         0.12198107]
 [0.10322659 0.17519913 0.12198107 1.        ]]


# VG Diskussion Lösning

In [13]:
# Kolla "Observer" (sista kolumnen) vilket är sista koefficienten
obs_t_stat, obs_p_val = coeff_sign[-1]
print(f"\nObserver koefficient: t = {obs_t_stat:.4f} p = {obs_p_val}")

# Om p-värdet är mindre eller lika med 0.05 då innebär det att observer bias är statistiskt signifikant
if obs_p_val <= 0.05:
    print("Observer BIAS är statistiskt signifikant")
else:
    print("Ingen statistiskt signifikant skillnad gällande Observer.")


Observer koefficient: t = 18.4090 p = 2.3422411253725926e-44
Observer BIAS är statistiskt signifikant
