In [1]:
import numpy as np
from lab import LinearRegression

csv_data = []
with open("Small-diameter-flow.csv","r") as lines:
    header_line = lines.readline() # variabel for header line som representerar rubriker den ska skippas. 
    
    for line in lines:
        list_row = line.split(",") # datan använder komma för att splittra varje kolumn så vi dela det på varje kolumn en lista  där alla elementer representerar dess columner
        values = [float(x) for x in list_row[1:]] # plockar ut värde från lista men eftersom det är loop så varje lista kommer representera rader. första elementen i listan represesenterar index i csv filen så den hoppar man över och man tolkar andra värde som float.
        csv_data.append(values) # lägger till listan i csv så varje rad representeras som listan av listan.
    
    data = np.array(csv_data) # representerar csv_data listan som np array form. Varje rad är lista av Y och X(n) värderna som sedan byggs vidare på nästa rad alltså hela är lista av listor.

In [2]:
# data variabel har vi arrays där varje värde representerar kolumner: [Flow, Kinematic, Geometric, Inertial, Observer].

Y = data[:, 0]      # Väljer kolumn 0 alltså Flow som Y
X = data[:, 1:]     # Väljer kolumn 1-4 resterande som X

In [3]:
# Skapar model med valda data
model = LinearRegression(X, Y)

In [4]:
# Beräknar modelens varians
model.calculate_variance()


0.00627229253835668

In [5]:
# Beräknar modelens standardavvikelse
model.calculate_standard_deviation()

0.07919780639864137

In [6]:
# Beräknar F-test för att se om hela modelen är signifikant dess f-stat och p-värde
model.calculate_f_test_significance()

(16897.077024462742, 2.1976043176933036e-244)

In [7]:
# Beräknar R^2 värdet
model.calculate_r2()

0.9971526073276518

In [8]:
"""VG"""
# Beräknar T-test för att kunna se signifikansen för varje koefficient
model.calculate_coefficients_significance()

[(-6.126662954912394, 4.942521821101141e-09),
 (17.910818368085252, 6.674367074765531e-43),
 (108.6684009491941, 4.688266515773313e-175),
 (-19.17408967864669, 1.4351795240649402e-46),
 (1.4579513940191675, 0.14647924341702467)]

In [9]:
"""VG"""
# Beräknar Pearson korrelationsmatrisen för att se insatsvariablerna
model.calculate_pearson_correlation_matrix()

array([[1.        , 0.86313508, 0.96867075, 0.10322659],
       [0.86313508, 1.        , 0.91833003, 0.17519913],
       [0.96867075, 0.91833003, 1.        , 0.12198107],
       [0.10322659, 0.17519913, 0.12198107, 1.        ]])

In [10]:
"""VG"""
# Beräknar konfidensintervall för varje koefficient
model.calculate_coefficients_confidence_intervals()

[(-3.4155513554603307, -1.751986817923307),
 (0.7742028321594377, 0.96581258769478),
 (3.5377534941548423, 3.668547877212934),
 (-0.8292322702388162, -0.674546893855887),
 (-0.0059556158725506785, 0.03971662410437769)]

In [11]:
# Skriver ut resultatet
print(f"Antal rader (n): {model.n}")
print(f"Antal variabler (d): {model.d}")

print("\nRegressionskoefficienter (b):")
print(f"beta_0: {model.b[0]:.4f}")
print(f"beta_1: {model.b[1]:.4f}")
print(f"beta_2: {model.b[2]:.4f}")
print(f"beta_3: {model.b[3]:.4f}")
print(f"beta_4: {model.b[4]:.4f}")

print(f"\nVarians : {model.var:.4f}")
print(f"Standardavvikelse: {model.std:.4f}")
print(f"R^2-värde: {model.calculate_r2():.4f}")

# Hämtar ut och sedan skriver ut F-test statistiken och p-värdet
F_stat, p_val = model.calculate_f_test_significance()
print("\nF-test:")
print(f"F = {F_stat} p = {p_val}")

Antal rader (n): 198
Antal variabler (d): 4

Regressionskoefficienter (b):
beta_0: -2.5838
beta_1: 0.8700
beta_2: 3.6032
beta_3: -0.7519
beta_4: 0.0169

Varians : 0.0063
Standardavvikelse: 0.0792
R^2-värde: 0.9972

F-test:
F = 16897.077024462742 p = 2.1976043176933036e-244


In [12]:
"""VG"""
# Hämtar ut sedan skriver ut T-test resultat för varje koefficient inkluderad intercept och p-värdet
print("T-test för varje koefficient:")
coeff_sign = model.calculate_coefficients_significance()
for i, (t_stat, p_val) in enumerate(coeff_sign):
    print(f"beta_{i}: t = {t_stat:.4f} p = {p_val:.10f}")
    
# Hämtar ut sedan skriver ut konfidensintervall för varje koefficient
print("\nKonfidensintervall:")
ci_list = model.calculate_coefficients_confidence_intervals()
for i, (low, high) in enumerate(ci_list):
    print(f"beta_{i}: [{low:.4f} <-> {high:.4f}]")

# Hämtar ut och skriver ut Pearson korrelationsmatrisen
print("\nPearson korrelationsmatris:")
corr_matrix = model.calculate_pearson_correlation_matrix()
print(corr_matrix)

T-test för varje koefficient:
beta_0: t = -6.1267 p = 0.0000000049
beta_1: t = 17.9108 p = 0.0000000000
beta_2: t = 108.6684 p = 0.0000000000
beta_3: t = -19.1741 p = 0.0000000000
beta_4: t = 1.4580 p = 0.1464792434

Konfidensintervall:
beta_0: [-3.4156 <-> -1.7520]
beta_1: [0.7742 <-> 0.9658]
beta_2: [3.5378 <-> 3.6685]
beta_3: [-0.8292 <-> -0.6745]
beta_4: [-0.0060 <-> 0.0397]

Pearson korrelationsmatris:
[[1.         0.86313508 0.96867075 0.10322659]
 [0.86313508 1.         0.91833003 0.17519913]
 [0.96867075 0.91833003 1.         0.12198107]
 [0.10322659 0.17519913 0.12198107 1.        ]]


In [13]:
"""VG"""
# Kolla "Observer" (sista kolumnen) => sista koefficienten
obs_t_stat, obs_p_val = coeff_sign[-1]
print(f"\nObserver koefficient: t = {obs_t_stat:.4f} p = {obs_p_val:.4f}")

# Om p-värdet är mindre än 0.05 då innebär det att observer bias vara statistiskt signifikant
if obs_p_val < 0.05:
    print("Observer BIAS är statistiskt signifikant!")
else:
    print("Ingen statistiskt signifikant skillnad för Observer.")


Observer koefficient: t = 1.4580 p = 0.1465
Ingen statistiskt signifikant skillnad för Observer.


In [None]:
import pandas as pd
df = pd.read_csv("Small-diameter-flow.csv")

Y2 = df["Flow"]
X1 = df[["Kinematic","Geometric","Inertial","Observer"]]


InvalidIndexError: (['Kinematic'], ['Geometric'], ['Inertial'], ['Observer'])