# Prediktiv Analyse med lineær regresjon
Følgende er en demosntrasjon av en fullstedig pipeline for en prediktiv analyse av Trondheim Forecast. Her tas lineær regresjon i bruk. 

##### Lineær regresjon:
Lineær regresjon er et verktøy som forsøker å modellere sammenheng mellom en avhengig variabel som for eksempel temperatur og en uavhengig varaibel ved å tilpasse en rett linje.

$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n + \epsilon
$$

- y er for oss den avhengige variabelen Temperatur.
- x er de uavhengige varaiblene som for eksempel Tid
- beta_0 er konstantleddet
- beta_n er regresjonskoeffisienter som minimerer forskjellen mellom predikerte verdier og de faktiske verdiene. 

#### Import av moduler og klasser:

In [None]:
import pandas as pd
from src.data_reader import DataLeser
from src.data_prediction import DataPrediksjon

#### Last inn renset data

In [None]:
df = DataLeser().les_csv("data/renset_trondheim_forecast.csv")

#### Initialiser Prediksjonsklasse:

In [1]:
pred = DataPrediksjon(df, målvaraibel = "Temperatur")

NameError: name 'DataPrediksjon' is not defined

#### Tren modell:
- trener den lineære modellen på treningsdata. Bruker Pipeline med StandardScaler og OneHotEncoder.

In [None]:
modell = pred.tren_lineær_modell()

#### Tidsserieplott:
Viser faktisk og predikert temperatur over tid i to linjediagrammer. Gir oversikt over tidsavhengig avvik.

In [None]:
pred.visualiser_tidserie()

#### Scatterplot:
Sammenligner faktisk og predikert temperatur. 

In [None]:
pred.visualiser_scatter()

#### Boxplot av prediksjonsfeil per uke:
Vi tar i bruk et boxplot for å vise spredningen i feil per uke. 

In [None]:
pred.visualiser_feil_pr_uke()

#### Modellevaluering:
Evaluerer modellen på testsettet. R^2 måler forklaringsgrad mens RMSE viser gjennomsnittlig predikjsonsavvik.

In [None]:
resultater = pred.evaluer_modell()
print("Evalueringsresultater:")
for navn, res in resultater.items():
    print(f"f{navn}: R2= {res['R^2']:.3f}, RMSE= {res['RMSE']:.3f})