# 🚆 Hackathon: Prediksjon av Togforsinkelser
Velkommen til dette hackathon-caset! Målet er å bygge en modell som kan predikere forsinkelser i togtrafikken. Vi gir deg et datasett og forslag til steg for å komme i gang. 

## 1. 📊 EDA (Utforskende Dataanalyse)
I denne seksjonen skal du bli kjent med datasettet. Målet er å forstå hvilke variabler som finnes, hvordan dataene er fordelt, og om det finnes åpenbare feil eller mangler.

**Eksempelsteg:**
* Skriv ut de første radene i datasettet (df.head())

* Undersøk datatyper og kolonnenavn (df.info())

* Sjekk for manglende verdier og outliers

* Visualiser fordelingen av viktige variabler (f.eks. histogrammer, boksplott)

* Se på sammenhenger mellom variabler (f.eks. korrelasjonsmatrise)


#### Utregning av retning 
Datasettet inneholder ingen informasjon om hvilken retning toget kjører i. Dette kan regnes ut ved bruk av tognummer på denne måten
**Formel for `direction` basert på `TRAIN_ID`:**

| Betingelse                                                                 | Retning                  |
|----------------------------------------------------------------------------|--------------------------|
| 2100–2199 og oddetall                                                      | Lillestrøm–Asker         |
| 2100–2199 og partall                                                       | Asker–Lillestrøm         |
| 2204                                                                       | Asker–Lillestrøm         |
| 2200–2299 og oddetall (unntatt 2281)                                       | Lillestrøm–Spikkestad    |
| 2200–2299 og partall (unntatt 2204)                                        | Spikkestad–Lillestrøm    |
| 2281                                                                     | Night train              |


In [5]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Last inn datasettet
df = pd.read_csv('rask_testdata.csv', sep=';') # Endre filnavn og delimiter ved behov

# Se på de første radene
df.head()

  df = pd.read_csv('rask_testdata.csv', sep=';') # Endre filnavn og delimiter ved behov


Unnamed: 0,NOMINAL_DATE,TRAIN_ID,CONTRACTOR_DESC,MAIN_LINE_ID,STREKNING,STATION_AFFECTED,STATION_ID,PLANNED_DEPARTURE_TIME,ACTUAL_DEPARTURE_TIME,PLANNED_ARRIVAL_TIME,...,LEVEL2_DESC,LEVEL3_DESC,RESPONSIBLE,RESPONSIBLE_CODE,REGISTERED_EXTRA_DELAY_SEC/60,DELAY_SEC,STOP_TYPE,OPERATOR_NAME,CONTRACTOR_ID,TRAIN_CATEGORY_NAME
0,2018-12-01T00:00:00.000Z,2226,NSB Øst,L1,Spikkestad - Lillestrøm,Stabekk,STB,2018-12-01T10:56:00.000Z,2018-12-01T11:02:23.000Z,2018-12-01T10:55:00.000Z,...,Trafikkavvikling,-,Trafikkavvikling,TA,5.0,300.0,P,NSB Persontog,NSB OST,NSB Lokaltog
1,2018-12-01T00:00:00.000Z,2272,NSB Øst,L1,Spikkestad - Lillestrøm,Skøyen,SKØ,2018-12-01T22:32:00.000Z,2018-12-01T22:37:56.000Z,2018-12-01T22:31:00.000Z,...,Trafikkavvikling,-,Trafikkavvikling,TA,5.0,300.0,P,NSB Persontog,NSB OST,NSB Lokaltog
2,2018-12-01T00:00:00.000Z,2275,NSB Øst,L1,Spikkestad - Lillestrøm,Heggedal,HEG,2018-12-02T00:25:00.000Z,2018-12-02T00:30:34.000Z,2018-12-02T00:24:00.000Z,...,Trafikkavvikling,-,Trafikkavvikling,TA,5.0,300.0,P,NSB Persontog,NSB OST,NSB Lokaltog
3,2018-12-01T00:00:00.000Z,2280,NSB Øst,L1,Spikkestad - Lillestrøm,Asker,ASR,2018-12-02T00:04:00.000Z,2018-12-02T00:23:15.000Z,2018-12-02T00:03:00.000Z,...,Uønsket hendelse,-,Ekstern,EXT,18.0,1080.0,P,NSB Persontog,NSB OST,NSB Lokaltog
4,2018-12-02T00:00:00.000Z,2223,NSB Øst,L1,Spikkestad - Lillestrøm,Nationaltheatret,NTH,2018-12-02T10:43:00.000Z,2018-12-02T10:52:20.000Z,2018-12-02T10:42:00.000Z,...,"Sikrings/signalanlegg, fjernstyring",-,Infrastrukturansvarlig,INFRA,8.0,480.0,P,NSB Persontog,NSB OST,NSB Lokaltog


## 2. 🧹 Cleaning (Datavask)
Før du kan trene en modell, må dataene være rene og konsistente. Her håndterer du manglende verdier, konverterer datatyper og fjerner irrelevante eller dupliserte kolonner.

**Eksempelsteg**

* Identifiser og håndter manglende verdier, enten ved å fylle inn med passende verdier (f.eks. median, modus) eller ved å fjerne rader/kolonner med for mange mangler.

* Konverter kolonner til riktige datatyper (f.eks. dato/tid, kategoriske variabler)

* Fjern eller transformer irrelevante kolonner.

* Utfør eventuell feature engineering, for eksempel å lage nye variabler basert på eksisterende data som kan forbedre modellens ytelse


In [6]:
# Sjekk for manglende verdier
df.isnull().sum()

# Fyll inn eller fjern manglende verdier

# Konverter kolonner hvis nødvendig
# df['tidspunkt'] = pd.to_datetime(df['tidspunkt'])

NOMINAL_DATE                         0
TRAIN_ID                             0
CONTRACTOR_DESC                      0
MAIN_LINE_ID                         0
STREKNING                            0
STATION_AFFECTED                     0
STATION_ID                           0
PLANNED_DEPARTURE_TIME            5347
ACTUAL_DEPARTURE_TIME             4337
PLANNED_ARRIVAL_TIME             12851
ACTUAL_ARRIVAL_TIME               4449
DEVIATION_REASON_CODE                0
CODE_DESCRIPTION                     0
FURTHER_CODE_DESCRIPTION             0
LEVEL2_DESC                          0
LEVEL3_DESC                          0
RESPONSIBLE                          0
RESPONSIBLE_CODE                     0
REGISTERED_EXTRA_DELAY_SEC/60        0
DELAY_SEC                            1
STOP_TYPE                         2841
OPERATOR_NAME                        0
CONTRACTOR_ID                        0
TRAIN_CATEGORY_NAME                  0
dtype: int64

## 3. 🧠 Modelloppsett
I denne fasen velges hvilke variabler (features) som skal brukes for å predikere målet (target), og det settes opp en maskinlæringsmodell. Datasettet deles i trenings- og testsett for å kunne evaluere modellens generaliseringsevne. Husk at for Kaggle-konkurransen skal du kun bruke treningsdata til å trene modellen, og testdata til å generere prediksjoner for innsending.

**Eksempelsteg:**
* Velg relevante features og definer target-variabelen.

* Del datasettet i trenings- og testsett ved hjelp av for eksempel `train_test_split` for å sikre uavhengig evaluering.

* Velg og initialiser en passende modell (f.eks. Linear Regression, Random Forest, XGBoost).

* Tren modellen på treningsdataene.

Under har vi brukt Linear regression som eksempel.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# Definer features og target
features = ['REGISTERED_EXTRA_DELAY_SEC/60', 'departure_hour', 'isHoliday']  # Eksempel
target = 'DELAY_SEC'

X = df[features]
y = df[target]

# Del opp i trenings- og testdata
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Tren modellen
model = LinearRegression()
model.fit(X_train, y_train)

## 4. 🔮 Predikering

Etter at modellen er trent, brukes den til å lage prediksjoner på testsettet. Dette gir et inntrykk av hvordan modellen presterer på nye, usette data. For Kaggle-konkurransen skal du generere prediksjoner på testsettet og lagre disse i et format som kan lastes opp til konkurranseplattformen (CSV-fil med ID og predikert verdi).

**Eksempelsteg:**
* Bruk den trente modellen til å predikere målverdier for testsettet (`model.predict`).

* Sammenlign noen av de predikerte verdiene med de faktiske for å få en intuitiv forståelse av modellens ytelse.

* Forbered en innsending til Kaggle ved å lagre prediksjonene i riktig format (f.eks. `submission.csv`).

In [None]:
# Generer prediksjoner
y_pred = model.predict(X_test)

# Vis noen prediksjoner
y_pred[:10]

## 5. 📈 Evaluering
Evaluer modellens ytelse ved hjelp av metrikker. Generer en y_pred med sample indeksering og predikert verdi som leveres i Kaggle.

**Eksempelsteg:**

* Beregn og rapporter MAE og RMSE for testsettet.

* Diskuter resultatene og hva de betyr for modellens praktiske anvendelse.

* Visualiser prediksjoner mot faktiske verdier for å identifisere systematiske feil eller forbedringspotensial.

* Sammenlign flere modeller dersom det er aktuelt.

* Husk å bruke samme evalueringsmetrikk som Kaggle-konkurransen for å kunne sammenligne resultatene direkte.

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np

mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))

print(f"MAE: {mae:.2f}")
print(f"RMSE: {rmse:.2f}")