# üöÜ Hackathon: Prediksjon av Togforsinkelser
Velkommen til dette hackathon-caset! M√•let er √• bygge en modell som kan predikere forsinkelser i togtrafikken. Vi gir deg et datasett og forslag til steg for √• komme i gang. 

## 1. üìä EDA (Utforskende Dataanalyse)
I denne seksjonen skal du bli kjent med datasettet. M√•let er √• forst√• hvilke variabler som finnes, hvordan dataene er fordelt, og om det finnes √•penbare feil eller mangler.

**Eksempelsteg:**
* Skriv ut de f√∏rste radene i datasettet (df.head())

* Unders√∏k datatyper og kolonnenavn (df.info())

* Sjekk for manglende verdier og outliers

* Visualiser fordelingen av viktige variabler (f.eks. histogrammer, boksplott)

* Se p√• sammenhenger mellom variabler (f.eks. korrelasjonsmatrise)


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Last inn datasettet
df = pd.read_csv('../data/data_train.csv', sep=";") # Endre filsti og delimiter ved behov

# Se p√• de f√∏rste radene
df.head()

## 2. üßπ Preprosesering
F√∏r du kan trene en modell, m√• dataene v√¶re rene og konsistente. Her h√•ndterer du manglende verdier, konverterer datatyper og fjerner irrelevante eller dupliserte kolonner. Her utf√∏res n√∏dvendige steg oppdaget i datainspiseringen i forrige steg.

**Eksempelsteg**

* Identifiser og h√•ndter manglende verdier, enten ved √• fylle inn med passende verdier (f.eks. median, modus) eller ved √• fjerne rader/kolonner med for mange mangler.

* Fjerne outliers 

* Konverter kolonner til riktige datatyper (f.eks. dato/tid, kategoriske variabler (ved f.eks. one-hot encoding))

* Fjern eller transformer irrelevante kolonner.  Datasettet inneholder mange kolonner som kanskje ikke er s√• relevante for forsinkelsen. Behold kun de som tilf√∏rer modellen informasjon.

* Utf√∏r eventuell feature engineering, for eksempel √• lage nye variabler basert p√• eksisterende data (se under for utregnign av strekning)

* Utf√∏r eventuell normalisering av verdier 


#### Domenekunnskap
**Utregning av togstrekning/retning (kan brukes som feature)**

Datasettet inneholder ingen informasjon om hvilken retning toget kj√∏rer i. Det finnes ogs√• forskjellige strekninger p√• L1 linjen. Dette kan regnes ut ved bruk av tognummer p√• m√•ten beskrevet under basert p√• `TRAIN_ID`:

| Betingelse                                                                 | Retning                  |
|----------------------------------------------------------------------------|--------------------------|
| 2100‚Äì2199 og oddetall                                                      | Lillestr√∏m‚ÄìAsker         |
| 2100‚Äì2199 og partall                                                       | Asker‚ÄìLillestr√∏m         |
| 2204                                                                       | Asker‚ÄìLillestr√∏m         |
| 2200‚Äì2299 og oddetall (unntatt 2281)                                       | Lillestr√∏m‚ÄìSpikkestad    |
| 2200‚Äì2299 og partall (unntatt 2204)                                        | Spikkestad‚ÄìLillestr√∏m    |
| 2281                                                                     | Nattog              |

**Adgangstider**

Merk at start-stasjoner mangler tidsstempler for `PLANNED_ARRIVAL_TIME` og endestasjon mangler tidsstempel for `PLANNED_ARRIVAL_TIME`.

**`DELAY_SEC`**

En forsinkelse regnes kun som en forsinkelse dersom den er st√∏rre eller lik 240 sekunder (4 minutter) og rundes alltid ned til hele minutt m√•lt i sekunder. Derfor vil verdiene i datasettet alltid v√¶re multipler av 60, med nedre grense p√• 240. 

In [None]:
# Sjekk for manglende verdier
df.isnull().sum()

# Fyll inn eller fjern manglende verdier
df = df.dropna()  # Eksempel: fjerner rader med manglende verdier

# Konverter kolonner hvis n√∏dvendig


# df['tidspunkt'] = pd.to_datetime(df['tidspunkt'])

# ONE-HOT ENCODING
df = pd.get_dummies(df, columns=['RESPONSIBLE_CODE'], drop_first=True)

## 3. üß† Modelloppsett
I denne fasen velges hvilke variabler (features) som skal brukes for √• predikere m√•let (target), og det settes opp en maskinl√¶ringsmodell. Datasettet deles i trenings- og testsett for √• kunne evaluere modellens generaliseringsevne. Husk at for Kaggle-konkurransen skal du kun bruke treningsdata til √• trene modellen, og testdata til √• generere prediksjoner for innsending.

**Eksempelsteg:**
* Velg relevante features og definer target-variabelen.

* Del datasettet i trenings- og testsett ved hjelp av for eksempel `train_test_split` for √• sikre uavhengig evaluering.

* Velg og initialiser en passende modell (f.eks. Linear Regression, Random Forest, XGBoost).

* Bestem hyperparametere for valgt modell

* Tren modellen p√• treningsdataene ved √• kalle p√• en `.fit()`- eller `.train()`-metode

Under har vi brukt Linear regression som eksempel.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# Definer features og target
features = ['REGISTERED_EXTRA_DELAY_SEC/60', 'TRAIN_ID', 'DEVIATION_REASON_CODE']  # Eksempel
target = 'DELAY_SEC'

X = df[features]
y = df[target]

# Del opp i trenings- og testdata
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Bestem hyperparametere for valgt modell


# Tren modellen
model = LinearRegression()
model.fit(X_train, y_train)

## 4. üîÆ Predikering

Etter at modellen er trent, brukes den til √• lage prediksjoner p√• testdataen `X_test`. Dette gir et inntrykk av hvordan modellen presterer p√• ny, usett data. 


Bruk den trente modellen til √• predikere m√•lverdier for testsettet (`model.predict`).


In [None]:
# Generer prediksjoner
y_pred = model.predict(X_test)

# Vis noen prediksjoner
y_pred[:10]

## 5. üìà Evaluering
Evaluer modellens ytelse ved hjelp av metrikker. Konkurransen vurderes ved bruk av RMSE. Det kan v√¶re lurt √• bruke samme evalueringsmetrikk for √• kunne sammenligne resultatene direkte.

**Eksempelsteg:**

* Beregn og rapporter MAE og RMSE for testsettet.

* Diskuter resultatene og hva de betyr for modellens praktiske anvendelse.

* Visualiser prediksjoner mot faktiske verdier for √• identifisere systematiske feil eller forbedringspotensial.

* Sammenlign flere modeller dersom det er aktuelt.



In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error
import numpy as np

mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))

print(f"MAE: {mae:.2f}")
print(f"RMSE: {rmse:.2f}")

# Visualiser
plt.figure(figsize=(10, 6))
plt.plot(y_test.reset_index(drop=True), label='True Values')
plt.plot(y_pred, label='Linear Regression', alpha=0.7)

plt.legend()
plt.title('Model Prediction vs True Values')
plt.xlabel('Sample Index')
plt.ylabel('Delay (seconds)')
plt.show()

## 5. ‚úÖ Submission
N√•r dere har landet p√• en modell dere er forn√∏yd med lokalt, kan dere bruke denne til √• predikere p√• dataen dere finner i data_test.csv.

‚ö†Ô∏è **Viktig:** Denne dataen m√• ogs√• gjennom cleaning og prepping, men pass p√• √• ikke filtrere bort noen rader dersom det inng√•r som en del av rensingen da dette vil medf√∏re at evalueringen av l√∏sningen deres ikke vil fungere.

Prediksjonene skal lastes opp i kagglekonkurransen p√• formatet (ID, DELAY_SEC) hvor ID hentes fra testdatasettet. Se eksempelkode under:


In [None]:
# Les inn testdatasett
df_test = pd.read_csv('../data/data_test.csv', sep=";") # Endre filsti og delimiter ved behov
# Utf√∏r samme datapreparering som p√• treningsdataen for testdatasett

# Bruk samme features som tidligere
X_submission = df_test[features]

# Prediker for testdatasettet
pred_submission = model.predict(X_submission)

# Bruk ID fra testdatasett
submission = pd.DataFrame({
    "ID": df_test['ID'],
    "DELAY_SEC": pred_submission
})
# Lagre til CSV
submission.to_csv("../submissions/linreg_predictions_testdata.csv", index=False)
