# 🤖 Hvorfor valgte vi KNN-imputasjon?

I dette prosjektet valgte vi å bruke KNN-imputasjon for å fylle inn manglende verdier i miljødataene våre, spesielt i NILU-datasettet. Denne metoden ble valgt fremfor enklere alternativer som lineær interpolasjon fordi den i større grad tar hensyn til mønstre og sammenhenger i dataene. I det følgende forklarer vi hvordan KNN-imputasjon fungerer, hvorfor vi valgte det, og hvilke fordeler og begrensninger metoden har hatt i vår bruk.

---

##  Hva er KNN-imputasjon?

KNN-imputasjon (K-Nearest Neighbors) er en metode der manglende verdier estimeres ved hjelp av observasjoner som ligner på den manglende raden. Når en verdi mangler i en rad, finner algoritmen de *k* mest like radene basert på øvrige verdier, og fyller inn en verdi (ofte gjennomsnitt) basert på disse. Dette gjør at metoden fanger opp både mønstre og korrelasjoner i dataene, og er spesielt godt egnet når verdiene ikke varierer helt tilfeldig.

👉 For mer teknisk informasjon, se [Scikit-learn sin dokumentasjon](https://scikit-learn.org/stable/modules/generated/sklearn.impute.KNNImputer.html).

---

##  Hvorfor vi valgte KNN-imputasjon

1. **Bevarer naturlige variasjoner:**  
   I motsetning til lineær interpolasjon, som gir rette linjer mellom kjente verdier, klarer KNN å bevare sesongmønstre og naturlige svingninger.

2. **Tar hensyn til sammenhenger mellom variabler:**  
   Metoden bruker likheter mellom observasjoner, noe som er viktig i miljødata der verdier ofte påvirker hverandre.

3. **Fungerer ved store hull:**  
   Lineær interpolasjon fungerer dårlig ved lange perioder med manglende data. KNN håndterer dette bedre ved å se på helheten i datasettet.

4. **Enkel å justere:**  
   Antall naboer (*k*) kan justeres for å kontrollere hvor mye påvirkning omgivelsene skal ha.

---

##  Begrensninger og utfordringer

Selv om KNN-imputasjon gir bedre resultater enn enklere metoder i vårt tilfelle, er det ikke uten problemer:

- **Avhenger sterkt av mønstre i dataene:**  
  Hvis datasettet har mye støy eller lite struktur, kan KNN gi dårligere estimater enn forventet.

- **Sensitiv for valg av *k*:**  
  Et for lavt eller for høyt *k*-verdi kan føre til overtilpasning eller for "flate" resultater. Vi valgte *k = 100* etter flere forsøk der vi sammenlignet resultatene, men det er ikke nødvendigvis optimalt.

- **Rett linjer oppstår fortsatt:**  
  Selv med KNN så vi noen rette linjer i visualiseringene. Dette kan skyldes at enkelte manglende verdier havnet i like omgivelser, eller at algoritmen fant identiske nabolag å fylle inn med.

- **Tidsrekkefølge ignoreres:**  
  KNN bruker ikke informasjon om at dataene er en tidsserie, og kan derfor "låne" verdier fra andre sesonger, noe som i enkelte tilfeller kan gi lite realistiske resultater.

---

## 📊 Visualisering med og uten KNN-imputasjon

---




**Før KNN-imputasjon**

Grafen nedenfor viser målingene for NO₂ der manglende verdier er fylt inn ved hjelp av lineær interpolasjon. Denne metoden estimerer verdiene ved å trekke en rett linje mellom den siste kjente verdien og den neste kjente verdien. Resultatet er mange rette linjer i visualiseringen, noe som tydelig viser at metoden ikke tar hensyn til sesongvariasjoner eller andre naturlige mønstre i dataene.

![Før KNN-imputasjon](../resources/images/knn/NO2_without_KNN.png)




**Etter KNN-imputasjon**

Grafen nedenfor viser målingene for NO₂ etter at manglende verdier er fylt inn ved hjelp av KNN-imputasjon. I motsetning til lineær interpolasjon tar KNN-metoden hensyn til mønstre og sammenhenger i dataene, noe som gir en mer realistisk utfylling av manglende verdier. Dette resulterer i en jevnere visualisering som bedre reflekterer sesongvariasjoner og naturlige trender i dataene. Vi opplevde imidlertid fortsatt noen problemer med KNN-imputasjonen, som førte til enkelte rette streker i grafen, men i betydelig mindre grad enn tidligere. Til tross for omfattende feilsøking klarte vi ikke å eliminere dette helt.

![Etter KNN-imputasjon](../resources/images/knn/NO2_with_KNN.png)

---

## 🧾 Oppsummering

KNN-imputasjon har vært et nyttig verktøy for å forbedre kvaliteten i NILU-datasettet. Metoden gir mer realistiske og nyanserte estimater enn enkle metoder, og bidrar til at analyser og modeller baseres på et mer helhetlig datasett. Samtidig må man være oppmerksom på at algoritmen ikke forstår kontekst, og at resultatene kan påvirkes av valg av parametere og datastruktur.

Derfor har vi merket alle imputerte verdier eksplisitt i datasettet, slik at det er tydelig hva som er målt og hva som er estimert. Det gir transparens og mulighet for videre vurdering og filtrering.

### [**Tilbake til datarensing**](01_data_cleaning.ipynb)

#### [**Til samlesiden**](../docs/samleside.md)