# 🤖 Hvorfor valgte vi KNN-imputasjon?

I dette prosjektet har vi valgt å bruke KNN-imputasjon for å håndtere manglende verdier i datasettene våre. Denne metoden ble valgt fordi den gir mer nøyaktige estimater sammenlignet med enklere metoder som lineær interpolasjon, spesielt når det er store intervaller med manglende data. Her forklarer vi hvorfor KNN-imputasjon ble valgt, og vi viser visualiseringer som sammenligner resultatene med og uten KNN-imputasjon.

## Hva er KNN-imputasjon?
KNN-imputasjon (K-Nearest Neighbors) er en metode som fyller inn manglende verdier ved å bruke informasjon fra de nærmeste datapunktene i datasettet. Når en verdi mangler, ser algoritmen på andre datapunkter som ligner på det manglende punktet, basert på hvor nærme de er i datasettet. Deretter beregner algoritmen en ny verdi ved å bruke informasjonen fra disse nærliggende datapunktene, for eksempel ved å ta gjennomsnittet av verdiene deres. Dette gjør at metoden tar hensyn til sammenhenger mellom variabler og bevarer mønstre i dataene.

For mer informasjon, se [Scikit-learn-dokumentasjonen om KNN-imputasjon](https://scikit-learn.org/stable/modules/generated/sklearn.impute.KNNImputer.html).

## Hvorfor KNN-imputasjon?
1. **Presisjon:** KNN gir mer realistiske estimater enn lineær interpolasjon, spesielt når det er store hull i dataene.

2. **Sammenhenger mellom variabler:** Metoden tar hensyn til korrelasjoner mellom variabler, noe som er viktig for miljødata som ofte er sterkt sammenkoblet.

3. **Fanger opp sesongvariasjoner:** KNN kan bedre reflektere sesongmessige mønstre i dataene, som er vanlige i både vær- og luftkvalitetsdata.

4. **Fleksibilitet:** KNN fungerer godt med både små og store datasett, og kan tilpasses ved å justere antall naboer (k).



## Visualrisering med og uten KNN-imputasjon

**Før KNN-imputasjon**

Grafen nedenfor viser målingene for NO₂ der manglende verdier er fylt inn ved hjelp av lineær interpolasjon. Denne metoden estimerer verdiene ved å trekke en rett linje mellom den siste kjente verdien og den neste kjente verdien. Resultatet er mange rette linjer i visualiseringen, noe som tydelig viser at metoden ikke tar hensyn til sesongvariasjoner eller andre naturlige mønstre i dataene.

![Før KNN-imputasjon](../resources/images/NO2_without_KNN.png)




**Etter KNN-imputasjon**

Grafen nedenfor viser målingene for NO₂ etter at manglende verdier er fylt inn ved hjelp av KNN-imputasjon. I motsetning til lineær interpolasjon tar KNN-metoden hensyn til mønstre og sammenhenger i dataene, noe som gir en mer realistisk utfylling av manglende verdier. Dette resulterer i en jevnere visualisering som bedre reflekterer sesongvariasjoner og naturlige trender i dataene. Vi opplevde imidlertid fortsatt noen problemer med KNN-imputasjonen, som førte til enkelte rette streker i grafen, men i betydelig mindre grad enn tidligere. Til tross for omfattende feilsøking klarte vi ikke å eliminere dette helt.

![Etter KNN-imputasjon](../resources/images/NO2_with_KNN.png)

👉🏼 [Tilbake til datarensing](01_data_cleaning.ipynb)