# 🌿 Miljødataanalyse – Prosjektoversikt og initiering

Denne notebooken fungerer som startpunktet for prosjektet og gir en oversikt over hvilke datakilder vi har valgt, hvorfor vi har valgt dem, og hvordan vi henter inn data på en sikker og strukturert måte.

All funksjonell kode er samlet i `src/`-mappen for å holde notebookene ryddige og oversiktlige. Vi importerer kun nødvendige funksjoner i toppen av hver notebook for å gjøre arbeidsflyten lett å følge og vedlikeholde.

### 🔐 Sikker håndtering av API-nøkkel

For å hente værdata fra Frost API kreves det en personlig API-nøkkel. For å beskytte denne har vi lagret nøkkelen i en `.env`-fil, og lagt den til i `.gitignore`. Dette sikrer at nøkkelen ikke inkluderes i versjonskontrollen, selv om prosjektet deles offentlig. På denne måten unngår vi misbruk og følger god praksis for håndtering av sensitive opplysninger.


Under finner du en oversikt over hvilke datakilder vi henter informasjon fra, og hvorfor vi har valgt nettopp disse.


## 🌐 Valg og implementering av datakilder

For å kunne gjennomføre en relevant og innsiktsfull miljødataanalyse har vi valgt å hente data fra to åpne, norske API-er som tilbyr pålitelige og relevante miljømålinger: Meteorologisk institutt (MET) og Norsk institutt for luftforskning (NILU). Disse gir oss både bredde og dybde i datagrunnlaget, og åpner for ulike faglige utfordringer og muligheter i prosjektet.

---

### 🌦️ Værdata – Frost API fra MET

Værdataene hentes fra [Frost API](https://frost.met.no/) levert av Meteorologisk institutt (MET). Dette API-et gir strukturert tilgang til historiske værdata fra offisielle målestasjoner i hele Norge.

Vi valgte Frost fordi:
- Det er en **offentlig og anerkjent datakilde** med høy faglig og teknisk kvalitet
- Vi får tilgang til **daglig målinger** av variabler som temperatur, nedbør og vind
- Spørringer kan tilpasses presist via koordinater og datoperiode
- Dataene returneres i **standardisert JSON-format**, som er enkelt å behandle videre i Python

For å hente og strukturere dataene har vi utviklet klassen `WeatherDataFetcher`. Den:
- Henter nærmeste målestasjon basert på brukerens koordinater
- Henter værdata fra denne stasjonen over en definert tidsperiode
- Bruker `pandas` og `pandasql` til å strukturere dataene
- Lagrer resultatet i en SQLite-database for videre analyser og prediktiv modellering

Dataen vi henter:
- Gjennomsnitts **temperatur** per døgn (float)
- Gjennomsnitts **vindhastighet** per døgn (float)
- Total **nedbørsmengde** per døgn (float)

Dette gir oss et fleksibelt og robust system som enkelt kan gjenbrukes for ulike lokasjoner og perioder.

---

### 🏭 Luftkvalitet – NILU API

Luftkvalitetsdataene hentes fra [NILUs API](https://api.nilu.no/), utviklet av Norsk institutt for luftforskning. API-et gir tilgang til målinger av luftforurensning (PM10, PM2.5, NO₂ m.m.) fra stasjoner over hele landet, inkludert Trondheim.

Vi valgte NILU fordi:
- Det er en **offentlig og anerkjent datakilde** på luftforurensning i Norge
- Dataene er **gratis og tilgjengelige uten API-nøkkel**
- API-et returnerer data i **JSON-format**, og støtter søk basert på sted, tid og radius
- Datasettet gir oss innsikt i **lokale miljøutfordringer**, spesielt knyttet til luftkvalitet i byområder

Vi har laget klassen `AirQualityDataFetcher`, som:
- Henter historiske målinger for et gitt område og periode
- Lagrer resultatet som en `.json`-fil i `data/raw/`
- Forbereder datasettet for videre rensing og analyse

Dataen vi henter:
- Daglig måling av **NO2** konsentrasjon (float)
- Daglig måling av **PM2.5** konsentrasjon (float)
- Daglig måling av **PM10** konsentrasjon (float)


#### 🎯 Hvorfor vi aktivt valgte et mer utfordrende datasett

I motsetning til Frost-dataene er NILU-datasettet ofte preget av manglende verdier, varierende målefrekvens og ujevn datadekning. Dette var en bevisst beslutning, nettopp fordi det gir oss en verdifull mulighet til å demonstrere kunnskap om:

- Hvordan man **oppdager og håndterer manglende eller ustrukturerte data**
- Hvilke konsekvenser rensing og filtrering har for datakvalitet og tolkning
- Hvordan ulike valg under rensing påvirker både visualisering og videre analyse

Ved å inkludere et datasett med lavere kvalitet får vi vist hvordan datarensing ikke bare er et teknisk steg, men en viktig faglig vurdering med betydning for resultatene.

---

### ✅ Relevans for vurderingskriteriene

Valgene våre er i tråd med vurderingskriteriene i oppgave 2:

- Vi har identifisert og begrunnet bruken av **to åpne, relevante og autoritative datakilder**
- Vi har vurdert **kvalitet, tilgjengelighet og struktur** i begge datasettene
- Vi har laget egne Python-klasser for datainnhenting, med bruk av `requests`, `dotenv`, `pandas` og `pandasql`
- Vi har aktivt valgt å jobbe med **et krevende datasett** for å synliggjøre forståelse av databehandling og datakvalitet

Dette gir et solid grunnlag for resten av prosjektet – både teknisk og faglig – og legger til rette for videre rensing, analyse, visualisering og prediktiv modellering.

---

## 🔄 Neste steg: Rensing og klargjøring av data

Etter at dataene er hentet inn fra Frost og NILU, inneholder de både nyttig informasjon og noen utfordringer – spesielt når det gjelder format, manglende verdier og ujevn datakvalitet.

I neste notebook ser vi nærmere på hvordan vi har valgt å:
- strukturere og forenkle dataene
- håndtere manglende verdier og uregelmessigheter
- forberede datasettet for videre analyse og visualisering

### [**Videre til datarensing**](01_data_cleaning.ipynb)
##### [**Til samlesiden**](../docs/samleside.md)
