## 🧱 Overordnet struktur (arbeidsplan)

1. **Kort oversikt over datasett og kolonner**
    - Hva slags data inneholder NILU og Frost etter rensing?
    - Hvilke variabler har vi tilgjengelig?
    - Er noen kolonner spesielt interessante å se på sammen?

2. **Deskriptiv statistikk (f.eks. gjennomsnitt, std, min, max)**
    - For hver variabel i begge datasett
    - Kan bruke `df.describe()`, `df.mean()`, `df.std()`, osv.
    - Mulig utvidelse: sammenligne deskriptive mål før og etter rensing?

3. **Analyse av variasjon over tid**
    - Luftkvalitet gjennom året (trender, sesongvariasjon)
    - Temperaturutvikling over tid
    - Nedbørsmønstre gjennom året
    - Hvordan kan vi gruppere dataene? `resample()` daglig, ukentlig, månedlig?

4. **Sammenlikning mellom perioder**
    - Bruke `groupby()` eller `df['måned'] = df.index.month` for å analysere etter sesong/måned
    - Eksempler:
        - Hvordan varierer PM10 i vinter vs. sommer?
        - Er det store forskjeller mellom år?

5. **Visualiseringer (statisk + ev. interaktivt)**
    - Linjegrafer (tidsutvikling)
    - Boxplots (fordeling per måned eller sesong)
    - Heatmaps (korrelasjon mellom variabler)
    - Scatterplots med regresjonslinje (samvariasjon, eks: temp vs NO₂)
    - Evt. bruke `plotly` eller `altair` hvis tid

6. **Sammenhenger mellom variabler**
    - Se på mulig årsakssammenheng eller samvariasjon
    - F.eks. mer forurensning ved lav temperatur?
    - Er vind en forklarende faktor på lavere PM10?

7. **Utskrift og refleksjon underveis**
    - Hva observerer vi i grafene?
    - Er noe overraskende?
    - Er det noe vi forventet ut ifra kontekst (f.eks. vinterforurensning)?

8. **Legge til rette for neste steg**
    - Hva i analysen er nyttig for prediktiv modellering?
    - Er det noen sammenhenger vi ønsker å forsøke å modellere i neste notebook?
    - Hvilke variabler har potensial som «features»?

---

## 🔍 Spesifikke analyser å vurdere

### NILU (luftkvalitet)
- Deskriptiv statistikk: PM10, PM2.5, NO₂
- Tidsserie: daglige verdier over flere år
- Sammenheng med vær? (vind, nedbør)
- Høy forurensning: hvor ofte? hvilke perioder?
- Utregning av andel interpolerte/genererte verdier – påvirker dette analysen?

### Frost (vær)
- Deskriptiv statistikk: temperatur, nedbør, vind
- Tidsserie for hvert værfenomen
- Sammenheng mellom temperatur og nedbør
- Temperaturtrend over år?
- Er det hull i dataene? Påvirker det tolkningen?

---

## 📈 Visualiseringer – forslag med formål

| Visualiseringstype | Bruksområde | Eksempel |
|---------------------|-------------|----------|
| Linjediagram | Trend over tid | Temperaturutvikling, PM10 daglig |
| Boxplot | Sammenlikning mellom grupper | PM10 fordelt på måneder |
| Heatmap | Korrelasjon mellom variabler | Sammenheng mellom PM10 og temp |
| Scatterplot + regresjon | Samvariasjon | Vindstyrke vs PM10 |
| Histogram | Fordeling av verdier | Partikkelnivåer eller nedbørsmengde |

---

## 💬 Refleksjon du kan skrive senere

- Hvilke trender var forventet? Hvilke var overraskende?
- Hvordan hjelper visualiseringene oss å forstå datasettet?
- Hvordan vurderer vi datakvaliteten nå etter rensing?
- Er det fremdeles svakheter i datasettet vi må ta hensyn til senere?
- Hva slags innsikt får vi som er nyttig for modellering?

---

## 🔮 Overgang til neste steg



## Klar for prediktiv analyse?

Nå som vi har utforsket datasettet og identifisert noen trender og sammenhenger, går vi videre til neste notebook hvor vi forsøker å lage en enkel prediksjonsmodell.

👉 Fortsett til [predektiv analyse](03_predictive_analysis.ipynb)
```


## 💡 Ekstra idéer hvis tid

- Interaktive filtre for å utforske data (f.eks. etter år eller stasjon)
- Sammenlikn Trondheim med en annen by (hvis flere stasjoner hentes inn senere)
- Lag en liten "dashboard"-aktig oversikt i slutten av notebooken
