# Kontekst for oppgaven

### 🌇Klimadata og fremtidig byutvikling i Oslo kommune

Som konsulenter er vi leid inn av Oslo kommune for å bistå i deres planlegging og bygging av et robust og klimaklart samfunn. Vi har fått i oppdrag å utvikle en applikasjon som analyserer sammenhengen mellom temperatur, nedbør og skydekke over tid, for å gi kommunen en predeksjon i hvordan byklimaet kan utvikle seg fremover. Ved hjelp av historiske værdata skal vi undersøke hvordan klimatiske endringer kan påvirke den infrastrukturen Oslo kommune burde innrette seg etter.

Selv om Oslo ikke ligger i umiddelbar fare for å havne under vann, slik som byer som Venezia og Amsterdam, så vil økt nedbør, hyppigere ekstremvær og varmere temperaturer stille nye krav til byers infrastruktur. Å ignorere slike signaler har kan koste milliarder av kroner for å rette opp skader i ettertid – Oslo har fortsatt mulighet til å være i forkant.

Applikasjonen vi utvikler skal ikke bare visualisere endringene som har skjedd, men også skape innsikt om fremtidige forhold som kan brukes til å forebygge fremtidige utfordringer. Hvordan bør vi bygge veier, tak og rørnett for å tåle styrtregn? Hvordan påvirkes byggematerialer og energibehov av stigende temperaturer? Hva betyr endringer i skydekke for lysforhold, strømforbruk og livskvalitet i tettbygde strøk? For at ingeniører og arkitekter skal lage gode løsninger for dette, er den grunnleggende innsikten i disse forholdene viktig.

Ved å kombinere klimadata med byplanleggingsbehov, håper vi å skape et beslutningsverktøy som gjør det mulig å se og forstå konsekvensene av klimaendringer – før de blir kritiske.

## SNAKKE OM HVILKEN DATA VI HAR VALGT


# Gjennomgang av mappesturkuren 
FIKS MAPPELINK

📍Vi har valgt å arbeide med hver værvariabel hver for seg, i sine egne notebooks. Disse fins navngitt i notebook-mappen:
<br>

☔️[Notebook for nedbør](nedbor.ipynb) <br>
☁️[Notebook for skydekke](skydekke.ipynb) <br>
☀️[Notebook for temperatur](temperatur.ipynb) <br>

<br>
I tillegg ville vi inkludere noen samlede fremstillinger av dataen. Dette inkluderer linjediagram med all data sammen, og en korrelasjonsmatrise. Dette fins i filen [samlet_visualiseringer](samlet_visualiseringer.ipynb)

Ved å kjøre hele notebookene (gjennom Run All i menyen øverst på siden), vil filene gjennomføre en rekke operasjoner gjennom klassene som fins i src-mappen. Videre følger en forklaring av hvilke operasjoner som gjøres, samt vedlagte analyser av dataen.


### 📥 Innhenting av data   SNAKKE MER OM KILDEN

Dataen vi legger til grunn for analysen er hentet fra Meterologisk institutt sitt historiske værdata-arkiv, [Frost](https://frost.met.no/index.html). Her valgte vi å hente inn gjennomsnittlige verdier pr/dag, for hvert år i intervallet 1980-2020. Vi henter altås ut totalt 40 verider per værelement.

Vi har hentet ut data fra Frost med clientID-en lagret i en separat -.env fil (Derav *.env i gitignore). 

Av nedbør hentet vi opprinnelig ut årsmengden, altså den totale summen nedbør per år. Vi valgte å modifisere dette til gjennomsnittlig dagsmengde per år, gjennom å dele summen på antall dager i året. Dette ble gjort i klassen [data_rens](../src/data_rens.py), og funksjonen nye_nedbor_verdier.

Av temperatur har vi hentet ut homogeniserte middelverdier (altså et gjennomsnitt av alle døgnverdiene) i perioden 1980-2020.

For skydekke hentet vi årsmiddel for skydekket, altså et gjennomsnitt per år basert på tre daglige verdier.

### 🎭 Manipulering av data
Det er verdt å nevne at dataen som er hentet fra frost allerede har blitt kvalitetssikret der fysikalske brudd og 
uregelmessigheter er korrigert, det står eksplisitt på nettsiden. Derfor er ikke dette nødvendigvis datasett med feil eller mangler, noe resultatet etter å ha kjørt de tre notebookene gjennom [klassen data_rens](../src/data_rens.py) viser. 

Datarensen vår dreier seg derfor først og fremst om å få en penere og bedre formateringer, hente ut nøyaktig det vi vil ha, korrigere antall desimaler osv.

Vi valgte likevel å opprette en [klasse for datamanipulering](../src/data_manipulering.py). Her har vi altså bevisst gått inn i dataen og generelt feil i form av dubliserte og manglende verdier. Derfor vil det også finnes metoder for å håndtere dette i datarensen vår.

### 🧹 Rensing av data  -	skal vi forklare mer rundt kolonner vi ikke bruker
I [klassen data_rens](../src/data_rens.py) har vi laget funksjoner for følgende renser: oppretter en database, (bare relevant for skydekke), konverterte dataen til en DataFrame, funksjon for å justere nedbørsverdiene og selve rensemetoden. Rensemetoden formaterer dataframen slik vi vil ha den (visuelt sett), fjerner duplikater og erstatter manglende verdier. Vi valgte her å erstatte manglende verdier med gjennomsnittsverdi av den totale dataen. Dette gjorde vi for å erstatte med en nøytral verdi som ikke introduserer en stor statistisk skjevhet. 

Klassen leverer tilbake en ferdig renset datafra, og det er denne dataframen vi benytter oss av gjennom resten av prosjektet. 

### 📊 Beregning av statistiske mål
Vi valgte å beregne statistiske mål i form av:
- **Gjennomsnitt** <br>
Viser hvor "normale" forholdene har vært, og vi ser den generelle trenden for å se hvilket nivå verdiene ligger på over tid. <br>

- **Median** <br>
Vi ser hva den typiske verdien er, gjennom å få et mål som ikke er påvirket av ekstremverdier, slik gjennomsnittet blir. <br> 

- **Standardavvik** <br>
Måler variasjonen og spredningen i data. Et høyt standardavvik viser mye variasjon mellom de årlige verdiene, og hjelper oss å forstå stabiliteten i klimaet. Økt variasjon (et høyt standardavvik) kan være et tegn på mye ekstremvær eller uforutsigbare forhol, noe osm er viktig å ta høyde for i byplanlegging.


For å se variasjonene i trendene bedre, valgte vi å i tillegg dele opp årspennet 1980-2020 i intervaller på 10 år. Dette for å se en variasjonen og utviklingen av målene, ikke bare se på hele årsspennet i sin helhet.

All kode for disse beregnigene fins i [klassen statistiske_mål](../src/statistiske_maal.py).

### 📈 Visualisering av data 
For å få et generelt overblikk og tendensen, har vi først og fremst visualisert all dataen i sin helhet, sammen med de statistiske målene. Videre valgte vi å også illustrere målene gjort i tidsintevrallene, som da ligger videre nedover i notebookene. 

Koden for visualiseringer fins i [klassen for visualsiering](../src/visualisering.py). 

Vi valgte også å implementere en korrelasjonsmatrise for å illustrere sammenhengen mellom de repsektive variablene. Fra denne ser vi ikke noen klare og sterke sammenhenger, men skydekke og temperatur scorer på 0,42 i forhold til hverandre, og det er altså denne vi velger å forklare her. Dette er å betegne som en moderat positiv sammenheng. I praksis sier dette at et økt skydekke gir en svakt økende temperatur, og motsatt. Dette er altså ikke en sterk sammenheng, men viser en tendens, og kan forklares som en slags drivhuseffekt. Skyder holder på vamren på jorda, og dersom skydekket blir tettere, holdet mer av varmen igjen, noe som hindrer varmetap om nappen og gir en høyere gjennomsnittstemperatur. Om vinteren kna vi altså se for oss at tett skydekke fører til mildere klima. 

Viktig å trekke frem er at denne korrelasjonen ikke er sterk, og forklarer dermed ikke noen direkte årsaker, men viser samvariasjoner mellom elementene. 

### 🔮 Prediksjon av data
I klassen [prediktiv analyse](../src/prediktiv_analyse.py) fins koden og modellen vi benyttes oss av for å foreta en prediktiv analyse av dataen vi har. Vi deler observasjonene inn i test- og treningsdata, og bruker metodene som fins i sklearn-biblioteket for å trene. Basert på dette bruker vi modellen for å prediktere verdier for fremtidige år. Vi beregner R2- og MSE-score for å se hvor nøyaktig modellen er.

### 🔍 Analyse av data 
Basert på dataene fra [samlet_visualiseringer](samlet_visualiseringer.ipynb) kan vi notere oss flere interessante mønster og tendenser hva gjelder utviklingen i nedbør, temperatur og skydekke fra 1980-2020.

Temperatur virker å være svakt økende over disse årene. Likevel er det noen betydelige svingninger mellom disse, noe som underbygges av et relativt høyd standardavvik sammenlignet med de nedbør og skydekke. Dette viser ta temperaturen oppfører seg mer uforutsigbart, og mer flere ekstreme eller uvanlige år i løpet av perioden, enn hva skydekke og temperatur gjør.

Skydekke fremstår som det mest stabilet værelementet vi ser på. Verdiene er forholdsvis like mellom 1980-2020, og standardavviket er relativ lavt. Likevel kan det, ut i fra grafen, se ut som det også her er en svak økning, uten at det er like tydelig som med temperatur.

Nedbør er på sin side preget av stor variasjon disse årene. Standardavviket er høyt, og verdiene svingr kraftig fra år til år. Dette gjør det mye mer utfordrene å skulle identifisere en trend ut ifra grafen alene. Likevel er det enkelte topper som skiller seg mer ut, for eksempel et markant hopp i 2020. 

**Ser vi på sammenfallene mellom topp- og bunnpunkter, gjør vi oss disse observasjonene:**
- Rundt 1988-1989 ser vi et markant bunnpunkt for alle de tre elementene
- I 1991 ser vi et markant bunnpunkt for både temperatur og nedbør
- 2008 er et år med en tydelig topp for temperatur og nedbør
- I 2010 ser vi et bunnpunkt for alle de tre variablene 
- I 2014 var et år med høy verdi for alle tre elementene

**Basert på den trente modellen** vil den bekrefte observasjonene om en økende trend i all variablene, da den lineære modellen er økende for alle elementene. 

### 💡 Konklusjon 
Som konsulenter for Oslo kommunes byplanlegging har vi analysert historiske værdata for temperatur, nedbør og skydekke fra 1980 til 2020. Disse dataene gir kommunen et solid grunnlag for å forstå hvordan byklimaet har utviklet seg over tid, noe som er avgjørende for å planlegge et robust og klimaklart samfunn.

Vår analyse viser en tydelig, men svak, økende trend i alle tre klimavariablene. Dette indikerer at Oslo kan forvente varmere temperaturer, økt nedbør og noe endring i skydekke i årene som kommer. Særlig temperatur og nedbør viser større variasjon og ekstreme utslag, som stiller strengere krav til byens infrastruktur.

Disse innsiktene er viktige for å forstå hvordan klimaendringer kan påvirke faktorer som dreneringssystemer, byggematerialers holdbarhet og energibehov. For eksempel krever økt og mer variabel nedbør robuste løsninger for veier og rørnett som tåler ekstremvær i form av regn, mens stigende temperaturer påvirker både energiforbruk og materialvalg. Endringer i skydekke kan også ha betydning for lysforhold og livskvalitet i tettbygde områder.

Applikasjonen gir dermed et verdifullt beslutningsverktøy for ingeniører, arkitekter og planleggere i Oslo kommune. Ved å være i forkant med slike analyser kan kommunen ta smartere valg i byutviklingen, redusere risikoen for kostbare skader, og tilpasse infrastrukturen til et klima i endring – før utfordringene blir kritiske.

**Konkrete anbefalinger til kommunen:**
- Fokus på overvannshåndtering og dreneringssystemer
- Materialvalg med fokus på økende temperaturer
- Tilstrekkelig med grøntarealer og lysforhold
- En fleksibel infrastruktur som tåler de værvariasjonene vi kan vente oss
- Integrering av værovervåkning-systemer og lignende predikajsonsverktøy for å havne i forkant av eveltuelle klimasitusjoner


### 👩🏼‍🏫 Oppsummering av prosjektet / refleksjonsnotat 
Refleksjonsnotatet er å finne i [docs/refleksjonsnotat.ipynb.](../docs/refleksjonsnotat.ipynb)

### 🪄 Planen videre 
Det har vært en givende oppgave, og friheten i oppgaveteksten lot oss velge mellom mange ulike måter å løse oppgaven på - desverre hadde vi ikke anledning til å teste ut alle ideene. Det er flere ting vi kunne sett for oss å implementere for å vidreutvikle prosjektet. Mye av det går ut på å inkludere enda mer interaktivitet med mer frihet til brukeren. Eksempelvis kunne vi på lang sikt sett for oss å la brukeren selv velge årsintervaller og by, der koden tilrettelegger for dette ved å justere API-kallet basert på brukerens ønsker. Her kunne også en ide vært å muliggjøre for sammenligning mellom flere byer samtidig, og ikke "låse" koden til en by. 

Ved hjelp av dropdown, kunne vi sett for oss å la brukeren velge hvilket værelement (datasett) å jobbe med. Dette kunne forenkelt brukervennligheten noe, da vi hadde unngått en fil per værelement, men heller samlet alt i en fil, med mulighet for valg. Noe lignende kunne også vært å ha en graf som i utgangspunktet er "tom", og la bruker selv bestemme hvilke verdier og elementer som skal vises, ved hjelp av avkrysningsbokser. Sistenevnte er nok ikke like nyttig for oss per i dag, da vi "kun" tar for oss tre elementer, men det hadde absolutt lønnet seg dersom vi skulle utvidet datasettene våret med flere elementer, noe vi kunne sett for oss å gjøre i en vidreutvikling.  

Til sist er det jo såklart verdt å nevne verdien av å ha et slikt program i form av en nettside eller en mobil applikasjon. Dette gjør ikke minst dataen tilgjengelig for et enda bredere publikum, og innsikten fra dataanalysene kan oppdateres til å bli mer relevante etter tilbakemledinger fra brukere. 

### 🔗 Kilder
- [Alle emojies er hentet fra denne nettsiden](https://getemoji.com/#travel-places)
- Daniel Otto. (2021, 11. november). Using Python to Fetch API Data into CSV [Video]. [Link til video her](https://www.youtube.com/watch?v=bHCHKeJ6bI8)
- Jupyter{book} for "Anvendt programmering". Av TDT4114-teamet. [Link til boken her](https://rouhani.folk.ntnu.no/textbooks/tdt4114/intro.html)



