Oppgaver: 

I dette prosjektet skal vi gjennomføre oppgaver som fokuserer på oppsett av utviklingsmiljø, innsamling, behandling, analyse, visualisering og prediktiv analyse av miljødata. Oppgave 1 handler om å sette opp et fungerende utviklingsmiljø. Oppgave 2 innebærer å identifisere relevante åpne datakilder og implementere funksjonalitet for å hente data fra disse kildene ved hjelp av Python. I oppgave 3 skal vi utvikle funksjoner for å rense og formatere de innsamlede dataene, med fokus på håndtering av manglende verdier.

#### Oppgave 1: Sett opp utviklingsmiljø

I VSCode, opprett en ny Jupyter Notebook-fil (med filendelsen «.ipynb») i prosjektmappen. Skriv og kjør kode i den første cellen for å teste at miljøet fungerer som det skal:

Gå til [oppgave 1](oppg1.ipynb) 



#### Oppgave 2: Datainnsamling

### Hvorfor MET?
For dette prosjektet ønsket vi å se på litt ukonvesjonelle data, så vi valgte derfor å se på solskinn varighet. Solskinn kan indikere endringer i skydekke og værmønstre. Det kan også fortelle oss noe om hvor mye solenergi som når bakken som vil påvirke lokal tempratur og som videre kan spille inn på oppvarmingstrender. Spesielt utvikling over tid vil være interessant. 

Før vi bestemte oss for å undersøke sollys var vi først inne å gjode oss kjent med ulike API grensesnitt. Den som sto fram som et godt valg var 'The MET weather API', mer spesefikt valgte vi Frost API-en deres. Denne gir gratis tilgang til deres arkiv over historiske vær- og klimadata av stor variasjon og med mye detaljer av kvalitetskontrollerte målinger. 

Les mer her [Hva er Frost?](https://frost.met.no/index.html) og [Om Meteorologisk Institutt](https://www.met.no/en/About-us/About-MET-Norway)

De har en fri og åpen data politikk, med ønske om at dataen de samler kan bli brukt fritt til fordel for samfunnet. Deres kontaktinformasjon, til og med en egen nettside [hvordan komme hit](https://www.met.no/en/contact-us/travel-here) er et godt tegn på legitimitet ettersom de er lett å komme i kontakt med. Det er et statlig etat, med formål om å informere med veldokumentert forsking samt nøytralt og saklig språk. Nettsiden er utformet på en overskitlig og profesjonell måte med mange forklaringer, oppslagsverk og dataklarifikasjoner som gjør forståelse og henting av data letter. 

### Hvorfor CSV-fil?

Frost API bruker JSON-format til data, vi valgte å gjør om og lagre i CSV-fil ettersom det er standard for de fleste analyseverktøy og fungerer for eksempel bra med Pandas, Matplotlib og Plotly. Det er også raskt å laste inn og veldig lesbart. 

Dataen er strukturert slik:

In [2]:
import pandas as pd

df = pd.read_csv("../data/raa_data_d.csv", nrows=5)
print(df)

                       date  sunshine_hours
0  2016-01-01T00:00:00.000Z             0.9
1  2016-01-02T00:00:00.000Z             1.3
2  2016-01-03T00:00:00.000Z             3.5
3  2016-01-04T00:00:00.000Z             3.6
4  2016-01-05T00:00:00.000Z             2.8


# slett, vurderingskreterier fra mappe:
I prosjektet for utvikling av en miljødataanalyseapplikasjon skal dere først identifisere relevante åpne datakilder, som f.eks. API-er fra meteorologiske institutter og miljøovervåkingsorganisasjoner. Deretter skal dere implementere funksjonalitet for å hente data fra disse kildene ved hjelp av Python-moduler (som eks. requests). For å integrere dataene i applikasjonen, bruker dere teknikker som håndtering av tekstfiler, CSV-filer, JSON-data, samt fil- og katalogadministrasjon. I tillegg skal dere benytte dere av list comprehensions, iteratorer og Pandas SQL (sqldf) for å utforske og forstå dataenes struktur og innhold før de forberedes for videre analyse.

Vurderingskriterier:

Hvilke åpne datakilder er identifisert som relevante for miljødata, og hva er kriteriene (f.eks. kildeautoritet, datakvalitet, tilgjengelighet, brukervennlighet osv.) for å vurdere deres pålitelighet og kvalitet?

Hvilke teknikker (f.eks. håndtering av CSV-filer, JSON-data) er valgt å bruke for å lese inn dataene, og hvordan påvirker disse valgene datakvaliteten og prosessen videre?

Dersom det er brukt API-er, hvilke spesifikke API-er er valgt å bruke, og hva er de viktigste dataene som kan hentes fra disse kildene?

#### Oppgave 3: Databehandling

Her skal vi fokusere på databehandling ved å utvikle funksjoner som renser og formaterer de innsamlede dataene, med særlig vekt på håndtering av manglende verdier og uregelmessigheter ved hjelp av Pandas. I tillegg skal vi benytte teknikker som list comprehensions, iteratorer, pandas og pandas sql (sqldf) for å manipulere dataene effektivt, noe som vil bidra til å forberede dataene for videre analyse.

### hvilke endringer har vi gjort?

Datasettet vi hentet fra MET var av høy kvalitet uten hull så vi valgte å fjerne data for å igjen kunne gjennopprette disse dataene med estimasjon.

Her er en oversikt over dataen som ble fjernet og duplisert:

In [1]:
import sys
import os

sys.path.append(os.path.abspath('..'))

#henter funksjonen finne_hull fra py-filen finne_mangler fra mappen src
from src.finne_mangler import finne_hull

filbane = "../data/raa_data_d.csv"
duplikater, hull = finne_hull(filbane, dato_kolonne="date")


antall totale rader i datasettet: 1819
antall dupliserte datoer: 8
antall datoer som mangler: 16

Dupliserte datoer:
799   2018-03-19 00:00:00+00:00
801   2018-03-20 00:00:00+00:00
803   2018-03-21 00:00:00+00:00
805   2018-03-22 00:00:00+00:00
807   2018-03-23 00:00:00+00:00
809   2018-03-24 00:00:00+00:00
811   2018-03-25 00:00:00+00:00
813   2018-03-26 00:00:00+00:00
Name: date, dtype: datetime64[ns, UTC]

Manglende datoer:
['2016-10-01', '2016-10-02', '2016-10-03', '2017-07-18', '2017-07-19', '2017-07-20', '2017-07-21', '2017-07-22', '2017-07-23', '2017-07-24', '2019-12-25', '2019-12-26', '2019-12-27', '2019-12-28', '2019-12-29', '2019-12-30']


In [2]:
from src.finne_mangler import vasket_data
vasket_data("../data/raa_data_d.csv", dato_kolonne="date", output_fil="utfylt_data.csv")

antall totale rader i datasettet: 1819
antall dupliserte datoer: 8
antall datoer som mangler: 16

Dupliserte datoer:
799   2018-03-19 00:00:00+00:00
801   2018-03-20 00:00:00+00:00
803   2018-03-21 00:00:00+00:00
805   2018-03-22 00:00:00+00:00
807   2018-03-23 00:00:00+00:00
809   2018-03-24 00:00:00+00:00
811   2018-03-25 00:00:00+00:00
813   2018-03-26 00:00:00+00:00
Name: date, dtype: datetime64[ns, UTC]

Manglende datoer:
['2016-10-01', '2016-10-02', '2016-10-03', '2017-07-18', '2017-07-19', '2017-07-20', '2017-07-21', '2017-07-22', '2017-07-23', '2017-07-24', '2019-12-25', '2019-12-26', '2019-12-27', '2019-12-28', '2019-12-29', '2019-12-30']

Benyttet lineær interpolasjon, fil lagret som : utfylt_data.csv


  df_utfylt = pd.concat([df, df_manglende], ignore_index=True)


Unnamed: 0,date,sunshine_hours
0,2016-01-01 00:00:00+00:00,0.9
1,2016-01-02 00:00:00+00:00,1.3
2,2016-01-03 00:00:00+00:00,3.5
3,2016-01-04 00:00:00+00:00,3.6
4,2016-01-05 00:00:00+00:00,2.8
...,...,...
1822,2020-12-27 00:00:00+00:00,0.0
1823,2020-12-28 00:00:00+00:00,0.0
1824,2020-12-29 00:00:00+00:00,0.6
1825,2020-12-30 00:00:00+00:00,0.0


### Håndtering av  uregelmessigheter i dataen

Manglene og uregelmessighetene vi forventet å møte var:
1. manglende datoer
2. duplikerte datoer
3. manglende verider i målingene (NaN)
4. feilformaterte datoer

For å håndtere 1. feil lagde vi funksjonene finne_hull(), mer spesifikt brukte vi pandas pd.date_range() for å finne hvilke datoer det gjelder for å så fyller hullene ved metoden interpolasjon i funksjonen vasket_data().

for å fjerne duplikater datoer brukte vi drop_duplicates()

Manglende målinger blir plukket opp ved hjelp av en løkke hvor alle verdiene får en type middlertidig "missing value" for senere å interpolere dem.

for datoer som kan være i feil format eller tekst brukte vi pd.to_datetime() for å standarisere formatet. 


### Pandas SQL

Med sqldf er det mulig å bruke SQL-spørringer på Pandas DataFrames. Altså kan man gjennomføre komplekse joins, grupperinger og filtreretinger på en veldig lesbar måte. Dette vil være en intuitiv måte å jobbe med dataen på om man er kjent med SQL fra før.

les mer her [using SQL with Pandas DataFrames](https://medium.com/@davidfagb/using-sql-with-pandas-dataframes-1c36f57ea65d)

### List comperhensions
En måte å manipulere data er ved hjelp av list comprehensions, for eksempel konvertere vi DateTimeIndex-en fra finne_hull() som gjorde datoene mer lesbar som 'YYYY-MM-DD'





## Slett, vurderingskriterie fra mappe: Oppgave 3: Databehandling
Her skal dere fokusere på databehandling ved å utvikle funksjoner som renser og formaterer de innsamlede dataene, med særlig vekt på håndtering av manglende verdier og uregelmessigheter ved hjelp av Pandas. I tillegg skal dere benytte teknikker som list comprehensions, iteratorer, pandas og pandas sql (sqldf) for å manipulere dataene effektivt, noe som vil bidra til å forberede dataene for videre analyse.

Vurderingskriterier:

Hvilke metoder vil du bruke for å identifisere og håndtere manglende verdier i datasettet?

Kan du gi et eksempel på hvordan du vil bruke list comprehensions for å manipulere dataene?

Hvordan kan Pandas SQL (sqldf) forbedre datamanipuleringen sammenlignet med tradisjonelle Pandas-operasjoner?

Hvilke spesifikke uregelmessigheter i dataene forventer du å møte, og hvordan planlegger du å håndtere dem?

Gå tilbake til [← innledningen](miljoanalyseprosjekt.ipynb) eller [del 2 →](del2.ipynb) av prosjektet