## Behandling av værdata
<style>
p {
    line-height: 1.5; 
}
</style>
Her skal vi behandle og manipulere dataen vi har hentet, slik at den blir lettere å lese. Deretter skal vi senere visualisere dette. Vi gjør ulike operasjoner med dataen for å forbedre den for videre analyse, samt forsøker å oppfylle vurderingskriteriene. 

In [8]:
import requests
from dotenv import load_dotenv
import os
import pandas as pd
import json

# Load environment variables from .env file
load_dotenv()

# Henter API-key/Client-id fra .env filen
client_id = os.getenv("client_id")

with open('../data/Byer.json', 'r') as f:
    byer = json.load(f)

byerAsString = ','.join(byer.values())

element_id = "mean(air_temperature P1D),sum(precipitation_amount P1D),mean(wind_speed P1D)"  # Temperatur, nedbør og vindhastighet
start_dato = "2022-01-01"  # Startdato
slutt_dato = "2023-01-01"  # Sluttdato

# Define endpoint and parameters
endpoint = 'https://frost.met.no/observations/v0.jsonld'
parameters = {
    "sources": byerAsString,
    "elements": element_id,
    "referencetime": f"{start_dato}/{slutt_dato}",
    "timeoffsets": "default",
    "timeresolutions": "P1D",
    "levels": "default"
}
print(f"Parametere: {parameters}")

# Sender forespørsel til Frost API
response = requests.get(endpoint, params=parameters, auth=(client_id, ''))

# Sjekker om forespørselen var vellykket
if response.status_code != 200:
    print(f"Error! Status code: {response.status_code}")
    print(f"Message: {response.json().get('error', {}).get('message', 'Ingen melding gitt')}")
    print(f"Reason: {response.json().get('error', {}).get('reason', 'Ingen årsak gitt')}")
    exit()

# Henter JSON-data
json_data = response.json()
if 'data' not in json_data:
    print("Ingen data funnet i forespørselen.")
    print(json_data)
    exit()

# Prosesserer data til en DataFrame
data = json_data['data']
rows = []  # Liste for å samle alle rader
for item in data:
    for observation in item['observations']:
        row = {
            'sourceId': item['sourceId'].split(':')[0],  # Fjern ':0' fra sourceId
            'referenceTime': item['referenceTime'],
            'elementId': observation['elementId'],
            'value': observation['value'],
            'unit': observation['unit'],
            'codequality': observation.get('qualityCode', '')  # Henter kvalitetskoden
        }
        rows.append(row)

df = pd.DataFrame(rows)



# Gjør om litt på dataer slik at de blir lettere å jobbe med og penere å se på i CSV-filen.
df['referenceTime'] = pd.to_datetime(df['referenceTime']).dt.date # Fjerner tid og beholder bare dato
df[['statistikk', 'variable']] = df['elementId'].str.extract(r'(\w+)\(([^)]+)') # Splitter elementId i to kolonner, en for verdi og en for enhet. 
df['by'] = df['sourceId'].map({v: k for k, v in byer.items()})  # Legger til en ny kolonne for bynavn basert på sourceId
df = df[['by', 'sourceId', 'referenceTime', 'statistikk', 'variable', 'value', 'unit', 'codequality']] #Endrer på oppsettet på kolonnene i dataen vi henter ut.

# Gjør "codequality"-verdiene mer forståelige. 
quality_mapping = {0: "God", 1: "God", 2: "God", #0-2 er god kvalitet
                   3: "Middels", 4: "Middels", 5: "Middels", #3-5 er middels kvalitet
                   6: "Dårlig", 7: "Dårlig"} #6-7 er dårlig kvalitet
df['codequality'] = df['codequality'].map(quality_mapping)

# Lagrer denne dataen i en ny CSV-fil. Slik at vi kan sammenligne orgnaldataen med den vi har behandlet.
data_fil = '../data/BehandletVaerData.csv'
df.to_csv(data_fil, index=False)
print(f"Data lagret i {data_fil}")

Parametere: {'sources': 'SN68230,SN18700,SN50540', 'elements': 'mean(air_temperature P1D),sum(precipitation_amount P1D),mean(wind_speed P1D)', 'referencetime': '2022-01-01/2023-01-01', 'timeoffsets': 'default', 'timeresolutions': 'P1D', 'levels': 'default'}
Data lagret i ../data/BehandletVaerData.csv


<div style="border: 2px solid yellow; padding: 10px; border-radius: 5px;">
<style>
p {
    line-height: 1.5; 
}
</style>
Her har vi gjort om kodekvaliteten fra tilfeldige tall til mer beskrivende tekst. I steden for at kodekvaliteten har et tall mellom 0 og 7, har vi endret det slik at kodekvalitet 0-2 skrives som "God", kodekvalitet 3-5 skrives som "Middels" og kodekvalitet 6 og 7 skrives som "Dårlig". 
</div>

In [5]:
import pandas as pd

# Henter inn CSV-filen
data_fil = '../data/VaerData.csv'  # Tilpass denne stien til hvor CSV-filen faktisk er lagret
df = pd.read_csv(data_fil)

# Sjekker for manglende verdier i datasettet
print("Antall manglende verdier per kolonne:")
print(df.isnull().sum())

# Printer ut radnummeret hvor det mangler verdier
print("\nRader med manglende verdier:")
print(df[df.isnull().any(axis=1)].index + 2)


Antall manglende verdier per kolonne:
by                0
sourceId          0
referenceTime     0
statistikk        0
variable          0
value             0
unit              0
codequality      10
dtype: int64

Rader med manglende verdier:
Index([287, 320, 1281, 1382, 1415, 1431, 1437, 1440, 1626, 2382], dtype='int64')


<div style="border: 2px solid yellow; padding: 10px; border-radius: 5px;">
<style>
p {
    line-height: 1.5; 
}
</style>
Her bruker vi Pandas til å identifisere manglende verdier i rådataen. Vi ser at det kun er i kodekvalitet-kolonnen at det er manglende verdier. Det er også listet opp hvilke rader som har manglende verdier. 
</div>

In [None]:
import pandas as pd

# Henter inn CSV-filen
data_fil = '../data/BehandletVaerData.csv' 
df = pd.read_csv(data_fil)

# Sjekker for manglende verdier i datasettet
print("Manglende verdier per kolonne:")
print(df.isnull().sum())

# Fyller inn manglende 'codequality' med den vanligste verdien
most_frequent = df['codequality'].mode()[0]  # Finner vanligste verdi
df = df.assign(codequality=df['codequality'].fillna(most_frequent))
print(f"\nManglende 'codequality'-verdier fylt med: {most_frequent}")

# Printer ut data, nå med utflyltede verdier
print("\nEtter utfylling av manglende verdier:")
print(df.isnull().sum())

#Lagrer i BehandletVaerData.csv
data_fil = '../data/BehandletVaerData.csv'
df.to_csv(data_fil, index=False)
print(f"\nOppdatert data lagret i {data_fil}")


print("\nRader med manglende verdier:")
print(df[df.isnull().any(axis=1)].index + 2)

Manglende verdier per kolonne:
by                0
sourceId          0
referenceTime     0
statistikk        0
variable          0
value             0
unit              0
codequality      10
dtype: int64

Manglende 'codequality'-verdier fylt med: God

Etter utfylling av manglende verdier:
by               0
sourceId         0
referenceTime    0
statistikk       0
variable         0
value            0
unit             0
codequality      0
dtype: int64

Oppdatert data lagret i ../data/BehandletVaerData.csv

Rader med manglende verdier:
Index([], dtype='int64')


<div style="border: 2px solid yellow; ding: 10px; border-radius: 5px;">

<style>
p {
    line-height: 1.5; 
}
</style>
Etter vi analyserte og identifiserte hvilke rader som hadde manglende verdier, fylte vi inn verdier der det opprinnelig manglet. Vi fant ut av hvilken kodekvalitet som var den hyppigste, og fylte inn den der det var manglende verdier. 

</div>

# Pandas SQL 
<div style="border: 2px solid yellow; padding: 10px; border-radius: 5px;">

<style>
p {
    line-height: 1.5; 
}
</style>
Ved å benytte oss av Pandas SQL får vi muligheten til å kombinere flere operasjoner. Som for eksempel i spørringen under hvor vi har kunnet hente ut gjennomsnittsverdier for de ulike parameterne for de forskjellige byene. Samtidig som vi kun har hentet den dataen med "God" kodekvalitet. 
</div>


In [27]:
from pandasql import sqldf

query = """
SELECT by as By, variable as Parameter, AVG(value) as gjennomsnittsverdi
FROM df
WHERE codequality = 'God'
GROUP BY By, Parameter
ORDER BY By DESC
"""
result_df = sqldf(query, locals())
print(result_df)

          By                 Parameter  gjennomsnittsverdi
0  Trondheim       air_temperature P1D            5.539058
1  Trondheim  precipitation_amount P1D            2.672877
2       Oslo       air_temperature P1D            7.741061
3       Oslo  precipitation_amount P1D            1.926301
4       Oslo            wind_speed P1D            2.626027
5     Bergen       air_temperature P1D            8.924384
6     Bergen  precipitation_amount P1D            6.705479
7     Bergen            wind_speed P1D            3.571507


<div style="border: 2px solid yellow; padding: 10px; border-radius: 5px;">
<style>
p {
    line-height: 1.5; 
}
</style>

Å benytte oss av SQL gjør jobben med å hente ut valgri data vesentlig lettere synes vi. Koden som kreves for å lykkes, er mye enklere å forstå, samt på et standardisert format som gjør oppsettet enkelt. Her henter vi for eksempel ut hyppigheten av de ulike kodekvalitetene for hver By. Da får vi det svart på hvit at det meste av dataen vi har hentet er kategorisert som "God". Mens det finnes noen få tilfeller for Oslo og Trondheim hvor kodekvaliteten istedenfor er kategorisert som "Dårlig" eller "Middels".
</div>

In [39]:
query = """
SELECT by as By, codequality as Kodekvalitet, COUNT(*) as Antall
FROM df
GROUP BY By, Kodekvalitet
ORDER BY By DESC
"""
result_df = sqldf(query, locals())
print(result_df)

          By Kodekvalitet  Antall
0  Trondheim       Dårlig       4
1  Trondheim          God     726
2       Oslo          God    1088
3       Oslo      Middels       7
4     Bergen          God    1095
