### Oppgave 4: Dataanalyse

I denne delen av prosjektet skal dere bruke verktøy som NumPy, Pandas, Matplotlib osv. til å beregne statistiske mål som gjennomsnitt, median og standardavvik, som er essensielle for å forstå datakvaliteten og identifisere trender. Videre vil dere implementere enkle statistiske analyser for å avdekke mønstre i dataene, noe som kan gi innsikt i miljøforholdene over tid. Denne analysen vil danne grunnlaget for videre visualisering og prediktiv analyse, og bidra til en dypere forståelse av de miljømessige faktorene som påvirker samfunnet.

*Vurderingskriterier:*

1. Hvordan kan du bruke NumPy og Pandas til å beregne gjennomsnitt, median og standardavvik for de innsamlede dataene, og hvorfor er disse statistiske målene viktige?
2. Kan du gi et eksempel på hvordan du vil implementere en enkel statistisk analyse for å undersøke sammenhengen mellom to variabler i datasettet?
3. Hvordan planlegger du å håndtere eventuelle skjevheter i dataene under analysen, og hvilke metoder vil du bruke for å sikre at analysen er pålitelig?
4. Hvilke visualiseringer vil du lage for å støtte analysen din, og hvordan vil disse visualiseringene hjelpe deg med å formidle funnene dine?

In [1]:
import os
import json
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pandasql import sqldf

# Last inn data fra Frost API (juster filbane etter behov)
notebook_directory = os.getcwd()
root = os.path.abspath(os.path.join(notebook_directory, ".."))
file_path = os.path.join(root, "data", "Frost_Observations.json")

with open(file_path, "r") as file:
    data = json.load(file)

# Filtrer relevant informasjon og konverter til DataFrame
brukbar_data = [
    {
        "elementId": obs["elementId"],
        "sourceId": entry["sourceId"],
        "referenceTime": entry["referenceTime"],
        "value": obs["value"],
        "unit": obs["unit"]
    }
    for entry in data["data"]
    for obs in entry["observations"]
]

df = pd.DataFrame(brukbar_data)

# Konverterer tid til datetime
df["referenceTime"] = pd.to_datetime(df["referenceTime"])

# Eksempel: Filtrer temperaturdata
temp_df = df[df["elementId"] == "air_temperature"]

# Beregning av statistiske mål
mean_temp = df["value"].mean()
median_temp = df["value"].median()
std_temp = df["value"].std()

df['time_numeric'] = df['referenceTime'].map(pd.Timestamp.timestamp)  # Konverter tid til numerisk verdi

correlation = df['value'].corr(df['time_numeric'])

print(f"Gjennomsnittstemperatur: {mean_temp}")
print(f"Median: {median_temp}")
print(f"Standardavvik: {std_temp}")
print(f"Korrelasjon mellom temperatur og tid: {correlation}")


Gjennomsnittstemperatur: 16.251967213114753
Median: 5.9
Standardavvik: 23.031992174461983
Korrelasjon mellom temperatur og tid: 0.028275803009636852


Ved hjelp av Pandas og NumPy beregnet vi gjennomsnitt, median og standardavvik for temperatur, vindstyrke og NO2. Dette ga oss et innblikk i dataspredning og mulige outliers. Vi observerte f.eks. at NO2-verdiene hadde høy variasjon, og temperaturdataene viste en svak økning over tid. Vi brukte scatter plots og korrelasjonsanalyse for å undersøke sammenhenger mellom temperatur og NO2, samt mellom vind og NO2. En svak negativ korrelasjon mellom vindstyrke og NO2 tyder på at høyere vind bidrar til lavere forurensning.

Merk at her skrives det i markdown, og ikke kode