# Modul 9: Plotting av data

I denne modulen vil vi dekke hvordan du kan visualisere data ved å plotte grafer og linjer ved hjelp av bibliotekene <code>numpy</code> og <code>matplotlib</code>.

## Importering av biblioteker og oppretting av eksempeldata

In [None]:
# Importerer de nødvendige bibliotekene
import matplotlib.pyplot as plt
import numpy as np

In [None]:
# Oppretter eksempeldata for demonstrasjon.
x = np.linspace(0, 10, 100)
y = np.sin(x)

## Linjediagram


In [None]:
#Linjediagram
plt.figure(figsize=(8, 4))
plt.plot(x, y, label='Sinus', color='blue', linestyle='-', linewidth=2)
plt.title('Enkel Linje graf')
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.legend()
plt.grid(True)
plt.show()

## Spredningsdiagram


In [None]:
# Spredningsdiagram
plt.figure(figsize=(8, 4))
plt.scatter(x, y, label='Sinus', color='red', marker='o')
plt.title('Spredningsdiagram')
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.legend()
plt.grid(True)
plt.show()

## Stolpediagram

In [None]:
# Stolpediagram
categories = ['Kategori A', 'Kategori B', 'Kategori C', 'Kategori D']
values = [25, 50, 30, 45]

plt.figure(figsize=(8, 4))
plt.bar(categories, values, label='Stolpediagram', color='green')
plt.title('Stolpediagram')
plt.xlabel('Kategorier')
plt.ylabel('Verdier')
plt.legend()
plt.grid(axis='y')
plt.show()

## Histogram

In [None]:
# Histogram

data = np.random.randn(1000)

plt.figure(figsize=(8, 4))
plt.hist(data, bins=20, edgecolor='black', alpha=0.7)
plt.title('Histogram')
plt.xlabel('Verdi')
plt.ylabel('Frekvens')
plt.grid(axis='y')
plt.show()

## Tilpassing


In [None]:
# Tilpassning av plottet
plt.figure(figsize=(8, 4))
plt.plot(x, y, label='Sine Curve', color='blue', linestyle='-', linewidth=2, marker='o', markersize=4, markerfacecolor='red', markeredgecolor='black')
plt.title('Endret linjepgraf')
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.legend()
plt.grid(True)
plt.show()

## Delplott

Denne delen viser hvordan du oppretter et rutenett av delplott innenfor en enkel figur og tilpasser hvert delplott med ulike typer plott (linjediagram, spredningsdiagram, stolpediagram, histogram) og titler. Dette kan være nyttig for å sammenligne og visualisere flere datasett eller aspekter av data innenfor en enkel figur.


In [None]:
# Delplott
plt.figure(figsize=(12, 6))

# Delplott 1
plt.subplot(2, 2, 1)
plt.plot(x, y, color='blue')
plt.title('Delplott 1')

# Delplott 2
plt.subplot(2, 2, 2)
plt.scatter(x, y, color='red')
plt.title('Delplott 2')

# Delplott 3
plt.subplot(2, 2, 3)
plt.bar(categories, values, color='green')
plt.title('Delplott 3')

# Delplott 4
plt.subplot(2, 2, 4)
plt.hist(data, bins=20, edgecolor='black', alpha=0.7)
plt.title('Delplott 4')

plt.tight_layout()
plt.show()

## PDF og CDF kurver

Vi kan også bruke jupyter notatboken til å visualisere sannsynlighetstettheten (PDF) og den kumulative fordelingen (CDF), som er grunnleggende begreper innenfor sannsynlighet og statistikk. Disse begrepene brukes til å beskrive og analysere sannsynlighetsfordelinger.

<code>PDF</code> representerer sannsynlighetsfordelingen til en kontinuerlig tilfeldig variabel. Den viser hvordan sannsynligheten for at variabelen tar en bestemt verdi eller faller innenfor et visst område, er fordelt over hele området. Dette er nyttig for å vurdere sannsynligheten for spesifikke resultater, estimere percentiler og lage probabilistiske forutsigelser.

<code>CDF</code> representerer den kumulative sannsynligheten for at en tilfeldig variabel tar en verdi som er mindre enn eller lik et gitt punkt. Med andre ord viser den sannsynligheten for at variabelen er mindre enn eller lik en bestemt verdi. Dette er nyttig for å vurdere sannsynligheten for spesifikke resultater eller områder og for å forstå den generelle oppførselen til tilfeldige variabler. Disse begrepene er viktige innenfor områder som risikoanalyse, pålitelighetsteknikk og kvalitetskontroll.

In [None]:
# Sannsynlighetstetthet (PDF)

# Oppretter tilfeldig data til demonstrasjonen
random_data = np.random.normal(0, 1, 1000)

# Lager et PDF plott
plt.figure(figsize=(8, 4))
plt.hist(random_data, bins=30, density=True, alpha=0.7, color='blue', edgecolor='black')
plt.title('PDF (Probability Density Function)(Sannsynlighetstettheten)')
plt.xlabel('Verdi')
plt.ylabel('Sannsynlighetstetthet')

# Tilpasset PDF plott
from scipy.stats import norm

# Oppretter data som følger normalfordeling
data = np.random.normal(0, 1, 1000)

# PDF
plt.figure(figsize=(8, 4))
plt.hist(data, bins=30, density=True, alpha=0.7, color='green', edgecolor='black')
x_range = np.linspace(-3, 3, 100)
pdf_values = norm.pdf(x_range, 0, 1)
plt.plot(x_range, pdf_values, color='blue', linestyle='--', linewidth=2)
plt.title('Tilpasset PDF')
plt.xlabel('Verdi')
plt.ylabel('Sannsynlighetstetthet')

In [None]:
#Kummulativfordelingsfunksjon (CDF)

# Lager et CDF
plt.figure(figsize=(8, 4))
plt.hist(random_data, bins=30, density=True, cumulative=True, alpha=0.7, color='red', edgecolor='black')
plt.title('CDF (Cumulative Distribution Function)(Kumulativ fordeling)')
plt.xlabel('Verdi')
plt.ylabel('Kumulativ sannsynlighet')

# Tilpasser CDF

# CDF
plt.figure(figsize=(8, 4))
plt.hist(data, bins=30, density=True, cumulative=True, alpha=0.7, color='purple', edgecolor='black')
cdf_values = norm.cdf(x_range, 0, 1)
plt.plot(x_range, cdf_values, color='red', linestyle='--', linewidth=2)
plt.title('Tilpasset CDF')
plt.xlabel('Verdi')
plt.ylabel('Kumulativ sannsynlighet')

plt.tight_layout()
plt.show()

## Eksempel: PLotting av temperatur endringer over tid.

La oss forsøke å lage et eksempel på hvordan vi kan plotte endringen i temperatur over en tidsperiode. I dette eksempelet henter vi <code>temperatur_data</code> fra denne nettsiden: https://www.ncei.noaa.gov/access/monitoring/climate-at-a-glance/global/time-series

På nettsiden kan du eksportere data som en <code>CSV</code>-fil med temperaturavvik relativt til koordinatavvik i forhold til gjennomsnittet for perioden 1991-2020. Alle andre regionale avvik er i forhold til gjennomsnittet for perioden 1910-2000.

Deretter kan vi bruke <code>pandas</code> til å lese <code>CSV</code>-filen og <code>matplotlib</code> til å plotte dataene etter at vi har lest dem!

In [None]:
# Importerer nødvendige bibliotek
import pandas as pd
import matplotlib.pyplot as plt

# Leser inn data fra CSV fil
data = pd.read_csv('temperature_data.csv')

# Hent ut ´year´og 'Anomaly' kolonner
years = data['Year']
anomaly = data['Anomaly']

# Lager linje plott
plt.figure(figsize=(12, 6))
plt.plot(years, anomaly, marker='o', linestyle='-', color='b', label='Temp avik')
plt.title('Globale temperatur avik de siste 80 årene ')
plt.xlabel('År')
plt.ylabel('Temperatur avik (°C)')
plt.grid(True)
plt.legend()
plt.show()