# Personbiler i Norge

Datasettet `personbildata.csv` er konstruert fra statistikkbanken "Bilparken", tabell 07849, fra statistisk senstralbyrå (https://www.ssb.no/statbank/list/bilreg/). Datasettet innholder tall på antall registrerte personbiler i årene 2008 til 2020, gruppert i henhold til drivstofftypene bensin, diesel, el., og annet (inkludert hybrid). Fra SSB får man data per kommune, men her har vi allerede aggregert dataene over alle kommuner slik at tallene representerer antall biler i hver drivstoff-kategori over hele landet. 

## Læringsmål: Kategoriske data

### Delmål
1. Lese inn .csv fil og gjøre seg kjent med et enkelt datasett
2. Plotte kategoriske data i stolpediagram 
3. Plotte utvikling av kategoriene over tid

*Hva er relevant for tellende vurdering? Erfaringen med å håndtere datasett i Python får du nytte av i den tellende prosjektoppgaven, og i resten av utdanningen din. Du skal ikke skrive kode selv på eksamen, men du må kunne lese, tolke og forklare utskrift og plott fra ulike statistikk-beregninger i Python.*

## Steg 1: Laste inn nødvendige python-pakker

Notebook-tips: Kjør koden som henter inn pakkene ved å trykke på feltet under og deretter knappen "Run" øverst på kommandolinja, eller bruk tastatursnarveien cmd + enter.

In [None]:
import pandas as pd # lese data fra csv-fil
import seaborn as sns # plotting
sns.set(style = 'whitegrid', font_scale = 1.5) # utseende av plott
import matplotlib.pyplot as plt # og mer plotting
import numpy as np # matematikk

## Steg 2: Lese inn og se på datasettet


In [None]:
df = pd.read_csv('https://www.math.ntnu.no/emner/IST100x/python_felles/personbildata.csv',index_col=0) # lese inn datasettet (cvs-fil med radnavn)

In [None]:
df.shape  # Dimensjonen til datasettet

In [None]:
df # se på hele datasettet (dette kan vi gjøre fordi dimensjonen er liten)

## Steg 3: Stolpediagram for andeler av hver drivstofftype i år 2020

In [None]:
df2020 = df.iloc[12,].to_frame().transpose()  # Hente ut rad 12 (2020) til ny pandas DataFrame
df2020

In [None]:
df2020 = df2020.div(df2020.sum(axis=1),axis=0) # Bytte ut antall med andel
df2020

In [None]:
palette = sns.color_palette(["#d55e00","#0072b2","#009e73", "#f0e442"]) 
# palette = farger for de fire drivstoff-kategoriene
# Har hentet fargeblind-vennlige palett fra https://www.color-hex.com/color-palette/49436

sns.barplot(data = df2020, palette = palette) 
# Plotter et enkelt stolpediagram (barplot) med Seaborn-modulen

In [None]:
df2020sort = df2020.sort_values(by = 2020,axis=1,ascending=False)
# Sorterer dataene fra største til minste andel
df2020sort

In [None]:
# Plotter de sorterte dataene (og sorterer fargene) 
palette_sort = sns.color_palette(["#0072b2","#d55e00","#009e73", "#f0e442"])

sns.barplot(data = df2020sort,palette = palette_sort)

## Steg 4: Plotte utvikling  over tid

In [None]:
df_andel = df.div(df.sum(axis=1),axis=0) # Lager et datasett med årlige andeler i stedet for antall

# Plotter utvikling i andeler av hver kategori med et Seaborn lineplot
sns.lineplot(data = df_andel,palette = palette)
plt.ylim(0,1); plt.xlim(2008,2020)