# 7 - Matplotlib

## Enkle grafer

Det er fint å kunne lage funksjoner i Python, men det er enda bedre å *se* dem. Vi skal nå se på hvordan vi kan tegne resultatet av funksjoner i et diagram ved hjelp av pakken `matplotlib`. 

Ofte ønsker vil å bruke matplotlib til å vise oss sammenhenger i data vi har hentet inn. Når vi importerer data til Python bruker vi vanligvis pakken `pandas`. Vi har allerede diskutert hvordan vi kan arbeide med data i `pandas`, så foreløpig skal vi ikke gjøre noe mer enn å importere og bruke dataene i `matplotlib`. 

Vi starter derfor med å *importere* `matplotlib`, `numpy` og `pandas`:

### Eksempel 1:

In [None]:
# versjon
import matplotlib.pyplot as plt

In [None]:
import numpy as np
from matplotlib import pyplot as plt
import pandas as pd

### Plotte tall

Vi starter med å plotte følgende tre kooridnater: (4,8), (7,2) og (2,6). For å gjøre det lager vi én variabel med x-koordinatene, og én med y-koordiantene. Funksjonen `plot`lager en figur med linjer mellom hvert av punktene:

### Eksempel 2:

In [None]:
x = [4, 7, 2]
y = [8, 2, 6]

plt.scatter(x,y)
plt.show()

Vi kan legge til punktene, så vi ser dem tydligere, med funksjonen `scatter`:

### Eksempel 3:

In [None]:
plt.plot(x,y)    # plt.plot - lager linjer
plt.scatter(x,y) # plt.scatter - lager punkter

plt.show()

... og vi kan plotte kun punktene:


### Eksempel 4:

In [None]:
plt.scatter(x,y, color = 'lightblue')
plt.show()

### Plotte en funksjon

Du kan plotte en funksjon ved å definere en liste med tall, og så definere en funksjonsverdi for hvert element i listen. `range`-funksjonen har vi vært borte i før, og ```range(1,50)``` gir oss en liste over heltall fra 1 til 50. Så regner vi ut logaritmen av disse tallene og setter det inn som y-verdier:

### Eksempel 5:

In [None]:
# range gjør at vi slipper å skrive alle tallene i en liste
x = range(1,50)

y = np.log(x) # Logaritme-funksjon
plt.plot(x,y) # Plot    
plt.show()    # Viser plottet

In [None]:
# x = range(1, 50)

x = np.linspace(1, 50, 1000) # 1000 punkter mellom 1 og 50

y = np.sin(x) # Sinus-funksjon

plt.plot(x, y, color = 'red') # Plot 
plt.show()

In [None]:
print(x)

In [None]:
year_education = [10, 12, 14, 16, 18, 20]
income = [30, 35, 40, 45, 50, 60]

plt.scatter(year_education, income, color = 'darkblue')
plt.plot(year_education, income, label = 'lønn')

plt.xlabel("År med utdannelse")
plt.ylabel("Inntekt")

plt.legend(loc = 'lower right')

plt.show()

### Importere data

Men det er morsommere å jobbe med virkelige data. Import av data til `pandas` gjøres enkelt med funksjonen `read_csv`. Dersom du har lastet ned siste versjon av notebooks, ligger den en fil i mappen "data" som heter `'schooling-gdp.csv'` ([kilde](https://ourworldindata.org/grapher/correlation-between-mean-years-of-schooling-and-gdp-per-capita)). Denne filen inneholder data på BNP og utdanningsnivå for endel land i 2010. Dette er samme datasett, som vi så på tidligere i kurset!

### Eksempel 6:

In [None]:
df=pd.read_csv('./data/schooling-gdp.csv')

La oss nå se på dataene, ved å kjøre en kode med kun navnet på variabelen som holder dataene:

### Eksempel 7:

In [None]:
df

Vi ser at vi har fire variabler: Land, Landkode, BNP_per_capita (BNP per innbygger), Utdanning og Befolkning. BNP er "brutto nasjonalprodukt" som måler hvor mye som produseres i et land i løpet av et år. BNP_per_capita viser altså hvor mye hver person i landet produserer hvert år i gjennomsnitt.  

Vi kan hente opp hver serie ved å skrive navnet til variabelen som holder dataene, altså `df`, etterfulgt av en klammeparentes med navnet på dataserien vi ønsker, for eksempel 'BNP':

### Eksempel 8:

In [None]:
df['BNP_per_capita']

Skal vi plotte data, gjør vi akkurat som i Eksempel 2; vi legger inn x- og y-verdier i plotfunksjonen, og disse verdiene henter vi med klammeparentes etter datavariabelen. Her plotter vi BNP langs x-aksen og utdanning langs y-aksen. Vi bruker `scatter`-funksjonen, siden det ikke gir noen mening å tegne streker mellom disse punktene:

### Eksempel 9:

In [None]:
x = range(1, 50)

y = np.log(x)

plt.plot(x, y)
plt.show()

In [None]:
plt.scatter(df['BNP_per_capita'], df['Utdanning'])

plt.xlabel("BNP per innbygger")
plt.ylabel("Utdanning")
plt.title("Overskrift")

plt.show()

Om vi ser på log-funksjonen i Eksempel 5, så ser vi at fordelingen av punkter ligner litt på den, så la oss legge inn logaritmen som funksjon av BNP. Vi må justere den litt, men som du ser passer den ganske bra! Det ser altså ut til at det er en sammenheng mellom utdanningsnivå og BNP, men sammenhengen blir svakere desto høyere BNP er. 

### Eksempel 10:

In [None]:
bnp_per_capita = np.array(df['BNP_per_capita'])
utdanning = np.array(df['Utdanning'])

plt.scatter(bnp_per_capita, np.array(df['Utdanning']))    # Scatter plot
plt.plot(bnp_per_capita, np.log(bnp_per_capita+100)*3-20) # Linje plot

plt.show()

# Hva med tilfeldige tall?
Vi kan plottet tilfeldige tall ved hjelp av **numpy**, under så bruker vi funksjonen ```np.random.normal(mean, std, size)```. Hvor **mean** er gjennomsnittsverdien, **std** er standardavvik (det sier noe om hvor langt fra gjennomsnittet vi vil trekke verdier fra) og **size** sier noe om hvor mange tilfeldige tall vi trekker.

In [None]:
import numpy as np

# Vi henter tilfeldige inntekter fra en normalfordeling rundt 550000 med std 100000
incomes = np.random.normal(550000, 100000, 1000)
plt.grid(True)
plt.hist(incomes, bins = 20, color = 'purple')

plt.figure(figsize=(100,6))

plt.show()

## Eksempel med bankinnskudd og bruk av subplots()

Vi begynner med å lage funksjonen for et lån i en tidligere forelesning. Vi husker at om banken din legger til renten `n` ganger i året, og renten er `r`, så er bankinnskuddet på `x` om `T` år gitt som  $x\cdot (1+\frac{r}{n})^{T\cdot n}$, som vi kan programmere slik:

### Eksempel 11:

In [None]:
def account_balance(x,r,T,n):
    return x*(1+r/n)**(T*n)

Vi skal bruke en litt annen fremgangsmåte for å plotte denne funksjonen, enn i eksemplene over. Vi skal først lage et figurobjekt og et akseobjekt med funksjonen `fig,ax=plt.subplots()`. Vi kan så bruke objektet `ax` til å lage etiketter til aksene og plotte flere grafer oppå hverandre. Dette er altså en littegran mer avansert bruk av `matplotlib`. Fordelen er at vi kan legge til nye elementer i eksisterende plot, uten å skrive hele koden på nytt når vi kjører i en annen celle. 

Om renten er 20%=0.2, innskuddet er 100 som forrentes årlig, så kan vi tegne innskuddsfunksjonen for 10 år som

### Eksempel 12:

In [None]:
# 1. Sjekker utviklingen over 10 år, med 100 data punkter
T = np.linspace(0,10,100)

# 2. Initierer plottet
fig,ax=plt.subplots()

# 3. Legger til labels (navn) på aksene
ax.set_ylabel('Verdi bankinnskudd')
ax.set_xlabel('Tid T')

# 4. Plotte funksjonen med 20% årlig forrentning, og 1 gang per år
ax.plot(T, account_balance(100,0.2,T,1), label='Bankinnskudd, årlig forrentning', color='lightblue')

# 5. Legger til 'legend' (merkelapp)
ax.legend(loc='upper left',frameon=False)

plt.show()

Det som skjer over er at vi

1. Definerer for hvilke verdier vi skal tegne og hvor mange punkter. Her ser vi at vi tegner hundre punkter i intervallet 0 til 10
2. Lager to objekter `fig` og `ax` som brukes til å tegne grafene. 
3. Definerer hva som skal være på x og y-aksen
4. Plotter ved å sette inn punktene `T` og funksjonen `account_balance(100,0.2,T,1)` inn i funksjonen `ax.plot`
5. lager ettikett og plasserer den oppe til venstre

Som i forrige forelesning kan det være interessant å sammenligne ulike hyppigheter for å legge til renter. Vi legger derfor til fire grafer til, i samme figur, med henholdsvis kvartalsvis, månedlig, ukentlig og daglig forrentning:

### Eksempel 13:

In [None]:
# Plotter grafen med fire ulike forrentningsfrekvenser (kvartal, månedlig, uke, daglig)
ax.plot(T,       account_balance(100,0.2,T,4),          label='Kvartalsvis forrentning',     color='green')
ax.plot(T,       account_balance(100,0.2,T,12),         label='Måndedlig forrentning',       color='red')
ax.plot(T,       account_balance(100,0.2,T,52),         label='Ukentlig forrentning',        color='orange')
ax.plot(T,       account_balance(100,0.2,T,365),        label='Daglig forrentning',          color='purple')
ax.legend(loc='upper left',frameon=False)
fig

Hva synes du, har hvor ofte forrentningen skjer mye å si for verdien?

For å svare på det kan det være interessant å kombinere grafene med en utregning. Hvor vi regner ut hva du taper på hyppig forretning. La oss se på differansen mellom daglig og ukentlig, og ukentlig mot årlig:

### Eksempel 14:

In [None]:
# Printer den numeriske differansen mellom daglig og ukentlig forretning, og ukentlig og årlig.
print(f"""Differansen mellom daglig og ukentlig forrentning i løpet av 20 år er {
    np.round(
    account_balance(100,0.2,10,365)-account_balance(100,0.2,10,52)
        ,2)
}
""")
print(f"""Differansen mellom ukentlig og årlig forrentning i løpet av 20 år er {
    np.round(
    account_balance(100,0.2,10,52)-account_balance(100,0.2,10,1)
        ,2)
}
""")

Vi ser altså at å gå fra ukentlig til daglig forrentning ikke har så mye å si, men forskjellen fra ukentlig til årlig er ganske stor. 

I stedet for å regne ut med daglig forrentning kan vi bruke kontinuerlig forrentning. Som vi husker fra forrige forelesning, betyr det at vi bruker eksponentialfunksjonen:

### Eksempel 15:

In [None]:
# Definerer kontinuerlig forretningsfunksjon
def account_balance_exponential(x,r,T):
    return x*np.exp(r*T)

La oss plotte kontinuerlig og *sammenligne* med daglig forrentning. Legg merke til første linje, som sørger for at vi starter med "blanke ark". 

### Eksempel 16:

In [None]:
# Starter med en "blank graf", ved å definere 'ax' og 'fig' på ny
fig,ax=plt.subplots()

# Legger til kontinuerlig forrentning fra forrige plot
ax.plot(T,       account_balance_exponential(100,0.2,T),label='Kontinuerlig forrentet',      color='pink')
ax.plot(T,       account_balance(100,0.2,T,365),        label='Daglig forrentning',          color='purple')

# Printer den numeriske forskjellen mellom årlig og kontinuerlig forretning
print(f"""Differansen mellom årlig og kontinuerlig forrentning etter 20 år er {
    np.round(
   account_balance_exponential(100,0.2,10)- account_balance(100,0.2,10,365)
        ,2)
}""")

Vi ser at selv om det lønner seg å forrente ofte, er det liten forskjell mellom daglig og kontinuerlig forretning. Likevel benytter vi ofte kontinuerlig forrentning i økonomifaget. Årsaken til det er at eksponenten og logaritmen er mye enklere å jobbe med matematisk enn prosentvis avkastning. Nummerisk er imidlertid forskjellen liten så lenge hyppigheten er høy.  

# Googling

Det er umulig å huske hvordan alle funksjonene til alle pakkene i Python skal brukes, ikke minst fordi det er en konstant uvikling av slike pakker. Heldigvis lages de fleste pakker på en *pytonsk* måte, hvilket vil si at funksjoner og objekter fra forskjellige pakker og forfattere skal oppføre seg forutsigbart og ensartet. Helt selvforklarende er imidlertid ingen pakker. 

Den beste måten å finne ut hvordan du skal bruke en pakke, er derfor å google det du lurer på. Dette må gjøres på engelsk, siden stort sett alt av forum og dokumentasjon er på engelsk. 

La oss derfor ta matplotlib som eksempel. La oss si at du har glemt denne forelesningen og derfor skal finne ut hvordan du plotter en linje med matplotlib. Forsøk å google `"matplotlib plot function"`. I skrivende stund i første treff på Google (det er ikke alltid det første treffet er best), finner du denne koden på [scriptverse.academy](https://scriptverse.academy/tutorials/python-matplotlib-plot-function.html):


### Eksempel 17:

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# 100 linearly spaced numbers
x = np.linspace(-5,5,100)

# the function, which is y = x^2 here
y = x**2

# setting the axes at the centre
fig = plt.figure()
ax = fig.add_subplot(1, 1, 1)
ax.spines['left'].set_position('center')
ax.spines['bottom'].set_position('zero')
ax.spines['right'].set_color('none')
ax.spines['top'].set_color('none')
ax.xaxis.set_ticks_position('bottom')
ax.yaxis.set_ticks_position('left')

# plot the function
plt.plot(x,y, 'r')

# show the plot
plt.show()

Vi ser umiddelbart at det er endel ting vi ikke trenger for et enkelt plott, så vi sletter alt under kommentaren `# setting the axes at the centre` (frem til `# plot the function`). Vi trenger heller ikke definisjonen av funksjonen under kommentaren `# the function, which is y = x^2 here`, siden vi har definert våre egne funksjoner over, så vi sletter den også.  Så bytter vi ut alle `x`'er med `T` og velger å sette inn funksjonen for daglig forretning `account_balance(100,0.2,T,365)` inn i `plot`-funksjonen. Tilslutt bytter vi ut startpunktet i `linspace`-funksjonen med `0`. Da får vi følgende kode:

### Eksempel 18:

In [None]:
#From https://scriptverse.academy/tutorials/python-matplotlib-plot-function.html
import matplotlib.pyplot as plt
import numpy as np

# 100 linearly spaced numbers
T = np.linspace(0,5,100)

# plot the function
plt.plot(T,account_balance(100,0.2,T,365), 'y')

# show the plot
plt.show()

Vi ser altså her at ved å bruke eksempler som vi kan endre på, så kan vi raskt finne ut hvordan en pakke fungerer. 

*HUSK: Bruker du andres kode, skal det kommenteres i koden!

## Eksempel med tilbud og etterspørsel

Vi definerer først tilbud og etterspørsel slik vi gjorde i en tidligere forelesning, men med litt andre tall:

### Eksempel 19:

In [None]:
def supply(x):
    return (x**2)*(1/250)
    
def demand(x):
    return 3000/(100+x)

Vi skal nå finne likhet mellom tilbud og etterspørsel grafisk ved å tegne opp begge funksjonene i samme diagram:

### Eksempel 20:

In [None]:
# Finner 100 punkter mellom 1 og 100
x = np.linspace(1,100,100)

# Plotter grafen med tilbud og etterspørsel
plt.plot(x,supply(x),label='Tilbud')
plt.plot(x,demand(x),color='green',label='Etterspørsel')

# Legger til 'legend' (merkelapp)
plt.legend(loc='lower right')


# Legger til labels (navn) på aksene
plt.ylabel('Pris')
plt.xlabel('Enheter')

# Setter grenser på y-aksen
plt.ylim((-2,33))

## Oppgaver

### Oppgave 1:
1. Forsøk å finne prisen og mengden i likevekt (der tilbud=etterspørsel) ved å bruke informasjonen i figuren fra eksempel 20.

In [None]:
#

2. Gjør endringer i tilbud og etterspørselsfunksjonene og finn likevekt for disse. 

In [None]:
#

### Oppgave 2:

Finn på noen koordinater selv, som du plotter
1. som punkter

In [None]:
#

2. med linjer mellom

In [None]:
#

3. med både linjer og punkter.

In [None]:
#

### Oppgave 3:

1. Plott BNP_per_capita mot Befolkning

In [None]:
#

2. Plott Utdanning mot Befolkning

In [None]:
#

### Oppgave 4:

1. Plot `np.log(x)`

In [None]:
#

2. Plot `np.cos(x)`

In [None]:
#

3. Plot `np.sin(x)`

In [None]:
#

4. Plot `np.exp(-x)`

In [None]:
#

5. Lag en funksjon selv, og plott denne.

In [None]:
#

### Oppgave 5:

En fabrikk produserer $x$ enheter. Kostnaden per enhet er 5 kroner, og i tillegg øker kostnaden med 5 øre per produsert enhet. Hver enhet koster dermed $5+0.05 \cdot x$. Bedriften selger produksjonen $x$ til en pris $p$. Fortjenesten er dermed differansen mellom inntekter $p\cdot x$ og totale kostnader $x \cdot (5+0.05 x)$. 

I alle oppgavene under skal du plotte i intervallet 0 til 100 (`x=p=np.linspace(0,100,100)`).

1. Lag en funksjon `cost(x)` for totale kostnader, gitt en produksjonsmengde $x$, og 

In [None]:
#

2. Lag en funksjon `profit(x,p)` for fortjenesten, gitt en produksjonsmengde $x$ og pris $p$. 

In [None]:
#

3. Sett `x`til 5 i funksjonen du lagde over i 2., og plott fortjenesten som en funksjon av prisen. 

In [None]:
#

4. Sett `p`til 10 i funksjonen du lagde over i 2., og plott fortjenesten som en funksjon av produsert mengde. 

In [None]:
#

5. Hva er optimal produsert mengde?

In [None]:
#

Husk å lag etiketter for aksene!



# Oppgave 6

Bytt om på x og y verdier i Eksempel 10, og bytt ut `np.log` med `np.exp`, bytt ut Utdanning i stedet for `BNP_per_capita` i `plt.plot()`-funksjonen, og plott figuren på nytt.

Sorter datasettet på Utdanning først med `df_sorted = df.sort_values('Utdanning')`, og bruke `df_sorted` i stedet for `df` i koden i Eksempel 10.

a) Gjør tilpassninger tilsvarende de som er gjort med log-funksjonen for å få exp-funksjonen til å passe så godt som mulig til dataene.


In [None]:
#

b) Forsøk uten sortering, hva skjer?


In [None]:
#

# Ekstraoppgave
Vi ønsker å plotte prisutviklingen av ost fra 2003 til 2013. Det gjør vi ved å ta en startpris (som er ca 70 kroner), og antar en 2% årlig vekst. Hvor vi legger til 5% tilfeldig variasjon (+/-).

Da kan du få bruk for en variabel som dette:
```python
randomness = 0.05
var = np.random.uniform(-randomness, randomness))
```
Som vil gi det et tilfeldig tall mellom $-0.05$ og $+0.05$