# Introduksjonskurs i programmering
### Dag 2 - Datavisualisering med Plotly Express

In [1]:
import datetime
print(f"Velkommen til andre kursdag {datetime.date.today()}")

Velkommen til andre kursdag 2021-05-06


#### (Tentativ) Plan for dagen
1. Kort repetisjon av første kursdag (15 min)
2. Introduksjon til Plotly Express (45 min)
    * Pause (15 min)
3. Øvingsoppgaver med plotting (30 min)
4. Et par litt mer avanserte eksempler (20 min)
    * Pause (15 min)
5. Oppgaver med pandas og plotting (30 min)
6. Oppsummering (10 min)

# Repetisjon fra første kursdag

1. Jupyter Notebooks
2. Oppslagsverk
3. Funksjoner
4. Pandas (dataframes)

#### JupyterNotebooks

* Jupyter Notebooks er et verktøy for å jobbe med og kjøre Python-kode.
* Lar oss kombinere kode, resultater og annen tekst

**Kanskje det viktigste å huske på:**
* Notebooken har hukommelse og vi kan gjenbruke variabler i nye celler
* Rekkefølgen celler kjøres i er viktig
    * Du kan bruke `Kernel > Restart and run all` som en restart
* Velger å ikke bruke så mye tid på å repetere Jupyter. Spør om det er noe som er uklart!

#### Oppslagsverk (`dictionary`)

* En innebygd datatype som kan brukes for å lagre data i nøkkel/verdi-par
* Defineres med krøllparenteser og kolon: `person = {"navn": "Jonas", "alder": 29}`

In [2]:
B737 = {"navn":"Boeing 737-800", "passasjerer":189, "vingespenn":34.3, "tow":79 }
A320 = {"navn":"Airbus A320", "passasjerer":150, "vingespenn":35.8, "tow":78 }
B747 = {"navn":"Boeing 747-8","passasjerer":467, "vingespenn":68.4, "tow":448 }
E190 = {"navn":"Embraer E190", "passasjerer":114, "vingespenn":28.7, "tow":51}


flymodeller = {
    "B737":B737,
    "A320":A320,
    "B747":B747,
    "E190":E190
}

Her lager vi et oppslagsverk for hvert fly, og deretter et oppslagsverk som oppbevarer disse (nestede oppslagsverk)

In [3]:
print(flymodeller["B737"])

{'navn': 'Boeing 737-800', 'passasjerer': 189, 'vingespenn': 34.3, 'tow': 79}


Live-koding: Hvordan finne gjennomsnittlig vingespenn?

In [4]:
# Fyll inn kode her

In [5]:
# Fasit (Vises ikke live)
total = 0
antall = 0
for fly in flymodeller.values():
    total += fly["vingespenn"]
    antall += 1
    
print(f"Gjennomnsittlig vingespenn: {total/antall}")

Gjennomnsittlig vingespenn: 41.8


### Funksjoner i Python

* Python har mange innebygde funksjoner (f.eks `print`, `abs`, `input`)
* Eksterne pakker lar oss importere mange fler

**Hvorfor er funksjoner nyttige?**
* Funksjoner lar oss gjenbruke og generalisere kode
* Hever *abstraksjonsnivået*



#### Vi kan definere egne funksjoner med nøkkelordet `def`

In [6]:
def double(x, n=1):
    return x * 2**n

print(f"5 doblet én gang: {double(5)}")
print(f"5 doblet tre ganger: {double(5, n=3)}")

5 doblet én gang: 10
5 doblet tre ganger: 40


Her er `x` et vanlig argument, mens `n` blir et *keyword argument* (frivillig)

##### Et litt mer avansert eksempel: Røverspråk
* Fra Astrid Lindgrens bøker om Kalle Blomkvist
* Etter hver konsonant i en tekst, legg til "o" og så gjenta konsonanten
* F.eks: Ordet "Katt" blir "Kokatottot

In [None]:
konsonanter = "bcdfghjklmnpqrstvxyz"

def røverspråk(tekst):
    hemmelig = ""
    for bokstav in tekst:
        if bokstav.lower() in konsonanter:
            hemmelig += bokstav + "o" + bokstav.lower()
        else:
            hemmelig += bokstav
    return hemmelig

beskjed = "Møt meg bak den store eika etter skoletid"
print(røverspråk(beskjed))

* En av de største fordelene med funksjoner er at de kan gjenbrukes og kombineres
* La oss f.eks lage et superhemmelig *dobbeltrøverspråk*

In [None]:
beskjed = "Møt meg bak den store eika etter skoletid"
print(røverspråk(røverspråk(beskjed)))

* Dette er selvfølgelig en spøk. Men poenget er at funksjoner lar oss kombinere og gjenbruke kode på et høyt abstraksjonsnivå

### 4) Pandas og dataframes

* Pandas (Python Data Analysis Library) er en tilleggspakke til Python for databehandling/analyse
* Vi har brukt en analog til "excel", men pandas lar oss scripte i Python og er dermed meget fleksibelt
* Hovedfunksjonaliteten i pandas er `DataFrame`, som er en måte å lagre datasett effektivt
* Pandas er *ikke* innebygget og må importeres (og installeres på maskinen du jobber)

In [None]:
import pandas as pd

Første utfordring er alltid å få datasettet sitt på riktig format. Her kan vi laste inn data fra f.eks CSV eller fra regneark. Om vi skal lage fra oppslagsverk i Python kan vi bruke `pd.DataFrame.from_dict`

In [None]:
import pandas as pd

flydata = pd.DataFrame.from_dict(flymodeller)
print(flydata)

Hvert fly blir nå en kolonne. Men det er langt vanligere å la hvert datapunkt hver en egen rad. La oss prøve på nytt.

* Hvordan slår vi opp oppførselen til `from_dict`?

1. Google oss frem til dokumentasjonen
2. Bruke `help(pd.DataFrame.from_dict)`
3. Marker funksjonen du vil bruke og trykk `Shift + Tab`. Da dukker dokumentasjonen opp i et pop-up vindu i Jupyter

In [None]:
# Kan bruke følgende 
help(pd.DataFrame.from_dict)

In [None]:
flydata = pd.DataFrame.from_dict(flymodeller, orient="index")
print(flydata)

In [None]:
print(flydata.mean())

In [None]:
print(flydata.describe())

### Et par andre pandas funksjoner dere lærte om
* Du kan hente ut rad basert på navn som for et oppslagsverk, f.eks `flydata["B737"]`
* Du kan også hente ut rad basert på tallindeks som følger `flydata.iloc(2)`
* Kolonner kan også hentes ut med navn, f.eks `flydata["passasjerer"]`

In [None]:
print(flydata["passasjerer"])

# Plotly Express

Datavisualiseringer

### Hva er egentlig Plotly Express?

* *Plotly* er en tilleggspakke til Python som er spesielt laget for å jobbe med *plotting*
* *Plotly Express* er et brukergrensesnitt som er laget for å bruke *Plotly* på en enkel og rask måte.
* Du kan altså tenke på Plotly *Express* som en forenklet/begrenset versjon av et større rammeverk.

#### Plotly er ikke den eneste måten å lage visualiseringer med Python
* Den mest populære pakken for plotting i Python er `matplotlib` (Mathematical Plotting Library)
* Fordelen med Pandas Express er at den er spesielt lagd for å jobbe med pandas dataframes, og det er derfor lagt enklere å plotte store datasett.

* Plotly/Matplotlib er altså gode pakker om man ønsker full kontroll og fininnstillinger, men her fokuserer vi på Plotly Express fordi det er raskt og enkelt.

### Hvordan installere Plotly Express?

Før vi kan bruke Plotly Express må vi installere pakken for dette. Avhengig av hvordan du har installert Python kan det være du allerede har den. Hvis ikke kan du prøve å kjøre kommandoen under

In [None]:
!pip install plotly
!pip install "notebook>=5.3" "ipywidgets>=7.5"

Hvis dette heller ikke fungerer kan vi installere Plotly igjennom *conda*. Det kan du lese mer om her
* https://plotly.com/python/getting-started/
* https://docs.anaconda.com/anaconda/user-guide/tasks/install-packages/

Vi hjelper gjerne. Spør om det ikke går

Du kan sjekke om installasjoner har gått riktig for seg ved å prøve å importere

In [None]:
import plotly.express as px

**Hovedidéen bak Plotly Express er at den tar et helt Pandas dataframe som argument, og så skal vi si hvilken informasjon vi ønsker at den skal vise frem**



In [None]:
# Livekode barplot av flydata her, vil ha navn på x-aksen og vingespenn på y-aksen

In [None]:
fig = px.bar(flydata, x="navn", y="vingespenn", color="navn")
fig.show()

Dersom figurene du lager i Jupyter Notebook ikke vises i sin helhet, men har en irriterende scrollbar, kan du skru av dette ved å gå på følgende instilling:
* `Cell` > `Output` > `Toggle Scrolling`

In [None]:
# Livekode et scatterplot av vingespenn mot antall passasjerer

In [None]:
fig = px.scatter(flydata, x='vingespenn', y='passasjerer', hover_name='navn',
                 trendline='ols',
                 title='Antall passasjerer mot vingespenn for ulike flymodeller')
fig.show()

For å bruke `trendline`-parameteren, må du installere pakken `statsmodels` om du ikke allerede har den. Dette er pakken som gjør selve den statistiske analysen.

In [None]:
!pip install statsmodels

#### Den generelle syntaksen i plotly express er som følger

```
fig = px.<plottype>(dataframe, <parametere>)
fig.show()
```

* Her er `<plottype>` f.eks `bar`, `scatter`, `line`, `histogram`, `pie`, etc
* Her er `<parametere>` informasjon om hvilken informasjon som skal vises frem, og hvordan

* Når vi lager et plot på denne måten vil `fig` være en graf-variabel, som er en type Plotly objekt. 
* Når vi jobber med Plotly Express gjør vi stort sett ingen direkte operasjoner på denne, med unntak av `show`
* Om vi kan mer Plotly er det mulig å gjøre finjusteringer på plottet direkte på `fig`-variabelen, f.eks sette navn på aksene som følger


In [None]:
fig = px.scatter(flydata, x='vingespenn', y='passasjerer', hover_name='navn',
                 trendline='ols',
                 title='Antall passasjerer mot vingespenn for ulike flymodeller')

fig.update_xaxes(title="Vingespenn i meter")
fig.update_yaxes(title="Maks antall passasjerer")
fig.show()

### La oss gå over til et litt større og mer spennende datasett

Plotly Express kommer med en håndfull innebygde dataset man kan bruke for å leke seg litt, øve eller vise eksempler med. De eksisterende datasettene er

* `px.data.carshare()` 
* `px.data.election()`
* `px.data.election_geojson()`
* `px.data.gapminder()`
* `px.data.iris()`
* `px.data.tips()`
* `px.data.wind()`

Dette er funksjoner vi kan kalle på for å få en kopi av et Pandas `DataFrame`.

### La oss utforske gapminder

* Et kjent datasett om forventet levealder og bruttonasjonalprodukt for en rekke land over tid


In [None]:
gapminder = px.data.gapminder()
gapminder.head(3)

In [8]:
# Live-kode et scatterplot av lifeExp mot gdpPercap (bruk trendline lowess)

In [9]:
fig = px.scatter(gapminder, x="gdpPercap", y="lifeExp",
                 hover_data=['country', 'year'],
                 color='year',
                 title="Levealder mot BNP for en rekke ulike land over tid",
                 trendline='lowess',
                 range_x=(0, 50000))
fig.show()

NameError: name 'px' is not defined

#### Figuren er rotete fordi vi plotter data fra mange ulike år sammen. 

* Forslag 1: Vi kan begrense oss til ett år
* Forslag 2: Vi kan begrense oss til ett land
* Forslag 3: Vi kan lage en animasjon

#### Forslag 1: Begrense oss til ett år

In [None]:
# Live-kode å trekke ut 2002 data

In [None]:
gapminder2002 = gapminder.query("year == 2002")
gapminder2002.head(5)

In [None]:
# Live-kode scatterplot av gapminder2002 med farge/størrelse/hover

In [None]:
fig = px.scatter(gapminder2002, x='gdpPercap', y='lifeExp', color='continent',
                 size='pop', size_max=60, hover_name='country')
fig.show()

#### Forslag 2: Fokuser på ett land


In [None]:
norway = gapminder.query("country == 'Norway'")
norway.head(5)

In [None]:
fig = px.line(norway, x='year', y='lifeExp')
fig.show()

In [None]:
fig2 = px.scatter(norway, x='gdpPercap', y='lifeExp', color='year', trendline='ols')
fig2.show()

#### Forslag 3: Animere plottet

In [None]:
fig = px.scatter(gapminder, x='gdpPercap', y='lifeExp', color='continent',
                 size='pop', size_max=60, hover_name='country', animation_frame='year',
                 range_x=(200, 50000), range_y=(20, 90), log_x='True')
fig.show()

#### Kjapp oppsummering før dere får prøve dere litt

**Grunnidéen er at Plotly Express tar en hel `DataFrame`, og så instruerer du hvilke informasjon som skal vises frem**

* Steg 1: Velg hvilken *type* plot du ønkser (`scatter`, `line`, `bar`, etc.)
* Steg 2: Instruer funksjonen hvilke data (hvilke kolonner) som skal illustreres langs ulike akser
* Steg 3: Gjør kosmetiske endringer, etc

Med akser mener vi her måte å vise frem informasjon på:
* x-aksen, y-aksen, størrelse, farge, tid (animasjon), hover-box, etc.

### Del 2 - Litt mer avanserte eksempler

Det finnes en lang rekke ulike type plots og muligheter med Plotly Express

Du kan finne en oversikt med gode eksempler på 
* https://plotly.com/python/plotly-express/
* Dokumentasjon er også god for å se alle ulike parametre/justeringer


I resten av denne gjennomgangen viser vi et utvalg litt mer avanserte muligheter med Plotly Express. Her er ikke målet at du skal huske eller forstå alle de ulike mulighetene vi viser frem, men mer gi deg et lite overbilde av muligheter.

### Eksempel: `scattermatrix`

Plotter en matrise av scatterplot, med alle ulike kombinasjoner av datakolonner.

In [None]:
iris = px.data.iris()

fig = px.scatter_matrix(iris)
fig.show()

Veldig mye informasjon, men her kan vi bruke `dimensions` for å spesifisere hvilke data vi er interessert i 

In [None]:
fig = px.scatter_matrix(iris, color='species',
                        dimensions=['sepal_width', 'sepal_length', 'petal_width', 'petal_length'])
fig.update_traces(diagonal_visible=False)
fig.show()

Her kan du bruke interaktiviteten til å velge et utvalg av datapunkter i ett scatterplott, så vil de samme datapunktene vises i de andre plottene 

### Eksempel: `px.parallel_coordinates`

Stilig plot-type som viser en sammenheng mellom ulike datakolonner

In [None]:
fig = px.parallel_coordinates(iris, color='species_id',
                              dimensions=['sepal_width', 'sepal_length',
                                          'petal_width', 'petal_length'])
fig.show()

Kanskje ikke den mest nyttige visualiseringen for dette datasettet

### Eksempel: Sunburst

Et *sunburst* plot er en slags utvidelse av et paidiagram, der vi kan spesifisere data i over og underkategorier. Som et eksempel kan vi gå tilbake til Gapminder-datasettet og dele inn i kontinenter og land


In [None]:
data = px.data.gapminder().query("year == 2007")
px.sunburst(data, path=["continent", "country"], values='pop', hover_name="country")

Her kan du klikke på et kontinent for å se på kun det kontinenten. Klikker du på nytt går du tilbake.

In [None]:
data = px.data.gapminder().query("year == 2007")
px.sunburst(data, path=["continent", "country"], values='pop',
            color='lifeExp', hover_name="country")

#### Eksempel: Treemap

Et alternativ til Sunburst som viser informasjonen i form av bokser istedenfor som en sirkel.

In [None]:
data = px.data.gapminder().query("year == 2007")

px.treemap(data, path=["continent", "country"], values='pop',
            color='gdpPercap', hover_name="country")

### Eksempel: Kartplott

* Her er det mange muligheter, og det blir fort litt komplisert
* Se fler eksempler på: https://plotly.com/python/maps/
* Merk at noen av eksemplene krever at du lager en bruker på mapbox.com, så henter Plotly kartdata automatisk bak kulissene.

### Eksempel: Plotte gapminder på et verdenskart

* Gapminder inneholder ISO-koder for hvert land, som gjør at vi kan koble datapunkter til kartddata.
* Vi kan bruke en `choropleth`, et fancy Gresk ord for et kart som fargelegger teritorier for å vise numerisk data

In [None]:
data = px.data.gapminder().query("year == 2007")

fig = px.choropleth(data, locations='iso_alpha', hover_name="country",
              color='lifeExp', hover_data=data.columns, projection="natural earth")
fig.show()

#### Eksempel: Choropleth med animasjon

In [None]:
data = px.data.gapminder()

fig = px.choropleth(data, locations='iso_alpha', hover_name="country",
              color='lifeExp', hover_data=data.columns, projection="natural earth",
                   animation_frame="year", range_color=(40, 80))
fig.show()

#### Eksempel: Scatter Mapbox

* Plottype som kan tegne geografisk (GPS) data som punkter på et kart.
* Som eksempel henter vi ned data fra: https://oslobysykkel.no/apne-data

In [None]:
# Laster inn all data fra April
bysykkel = pd.read_csv("bysykkelturer_april.csv")

# Tar gjennomsnittlig data per statsjon (OBS, sum vil ikke fungere direkte fordi GPS-posisjonene blir summert)
stasjonsdata = bysykkel.groupby("start_station_name").mean()
stasjonsdata["duration"] /= 60
stasjonsdata.head()

In [None]:
fig = px.scatter_mapbox(stasjonsdata, lat="start_station_latitude", lon="start_station_longitude",
                        color='duration', size='duration', size_max=10, zoom=11,
                        mapbox_style="carto-positron", 
                        title="Gjennomsnittlig lånetid for bysykler i april 2021",
                       labels={'duration': 'Lånetid (minutter)'})
fig.show()