# Visualisering med `plotnine`

**Indhold:**
- Hvad er plotnine? (sammenhæng med ggplot)
    - Fordele/ulemper
- Import af plotnine
- Brug af plotnine (simpelt plot med x og y)
- Forklaring af mappings: x, y, fill, colour, shape, size
- Forklaring af geom
    - geoms i flere lag
- Tilpasning (forklaringer)
    - Labels
    - Legend
    - Scales (nævn)

## Hvad er `plotnine`?

## Introduktion til plotnine

- ggplot2
- grammar of graphics
- meget versatilt
- kan være lidt komplekst

In [None]:
import pandas as pd

ess2018 = pd.read_csv("https://github.com/CALDISS-AAU/course_ddf/raw/master/datasets/ESS2018DK_subset.csv")
ess2018.head()

### Import

Som alle andre pakker, skal plotnine importeres. I nedenstående importeres plotnine, og indstillingen for størrelsen af plot ændres:

In [None]:
import plotnine
plotnine.options.figure_size = (12, 10)

Fordi `plotnine` er en konvertering af R-pakken `ggplot2`, er alle funktioner og metoder en del af `plotnine`. I stedet for at skulle skrive `plotnine` foran hver eneste metode/kommando, er det derfor en fordel at importere de dele, man skal bruge.

Det kan være svært at vide i starten præcist hvilke, man får brug for, så ofte vil det blive nødvendigt at gå tilbage og importere mere fra `plotnine`.

Her importeres de nødvendige "komponenter" for at danne et scatterplot:

In [None]:
from plotnine import ggplot, aes, geom_point

Herunder dannes scatterplottet: 

In [None]:
ess2018_filt = ess2018.loc[ess2018['grspnum'] <= 200000, :] # Sorterer ekstreme værdier fra (max 200000 om måneden)

(ggplot(data = ess2018_filt, mapping = aes(x = 'eduyrs', y = 'grspnum')) 
 + geom_point())

### Opbygning af et ggplot

Der er ufattelig mange måder at lave og tilpasse plots med ggplot/plotnine. Et ggplot følger dog som hovedregel denne skabelon:

```
ggplot(data = <DATA>, mapping = aes(<MAPPINGS>)) + 
  <GEOM_FUNCTION>(mapping = aes(<MAPPINGS>))
```

- **ggplot**: Hovedfunktionen. Denne funktion indrammer, hvad der skal indgå i plottet. Funktionen `ggplot` indeholder i sig selv ikke information om, hvilken type plot det er. Dette angives med en geom funktion.
    - *data*: Det primære argument til ggplot er data, der skal bruges. Der forventes en pandas data frame.


- **mapping**: Argument. Her "mappes" oplysninger (aes: "aesthetics") i data til plottet. De primære mappings er `x` og `y`, som bestemmer akserne. Derudover findes også `colour`, `fill`, `shape`, `size`. Mapping angives altid med `aes(MAPPINGS)` (fx `aes(x = 'eduyrs', y = 'grspnum')`). Mapping kan både angives som argument i ggplot eller for den enkelte geom funktion. Forskellen er, om mappingen skal gælde for hele plottet eller blot specifikke geom funktioner.


- **GEOM_FUNCTION (fx geom_point)**: Plottingfunktion. Et "geom" er den geometriske størrelse brugt til at repræsentere data (søjer, linjer, boxplots, punkter osv.). Det er muligt at have flere geom funktioner (flere lag) i samme plot.
    - *mapping*: Alle geom funktioner i ggplot accepterer et mapping argument. Det er dog ikke alle aesthetics, der virker med alle geoms. Fx giver det ikke mening at mappe en variabel til y-aksen i et histogram, eller bestemme formen (shape) for en linje.

## Aesthetics i ggplot/plotnine

"Aesthetics" er som nævnt de forskellige oplysninger i data, som skal plottes på en eller anden måde. I det tidligere eksempel blev `x` og `y` fx brugt til at angive hhv. x-aksen og y-aksen i plottet:

In [None]:
(ggplot(data = ess2018_filt, mapping = aes(x = 'eduyrs', y = 'grspnum')) 
 + geom_point())

#### Colour / fill

`colour` og `fill` bruges til at farvelægge efter en tredje variabel.

`colour` bruges typisk til at bestemme omridset af formerne, mens `fill` er farven, som formerne fyldes ud med (for `geom_point` gør det ikke nogen forskel).

In [None]:
(ggplot(data = ess2018_filt, mapping = aes(x = 'eduyrs', y = 'grspnum', fill = 'gndr')) 
 + geom_point())

#### Shape

En `shape` aesthetic tildeler en unik figur/form til hver kategori i variablen:

In [None]:
(ggplot(data = ess2018_filt, mapping = aes(x = 'eduyrs', y = 'grspnum', shape = 'edlvddk')) 
 + geom_point())

#### Size

En `size` aesthetic ændrer størrelsen på en figur/form afhængig af en værdien i en numerisk variabel:

In [None]:
(ggplot(data = ess2018_filt, mapping = aes(x = 'eduyrs', y = 'grspnum', size = 'netustm')) 
 + geom_point())

### Aesthetics med "fast" værdi

De fleste aesthetics fungerer også som argumenter i de enkelte geom funktioner, hvor de kan angives uden for mapping argumentet for at sætte en fast værdi.

Bemærk fx at prikkerne i et scatterplot har sort kant, når man farvelægger med fill. Denne kan ændres ved blot at specificere en anden farve i et `colour` argument:

In [None]:
(ggplot(data = ess2018_filt, mapping = aes(x = 'eduyrs', y = 'grspnum', fill = 'gndr')) 
 + geom_point(colour = 'white'))

### Kombinering af aesthetics

Det er muligt at kombinere aesthetics i det samme plot. På den måde kan et plot indeholde mange forskellige funktioner:

In [None]:
(ggplot(data = ess2018_filt, mapping = aes(x = 'eduyrs', y = 'grspnum', fill = 'gndr', shape = 'edlvddk', size = 'netustm')) 
 + geom_point())

## Geoms i ggplot/plotnine

- Hvad er et geom?
- Geom kan ofte bare skiftes ud med samme aesthetics
- Flere geoms kan ligge ovenpå hinanden

## Tilpasning af plot

- Plot kan tilpasses. Dette er ofte en god ide for at forklare, hvad plottet indeholder
- Labels
- Legend
- Temaer
- Scales (nævn)