# Visualisatie: Series

In dit notebook introduceren we de pandas Series. We maken hiermee enkele basisgrafieken.

We beginnen met het importeren van de nodige modules: pandas, matplotlib en numpy

In [None]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

%matplotlib inline    
## pd.options.display.mpl_style = 'default'

## Inlezen van een Series

Voor het inlezen van een Series gebruiken we de functie `pd.Series.from_csv`. (Zie: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.from_csv.html)
De eerste rij (rangnummer 0) van het bestand bevat de header, met de namen van de kolommen.

* je kunt het bestand bekijken met 
    * `!cat prov-2015.csv`
* voor het inlezen gebruik je: 
    * `prov_2015 = pd.Series.from_csv("prov-2015.csv", header=0)`
* daarna kun je het resultaat bekijken met
    * `prov_2015       `  *of*
    * `print(prov_2015)`

In [None]:
prov_2015 = pd.Series.from_csv("prov-2015.csv", header=0)
prov_2015

## Index en waarden

Een Series bestaat uit twee parallelle kolommen: de *index* en de *values*.

* de index vraag je op met `prov_2015.index`
* de waarden vraag je op met `prov_2015.values`

In [None]:
prov_2015.index

In [None]:
prov_2015.values

Je kunt een bepaalde rij (waarde) selecteren met behulp van een index-waarde. Als de index een string (naam) is, kan dit op meerdere manieren:

* `prov_2015["Drenthe"]`
* `prov_2015.Limburg`


## Samenvatten (aggregatie)

Op Series zijn allerlei operaties mogelijk. Je kunt de waarden samenvatten (aggregatie), bijvoorbeeld door deze op te tellen (`sum()`; het gemiddelde te berekenen (`mean()`; te tellen `count()`; enz.

Zie: https://pandas.pydata.org/pandas-docs/stable/api.html#computations-descriptive-stats

* `prov_2015.sum()`

In [None]:
prov_2015.sum()

## Plotten: bar chart

We maken een aantal basisgrafieken met deze data.

De eenvoudigste grafiek is de *bar chart*.

* `prov_2015.plot.bar()`

In [None]:
prov_2015.plot.bar()

Voor meer informatie over plot van Series:

* https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.plot.bar.html
* https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.plot.html#pandas.Series.plot

### Sorteren

We willen de provincies weergeven in volgorde van afnemende aantallen examens. NB: `sort_values` verandert zo niets aan de inhoud of volgorde van `prov_2015`.

* `prov_2015.sort_values(ascending=False).plot.bar()`

In [None]:
prov_2015.sort_values(ascending=False).plot.bar()

## Plot: pie chart

Op eenzelfde manier kun je eenvoudig een pie chart (taartdiagram) tekenen. Ook hier kan sorteren zinvol zijn.

* `prov_2015.plot.pie()`
* `prov_2015.sort_values(ascending=False).plot.pie()`

In [None]:
prov_2015.sort_values(ascending=False).plot.pie()

## Plot: lijngrafiek

Voor de lijngrafiek gebruiken we bij voorkeur kwantitatieve data: waarden op de x-as die je in getallen kunt uitdrukken.

> Je kunt van de `prov_2015`-data ook een lijngrafiek tekenen -probeer maar eens-. Maar dat heeft niet zoveel zin: je kunt bijvoorbeeld niet spreken van een "stijging tussen Zeeland en Zuid-Holland".

We gebruiken een eenvoudige tabel: de totale aantallen informatica-examens in enkele opeenvolgende jaren.

* `inf_jaar = pd.Series.from_csv("inf-jaar.csv", header=0)`
* `print(inf_jaar)`
* `print(inf_jaar.index)`

We tekenen de lijngrafiek met:

* `inf_jaar.plot.line()`

Merk op dat deze grafiek een vertekend beeld geeft: de y-as is verschoven, waardoor de verschillen veel groter lijken dan ze eigenlijk zijn.

Je kunt de parameters voor de grafiek zo instellen dat de y-as niet verschuift:

* `inf_jaar.plot.line(ylim=(0, 12000))`