# pandas Series

We geven hier enkele van de mogelijkheden van pandas Series. In de pandas API-handleiding zijn nog veel meer mogelijkheden te vinden.


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline    
## pd.options.display.mpl_style = 'default'

In [None]:
prov_2015 = pd.Series.from_csv("prov-2015.csv", header=0)
prov_2014 = pd.Series.from_csv("prov-2014.csv", header=0)

## Indicering; index en waarden

Een Series bestaat uit twee parallelle arrays: een index-array en een waarden-array (`values`)

* `prov_2015.index`
* `prov_2015.values`

Door middel van indicering (met een index-waarde) selecteer je een waarde uit de Series:

* `prov_2015["Limburg"]`

### Indicering met rangnummer

Je kunt een Series ook indiceren met het rangnummer (vanaf 0 gerekend), onafhankelijk van de index.

* `prov_2015.iloc[4]`

### Selectie van meerdere elementen

Je kunt ook meerdere elementen selecteren. Je krijgt dan een nieuwe Series; de volgorde in de selectie-lijst bepaalt de index-volgorde. Bijvoorbeeld:
    
* `prov_2015[["Friesland", "Groningen", "Drenthe"]]`

In [None]:
prov_2015[["Friesland", "Groningen", "Drenthe"]]

### Weglaten van een of meerdere elementen

Je kunt één of meerdere elementen weglaten met de `drop`-opdracht. Merk op dat hierbij de oorspronkelijke waarde (`prov_2015`) niet verandert: je krijgt een nieuwe Series-waarde.

* `prov_2015.drop("Drenthe")`
* `prov_2015.drop(["Friesland", "Groningen", "Drenthe"])`

## Sorteren

Je kunt sorteren op de *waarden* in de Series; dit is wat je meestal gebruikt. Met de parameter `ascending` geef je aan of je opklimmend wilt sorteren (of niet).

* `prov_2015.sort_values()`
* `prov_2015.sort_values(ascending=False)`
* ... gebruik dit om een bar-chart te tekenen.

Je kunt ook sorteren op de *index*. (Hier zie je duidelijk dat je met twee parallelle arrays te maken hebt.)

* `prov_2015.sort_index(ascending=False)`

### Selectie met boolean expressie

Een krachtig hulpmiddel is de selectie met behulp van een boolean expressie. Een vergelijking van de vorm `prov_2015 > 500` levert een Series op met boolean waarden op (ga dat na!). Deze kun je vervolgens gebruiken voor het selecteren in een Series met eenzelfde index.

* `prov_2015 > 500`
* `prov_2015[prov_2015 > 500]`
* ... gebruik deze laatste voor het tekenen van een bar-chart met gesorteerde waarden. (Maakt het uit of je eerst selecteert, of eerst sorteert?)

## Samenvatten van een Series

Je kunt een series samenvatten door te sommeren, te tellen, gemiddelde te bepalen, enz.

* https://pandas.pydata.org/pandas-docs/stable/api.html#computations-descriptive-stats

* prov_2015.sum()
* prov_2015.count()
* prov_2015.mean()

### Rekenen met Series

Je kunt op veel manieren rekenen met series, bijvoorbeeld:

* Series `+ - * /` scalar
* Series `+ - * /` Series

Voorbeelden:

* prov_2015 * 100 / prov_2015.sum()
    * wat geeft dit weer?
* prov_2015 - prov_2014
    * teken van dit laatste verschil een bar-chart