# pandas DataFrame

Een DataFrame is een universele tabel, met een groot aantal mogelijke operaties. We zullen in dit notebook kennismaken met enkele veel gebruikte operaties.

Een DataFrame kun je beschouwen als een aantal "parallelle" Series: elke kolom heeft een naam, en de kolommen delen dezelfde index.



In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline    
## pd.options.display.mpl_style = 'default'

In [None]:
prov_jaar = pd.read_csv("prov-jaar.csv", sep=",")
prov_jaar.head(7)

Vraag de index en de kolommen op met:

* `prov_jaar.index`
* `prov_jaar.columns`

## Selectie en indicering

* selecteren van een kolom: `prov_jaar["AANTAL"]`
* of: `prov_jaar.AANTAL`
* selecteren van een rij (met een indexwaarde): `prov_jaar.loc[3]`
* selecteren van een rij (met een rangnummer): `prov_jaar.iloc[5]`
* selecteren van de eerste 5 rijen: `prov_jaar.iloc[:4]`

Let goed op het verschil tussen het selecteren van een rij met een indexwaarde (label) - via `loc` en het selecteren met een rangnummer - via `iloc`. In dit geval is (toevallig) er geen verschil, omdat de index gelijk loopt aan de rangnummers.

Je kunt het verschil zien zodra er sprake is van sorteren - met een andere rangschikking als resultaat. Vergelijk (en let op "Name" onderaan):

* `prov_jaar.sort_values("JAAR").loc[5]`
* `prov_jaar.sort_values("JAAR").iloc[5]`

### Selecteren van rijen met een boolean conditie

Dit werkt analoog aan het selecteren in een Series. Je kunt ook meerdere condities combineren. Je moet daarvoor andere operatoren gebruiken dan de `and` en `or` in Python. Bovendien moet je vaker haakjes gebruiken.

* and: `&`
* or: `|`

> pandas heeft ook een `query`-functie die je gebruikt met een conditie.

* `prov_jaar[prov_jaar.PROVINCIE == "Limburg"]`
* `prov_jaar[prov_jaar.JAAR == 2011]`
* `prov_jaar[(prov_jaar.JAAR >= 2013) & (prov_jaar.PROVINCIE >= "Limburg")]`
* `prov_jaar.query('JAAR >= 2013 & PROVINCIE >= "Limburg"')`

## Reorganiseren van rijen en kolommen

Je kunt één of meer kolommen selecteren

* `prov_jaar[["PROVINCIE", "AANTAL"]]`
* `prov_jaar[["AANTAL", "PROVINCIE"]]`
    * de volgorde in de selectie-lijst bepaalt de volgorde in het resultaat
* `prov_jaar.drop("JAAR", 1)`
    * de `1` geeft aan dat je een kolom selecteert; anders: rij

## Samenvatten (aggregatie)

Voorbeeld: Hoeveel leerlingen hebben de afgelopen jaren examen gedaan in de verschillende provincies?

We beantwoorden eerst de eenvoudiger vraag: hoeveel leerlingen hebben de afgelopen jaren examen gedaan?

* we kunnen een kolom samenvatten met behulp van functies als `sum`, `mean`, `count` en dergelijke;
* `prov_jaar["AANTAL"].sum()`

Maar we zijn vooral geïnteresseerd in het totaal per provincie. Daarvoor gebruiken we de functie `groupby` in combinatie met `sum`:
* prov_jaar.groupby(["PROVINCIE"]).sum()

Merk hierbij op:

* ook de jaartallen worden bij elkaar opgeteld; dat heeft natuurlijk geen betekenis
* we kunnen de kolom AANTAL selecteren in het resultaat: `["AANTAL"]`; de betekenisloze kolom JAAR verdwijnt dan;
    * alternatief: `.drop("JAAR", 1)`

    
### `*`Aggregatie-descriptor

We kunnen het resultaat van zo'n samenvatting (aggregatie) preciezer uitdrukken met behulp van een *aggregate*-beschrijving.
* je geeft daarin aan wat de kolomnaam van de samenvatting is, en welke (numpy) functie daarvoor gebruikt wordt.
* zie: http://pandas.pydata.org/pandas-docs/stable/computation.html#applying-different-functions-to-dataframe-columns
* of: http://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/

```python
agg_descr = {"AANTAL": {"gemiddelde": "mean", "totaal": np.sum}, "JAAR": {"max": "max", "min": "min"}}
prov_jaar.groupby("PROVINCIE").agg(agg_descr)
```

Vraag de kolommen op van dit resultaat; wat valt daarin op? Zie je dat ook in de afgedrukte vorm van de tabel? 

## Verband met database-queries

We hebben met de bovenstaande mogelijkheden ongeveer dezelfde mogelijkheden als bij SQL-queries:

* `SELECT`: beschijft het resultaat, hier door een selectie van de kolommen in de resultaat-dataframe
* `WHERE`: de selectie-conditie, hier door een logische uitdrukking als index
* `GROUP BY` - in combinatie met aggregatie: hier, `groupby(...).sum()` enz.

Zie: https://pandas.pydata.org/pandas-docs/stable/comparison_with_sql.html

## Uitgebreidere reorganisatie: pivot

Er zijn nog meer mogelijkheden om een tabel te reorganiseren, bijvoorbeeld door rijen en kolommen om te wisselen (*transpose*), en door waarden uit een kolom als kolom of rij te gebruiken (*pivot*).

Deze mogelijkheden behandelen we in een apart notebook.
