# Pivot: reorganiseren van rijen en kolommen

Voor het tekenen van een bepaalde grafiek vanuit de data, moeten we eerst de data in de goede vorm brengen. Dit kan onder andere door de rijen en de kolommen van een tabel anders te organiseren. Hiervoor gebruiken we operaties als *pivot* en *transpose*.

* je kunt de *waarden* in een rij omvormen tot kolommen
* je kunt rijen en kolommen omwisselen 
    * via *pivot* of via *transpose*.

Voordat we een grafiek tekenen, maken we een tabel met een geschikte vorm:

* de index van de tabel komt overeen met de x-as van de grafiek.
* de verschillende kolommen kunnen verschillende lijnen zijn, of "bars" in een bar-chart.

We beginnen met de standaard-importregels voor pandas en matplotlib.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline    
## pd.options.display.mpl_style = 'default'

Vervolgens lezen we de tabel in waarvoor we verschillende grafieken willen tekenen.

In [None]:
prov_jaar = pd.read_csv("prov-jaar.csv", sep=",")
prov_jaar.head(7)

**Opdracht**: zoek de structuur van `prov_jaar` uit, door de `index` en de `columns` daarvan op te vragen via de cellen hieronder.

## Grafiek 1: lijngrafiek met jaar op x-as

Als eerste willen we een *lijngrafiek* maken, met de tijd (jaar) in de x-as. We moeten dan de tabel (DataFrame) een vorm geven met

* index: jaar
* kolommen: provincies (de namen van de provincies)
* waarden: aantal examens

> Als we de tijd (hier: jaartal) gebruiken als index, kunnen we een lijngrafiek maken van de ontwikkeling van de waarden in de tijd. Per kolom krijgen we een lijn in deze grafiek.

We lezen eerst de tabel `prov-jaar.csv` in. Deze heeft als kolommen: PROVINCIE, JAAR en AANTAL. Vervolgens zetten we deze tabel in de juiste vorm voor de grafiek, en tekenen dan de grafiek.

**Opmerkingen**:

* voor verschillende grafieken hebben we verschillende pivots nodig.
    * voor de lijngrafiek willen we het jaar als index (x-as) gebruiken;
    * voor de bar-chart is het handiger om de provincie als index te gebruiken.

Als eerste stap maken we een *pivot* van deze tabel, met als index: `JAAR` en als kolommen de waarden uit: `PROVINCIE`; we willen de elementen van de kolom `AANTAL` als waarden in de tabel.

In [None]:
jp = prov_jaar.pivot(index="JAAR", columns="PROVINCIE", values="AANTAL")
jp

Maak een lijngrafiek van deze tabel, met de kolommen als afzonderlijke lijnen (`df.plot.line()`):

Met behulp van de `matplotlib`-opdrachten kun je de legenda op een betere plaats krijgen, bijvoorbeeld door de volgende regel toe te voegen (na de "plot" opdracht).

```python
plt.legend(bbox_to_anchor=(1, 1), loc=2)
```

Welke dingen vallen op aan deze grafiek? Kijk vooral naar de onderste en de bovenste lijnen.

## Grafiek 2: bar chart: jaar als index

We maken een bar-chart met het jaar als index waarbij de verschillende kolommen gestapeld zijn (`stacked=True`). De hoogte van de bar is dan het totaal aantal leerlingen (examens) voor dat jaar.

* gebruik hiervoor de opdracht `jp.plot.bar(stacked=True)`
* zorg ervoor dat de legenda buiten de grafiek komt te staan.
* geef de plot een titel via de opdracht: `plt.title("Informatica-examens HAVO en VWO")`

## Grafiek 3. bar chart: provincie als index

We kunnen dezefde gegevens ook op een andere manier weergeven, met behulp van een bar chart. We nemen dan de provincie als index, en de jaartallen als kolommen.



We kunnen de gewenste tabel maken met een pivot-operatie uit de oorspronkelijke tabel:

```python
pj1 = prov_jaar.pivot(index="PROVINCIE", columns="JAAR", values="AANTAL")
```

Maar we kunnen ook simpelweg de rijen en kolommen omwisselen met de **transpose**-functie.

```python
pj1 = jp.T
```

**Opdracht**: voor beide uit, en ga na dat je hetzelfde resultaat krijgt.

In [None]:
pj1 = jp.T

Teken nu de bar-plot voor deze tabel (`df.plot.bar`):

We kunnen in de grafiek de waarden van de verschillende kolommen naast elkaar weergeven (de default), of gestapeld. In dit voorbeeld heeft deze eerste vorm de voorkeur.

## Sorteren

In het geval van een bar-chart met de provincies als index kunnen we zelf de volgorde van de index kiezen. De default is: alfabetisch op naam. Maar in dit geval willen we graag de provincies sorteren op het aantal leerlingen in het jaar 2015. We sorteren de rijen (met `sort_values`) 

```python
pj1.sort_values(2015)
```
en tekenen vervolgens de bar-chart.

```python
pj1.sort_values(2015).plot.bar()
```

## Grafiek 4: gestapelde bar-chart (per jaar)

Met behulp van deze gesorteerde versie kunnen we ook een andere gestapelde bar-chart tekenen, van de eerste grafiek. Gebruik hiervoor de opdrachten:

```python
pj1.sort_values(2015, ascending=False).T.plot.bar(stacked=True)
plt.legend(bbox_to_anchor=(1, 1), loc=2)
```

## Grafiek 5: pie-chart

Teken een pie-chart van een enkel jaar, bijvoorbeeld van 2015 (als in `pj1[2015]`). Probeer eerst de tabel te bekijken, en teken dan de pie-chart.

Heeft het zin om de waarden van deze tabel (een Series) te sorteren, voordat je de grafiek tekent? Heeft `sort_values` in dit geval paramaters nodig?

## Reorganiseren van kolommen

* hernoemen van kolommen (`rename`)
* veranderen van de volgorde van kolommen
* weglaten van kolommen (`drop`)

## Totalen

* maak van de tabel een Series, met jaartal als index
* en als waarden de som van de aantallen van de provincies.


## Toevoegen van een kolom (totaal)

We willen een kolom toevoegen aan de tabel (index=JAAR, columns=PROVINCIES), met het totaal van de provincie-kolommen.

We maken hiervoor eerst een *kopie* van de betreffende tabel, om ervoor te zorgen dat we de oorspronkelijke tabel niet veranderen. (Zie opmerking over kopieën in pandas en Notebooks.)

In [None]:
jpx = jp.copy()
jpx

We hebben niet een manier voor de aggregatie van kolommen, maar wel voor rijen. We kunnen dat eenvoudig oplossen door de som van de getransponeerde tabel te nemen. Dit is een Series met dezelfde index als de tabel die we willen uitbreiden.

> Eigenlijk krijgen we door deze sommatie weer een getransponeerde versie: de index bestaat uit de kolommen van de gesommeerde tabel.


In [None]:
jp.T.sum()

We kunnen eenvoudig een kolom toevoegen (zoals gebruikelijk in Python) door een toekenning aan deze kolom. In het geval van een DataFrame moeten we er dan wel voor zorgen dat de index van deze kolom gelijk is aan de index van de tabel, anders krijg je verrassende resultaten. Maar in dit geval zijn we daarvan verzekerd.

> Een alternatief is: `pjpx = pjp.assign(totaal=pjp.T.sum())`. In dit geval kun je eventueel de index van de toe te voegen waarde aanpassen.

In [None]:
jpx["totaal"] = jp.T.sum()
jpx

In [None]:
jpx.totaal.plot.bar()

In [None]:
jpy = jp.assign(totaal=jp.T.sum())
jpy

NB: we gebruiken in onze Notebooks steeds een verse variabele voor een nieuwe waarde. Op deze manier maakt het niet uit of we een bepaalde cel 1 keer of vaker uitvoeren. ("idempotent", als bij web-operaties zoals GET en PUT - maar niet POST).

## Referenties

* https://pandas.pydata.org/pandas-docs/stable/reshaping.html
* http://pandas.pydata.org/pandas-docs/version/0.15.2/reshaping.html#reshaping-pivot