# DUO data: inlezen en omvormen

In dit notebook lezen we de data van DUO in, en zetten deze in het formaat (de formaten) dat we voor de eerste opdrachten gebruiken.



In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline    
## pd.options.display.mpl_style = 'default'

Een overzicht van de DUO-bestanden: per jaar en per schooltype

In [2]:
!ls -lh Duo/*

-rw-r--r--@ 1 eelco  staff   1,5M 31 mei 09:51 Duo/09.-examenkandidaten-havo-en-examencijfers-2011-2012.csv
-rw-r--r--@ 1 eelco  staff   1,5M 31 mei 09:51 Duo/09.-examenkandidaten-havo-en-examencijfers-2012-2013.csv
-rw-r--r--@ 1 eelco  staff   1,5M 31 mei 09:51 Duo/09.-examenkandidaten-havo-en-examencijfers-2013-2014.csv
-rw-r--r--@ 1 eelco  staff   1,6M 31 mei 09:51 Duo/09.-examenkandidaten-havo-en-examencijfers-2014-2015.csv
-rw-r--r--@ 1 eelco  staff   1,6M 31 mei 09:51 Duo/09.-examenkandidaten-havo-en-examencijfers-2015-2016.csv
-rw-r--r--@ 1 eelco  staff   1,8M 31 mei 09:49 Duo/10.-examenkandidaten-vwo-en-examencijfers-2011-2012.csv
-rw-r--r--@ 1 eelco  staff   1,7M 31 mei 09:49 Duo/10.-examenkandidaten-vwo-en-examencijfers-2012-2013.csv
-rw-r--r--@ 1 eelco  staff   1,7M 31 mei 09:49 Duo/10.-examenkandidaten-vwo-en-examencijfers-2013-2014.csv
-rw-r--r--@ 1 eelco  staff   1,9M 31 mei 09:49 Duo/10.-examenkandidaten-vwo-en-examencijfers-2014-2015.csv
-rw-r--r--@ 1 eelco  st

## Inlezen van bestanden en combineren tot één tabel

We lezen elk bestand in als DataFrame. Later combineren we deze tot één grote tabel.

In [3]:
df_Havo_2011 = pd.read_csv('Duo/09.-examenkandidaten-havo-en-examencijfers-2011-2012.csv', sep=';')

df_Havo_2012 = pd.read_csv('Duo/09.-examenkandidaten-havo-en-examencijfers-2012-2013.csv', sep=';')

df_Havo_2013 = pd.read_csv('Duo/09.-examenkandidaten-havo-en-examencijfers-2013-2014.csv', sep=';')

df_Havo_2014 = pd.read_csv('Duo/09.-examenkandidaten-havo-en-examencijfers-2014-2015.csv', sep=';')

df_Havo_2015 = pd.read_csv('Duo/09.-examenkandidaten-havo-en-examencijfers-2015-2016.csv', sep=';')

In [4]:
df_VWO_2011 = pd.read_csv('Duo/10.-examenkandidaten-vwo-en-examencijfers-2011-2012.csv', sep=';')

df_VWO_2012 = pd.read_csv('Duo/10.-examenkandidaten-vwo-en-examencijfers-2012-2013.csv', sep=';')

df_VWO_2013 = pd.read_csv('Duo/10.-examenkandidaten-vwo-en-examencijfers-2013-2014.csv', sep=';')

df_VWO_2014 = pd.read_csv('Duo/10.-examenkandidaten-vwo-en-examencijfers-2014-2015.csv', sep=';')

df_VWO_2015 = pd.read_csv('Duo/10.-examenkandidaten-vwo-en-examencijfers-2015-2016.csv', sep=';')

Voordat we de verschillende data gaan combineren, filteren we eerst de overbodige data. We zijn alleen in het vak informatica geïnteresseerd. Dit is een vak met een schoolexamen: gegevens over centrale examens zijn dus niet interessant. Als referentie (voor het aantal leerlingen en het aantal scholen) gebruiken we het vak Nederlands. Alle leerlingen doen daarin schoolexamen, en alle scholen bieden dit aan.

Wat zijn de namen van de kolommen?

In [5]:
df_VWO_2015.columns

Index(['SCHOOLJAAR', 'BRIN NUMMER', 'VESTIGINGSNUMMER',
       'INSTELLINGSNAAM VESTIGING', 'GEMEENTENUMMER', 'GEMEENTENAAM',
       'PLAATSNAAM', 'PROVINCIE', 'ONDERWIJSTYPE VO', 'VAKCODE',
       'AFKORTING VAKNAAM', 'VAKNAAM', 'SCHOOLEXAMEN BEOORDELING',
       'TOTAAL AANTAL SCHOOLEXAMENS MET BEOORDELING',
       'AANTAL SCHOOLEXAMENS MET BEOORDELING MEETELLEND VOOR DIPLOMA',
       'TOTAAL AANTAL SCHOOLEXAMENS MET CIJFER',
       'GEM. CIJFER TOTAAL AANTAL SCHOOLEXAMENS',
       'AANTAL SCHOOLEXAMENS MET CIJFER MEETELLEND VOOR DIPLOMA',
       'GEM. CIJFER SCHOOLEXAMENS MET CIJFER MEETELLEND VOOR DIPLOMA',
       'TOTAAL AANTAL CENTRALE EXAMENS',
       'GEM. CIJFER TOTAAL AANTAL CENTRALE EXAMENS',
       'AANTAL CENTRALE EXAMENS MEETELLEND VOOR DIPLOMA',
       'GEM. CIJFER CENTRALE EXAMENS MET CIJFER MEETELLEND VOOR DIPLOMA',
       'GEM. CIJFER CIJFERLIJST', 'GEM. CIJFER REKENTOETS'],
      dtype='object')

In [6]:
df_Havo_2015.columns

Index(['SCHOOLJAAR', 'BRIN NUMMER', 'VESTIGINGSNUMMER',
       'INSTELLINGSNAAM VESTIGING', 'GEMEENTENUMMER', 'GEMEENTENAAM',
       'PLAATSNAAM', 'PROVINCIE', 'ONDERWIJSTYPE VO', 'VAKCODE',
       'AFKORTING VAKNAAM', 'VAKNAAM', 'SCHOOLEXAMEN BEOORDELING',
       'TOTAAL AANTAL SCHOOLEXAMENS MET BEOORDELING',
       'AANTAL SCHOOLEXAMENS MET BEOORDELING MEETELLEND VOOR DIPLOMA',
       'TOTAAL AANTAL SCHOOLEXAMENS MET CIJFER',
       'GEM. CIJFER TOTAAL AANTAL SCHOOLEXAMENS',
       'AANTAL SCHOOLEXAMENS MET CIJFER MEETELLEND VOOR DIPLOMA',
       'GEM. CIJFER SCHOOLEXAMENS MET CIJFER MEETELLEND VOOR DIPLOMA',
       'TOTAAL AANTAL CENTRALE EXAMENS',
       'GEM. CIJFER TOTAAL AANTAL CENTRALE EXAMENS',
       'AANTAL CENTRALE EXAMENS MEETELLEND VOOR DIPLOMA',
       'GEM. CIJFER CENTRALE EXAMENS MET CIJFER MEETELLEND VOOR DIPLOMA',
       'GEM. CIJFER CIJFERLIJST', 'GEM. CIJFER REKENTOETS'],
      dtype='object')

### Combineren van tabellen tot één tabel

Omdat zowel het schooljaar als het schooltype als afzonderlijke kolommen voorkomen, en omdat de kolomnamen van de verschillende tabellen gelijk zijn, kunnen we deze tabellen combineren tot één grote tabel - zonder verlies van informatie. We kunnen dat de gewenste gegevens uit deze grote tabel selecteren.

Voor het combineren van verschillende tabellen (met dezelfde kolomnamen) gebruiken we (NB: de index in deze tabellen heeft geen betekenis: daarom laten we deze weg. Wat gebeurt er als je die index wel meeneemt? Voorbeeld?)


In [8]:
df_ALL = pd.concat([df_Havo_2011, df_Havo_2012, df_Havo_2013, df_Havo_2014, df_Havo_2015,
                    df_VWO_2011, df_VWO_2012, df_VWO_2013, df_VWO_2014, df_VWO_2015], ignore_index=True )
df_ALL.head(5)

Unnamed: 0,AANTAL CENTRALE EXAMENS MEETELLEND VOOR DIPLOMA,AANTAL SCHOOLEXAMENS MET BEOORDELING MEETELLEND VOOR DIPLOMA,AANTAL SCHOOLEXAMENS MET CIJFER MEETELLEND VOOR DIPLOMA,AFKORTING VAKNAAM,BRIN NUMMER,GEM. CIJFER CENTRALE EXAMENS MET CIJFER MEETELLEND VOOR DIPLOMA,GEM. CIJFER CIJFERLIJST,GEM. CIJFER REKENTOETS,GEM. CIJFER SCHOOLEXAMENS MET CIJFER MEETELLEND VOOR DIPLOMA,GEM. CIJFER TOTAAL AANTAL CENTRALE EXAMENS,...,PLAATSNAAM,PROVINCIE,SCHOOLEXAMEN BEOORDELING,SCHOOLJAAR,TOTAAL AANTAL CENTRALE EXAMENS,TOTAAL AANTAL SCHOOLEXAMENS MET BEOORDELING,TOTAAL AANTAL SCHOOLEXAMENS MET CIJFER,VAKCODE,VAKNAAM,VESTIGINGSNUMMER
0,54,0,54,ak,00AH,59,61,,62,59,...,ENSCHEDE,Overijssel,,2011,54,0,54,131,aardrijkskunde,0
1,0,0,0,in,00AH,0,66,,0,0,...,ENSCHEDE,Overijssel,,2011,0,0,18,161,informatica,0
2,43,0,43,m&o,00AH,59,61,,62,59,...,ENSCHEDE,Overijssel,,2011,43,0,43,251,management en organisatie,0
3,14,0,14,mu,00AH,61,64,,68,61,...,ENSCHEDE,Overijssel,,2011,14,0,14,260,muziek,0
4,19,0,19,te,00AH,62,66,,68,62,...,ENSCHEDE,Overijssel,,2011,19,0,19,270,tekenen,0


Welke waarden komen voor als VAKNAAM?

In [9]:
df_ALL['VAKNAAM'].unique()

array(['aardrijkskunde', 'informatica', 'management en organisatie',
       'muziek', 'tekenen', 'lichamelijke opvoeding',
       'vooropleiding dansvakonderwijs', 'Nederlandse taal en literatuur',
       'Engelse taal en literatuur', 'Franse taal en literatuur',
       'Duitse taal en literatuur', 'biologie', 'maatschappijleer',
       'culturele en kunstzinnige vorming', 'geschiedenis', 'economie',
       'natuurkunde', 'wiskunde A', 'wiskunde B', 'scheikunde',
       'kunst (drama)', 'handvaardigheid',
       'bewegen, sport en maatschappij', 'algemene natuurwetenschappen',
       'maatschappijwetenschappen', 'klassieke culturele vorming',
       'kunst (beeldende vormgeving)', 'kunst (muziek)',
       'natuur, leven en technologie', 'kunst (dans)', 'literatuu',
       'Nederlandse taal', 'Engelse taal', 'Franse taal', 'Duitse taal',
       'wiskunde D', 'onderzoek en ontwerpen (beschikking 2007)',
       'levensbeschouwelijk vormingsonderwijs',
       'Spaanse taal en literatuur (e

### Selecteren van relevante kolommen

We zijn geïnteresseerd in de volgende kolommen:

['SCHOOLJAAR', 'BRIN NUMMER', 'VESTIGINGSNUMMER',
       'INSTELLINGSNAAM VESTIGING', 
       'PLAATSNAAM', 'PROVINCIE', 'ONDERWIJSTYPE VO', 'VAKNAAM',
       'TOTAAL AANTAL SCHOOLEXAMENS MET CIJFER',
       'GEM. CIJFER TOTAAL AANTAL SCHOOLEXAMENS',
       'GEM. CIJFER CIJFERLIJST']
       
En dus niet in:
'GEMEENTENUMMER', 'GEMEENTENAAM',
'VAKCODE', 'AFKORTING VAKNAAM',
'SCHOOLEXAMEN BEOORDELING',
'TOTAAL AANTAL SCHOOLEXAMENS MET BEOORDELING',
'AANTAL SCHOOLEXAMENS MET BEOORDELING MEETELLEND VOOR DIPLOMA',
'AANTAL SCHOOLEXAMENS MET CIJFER MEETELLEND VOOR DIPLOMA',
'TOTAAL AANTAL CENTRALE EXAMENS',
'GEM. CIJFER TOTAAL AANTAL CENTRALE EXAMENS',
'AANTAL CENTRALE EXAMENS MEETELLEND VOOR DIPLOMA',
'GEM. CIJFER CENTRALE EXAMENS MET CIJFER MEETELLEND VOOR DIPLOMA',
??? (komt niet voor?)
'GEM. CIJFER REKENTOETS'


In [10]:
inf_columns = ['SCHOOLJAAR', 'BRIN NUMMER', 'VESTIGINGSNUMMER',
       'INSTELLINGSNAAM VESTIGING',
       'PLAATSNAAM', 'PROVINCIE', 'ONDERWIJSTYPE VO','VAKNAAM',
       'TOTAAL AANTAL SCHOOLEXAMENS MET CIJFER',
       'GEM. CIJFER TOTAAL AANTAL SCHOOLEXAMENS',
       'GEM. CIJFER CIJFERLIJST']

### Hernoemen van kolommen

Met behulp van een dictionary kunnen we de namen van de kolommen aanpassen, met de `rename`-opdracht.

In [11]:
rename_columns = {'SCHOOLJAAR': 'JAAR', 'BRIN NUMMER': 'BRIN',
                  'VESTIGINGSNUMMER': 'VNR', 'INSTELLINGSNAAM VESTIGING': 'VESTIGING',
                  'PLAATSNAAM': 'PLAATS',
                  'ONDERWIJSTYPE VO': "SOORT", 
                  'TOTAAL AANTAL SCHOOLEXAMENS MET CIJFER': 'AANTAL',
                  'GEM. CIJFER TOTAAL AANTAL SCHOOLEXAMENS': 'VAKCIJFER',
                  'GEM. CIJFER CIJFERLIJST': 'EXCIJFER'
                 }

In [12]:
df_INFxx = df_ALL[df_ALL.VAKNAAM == "informatica"][inf_columns].rename(columns=rename_columns)
df_INFxx.head(5)

Unnamed: 0,JAAR,BRIN,VNR,VESTIGING,PLAATS,PROVINCIE,SOORT,VAKNAAM,AANTAL,VAKCIJFER,EXCIJFER
1,2011,00AH,0,Opb SGM t Stedelijk Lyceum,ENSCHEDE,Overijssel,HAVO,informatica,18,66,66
26,2011,00AH,7,Opb SGM t Stedelijk Lyceum,ENSCHEDE,Overijssel,HAVO,informatica,8,67,69
51,2011,00AQ,0,Zwin College SGM,OOSTBURG,Zeeland,HAVO,informatica,13,74,75
184,2011,00HI,0,SGM Dalton Vatel,VOORBURG,Zuid-Holland,HAVO,informatica,6,67,68
231,2011,00JR,0,SGM Spieringshoek,SCHIEDAM,Zuid-Holland,HAVO,informatica,18,66,66


## Tabel met Nederlands en informatica

Om het aantal leerlingen (examens) informatica te kunnen vergelijken met het totale aantal leerlingen gebruiken we als vergelijking het van Nederlands. Dit gebruiken we ook om het aantal scholen te kunnen vergelijken.

We maken een tabel die zowel de examens Nederlands als de examens informatica bevat. We proberen het aantal kolommen te beperken.

* We bouwen deze tabel in een aantal stappen op. De uiteindelijke tabel heet `df_NEDINF`. De tussenresultaten hebben een extra letter, bijvoorbeeld `df_NEDINFa`.

In [13]:
df_ALL.head()

Unnamed: 0,AANTAL CENTRALE EXAMENS MEETELLEND VOOR DIPLOMA,AANTAL SCHOOLEXAMENS MET BEOORDELING MEETELLEND VOOR DIPLOMA,AANTAL SCHOOLEXAMENS MET CIJFER MEETELLEND VOOR DIPLOMA,AFKORTING VAKNAAM,BRIN NUMMER,GEM. CIJFER CENTRALE EXAMENS MET CIJFER MEETELLEND VOOR DIPLOMA,GEM. CIJFER CIJFERLIJST,GEM. CIJFER REKENTOETS,GEM. CIJFER SCHOOLEXAMENS MET CIJFER MEETELLEND VOOR DIPLOMA,GEM. CIJFER TOTAAL AANTAL CENTRALE EXAMENS,...,PLAATSNAAM,PROVINCIE,SCHOOLEXAMEN BEOORDELING,SCHOOLJAAR,TOTAAL AANTAL CENTRALE EXAMENS,TOTAAL AANTAL SCHOOLEXAMENS MET BEOORDELING,TOTAAL AANTAL SCHOOLEXAMENS MET CIJFER,VAKCODE,VAKNAAM,VESTIGINGSNUMMER
0,54,0,54,ak,00AH,59,61,,62,59,...,ENSCHEDE,Overijssel,,2011,54,0,54,131,aardrijkskunde,0
1,0,0,0,in,00AH,0,66,,0,0,...,ENSCHEDE,Overijssel,,2011,0,0,18,161,informatica,0
2,43,0,43,m&o,00AH,59,61,,62,59,...,ENSCHEDE,Overijssel,,2011,43,0,43,251,management en organisatie,0
3,14,0,14,mu,00AH,61,64,,68,61,...,ENSCHEDE,Overijssel,,2011,14,0,14,260,muziek,0
4,19,0,19,te,00AH,62,66,,68,62,...,ENSCHEDE,Overijssel,,2011,19,0,19,270,tekenen,0


In [18]:
select_ned_inf = (df_ALL.VAKNAAM == "Nederlandse taal en literatuur") | (df_ALL.VAKNAAM == "informatica")
df_NEDINFa = df_ALL[select_ned_inf][inf_columns].rename(columns=rename_columns)
df_NEDINFa[df_NEDINFa.BRIN == "02QZ"]

Unnamed: 0,JAAR,BRIN,VNR,VESTIGING,PLAATS,PROVINCIE,SOORT,VAKNAAM,AANTAL,VAKCIJFER,EXCIJFER
2439,2011,02QZ,0,Keizer Karel College,AMSTELVEEN,Noord-Holland,HAVO,informatica,28,65,65
13613,2012,02QZ,0,Keizer Karel College,AMSTELVEEN,Noord-Holland,HAVO,informatica,26,65,65
24876,2013,02QZ,0,Keizer Karel College,AMSTELVEEN,Noord-Holland,HAVO,informatica,38,66,66
36345,2014,02QZ,0,Keizer Karel College,AMSTELVEEN,Noord-Holland,HAVO,informatica,33,70,70
48321,2015,02QZ,0,Keizer Karel College,AMSTELVEEN,Noord-Holland,HAVO,informatica,35,68,68
60765,2011,02QZ,0,Keizer Karel College,AMSTELVEEN,Noord-Holland,VWO,informatica,59,74,74
74046,2012,02QZ,0,Keizer Karel College,AMSTELVEEN,Noord-Holland,VWO,informatica,54,73,73
87301,2013,02QZ,0,Keizer Karel College,AMSTELVEEN,Noord-Holland,VWO,informatica,55,71,71
100701,2014,02QZ,0,Keizer Karel College,AMSTELVEEN,Noord-Holland,VWO,informatica,46,71,71
114498,2015,02QZ,0,Keizer Karel College,AMSTELVEEN,Noord-Holland,VWO,informatica,40,74,74


## Scholen en vestigingen

We willen het aantal scholen (vestigingen) tellen dat informatica aanbiedt. Een eerste indicatie is het aanral verschillende BRIN-nummers. Maar vaak staat dit voor een organisatie die meerdere scholen heeft. Een mogelijke identificatie van een school is een combinatie van BRIN en vestigingsnummer (VNR). We maken een nieuwe kolom `schoolid` die bestaat uit de string-concatenatie van BRIN en vestigingsnummer.

Omdat we geen wijzigingen in bestaande variabelen willen aanbrengen, maken we voor deze tabel met de extra kolom een nieuwe variabele - als kopie van de bestaande.

In [19]:
df_NEDINFb = df_NEDINFa.copy()
df_NEDINFb["SCHOOLID"] = df_NEDINFb.BRIN + "-" + df_NEDINFb.VNR.astype(str)
nedinf_columns = ["JAAR", "SCHOOLID", "VESTIGING", "PLAATS", "PROVINCIE", "SOORT", 
              "VAKNAAM", "AANTAL"]
df_NEDINF = df_NEDINFb[nedinf_columns]
df_NEDINF.head(8)

Unnamed: 0,JAAR,SCHOOLID,VESTIGING,PLAATS,PROVINCIE,SOORT,VAKNAAM,AANTAL
1,2011,00AH-0,Opb SGM t Stedelijk Lyceum,ENSCHEDE,Overijssel,HAVO,informatica,18
8,2011,00AH-0,Opb SGM t Stedelijk Lyceum,ENSCHEDE,Overijssel,HAVO,Nederlandse taal en literatuur,114
26,2011,00AH-7,Opb SGM t Stedelijk Lyceum,ENSCHEDE,Overijssel,HAVO,informatica,8
33,2011,00AH-7,Opb SGM t Stedelijk Lyceum,ENSCHEDE,Overijssel,HAVO,Nederlandse taal en literatuur,91
51,2011,00AQ-0,Zwin College SGM,OOSTBURG,Zeeland,HAVO,informatica,13
57,2011,00AQ-0,Zwin College SGM,OOSTBURG,Zeeland,HAVO,Nederlandse taal en literatuur,94
80,2011,00BD-0,Coenecoop College,WADDINXVEEN,Zuid-Holland,HAVO,Nederlandse taal en literatuur,110
123,2011,00CB-1,SGM VO Vrije Schoolond,ZEIST,Utrecht,HAVO,Nederlandse taal en literatuur,50


### Aantal HAVO/VWO-scholen

Het aantal HAVO/VWO-scholen in Nederland bepalen we door het aantal unieke SCHOOLID-waarden te tellen, met de functie `nunique`.

NB: dit beslaat een periode van 5 jaren: scholen die gesplitst of gecombineerd zijn worden dan dubbel geteld. Uiteindelijk moeten we dit per jaar bepalen.

In [20]:
df_NEDINF.SCHOOLID.nunique()

582

## Groupby-objecten

We willen de verschillende data groeperen, bijvoorbeeld per jaar en per provincie. Deze groepering combineren we met aggregatie, bijvoorbeeld tellen of sommeren.

* aggregatie (samenvattingsfuncties), zoals hier: sommeren; tellen; tellen van unieke waarden; enz.

Hoe ontwikkelt het aantal scholen zich over de opeenvolgende jaren?

* combineren van meerdere groeperingen: `groupby(["JAAR", "PROVINCIE"])`

In [21]:
df_NEDINF.groupby(["JAAR"]).SCHOOLID.nunique()

JAAR
2011    535
2012    539
2013    548
2014    555
2015    554
Name: SCHOOLID, dtype: int64

### Aantal scholen dat informatica aanbiedt

In [22]:
df_NEDINF[df_NEDINF.VAKNAAM == "informatica"].groupby("JAAR").SCHOOLID.nunique()

JAAR
2011    304
2012    298
2013    284
2014    279
2015    274
Name: SCHOOLID, dtype: int64

We kunnen dit ook per provincie doen (verander het type van de cell hieronder).

In [23]:
df_NEDINF[df_NEDINF.VAKNAAM == "informatica"].groupby(["PROVINCIE", "JAAR"]).SCHOOLID.nunique()

PROVINCIE      JAAR
Drenthe        2011     7
               2012     7
               2013     6
               2014     6
               2015     6
Flevoland      2011     4
               2012     5
               2013     4
               2014     4
               2015     4
Friesland      2011    10
               2012     9
               2013     8
               2014     8
               2015     7
Gelderland     2011    32
               2012    33
               2013    32
               2014    32
               2015    30
Groningen      2011    11
               2012    10
               2013     8
               2014     7
               2015     6
Limburg        2011    27
               2012    26
               2013    24
               2014    25
               2015    24
Noord-Brabant  2011    47
               2012    46
               2013    45
               2014    44
               2015    43
Noord-Holland  2011    53
               2012    51
               201

## Aantallen examens Nederlands

In [24]:
df_NED = df_NEDINF[df_NEDINF.VAKNAAM == "Nederlandse taal en literatuur"]
df_NED.head(7)

Unnamed: 0,JAAR,SCHOOLID,VESTIGING,PLAATS,PROVINCIE,SOORT,VAKNAAM,AANTAL
8,2011,00AH-0,Opb SGM t Stedelijk Lyceum,ENSCHEDE,Overijssel,HAVO,Nederlandse taal en literatuur,114
33,2011,00AH-7,Opb SGM t Stedelijk Lyceum,ENSCHEDE,Overijssel,HAVO,Nederlandse taal en literatuur,91
57,2011,00AQ-0,Zwin College SGM,OOSTBURG,Zeeland,HAVO,Nederlandse taal en literatuur,94
80,2011,00BD-0,Coenecoop College,WADDINXVEEN,Zuid-Holland,HAVO,Nederlandse taal en literatuur,110
123,2011,00CB-1,SGM VO Vrije Schoolond,ZEIST,Utrecht,HAVO,Nederlandse taal en literatuur,50
143,2011,00CB-2,SGM VO Vrije Schoolond,EINDHOVEN,Noord-Brabant,HAVO,Nederlandse taal en literatuur,27
164,2011,00DI-2,rsg de Borgen,LEEK,Groningen,HAVO,Nederlandse taal en literatuur,147


In [25]:
ned_prov_jaar = df_NED[['JAAR','PROVINCIE', 'AANTAL']].groupby(['PROVINCIE', 'JAAR']).sum()
ned_prov_jaar.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,AANTAL
PROVINCIE,JAAR,Unnamed: 2_level_1
Drenthe,2011,1666
Drenthe,2012,1599
Drenthe,2013,1833
Drenthe,2014,1934
Drenthe,2015,1920
Flevoland,2011,1442
Flevoland,2012,1441
Flevoland,2013,1751
Flevoland,2014,1820
Flevoland,2015,1818


In [26]:
ned_prov_jaar.to_csv("ned_prov_jaar.csv")


!cat ned_prov_jaar.csv

### Aantallen examens informatica

In [27]:
df_INFx = df_NEDINF[df_NEDINF.VAKNAAM == "informatica"]
select_index = ['JAAR', 'PROVINCIE', 'AANTAL']

df_INF_prov = df_INFx[select_index]
print(df_INF_prov.head(6))

df_INF_provgrp = df_INF_prov.groupby(['PROVINCIE', 'JAAR'])

df_INF_provgrp.sum().head(10)

     JAAR     PROVINCIE  AANTAL
1    2011    Overijssel      18
26   2011    Overijssel       8
51   2011       Zeeland      13
184  2011  Zuid-Holland       6
231  2011  Zuid-Holland      18
254  2011       Utrecht      13


Unnamed: 0_level_0,Unnamed: 1_level_0,AANTAL
PROVINCIE,JAAR,Unnamed: 2_level_1
Drenthe,2011,211
Drenthe,2012,200
Drenthe,2013,229
Drenthe,2014,208
Drenthe,2015,244
Flevoland,2011,184
Flevoland,2012,115
Flevoland,2013,112
Flevoland,2014,96
Flevoland,2015,81


In [28]:
df_INF_provgrp.sum().to_csv("prov-jaar.csv")

In [29]:
!cat prov-jaar.csv

PROVINCIE,JAAR,AANTAL
Drenthe,2011,211
Drenthe,2012,200
Drenthe,2013,229
Drenthe,2014,208
Drenthe,2015,244
Flevoland,2011,184
Flevoland,2012,115
Flevoland,2013,112
Flevoland,2014,96
Flevoland,2015,81
Friesland,2011,240
Friesland,2012,231
Friesland,2013,199
Friesland,2014,239
Friesland,2015,233
Gelderland,2011,1009
Gelderland,2012,925
Gelderland,2013,974
Gelderland,2014,991
Gelderland,2015,1064
Groningen,2011,308
Groningen,2012,278
Groningen,2013,217
Groningen,2014,227
Groningen,2015,256
Limburg,2011,764
Limburg,2012,700
Limburg,2013,675
Limburg,2014,718
Limburg,2015,744
Noord-Brabant,2011,1601
Noord-Brabant,2012,1509
Noord-Brabant,2013,1545
Noord-Brabant,2014,1564
Noord-Brabant,2015,1704
Noord-Holland,2011,2058
Noord-Holland,2012,2022
Noord-Holland,2013,2081
Noord-Holland,2014,2251
Noord-Holland,2015,2379
Overijssel,2011,712
Overijssel,2012,649
Overijssel,2013,639
Overijssel,2014,754
Overijssel,2015,710
Utrecht,2011,609
Utrecht,2012,642
U

In [30]:
inf_jaar = df_INFx.groupby("JAAR").sum()
inf_jaar.to_csv("inf-jaar.csv")
inf_jaar

Unnamed: 0_level_0,AANTAL
JAAR,Unnamed: 1_level_1
2011,10002
2012,9452
2013,9576
2014,10041
2015,10482


In [31]:
!cat inf-jaar.csv

JAAR,AANTAL
2011,10002
2012,9452
2013,9576
2014,10041
2015,10482


In [34]:
df_2015 = df_INF_prov[df_INF_prov.JAAR == 2015].drop('JAAR', 1)
print(df_2015.head(5))

prov_2015 = df_2015.groupby(["PROVINCIE"]).sum()
prov_2015

           PROVINCIE  AANTAL
45669     Overijssel      29
45856   Zuid-Holland      15
45906   Zuid-Holland      27
45931        Utrecht      15
45956  Noord-Brabant      24


Unnamed: 0_level_0,AANTAL
PROVINCIE,Unnamed: 1_level_1
Drenthe,244
Flevoland,81
Friesland,233
Gelderland,1064
Groningen,256
Limburg,744
Noord-Brabant,1704
Noord-Holland,2379
Overijssel,710
Utrecht,724


In [33]:
prov_2015.to_csv("prov-2015.csv")

In [35]:
!cat prov-2015.csv

PROVINCIE,AANTAL
Drenthe,244
Flevoland,81
Friesland,233
Gelderland,1064
Groningen,256
Limburg,744
Noord-Brabant,1704
Noord-Holland,2379
Overijssel,710
Utrecht,724
Zeeland,198
Zuid-Holland,2145


In [36]:
df_2014 = df_INF_prov[df_INF_prov.JAAR == 2014].drop('JAAR', 1)
prov_2014 = df_2014.groupby(['PROVINCIE']).sum()
prov_2014.to_csv("prov-2014.csv")
prov_2014.head(3)

Unnamed: 0_level_0,AANTAL
PROVINCIE,Unnamed: 1_level_1
Drenthe,208
Flevoland,96
Friesland,239


In [38]:
cat prov-2014.csv

PROVINCIE,AANTAL
Drenthe,208
Flevoland,96
Friesland,239
Gelderland,991
Groningen,227
Limburg,718
Noord-Brabant,1564
Noord-Holland,2251
Overijssel,754
Utrecht,742
Zeeland,206
Zuid-Holland,2045


## Pivot

Met behulp van de pivot-operatie kunnen we een tabel de gewenste vorm geven, bijvoorbeeld voor visualisatie.
We doen dit met de tabel prov-jaar.

In [39]:
prov_jaar = pd.read_csv("prov-jaar.csv", sep=",")
prov_jaar.head(6)

Unnamed: 0,PROVINCIE,JAAR,AANTAL
0,Drenthe,2011,211
1,Drenthe,2012,200
2,Drenthe,2013,229
3,Drenthe,2014,208
4,Drenthe,2015,244
5,Flevoland,2011,184


In [40]:
prov_jaren = prov_jaar.pivot(index="PROVINCIE", columns="JAAR", values="AANTAL")
prov_jaren.head(4)

JAAR,2011,2012,2013,2014,2015
PROVINCIE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Drenthe,211,200,229,208,244
Flevoland,184,115,112,96,81
Friesland,240,231,199,239,233
Gelderland,1009,925,974,991,1064


In [41]:
prov_jaren.to_csv("prov-jaren.csv")

## Overige vragen

Wat zijn de verschillen tussen 2011 en 2015? Welke scholen zijn bijv. verdwenen uit de lijst?

Er zijn soms scholen met meerdere vestigingen - maar het is niet altijd duidelijk welke vestiging bedoeld wordt; zie bijv. de montessori scholen in Amsterdam....

Scholen met een klein aantal examens zijn in de gevarenzone. Wat zijn de ontwikkelingen bij die scholen?


In [42]:
df_NEDINF.head(10)

Unnamed: 0,JAAR,SCHOOLID,VESTIGING,PLAATS,PROVINCIE,SOORT,VAKNAAM,AANTAL
1,2011,00AH-0,Opb SGM t Stedelijk Lyceum,ENSCHEDE,Overijssel,HAVO,informatica,18
8,2011,00AH-0,Opb SGM t Stedelijk Lyceum,ENSCHEDE,Overijssel,HAVO,Nederlandse taal en literatuur,114
26,2011,00AH-7,Opb SGM t Stedelijk Lyceum,ENSCHEDE,Overijssel,HAVO,informatica,8
33,2011,00AH-7,Opb SGM t Stedelijk Lyceum,ENSCHEDE,Overijssel,HAVO,Nederlandse taal en literatuur,91
51,2011,00AQ-0,Zwin College SGM,OOSTBURG,Zeeland,HAVO,informatica,13
57,2011,00AQ-0,Zwin College SGM,OOSTBURG,Zeeland,HAVO,Nederlandse taal en literatuur,94
80,2011,00BD-0,Coenecoop College,WADDINXVEEN,Zuid-Holland,HAVO,Nederlandse taal en literatuur,110
123,2011,00CB-1,SGM VO Vrije Schoolond,ZEIST,Utrecht,HAVO,Nederlandse taal en literatuur,50
143,2011,00CB-2,SGM VO Vrije Schoolond,EINDHOVEN,Noord-Brabant,HAVO,Nederlandse taal en literatuur,27
164,2011,00DI-2,rsg de Borgen,LEEK,Groningen,HAVO,Nederlandse taal en literatuur,147


In [43]:
nedinf_columns = {"Nederlandse taal en literatuur": "ned", "informatica": "inf"}
nedinf = df_NEDINF.pivot(columns="VAKNAAM", values="AANTAL").rename(columns=nedinf_columns)

In [44]:
df_NEDINFz = df_NEDINF.copy()
df_NEDINFz["ned"] = nedinf["ned"]
df_NEDINFz["inf"] = nedinf["inf"]
df_NEDINFz.head(8)

Unnamed: 0,JAAR,SCHOOLID,VESTIGING,PLAATS,PROVINCIE,SOORT,VAKNAAM,AANTAL,ned,inf
1,2011,00AH-0,Opb SGM t Stedelijk Lyceum,ENSCHEDE,Overijssel,HAVO,informatica,18,,18.0
8,2011,00AH-0,Opb SGM t Stedelijk Lyceum,ENSCHEDE,Overijssel,HAVO,Nederlandse taal en literatuur,114,114.0,
26,2011,00AH-7,Opb SGM t Stedelijk Lyceum,ENSCHEDE,Overijssel,HAVO,informatica,8,,8.0
33,2011,00AH-7,Opb SGM t Stedelijk Lyceum,ENSCHEDE,Overijssel,HAVO,Nederlandse taal en literatuur,91,91.0,
51,2011,00AQ-0,Zwin College SGM,OOSTBURG,Zeeland,HAVO,informatica,13,,13.0
57,2011,00AQ-0,Zwin College SGM,OOSTBURG,Zeeland,HAVO,Nederlandse taal en literatuur,94,94.0,
80,2011,00BD-0,Coenecoop College,WADDINXVEEN,Zuid-Holland,HAVO,Nederlandse taal en literatuur,110,110.0,
123,2011,00CB-1,SGM VO Vrije Schoolond,ZEIST,Utrecht,HAVO,Nederlandse taal en literatuur,50,50.0,


In [45]:
jaar_prov_ni = df_NEDINFz.groupby(["JAAR", "PROVINCIE"]).sum().drop("AANTAL", 1)
jaar_prov_ni

Unnamed: 0_level_0,Unnamed: 1_level_0,ned,inf
JAAR,PROVINCIE,Unnamed: 2_level_1,Unnamed: 3_level_1
2011,Drenthe,1666.0,211.0
2011,Flevoland,1442.0,184.0
2011,Friesland,3103.0,240.0
2011,Gelderland,10378.0,1009.0
2011,Groningen,3035.0,308.0
2011,Limburg,5474.0,764.0
2011,Noord-Brabant,13516.0,1601.0
2011,Noord-Holland,12810.0,2058.0
2011,Overijssel,6303.0,712.0
2011,Utrecht,6676.0,609.0


In [46]:
jaar_prov_ni.loc[2011]

Unnamed: 0_level_0,ned,inf
PROVINCIE,Unnamed: 1_level_1,Unnamed: 2_level_1
Drenthe,1666.0,211.0
Flevoland,1442.0,184.0
Friesland,3103.0,240.0
Gelderland,10378.0,1009.0
Groningen,3035.0,308.0
Limburg,5474.0,764.0
Noord-Brabant,13516.0,1601.0
Noord-Holland,12810.0,2058.0
Overijssel,6303.0,712.0
Utrecht,6676.0,609.0


In [47]:
lim_2011 = jaar_prov_ni.loc[2011].loc["Limburg"]
lim_2011

ned    5474.0
inf     764.0
Name: Limburg, dtype: float64