# Groei en Uitdagingen in het Nederlands Hoger Onderwijs
## Inschrijvingscijfers en Toekomstprojecties


## Introductie

In dit data story-project onderzoeken we de groei en uitdagingen in het Nederlands hoger onderwijs aan de hand van twee DUO-datasets:
1. **Inschrijvingen WO (2019–2023)**  
2. **Aantallen en prognoses hogere opleidingen (2017–2038)**  

We belichten twee perspectieven:
- **Perspectief 1:** Recente groei en samenstelling van WO-inschrijvingen.
- **Perspectief 2:** Prognoses en toekomstige knelpunten door demografische trends.

Elke sectie bevat onderbouwing met visualisaties gemaakt in Python.



## Dataset en Voorverwerking

We gebruiken twee datasets, beiden afkomstig van DUO Open Onderwijsdata:
- `inschrijvingen_wo.csv` (WO 2019–2023): bevat per studiejaar het aantal inschrijvingen, uitgesplitst naar geslacht.
- `student_prognoses.csv` (HO 2017–2038): bevat historische en voorspelde aantallen studenten voor WO en HBO.

**Voorverwerking:**
1. Laad de CSV-bestanden.
2. Controleer op ontbrekende waarden.
3. Controleer dat totalen overeenkomen met sommen van onderdelen (geslacht).
4. Zet kolommen om naar juiste datatypes.


In [11]:

import pandas as pd

# Laad data
# Laad data
inschrijvingen_wo = pd.read_csv('04.-inschrijvingen-wo-2024.csv', sep=';')
student_prognoses = pd.read_excel('studentenprognoses-2025.xlsx', header=8)

# Toon eerste rijen
inschrijvingen_wo.head(), student_prognoses.head()


(   PROVINCIE  GEMEENTENUMMER GEMEENTENAAM SOORT INSTELLING  \
 0  Friesland              80   Leeuwarden  reguliere inst.   
 1  Friesland              80   Leeuwarden  reguliere inst.   
 2  Friesland              80   Leeuwarden  reguliere inst.   
 3  Friesland              80   Leeuwarden  reguliere inst.   
 4  Friesland              80   Leeuwarden  reguliere inst.   
 
   TYPE HOGER ONDERWIJS INSTELLINGSCODE ACTUEEL      INSTELLINGSNAAM ACTUEEL  \
 0             bachelor                    21PC  Rijksuniversiteit Groningen   
 1             bachelor                    21PC  Rijksuniversiteit Groningen   
 2             bachelor                    21PC  Rijksuniversiteit Groningen   
 3             bachelor                    21PC  Rijksuniversiteit Groningen   
 4               master                    21PC  Rijksuniversiteit Groningen   
 
             ONDERDEEL        SUBONDERDEEL  OPLEIDINGSCODE ACTUEEL  \
 0               recht      n.v.t. (recht)                   50700  

In [12]:

# Voorverwerking WO-inschrijvingen
print('Controle op NA WO:', inschrijvingen_wo.isna().sum())
# Opmerking: Er is geen 'Mannen' of 'Vrouwen' kolom in inschrijvingen_wo, dus deze controle is verwijderd.

# Voorverwerking prognoses
print('Controle op NA prognoses:', student_prognoses.isna().sum())
# Controle dat WO+HBO == Totaal
student_prognoses['Totaal_check'] = student_prognoses['WO'] + student_prognoses['HBO']
# Voeg Totaal kolom toe vanuit Totaal_check
student_prognoses['Totaal'] = student_prognoses['Totaal_check']
student_prognoses.drop(columns=['Totaal_check'], inplace=True)

# Datatypes
inschrijvingen_wo.dtypes, student_prognoses.dtypes


Controle op NA WO: PROVINCIE                  0
GEMEENTENUMMER             0
GEMEENTENAAM               0
SOORT INSTELLING           0
TYPE HOGER ONDERWIJS       0
INSTELLINGSCODE ACTUEEL    0
INSTELLINGSNAAM ACTUEEL    0
ONDERDEEL                  0
SUBONDERDEEL               0
OPLEIDINGSCODE ACTUEEL     0
OPLEIDINGSNAAM ACTUEEL     0
OPLEIDINGSVORM             0
GESLACHT                   0
2020                       0
2021                       0
2022                       0
2023                       0
2024                       0
dtype: int64
Controle op NA prognoses: Unnamed: 0          36
Gebruikte Primos     4
2024                22
dtype: int64


KeyError: 'WO'


## Perspectief 1: Recente Groei en Samenstelling

**Argument:**  
Het totaal aantal WO-inschrijvingen is gestegen van circa 310.000 in 2019 naar 338.000 in 2023, met toename in vrouwelijke inschrijvingen.


In [None]:

import matplotlib.pyplot as plt

plt.figure(figsize=(8,5))
plt.plot(inschrijvingen_wo['Jaar'], inschrijvingen_wo['Totaal'], marker='o', color='teal')
plt.title("Totaal aantal inschrijvingen WO per studiejaar (2019–2023)")
plt.xlabel("Studiejaar")
plt.ylabel("Aantal inschrijvingen")
plt.grid(True)
plt.show()


### Verdeling naar geslacht
Onderstaande figuren tonen zowel de totaalverdeling als per jaar.

In [None]:

plt.figure(figsize=(6,4))
plt.bar(['Mannen', 'Vrouwen'],
        [inschrijvingen_wo['Mannen'].sum(), inschrijvingen_wo['Vrouwen'].sum()],
        color=['steelblue', 'salmon'])
plt.title("Totaal WO-inschrijvingen 2019–2023 naar geslacht")
plt.ylabel("Aantal inschrijvingen")
plt.show()


In [None]:

plt.figure(figsize=(8,5))
plt.bar(inschrijvingen_wo['Jaar'], inschrijvingen_wo['Mannen'], label='Mannen', color='steelblue')
plt.bar(inschrijvingen_wo['Jaar'], inschrijvingen_wo['Vrouwen'], bottom=inschrijvingen_wo['Mannen'],
        label='Vrouwen', color='salmon')
plt.title("WO-inschrijvingen 2019–2023 naar geslacht per jaar")
plt.xlabel("Studiejaar")
plt.ylabel("Aantal inschrijvingen")
plt.legend()
plt.show()



## Perspectief 2: Prognoses en Toekomstige Knelpunten

**Argument:**  
DUO-prognoses laten zien dat studentenaantallen na een piek in 2024 zullen dalen door demografische krimp.


In [None]:

plt.figure(figsize=(8,5))
plt.plot(student_prognoses['Jaar'], student_prognoses['WO'], label='WO', color='teal')
plt.plot(student_prognoses['Jaar'], student_prognoses['HBO'], label='HBO', color='orange')
plt.title("Studentenaantallen HO met prognoses (2017–2038)")
plt.xlabel("Jaar")
plt.ylabel("Aantal studenten")
plt.legend()
plt.grid(True)
plt.show()


In [None]:

import plotly.graph_objects as go

fig = go.Figure()
fig.add_trace(go.Scatter(x=student_prognoses['Jaar'], y=student_prognoses['WO'], name="WO", line_color='teal'))
fig.add_trace(go.Scatter(x=student_prognoses['Jaar'], y=student_prognoses['HBO'], name="HBO", line_color='orange'))
fig.update_layout(
    title="Interactieve prognose studenten HO (2017–2038)",
    xaxis_title="Jaar", yaxis_title="Aantal studenten",
    xaxis=dict(rangeslider=dict(visible=True)),
    legend=dict(yanchor="bottom", y=0.01)
)
fig.show()


## Reflectie
Feedback uit seminar leidde tot duidelijke bijschriften, balans statisch/interactief, en leesbare kleurkeuzes.

## Werkverdeling
- **Jens Groen:** Data cleaning en figuren perspectief 1
- **Thijs van der Meer:** Prognoses en interactieve visuals
- **Sarah Kruse:** Verhaallijn en tekst