# Wisselstromen

Dit notebook heeft als input het (voorlopige) bekostigingsbestand en doet 2 dingen:
1. anonimiseren, en
2. opsplitsen in een bestand voor elke recordsoort. 

Het is ook mogelijk om dit script te runnen met het al geanonimiseerde bestand. 

Het door DUO aangeleverde bestand bevat verschillende recordsoorten met verschillende lengte in één bestand, zonder bijbehorende headers. De headers zijn beschikbaar in [Bijlage 8 van de Programma van Eisen Hoger Onderwijs, DUO](https://duo.nl/zakelijk/images/programma-van-eisen-hoger-onderwijs.pdf). 

Na het runnen van dit script worden 5 verschillende CSV bestanden aangemaakt in de output folder:
1. Alle records van recordsoort BLB: Bekostigingsloopbaan
2. Alle records van recordsoort BRD: Bekostigingsresultaat deelname
3. Alle records van recordsoort BRR: Bekostigingsresultaat resultaat
4. Het originele input bestand, alleen geanonimiseerd
5. Sleutelbestand 

Bestanden 1 t/m 3 zijn bedoeld voor analyse van het bekostingsbestand; deze bevatten dezelfde gegevens als het bekostigingsbestand, gesplitst naar recordsoort.
Bestand 4 is de geanonimiseerde versie van het originele bestand, bedoeld om het R-script te testen.
Bestand 5 bevat alle persoonsnummers en bijbehorend id om later te kunnen koppelen met attibuten uit eigen databases.


In [2]:
# Load all libraries
import os
%run -i bk-functies.py # Load bk-functies script

# Inladen data
Er zijn 2 databronnen die ingeladen dienen te worden: het DUO bekostigingsbestand en de bijbehorende headers. 

## Inladen DUO bekostigingsbestand

In [None]:
 # First find which user is running this script to determine 
 # the folder structure to the data
username = os.getlogin()

# Define the folder and the file names
bk_folder = (
    f'C:\\Users\\{username}\\OneDrive - Stichting Hogeschool Utrecht\\Documents\\'
    'git repos\\wisselstromen\\data') 
bk_file = 'DEFBEK_2025_20240522_25DW.csv' #use already anonimised file for testing

## Inladen bijbehorende headers
Bron van deze data is de [Bijlage 8 van de Programma van Eisen Hoger Onderwijs, DUO](https://duo.nl/zakelijk/images/programma-van-eisen-hoger-onderwijs.pdf). Let op dit is hardcoded, en kan dus (nog) niet omgaan met wijzigingen in het bronbestand. 

In [4]:
# Dictionary with column names for each recordsoort
bk_headers = {
    'VLP': [
        'Recordsoort',
        'BRIN',
        'Bekostigingsjaar',
        'Datum aanmaak'
    ],
    'BLB': [
        'Recordsoort',
        'Burgerservicenummer',
        'Onderwijsnummer', 
        'DatumGraadBehaaldAD',
        'DatumGraadBehaaldADLG', 
        'DatumGraadBehaaldBa', 
        'DatumGraadBehaaldBaLG', 
        'DatumGraadBehaaldMa', 
        'DatumGraadBehaaldMaLG', 
        'VerbruikAD', 
        'VerbruikADLG', 
        'VerbruikBA', 
        'VerbruikBALG', 
        'VerbruikMA', 
        'VerbruikMALG', 
        'AantalBekostigdeInschrijvingenBa', 
        'AantalBekostigdeInschrijvingenBaLG', 
        'AantalBekostigdeInschrijvingenMa', 
        'AantalBekostigdeInschrijvingenMaLG', 
        'AantalBekostigdeInschrijvingenBaLGnaGraadBaMa', 
        'AantalBekostigdeInschrijvingenMaLGnaGraadMa'
    ],
    'BRD': [
        'Recordsoort',
        'Burgerservicenummer',
        'Onderwijsnummer',
        'Brin',
        'inschrijvingvolgnummer',
        'Bekostigingsindicatie',
        'CodeBekostigingstatus',
        'bekostigingsniveau',
        'opleidingscode',
        'opleidingsniveau',
        'opleidingsfase',
        'datumInschrijving',
        'datumUitschrijving',
        'eersteInschrijving',
        'inschrijvingsvorm',
        'onderwijsvorm',
        'datumEersteAanlevering',
        'bekostigingsduur',
        'OnderopleidingOnderdeel',
        'bekostigingscode',
        'indicatieSectorLG',
        'indicatieBaMa',
        'indicatieAcademischZiekenhuisenhuis',
        'indicatieNationaliteitsvoorwaardeSF',
        'indicatieGBARelatie'
    ],
    'BRR': [
        'Recordsoort',
        'Burgerservicenummer',
        'Onderwijsnummer',
        'Brin',
        'resultaatvolgnummer',
        'Bekostigingsindicatie',
        'CodeBekostigingstatus',
        'bekostigingsniveau',
        'JointDegreeFactor',
        'opleidingscode',
        'opleidingsniveau',
        'opleidingsfase',
        'eersteGraad',
        'datumDiploma',
        'onderwijsvorm',
        'datumEersteAanlevering',
        'opleidingOnderdeel',
        'bekostigingscode',
        'indicatieSectorLG',
        'indicatieBaMa',
        'indicatieAcademischZiekenhuis',
        'indicatieGraadTeltVoorBekostigingsloopbaan',
        'indicatieNationaliteitsvoorwaardeSF',
        'indicatieGBARelatie'
    ],
    'SLR': [
        'Recordsoort',
        'AantalBLBrecords',
        'AantalBRDrecords',
        'AantalBRRrecords'
    ]
}

### Laad de ruwe bekostigingsdata, voeg headers toe en groepeer.

In [None]:
# Load and group bekostigings data into a dictionary and add headers
bk_raw_dict = load_and_group_data(bk_folder, bk_file, bk_headers)

In [None]:
# Get recordsoorten in a list
recordsoort = list(bk_raw_dict.keys())
values = bk_raw_dict.values()


  Recordsoort AantalBLBrecords AantalBRDrecords AantalBRRrecords
0         SLR            53336           102462            12794
['SLR', 'BLB', 'BRD', 'VLP', 'BRR']
