# Wisselstromen

Dit notebook heeft als input het (voorlopige) (geanonimiseerde) bekostigingsbestand en doet het volgende:
1. Inladen van de ruwe bekostigings-data en headers
2. Opsplitsen van de data naar recordsoort
3. Selecteer alleen BRD data
3. Schoonmaken 

Het door DUO aangeleverde bestand bevat verschillende recordsoorten met verschillende lengte in één bestand, zonder bijbehorende headers. De headers zijn beschikbaar in [Bijlage 8 van de Programma van Eisen Hoger Onderwijs, DUO](https://duo.nl/zakelijk/images/programma-van-eisen-hoger-onderwijs.pdf). 

In [1]:
# Load all libraries
import os
%run -i bk-functies.py # Load bk-functies script

# Inladen data
Er zijn 2 databronnen die ingeladen dienen te worden: het DUO bekostigingsbestand en de bijbehorende headers. 

## Voorbereiden inladen DUO bekostigingsbestand

In [2]:
 # First find which user is running this script to determine 
 # the folder structure to the data
username = os.getlogin()

# Define the folder and the file names
bk_folder = (
    f'C:\\Users\\{username}\\OneDrive - Stichting Hogeschool Utrecht\\Documents\\'
    'git repos\\wisselstromen\\data') 
bk_file = 'DEFBEK_2025_20240522_25DW.csv' #use already anonimised file for testing

## Inladen bijbehorende headers
Bron van deze data is de [Bijlage 8 van de Programma van Eisen Hoger Onderwijs, DUO](https://duo.nl/zakelijk/images/programma-van-eisen-hoger-onderwijs.pdf). Let op dit is hardcoded, en kan dus (nog) niet omgaan met wijzigingen in het bronbestand. 

In [3]:
# Dictionary with column names for each recordsoort
bk_headers = {
    'VLP': [
        'Recordsoort',
        'BRIN',
        'Bekostigingsjaar',
        'Datum aanmaak'
    ],
    'BLB': [
        'Recordsoort',
        'Burgerservicenummer',
        'Onderwijsnummer', 
        'DatumGraadBehaaldAD',
        'DatumGraadBehaaldADLG', 
        'DatumGraadBehaaldBa', 
        'DatumGraadBehaaldBaLG', 
        'DatumGraadBehaaldMa', 
        'DatumGraadBehaaldMaLG', 
        'VerbruikAD', 
        'VerbruikADLG', 
        'VerbruikBA', 
        'VerbruikBALG', 
        'VerbruikMA', 
        'VerbruikMALG', 
        'AantalBekostigdeInschrijvingenBa', 
        'AantalBekostigdeInschrijvingenBaLG', 
        'AantalBekostigdeInschrijvingenMa', 
        'AantalBekostigdeInschrijvingenMaLG', 
        'AantalBekostigdeInschrijvingenBaLGnaGraadBaMa', 
        'AantalBekostigdeInschrijvingenMaLGnaGraadMa'
    ],
    'BRD': [
        'Recordsoort',
        'Burgerservicenummer',
        'Onderwijsnummer',
        'Brin',
        'inschrijvingvolgnummer',
        'Bekostigingsindicatie',
        'CodeBekostigingstatus',
        'bekostigingsniveau',
        'opleidingscode',
        'opleidingsniveau',
        'opleidingsfase',
        'datumInschrijving',
        'datumUitschrijving',
        'eersteInschrijving',
        'inschrijvingsvorm',
        'onderwijsvorm',
        'datumEersteAanlevering',
        'bekostigingsduur',
        'OnderopleidingOnderdeel',
        'bekostigingscode',
        'indicatieSectorLG',
        'indicatieBaMa',
        'indicatieAcademischZiekenhuisenhuis',
        'indicatieNationaliteitsvoorwaardeSF',
        'indicatieGBARelatie'
    ],
    'BRR': [
        'Recordsoort',
        'Burgerservicenummer',
        'Onderwijsnummer',
        'Brin',
        'resultaatvolgnummer',
        'Bekostigingsindicatie',
        'CodeBekostigingstatus',
        'bekostigingsniveau',
        'JointDegreeFactor',
        'opleidingscode',
        'opleidingsniveau',
        'opleidingsfase',
        'eersteGraad',
        'datumDiploma',
        'onderwijsvorm',
        'datumEersteAanlevering',
        'opleidingOnderdeel',
        'bekostigingscode',
        'indicatieSectorLG',
        'indicatieBaMa',
        'indicatieAcademischZiekenhuis',
        'indicatieGraadTeltVoorBekostigingsloopbaan',
        'indicatieNationaliteitsvoorwaardeSF',
        'indicatieGBARelatie'
    ],
    'SLR': [
        'Recordsoort',
        'AantalBLBrecords',
        'AantalBRDrecords',
        'AantalBRRrecords'
    ]
}

## Laad de ruwe bekostigingsdata, voeg headers toe en groepeer.

In [4]:
# Load and group bekostigings data into a dictionary and add headers
bk_raw_dict = load_and_group_data(bk_folder, bk_file, bk_headers)

In [10]:
# Get recordsoorten in a list
recordsoort = list(bk_raw_dict.keys())

# Extract BRD data from dict
df_brd = bk_raw_dict.get('BRD')