In [None]:
!pip3 install fastparquet pyarrow pandas altair

In [None]:
!pip3 install "vegafusion[embed]>=1.5.0"

In [None]:
from pathlib import Path
import pandas as pd
import numpy as np
import altair as alt

In [None]:
path_to_eencijfer = "EV21PL24.036.parquet"


In [None]:

eencijfer_path = Path(path_to_eencijfer)

def create_eencijfer_df(path:Path = eencijfer_path) -> pd.DataFrame:
    result = pd.read_parquet(path)
    return result

In [None]:
vopl_codes_path = Path('Dec_vopl.parquet')

def _get_vooropleiding_simple(x: str) -> str:
    vooropleiding = 'onbekend'
    if 'mbo ' in x.lower():
        vooropleiding = 'mbo'
    elif 'vwo' in x.lower():
        vooropleiding = 'vwo'
    elif 'havo' in x.lower():
        vooropleiding = 'havo'
    else:
        vooropleiding = 'overig'

    return vooropleiding


def create_vopl(path: Path = vopl_codes_path) ->pd.DataFrame:
    result = pd.read_parquet(path)
    result['VooropleidingKort']=result.OmschrijvingVooropleiding.apply(_get_vooropleiding_simple)

    return result

In [None]:
eindexamen_path = Path('VAKHAVW_21PL.parquet')

def _get_gemiddeld_cijfer(path: Path = eindexamen_path) -> pd.DataFrame:
    result = pd.read_parquet(path)
    result = result.drop_duplicates(subset='PersoonsgebondenNummer')[['PersoonsgebondenNummer','GemiddeldCijferCijferlijst']].copy()
    return result
    

In [None]:
def create_actief_hoofd_eerstejaar_instelling() -> pd.DataFrame:
    """Tabel met alle hoofdinschrijvingen van studenten die voor het
    eerst aan de hogeschool komen studeren in een bepaald jaar. Ieder student
    komt maar 1x voor (hoofdinschrijving) en alleen zijn inschrijving die
    actief is op 1 oktober telt mee."""
    # Actief op 1 oktober
    eencijfer = create_eencijfer_df()
    
    filter_actiefopPeildatum = eencijfer.IndicatieActiefOpPeildatum == "1"
    # Hoofdinschrijving
    filter_soortinschrijving_ho = eencijfer.SoortInschrijvingHogerOnderwijs == '1'
    # Eerstejaar
    filter_eerstejaar_instelling = (
        eencijfer.Inschrijvingsjaar == eencijfer.EersteJaarAanDezeActueleInstelling
    )

    instroom = eencijfer[
        (filter_eerstejaar_instelling)
        & (filter_soortinschrijving_ho)
        & (filter_actiefopPeildatum)
    ].copy()
    instroom = instroom.drop_duplicates(subset='PersoonsgebondenNummer')

    vooropleiding = create_vopl()
    gem_cijfer = _get_gemiddeld_cijfer()
    
    instroom_vopl = pd.merge(instroom
                     , vooropleiding
                     , left_on='HoogsteVooropleidingVoorHetHo'
                     , right_on='VooropleidingCode'
                     , how='left')

    instroom_vopl_gem_cijfer = pd.merge(instroom_vopl
                         , gem_cijfer
                         , left_on=['PersoonsgebondenNummer']
                         , right_on=['PersoonsgebondenNummer']
                         , how='left')

    instroom_vopl_gem_cijfer['GemiddeldCijferCijferlijst'] = np.where(instroom_vopl_gem_cijfer.VooropleidingKort=='mbo',np.nan,instroom_vopl_gem_cijfer['GemiddeldCijferCijferlijst']) 
    
    return instroom_vopl_gem_cijfer


In [None]:
def create_inschrijving_jaar2() -> pd.DataFrame:
    """Bekijk de inschrijvingsstatus van de student, een jaar na de eerste inschrijving. Is de student
    nog ingeschreven aan de instelling voor een hoofdopleiding (niet per se dezelfde als in jaar 1).
    :param instroom: instroomcohorten
    :return: hoofdinschrijvingen 2e jaar
    """
    eencijfer = create_eencijfer_df()

    eencijfer.EersteJaarAanDezeActueleInstelling = eencijfer.EersteJaarAanDezeActueleInstelling.astype(int)

    filter_tweede_jaar = (
        eencijfer.Inschrijvingsjaar == eencijfer.EersteJaarAanDezeActueleInstelling + 1
    )
    filter_soortinschrijving_ho = eencijfer.SoortInschrijvingHogerOnderwijs == '1'

    fields_jaar2 = [
        "PersoonsgebondenNummer",
        "ActueleInstelling",
        "Opleidingsvorm",
        "OpleidingActueelEquivalent",
    ]

    inschrijvingen_tweede_jaar = eencijfer[
        (filter_tweede_jaar) & (filter_soortinschrijving_ho)
    ][fields_jaar2].copy()
    return inschrijvingen_tweede_jaar


def create_propedeuse_diplomas():
    """Geeft een tabel met propedeusediploma's."""

    eencijfer = create_eencijfer_df()

    fields = [
        "PersoonsgebondenNummer",
        "OpleidingActueelEquivalent",
        "EersteJaarAanDezeActueleInstelling",
        "DatumTekeningDiploma",
        "Diplomajaar",
    ]

    # Alleen het eerst gehaalde propedeuse-diploma telt mee.
    propedeusediplomas = (
        eencijfer[
            (eencijfer.Diplomajaar.notnull())
            & (eencijfer.OpleidingsfaseActueelVanHetDiploma == "D")
        ][fields]
        .sort_values(by="Diplomajaar", ascending=True)
        .drop_duplicates(
            subset=[
                "PersoonsgebondenNummer",
            ],
            keep="first",
        )
        .copy()
    )
    propedeusediplomas = propedeusediplomas.rename(
        columns={
            "Diplomajaar": "JaarPropedeuseDiploma",
        }
    )

    return propedeusediplomas


def merge_cohort_inschrijving_jaar2(
    instroom: pd.DataFrame, inschrijvingen_tweede_jaar: pd.DataFrame
) -> pd.DataFrame:
    """Voeg de cohorttabel samen met de inschrijvingen in jaar 2."""
    instroom_uitval_switch = pd.merge(
        instroom,
        inschrijvingen_tweede_jaar,
        left_on="PersoonsgebondenNummer",
        right_on="PersoonsgebondenNummer",
        how="left",
        suffixes=["", "_2ejaar"],
    )

    assert len(instroom) == len(
        instroom_uitval_switch
    ), "Bij het samenvoegen van instroom en instroom_uitval_switch gaat er iets mis met mergen. Er ontstaan teveel regels."

    return instroom_uitval_switch


def add_propedeuse_in_1_jaar(data):
    """Voegt kolom toe PropedeuseIn1Jaar en Uitval1JaarMetPropedeuse"""

    # p_diploma = data.OpleidingsfaseActueelVanHetDiploma=='D'
    p_diplomas = create_propedeuse_diplomas()
    pgn_p_in_cohort_jaar = p_diplomas[
        p_diplomas.EersteJaarAanDezeActueleInstelling
        == p_diplomas.JaarPropedeuseDiploma
    ].PersoonsgebondenNummer.tolist()
    pgn_p_in_cohort_jaar_plus_1 = p_diplomas[
        p_diplomas.EersteJaarAanDezeActueleInstelling + 1
        == p_diplomas.JaarPropedeuseDiploma
    ].PersoonsgebondenNummer.tolist()
    #    p_in_cohort_jaar_plus_1 = data.EersteJaarAanDezeActueleInstelling + 1 == p_diploma.Diplomajaar

    data["PropedeuseIn1Jaar"] = np.where(
        data.PersoonsgebondenNummer.isin(pgn_p_in_cohort_jaar), 1, 0
    )

    data["PropedeuseIn2Jaar"] = np.where(
        data.PersoonsgebondenNummer.isin(pgn_p_in_cohort_jaar), 1, 0
    )
    data["PropedeuseIn2Jaar"] = np.where(
        data.PersoonsgebondenNummer.isin(pgn_p_in_cohort_jaar_plus_1),
        1,
        data["PropedeuseIn2Jaar"],
    )

    data["Uitval1JaarMetPropedeuse"] = np.where(
        (data.UitvalEerstejaar == 1) & (data.PropedeuseIn1Jaar == 1), 1, 0
    )

    return data



In [None]:
def create_cohorten_met_indicatoren():
    """Levert een cohortbestand met indicatoren eerste jaar."""
    eencijfer = create_eencijfer_df()    
    
    instroom = create_actief_hoofd_eerstejaar_instelling()
    
    inschrijvingen_tweede_jaar = create_inschrijving_jaar2()

    result = merge_cohort_inschrijving_jaar2(instroom, inschrijvingen_tweede_jaar)
    
    
    result["UitvalEerstejaar"] = np.where(
        (
            (result.ActueleInstelling == result.ActueleInstelling_2ejaar)
        ),
        0,
        1,
    )
    # # uitval in jaar 1
    result["opleiding_gelijk"] = np.where(
        result.OpleidingActueelEquivalent == result.OpleidingActueelEquivalent_2ejaar, 1, 0
    )
    result["opleiding_gelijk"] = np.where(
        result.OpleidingActueelEquivalent == result.OpleidingActueelEquivalent_2ejaar,
        1,
        result.opleiding_gelijk,
    )
    result["HerinschrijvingInstelling"] = np.where(
        ((result.opleiding_gelijk == 1) ), 1, 0
    )
    result["HerinschrijvingInstelling"] = np.where(
        (result.ActueleInstelling == result.ActueleInstelling_2ejaar), 1, 0
    )

    assert len(result) == len(instroom)

    # diploma in 1 jaar:
    result = add_propedeuse_in_1_jaar(result)

    result["Cohort"] = result["Inschrijvingsjaar"]
    result[
        "TypeOpleiding"
    ] = result.TypeHogerOnderwijsBinnenSoortHogerOnderwijs.replace(
        {"ba": "bachelor", "ma": "master", "ad": "associate degree"}
    )

    return result

In [None]:
df = create_cohorten_met_indicatoren()

In [None]:
df.info()

In [None]:
alt.Chart(df).mark_bar

In [None]:
df.groupby('VooropleidingKort').UitvalEerstejaar.mean()

In [None]:
df.groupby('VooropleidingKort').PersoonsgebondenNummer.count()

In [None]:
alt.data_transformers.enable("vegafusion")

In [None]:
df.Cohort = df.Cohort.astype(int)

In [None]:
import altair as alt

stripplot =  alt.Chart(df[df.Cohort>2015], width=40).mark_circle(size=8).encode(
    x=alt.X(
        'jitter:Q',
        title=None,
        axis=alt.Axis(values=[0], ticks=True, grid=False, labels=False),
        scale=alt.Scale(),
    ),
    y=alt.Y('GemiddeldCijferCijferlijst:Q'),
    color=alt.Color('UitvalEerstejaar:N', legend=None),
    column=alt.Column(
        'VooropleidingKort:N',
        header=alt.Header(
            labelAngle=-90,
            titleOrient='top',
            labelOrient='bottom',
            labelAlign='right',
            labelPadding=3,
        ),
    ),
).transform_calculate(
    # Generate Gaussian jitter with a Box-Muller transform
    jitter='sqrt(-2*log(random()))*cos(2*PI*random())'
).configure_facet(
    spacing=0
).configure_view(
    stroke=None
)

stripplot

In [None]:
eencijfer = create_eencijfer_df()

In [None]:
unique_values, counts = np.unique(eencijfer[:, 1], return_counts=True)

In [None]:
# eencijfer.EersteJaarAanDezeActueleInstelling

eencijfer.EersteJaarAanDezeActueleInstelling = eencijfer.EersteJaarAanDezeActueleInstelling.astype(float)

In [None]:
eencijfer.EersteJaarAanDezeActueleInstelling + 1

In [None]:
df.info()

In [None]:
def glimpse(df: pd.DataFrame) -> pd.DataFrame:
    """
    Similar to R's glimpse()

    Parameters
    ----------
    df : pd.DataFrame

    Returns
    -------
    pd.DataFrame
    """
    print(f"Rows: {df.shape[0]}")
    print(f"Columns: {df.shape[1]}")

    sample_size = min(df.shape[0], 5)

    return (
        df.sample(sample_size)
        .T.assign(dtypes=df.dtypes)
        .loc[
            :, lambda x: sorted(x.columns, key=lambda col: 0 if col == "dtypes" else 1)
        ]
    )

pd.set_option('display.max_rows', 500)
gli = df.pipe(glimpse)

In [None]:
gli

In [None]:
gli.to_clipboard()

In [None]:
import altair as alt
import pandas as pd

# Assuming you have already loaded the data into a DataFrame called 'df'

# Calculate the count of students for each type of prior education
prior_education_counts = df['VooropleidingKort'].value_counts().reset_index()
prior_education_counts.columns = ['VooropleidingKort', 'Count']

# Create the bar chart
bar_chart = alt.Chart(prior_education_counts).mark_bar().encode(
    x=alt.X('VooropleidingKort:N', sort='-y', title='Type of Prior Education'),
    y=alt.Y('Count:Q', title='Number of Students'),
    tooltip=['VooropleidingKort', 'Count']
).properties(
    title='Distribution of Students by Type of Prior Education'
)

bar_chart


In [None]:
import altair as alt
import pandas as pd

# Assuming you have already loaded the data into a DataFrame called 'df'

# Calculate the mean GemiddeldCijferCijferlijst for each cohort year
avg_grade_by_cohort = df.groupby('Cohort')['GemiddeldCijferCijferlijst'].mean().reset_index()

# Create the line plot
line_plot = alt.Chart(avg_grade_by_cohort).mark_line().encode(
    x=alt.X('Cohort:O', title='Cohort Year'),
    y=alt.Y('GemiddeldCijferCijferlijst:Q', title='Average Grade'),
    tooltip=['Cohort', 'GemiddeldCijferCijferlijst']
).properties(
    title='Average Grade Over Time'
)

line_plot


In [None]:
import altair as alt
import pandas as pd

# Assuming you have already loaded the data into a DataFrame called 'df'

# Calculate the mean GemiddeldCijferCijferlijst for each cohort year and VooropleidingKort
avg_grade_by_cohort_and_prior_education = df.groupby(['Cohort', 'VooropleidingKort'])['GemiddeldCijferCijferlijst'].mean().reset_index()

# Create the line plot
line_plot = alt.Chart(avg_grade_by_cohort_and_prior_education).mark_line().encode(
    x=alt.X('Cohort:O', title='Cohort Year'),
    y=alt.Y('GemiddeldCijferCijferlijst:Q', title='Average Grade'),
    color=alt.Color('VooropleidingKort:N', title='Type of Prior Education'),
    tooltip=['Cohort', 'VooropleidingKort', 'GemiddeldCijferCijferlijst']
).properties(
    title='Average Grade Over Time by Type of Prior Education'
)

line_plot


In [None]:
import altair as alt
import pandas as pd

# Assuming you have already loaded the data into a DataFrame called 'df'

# Filter out rows with missing values in the relevant columns
filtered_df = df[~df['GemiddeldCijferCijferlijst'].isna() & ~df['LeeftijdPerPeildatum1Oktober'].isna()]

# Create the scatter plot
scatter_plot = alt.Chart(filtered_df).mark_circle().encode(
    x=alt.X('LeeftijdPerPeildatum1Oktober:Q', title='Age'),
    y=alt.Y('GemiddeldCijferCijferlijst:Q', title='Average Grade'),
    tooltip=['LeeftijdPerPeildatum1Oktober', 'GemiddeldCijferCijferlijst']
).properties(
    title='Relationship Between Age and Average Grade'
)

scatter_plot


In [None]:
import altair as alt
import pandas as pd

# Assuming you have already loaded the data into a DataFrame called 'df'

# Filter out rows with missing values in the relevant columns
filtered_df = df[~df['GemiddeldCijferCijferlijst'].isna() & ~df['Nationaliteit1'].isna()]

# Create the box plot
box_plot = alt.Chart(filtered_df).mark_boxplot().encode(
    x=alt.X('Nationaliteit1:N', title='Nationality'),
    y=alt.Y('GemiddeldCijferCijferlijst:Q', title='Average Grade'),
    tooltip=['Nationaliteit1', 'GemiddeldCijferCijferlijst']
).properties(
    title='Average Grade by Nationality'
)

box_plot


In [None]:
import altair as alt
import pandas as pd

# Assuming you have already loaded the data into a DataFrame called 'df'

# Calculate the count of students for each nationality
nationality_counts = df['Nationaliteit1'].value_counts().reset_index()
nationality_counts.columns = ['Nationaliteit1', 'Count']

# Create the pie chart
pie_chart = alt.Chart(nationality_counts).mark_arc().encode(
    theta=alt.Theta('Count:Q', stack=True),
    color=alt.Color('Nationaliteit1:N', legend=None),
    tooltip=['Nationaliteit1', 'Count']
).properties(
    title='Distribution of Students by Nationality'
)

pie_chart


In [None]:
import altair as alt
import pandas as pd

# Assuming you have already loaded the data into a DataFrame called 'df'

# Calculate the count of students for each nationality
nationality_counts = df['Nationaliteit1'].value_counts().reset_index()
nationality_counts.columns = ['Nationaliteit1', 'Count']

# Calculate the percentage for each nationality
total_count = nationality_counts['Count'].sum()
nationality_counts['Percentage'] = (nationality_counts['Count'] / total_count) * 100

# Create the pie chart
pie_chart = alt.Chart(nationality_counts).mark_arc().encode(
    theta=alt.Theta('Count:Q', stack=True),
    color=alt.Color('Nationaliteit1:N', legend=None),
    tooltip=['Nationaliteit1', 'Count', alt.Tooltip('Percentage:Q', format='.2f')]
).properties(
    title='Distribution of Students by Nationality'
)

pie_chart


In [None]:
df['VooropleidingKort'].unique()

In [None]:
import altair as alt
import pandas as pd

# Assuming you have already loaded the data into a DataFrame called 'df'

# Calculate the count of students for each combination of Cohort and VooropleidingKort
student_counts = df.groupby(['Cohort', 'VooropleidingKort'])['PersoonsgebondenNummer'].count().reset_index()

# Create the stacked bar chart
stacked_bar_chart = alt.Chart(student_counts).mark_bar().encode(
    x=alt.X('Cohort:O', title='Cohort Year'),
    y=alt.Y('PersoonsgebondenNummer:Q', title='Number of Students'),
    color=alt.Color('VooropleidingKort:N', title='Type of Prior Education'),
    tooltip=['Cohort', 'VooropleidingKort', 'PersoonsgebondenNummer']
).properties(
    title='Student Distribution by Prior Education and Cohort Year'
)

stacked_bar_chart


In [None]:
import altair as alt
import pandas as pd

# Assuming you have already loaded the data into a DataFrame called 'df'
df.LeeftijdPerPeildatum1Oktober = df.LeeftijdPerPeildatum1Oktober.astype(int)
# Calculate the average age for each cohort year
avg_age_by_cohort = df.groupby('Cohort')['LeeftijdPerPeildatum1Oktober'].mean().reset_index()

# Create the line plot
line_plot = alt.Chart(avg_age_by_cohort).mark_line().encode(
    x=alt.X('Cohort:O', title='Cohort Year'),
    y=alt.Y('LeeftijdPerPeildatum1Oktober:Q', title='Average Age'),
    tooltip=['Cohort', 'LeeftijdPerPeildatum1Oktober']
).properties(
    title='Average Age of Students by Cohort Year'
)

line_plot


In [None]:
import altair as alt
import pandas as pd

# Assuming you have already loaded the data into a DataFrame called 'df'

# Filter out rows with missing values in the relevant columns
filtered_df = df[~df['GemiddeldCijferCijferlijst'].isna() & 
                 ~df['LeeftijdPerPeildatum1Oktober'].isna() &
                 ~df['Geslacht'].isna()]

# Create the scatter plot
scatter_plot = alt.Chart(filtered_df).mark_circle().encode(
    x=alt.X('LeeftijdPerPeildatum1Oktober:Q', title='Age'),
    y=alt.Y('GemiddeldCijferCijferlijst:Q', title='Average Grade'),
    color=alt.Color('Geslacht:N', title='Gender'),
    tooltip=['LeeftijdPerPeildatum1Oktober', 'GemiddeldCijferCijferlijst', 'Geslacht']
).properties(
    title='Average Grade vs. Age by Gender'
)

scatter_plot


In [None]:
import altair as alt
import pandas as pd

# Assuming you have already loaded the data into a DataFrame called 'df'

# Filter out rows with missing values in GemiddeldCijferCijferlijst
filtered_df = df[~df['GemiddeldCijferCijferlijst'].isna()]

# Create the histogram
histogram = alt.Chart(filtered_df).mark_bar().encode(
    alt.X('GemiddeldCijferCijferlijst:Q', bin=alt.Bin(maxbins=30), title='Average Grade'),
    y='count()',
).properties(
    title='Distribution of Average Grades'
)

histogram


In [None]:
import altair as alt
import pandas as pd

# Assuming you have already loaded the data into a DataFrame called 'df'

# Calculate the count of students for each combination of Nationaliteit1 and Geslacht
student_counts = df.groupby(['Nationaliteit1', 'Geslacht'])['PersoonsgebondenNummer'].count().reset_index()

# Create the grouped bar chart
bar_chart = alt.Chart(student_counts).mark_bar().encode(
    x=alt.X('Nationaliteit1:N', title='Nationality'),
    y=alt.Y('PersoonsgebondenNummer:Q', title='Number of Students'),
    color=alt.Color('Geslacht:N', title='Gender'),
    column=alt.Column('Geslacht:N', header=alt.Header(title='Gender'))
).properties(
    title='Student Distribution by Nationality and Gender'
)

bar_chart


In [None]:
gli