In [None]:
import pandas as pd
import numpy as np
import altair as alt            
import matplotlib.pyplot as plt

In [None]:
import cbsodata

In [None]:
data = pd.DataFrame(cbsodata.get_data('80072NED'))

In [None]:
pd.set_option("display.max_rows", 50)
pd.set_option("display.max_columns", None)
pd.set_option("display.max_info_columns", 100)
pd.set_option("display.max_info_rows", 1000000)
pd.set_option("display.precision", 3)

In [None]:
data.head(10)

In [None]:
data.info()

In [None]:
kwartalen = data['Perioden'].str.contains('kwartaal')

In [None]:
data_jaren = data[~kwartalen]

In [None]:
data_kwartalen = data[kwartalen]

In [None]:
data_jaren.head(10)

In [None]:
werkzamepersonen_jaren = data_jaren['BedrijfskenmerkenSBI2008'].str.contains('personen')

In [None]:
werkzamepersonen_kwartalen = data_kwartalen['BedrijfskenmerkenSBI2008'].str.contains('personen')

In [None]:
data_werkzamepersonen_jaren = data_jaren[werkzamepersonen_jaren]

In [None]:
alt.Chart(data=data_werkzamepersonen_jaren).mark_trail().encode(
    x='Perioden', 
    y='Ziekteverzuimpercentage_1', 
    color='BedrijfskenmerkenSBI2008', 
    tooltip=['Perioden', 'Ziekteverzuimpercentage_1', 'BedrijfskenmerkenSBI2008']
    ).properties(title='Ziekteverzuimpercentage per jaar per bedrijfsgrootte')

In [None]:
data_werkzamepersonen_kwartalen = data_kwartalen[werkzamepersonen_kwartalen]

In [None]:
alt.Chart(data=data_werkzamepersonen_kwartalen).mark_trail().encode(
    x='Perioden', 
    y='Ziekteverzuimpercentage_1', 
    color='BedrijfskenmerkenSBI2008', 
    tooltip=['Perioden', 'Ziekteverzuimpercentage_1', 'BedrijfskenmerkenSBI2008']
    ).properties(title='Ziekteverzuimpercentage per kwartaal per bedrijfsgrootte')

In [None]:
alt.Chart(data=data_jaren).mark_trail().encode(
    x='Perioden', 
    y='Ziekteverzuimpercentage_1', 
    color='BedrijfskenmerkenSBI2008', 
    tooltip=['Perioden', 'Ziekteverzuimpercentage_1', 'BedrijfskenmerkenSBI2008']
    ).properties(title='Ziekteverzuimpercentage per jaar voor alle bedrijfskenmerken')

In [None]:
totaal_jaren = data_jaren['BedrijfskenmerkenSBI2008'].str.contains('A-U')

In [None]:
data_totaal_jaren = data_jaren[totaal_jaren]

In [None]:
alt.Chart(data=data_totaal_jaren).mark_trail().encode(
    x='Perioden', 
    y='Ziekteverzuimpercentage_1', 
    color='BedrijfskenmerkenSBI2008', 
    tooltip=['Perioden', 'Ziekteverzuimpercentage_1', 'BedrijfskenmerkenSBI2008']
    ).properties(title='Ziekteverzuimpercentage totaal per jaar')

In [None]:
totaal_kwartalen = data_kwartalen['BedrijfskenmerkenSBI2008'].str.contains('A-U')

In [None]:
data_totaal_kwartalen = data_kwartalen[totaal_kwartalen]

In [None]:
alt.Chart(data=data_totaal_kwartalen).mark_trail().encode(
    x='Perioden', 
    y='Ziekteverzuimpercentage_1', 
    color='BedrijfskenmerkenSBI2008', 
    tooltip=['Perioden', 'Ziekteverzuimpercentage_1', 'BedrijfskenmerkenSBI2008']
    ).properties(title='Ziekteverzuimpercentage totaal per kwartaal')

In [None]:
alt.Chart(data=data_kwartalen).mark_boxplot().encode(
    x='BedrijfskenmerkenSBI2008', 
    y='Ziekteverzuimpercentage_1',
    ).properties(title='Boxplot alle kwartalen (1996-2023)')

In [None]:
# X-as en Y-as omgedraaid, sorteren op mediaan lijkt nog niet te werken -> UITZOEKEN

order = data_kwartalen.groupby('BedrijfskenmerkenSBI2008')['Ziekteverzuimpercentage_1'].median().sort_values(ascending=False).index.tolist()

alt.Chart(data=data_kwartalen).mark_boxplot().encode(
    x=alt.X('Ziekteverzuimpercentage_1', sort=order), 
    y='BedrijfskenmerkenSBI2008',
    ).properties(title='Boxplot alle kwartalen (1996-2023)')

In [None]:
# ERROR NOG UITZOEKEN!

order = data_kwartalen.groupby('BedrijfskenmerkenSBI2008')['Ziekteverzuimpercentage_1'].median().sort_values(ascending=False).index.tolist()

data_kwartalen['BedrijfskenmerkenSBI2008'] = pd.Categorical(data_kwartalen['BedrijfskenmerkenSBI2008'], categories=order, ordered=True)

selection = alt.selection_multi(fields=['BedrijfskenmerkenSBI2008'], bind='legend')

# Create the boxplot with the sorted x-axis
boxplot = alt.Chart(data_kwartalen).mark_boxplot().encode(
    y=alt.Y('BedrijfskenmerkenSBI2008:O', title='Bedrijfskenmerken SBI 2008', sort=order),
    x=alt.X('Ziekteverzuimpercentage_1:Q', title='Ziekteverzuimpercentage'),
    color=alt.condition(selection, 'BedrijfskenmerkenSBI2008:N', alt.value('lightgray')),
    opacity=alt.condition(selection, alt.value(1), alt.value(0.2))
).properties(
    title='Boxplot alle kwartalen (1996-2023)'
).add_selection(
    selection)

# Display the plot
boxplot.display()

In [None]:
kwartalen_2023 = data_kwartalen['Perioden'].str.contains('2023')
data_kwartalen_2023 = data_kwartalen[kwartalen_2023]
alt.Chart(data=data_kwartalen_2023).mark_boxplot().encode(
    x='BedrijfskenmerkenSBI2008', 
    y='Ziekteverzuimpercentage_1',
    ).properties(title='Boxplot kwartalen 2023')

In [None]:
kwartalen_2022 = data_kwartalen['Perioden'].str.contains('2022')
data_kwartalen_2022 = data_kwartalen[kwartalen_2022]
alt.Chart(data=data_kwartalen_2022).mark_boxplot().encode(
    x='BedrijfskenmerkenSBI2008', 
    y='Ziekteverzuimpercentage_1',
    ).properties(title='Boxplot kwartalen 2022')

In [None]:
kwartalen_2021 = data_kwartalen['Perioden'].str.contains('2021')
data_kwartalen_2021 = data_kwartalen[kwartalen_2021]
alt.Chart(data=data_kwartalen_2021).mark_boxplot().encode(
    x='BedrijfskenmerkenSBI2008', 
    y='Ziekteverzuimpercentage_1',
    ).properties(title='Boxplot kwartalen 2021')

In [None]:
kwartalen_2020 = data_kwartalen['Perioden'].str.contains('2020')
data_kwartalen_2020 = data_kwartalen[kwartalen_2020]
alt.Chart(data=data_kwartalen_2020).mark_boxplot().encode(
    x='BedrijfskenmerkenSBI2008', 
    y='Ziekteverzuimpercentage_1',
    ).properties(title='Boxplot kwartalen 2020')