### Imports

In [1]:
import pandas as pd
import plotly.express as px
import numpy as np
import json
import plotly.graph_objects as go
import geopandas as gpd

### Data

##### Read

In [2]:
df = pd.read_excel('data.xlsx', sheet_name='SAS', engine='openpyxl', skiprows=1).iloc[:, :-25]
woj_gdf = gpd.read_file("voivodeships.geojson")
pow_gdf = gpd.read_file("counties.geojson")
gmi_gdf = gpd.read_file("municipalities.geojson")
woj_geo = json.loads(woj_gdf.to_json())
pow_geo = json.loads(pow_gdf.to_json())
gmi_geo = json.loads(gmi_gdf.to_json())


##### Compute stats

In [3]:

polski_df_woj = df.groupby('wojew√≥dztwo - nazwa').agg(
    mean_val_polski   = ('wynik ≈õredni (%)', 'mean'),
    std_val_polski    = ('odchylenie standardowe (%)', 'mean'),
    median_val_polski = ('mediana (%)', 'median'),
    mode_val_polski   = ('modalna (%)', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych  = ('liczba zdajƒÖcych', 'sum')
).reset_index()
polski_df_woj = polski_df_woj.reset_index()
polski_df_woj.name = 'polski_wyniki'
polski_df_woj['wojew√≥dztwo - nazwa'] = polski_df_woj['wojew√≥dztwo - nazwa'].astype(str).str.strip().str.lower()

matematyka_df_woj = df.groupby('wojew√≥dztwo - nazwa').agg(
    mean_val_matematyka   = ('wynik ≈õredni (%).1', 'mean'),
    std_val_matematyka    = ('odchylenie standardowe (%).1', 'mean'),
    median_val_matematyka = ('mediana (%).1', 'median'),
    mode_val_matematyka   = ('modalna (%).1', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych      = ('liczba zdajƒÖcych.1', 'sum')
).reset_index()
matematyka_df_woj.name = 'matematyka_wyniki'
matematyka_df_woj['wojew√≥dztwo - nazwa'] = matematyka_df_woj['wojew√≥dztwo - nazwa'].astype(str).str.strip().str.lower()

angielski_df_woj = df.groupby('wojew√≥dztwo - nazwa').agg(
    mean_val_angielski   = ('wynik ≈õredni (%).2', 'mean'),
    std_val_angielski    = ('odchylenie standardowe (%).2', 'mean'),
    median_val_angielski = ('mediana (%).2', 'median'),
    mode_val_angielski   = ('modalna (%).2', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych     = ('liczba zdajƒÖcych.2', 'sum')
).reset_index()
angielski_df_woj = angielski_df_woj.reset_index()
angielski_df_woj.name = 'angielski_wyniki'
angielski_df_woj['wojew√≥dztwo - nazwa'] = angielski_df_woj['wojew√≥dztwo - nazwa'].astype(str).str.strip().str.lower()

polski_df_pow = df.groupby('powiat - nazwa').agg(
    mean_val_polski   = ('wynik ≈õredni (%)', 'mean'),
    std_val_polski    = ('odchylenie standardowe (%)', 'mean'),
    median_val_polski = ('mediana (%)', 'median'),
    mode_val_polski   = ('modalna (%)', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych  = ('liczba zdajƒÖcych', 'sum')
).reset_index()
polski_df_pow = polski_df_pow.reset_index()
polski_df_pow.name = 'polski_wyniki'
polski_df_pow['powiat - nazwa'] = polski_df_pow['powiat - nazwa'].astype(str).str.strip().str.lower()

matematyka_df_pow = df.groupby('powiat - nazwa').agg(
    mean_val_matematyka   = ('wynik ≈õredni (%).1', 'mean'),
    std_val_matematyka    = ('odchylenie standardowe (%).1', 'mean'),
    median_val_matematyka = ('mediana (%).1', 'median'),
    mode_val_matematyka   = ('modalna (%).1', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych      = ('liczba zdajƒÖcych.1', 'sum')
).reset_index()
matematyka_df_pow.name = 'matematyka_wyniki'
matematyka_df_pow['powiat - nazwa'] = matematyka_df_pow['powiat - nazwa'].astype(str).str.strip().str.lower()

angielski_df_pow = df.groupby('powiat - nazwa').agg(
    mean_val_angielski   = ('wynik ≈õredni (%).2', 'mean'),
    std_val_angielski    = ('odchylenie standardowe (%).2', 'mean'),
    median_val_angielski = ('mediana (%).2', 'median'),
    mode_val_angielski   = ('modalna (%).2', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych     = ('liczba zdajƒÖcych.2', 'sum')
).reset_index()
angielski_df_pow.name = 'angielski_wyniki'
angielski_df_pow['powiat - nazwa'] = angielski_df_pow['powiat - nazwa'].astype(str).str.strip().str.lower()

polski_df_gmi = df.groupby('Gmina - nazwa').agg(
    mean_val_polski   = ('wynik ≈õredni (%)', 'mean'),
    std_val_polski    = ('odchylenie standardowe (%)', 'mean'),
    median_val_polski = ('mediana (%)', 'median'),
    mode_val_polski   = ('modalna (%)', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych  = ('liczba zdajƒÖcych', 'sum')
).reset_index()
polski_df_gmi.name = 'polski_wyniki'
polski_df_gmi['Gmina - nazwa'] = polski_df_gmi['Gmina - nazwa'].astype(str).str.strip().str.lower()

matematyka_df_gmi = df.groupby('Gmina - nazwa').agg(
    mean_val_matematyka   = ('wynik ≈õredni (%).1', 'mean'),
    std_val_matematyka    = ('odchylenie standardowe (%).1', 'mean'),
    median_val_matematyka = ('mediana (%).1', 'median'),
    mode_val_matematyka   = ('modalna (%).1', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych      = ('liczba zdajƒÖcych.1', 'sum')
).reset_index()
matematyka_df_gmi = matematyka_df_gmi.reset_index()
matematyka_df_gmi.name = 'matematyka_wyniki'
matematyka_df_gmi['Gmina - nazwa'] = matematyka_df_gmi['Gmina - nazwa'].astype(str).str.strip().str.lower()

angielski_df_gmi = df.groupby('Gmina - nazwa').agg(
    mean_val_angielski   = ('wynik ≈õredni (%).2', 'mean'),
    std_val_angielski    = ('odchylenie standardowe (%).2', 'mean'),
    median_val_angielski = ('mediana (%).2', 'median'),
    mode_val_angielski   = ('modalna (%).2', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych     = ('liczba zdajƒÖcych.2', 'sum')
).reset_index()
angielski_df_gmi.name = 'angielski_wyniki'
angielski_df_gmi['Gmina - nazwa'] = angielski_df_gmi['Gmina - nazwa'].astype(str).str.strip().str.lower()

polski_df_mia = df.groupby('Miejscowo≈õƒá').agg(
    mean_val_polski   = ('wynik ≈õredni (%)', 'mean'),
    std_val_polski    = ('odchylenie standardowe (%)', 'mean'),
    median_val_polski = ('mediana (%)', 'median'),
    mode_val_polski   = ('modalna (%)', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych  = ('liczba zdajƒÖcych', 'sum')
).reset_index()
polski_df_mia.name = 'polski_wyniki'
polski_df_mia['Miejscowo≈õƒá'] = polski_df_mia['Miejscowo≈õƒá'].astype(str).str.strip().str.lower()

matematyka_df_mia = df.groupby('Miejscowo≈õƒá').agg(
    mean_val_matematyka   = ('wynik ≈õredni (%).1', 'mean'),
    std_val_matematyka    = ('odchylenie standardowe (%).1', 'mean'),
    median_val_matematyka = ('mediana (%).1', 'median'),
    mode_val_matematyka   = ('modalna (%).1', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych      = ('liczba zdajƒÖcych.1', 'sum')
).reset_index()
matematyka_df_mia = matematyka_df_mia.reset_index()
matematyka_df_mia.name = 'matematyka_wyniki'
matematyka_df_mia['Miejscowo≈õƒá'] = matematyka_df_mia['Miejscowo≈õƒá'].astype(str).str.strip().str.lower()

angielski_df_mia = df.groupby('Miejscowo≈õƒá').agg(
    mean_val_angielski   = ('wynik ≈õredni (%).2', 'mean'),
    std_val_angielski    = ('odchylenie standardowe (%).2', 'mean'),
    median_val_angielski = ('mediana (%).2', 'median'),
    mode_val_angielski   = ('modalna (%).2', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych     = ('liczba zdajƒÖcych.2', 'sum')
).reset_index()
angielski_df_mia = angielski_df_mia.reset_index()
angielski_df_mia.name = 'angielski_wyniki'
angielski_df_mia['Miejscowo≈õƒá'] = angielski_df_mia['Miejscowo≈õƒá'].astype(str).str.strip().str.lower()

##### Merge dataframes

In [4]:

woj_gdf['name'] = woj_gdf['name'].astype(str).str.strip().str.lower()
pow_gdf['name'] = pow_gdf['name'].astype(str).str.strip().str.lower()
gmi_gdf['name'] = gmi_gdf['name'].astype(str).str.strip().str.lower()

woj_gdf = woj_gdf.merge(
    polski_df_woj, 
    left_on='name', 
    right_on='wojew√≥dztwo - nazwa', 
    how='left'
)

woj_gdf = woj_gdf.merge(
    matematyka_df_woj, 
    left_on='name', 
    right_on='wojew√≥dztwo - nazwa', 
    how='left'
)

woj_gdf = woj_gdf.merge(
    angielski_df_woj, 
    left_on='name', 
    right_on='wojew√≥dztwo - nazwa', 
    how='left'
)

pow_gdf = pow_gdf.merge(
    polski_df_pow, 
    left_on='name', 
    right_on='powiat - nazwa', 
    how='left'
)

pow_gdf = pow_gdf.merge(
    matematyka_df_pow, 
    left_on='name', 
    right_on='powiat - nazwa', 
    how='left'
)

pow_gdf = pow_gdf.merge(
    angielski_df_pow, 
    left_on='name', 
    right_on='powiat - nazwa', 
    how='left'
)

gmi_gdf = gmi_gdf.merge(
    polski_df_gmi, 
    left_on='name', 
    right_on='Gmina - nazwa', 
    how='left'
)

gmi_gdf = gmi_gdf.merge(
    matematyka_df_gmi, 
    left_on='name', 
    right_on='Gmina - nazwa', 
    how='left'
)

gmi_gdf = gmi_gdf.merge(
    angielski_df_gmi, 
    left_on='name', 
    right_on='Gmina - nazwa', 
    how='left'
)

woj_gdf['name'] = "Wojew√≥dztwo " + woj_gdf['name']
pow_gdf['name'] = "Powiat " + pow_gdf['name']
gmi_gdf['name'] = "Gmina " + gmi_gdf['name']


##### Cities

In [5]:
with open("cities.json", encoding="utf-8") as f:
    cities_data = json.load(f)

cities_df = pd.DataFrame(cities_data)
cities_df["lat"] = cities_df["lat"].astype(float)
cities_df["lon"] = cities_df["lng"].astype(float)
cities_df["population"] = cities_df["population"].astype(int)
cities_df["marker_size"] = 10
cities_df.loc[cities_df['city'] == 'Warsaw', 'city'] = 'Warszawa'
cities_df['city'] = cities_df['city'].astype(str).str.strip().str.lower()

polski_df_mia['Miejscowo≈õƒá'] = polski_df_mia['Miejscowo≈õƒá'].astype(str).str.strip().str.lower()
matematyka_df_mia['Miejscowo≈õƒá'] = matematyka_df_mia['Miejscowo≈õƒá'].astype(str).str.strip().str.lower()
angielski_df_mia['Miejscowo≈õƒá'] = angielski_df_mia['Miejscowo≈õƒá'].astype(str).str.strip().str.lower()

cities_df = cities_df.merge(
    polski_df_mia, 
    left_on='city', 
    right_on='Miejscowo≈õƒá', 
    how='left'
)

cities_df = cities_df.merge(
    matematyka_df_mia, 
    left_on='city', 
    right_on='Miejscowo≈õƒá', 
    how='left'
)

cities_df = cities_df.merge(
    angielski_df_mia, 
    left_on='city', 
    right_on='Miejscowo≈õƒá', 
    how='left'
)

cities_df['city'] = cities_df['city'].str.capitalize()

### Visualization


In [None]:
fig = go.Figure()

# --- WOJEW√ìDZTWA ---
fig.add_trace(go.Choroplethmapbox(
    geojson=woj_geo,
    locations=woj_gdf.index,
    z=woj_gdf["mean_val_polski"],
    customdata=woj_gdf[[
        'std_val_polski', 
        'median_val_polski', 
        'mode_val_polski', 
        'liczba_zdajacych'
    ]],
    text=woj_gdf["name"],
    hovertext=woj_gdf["name"],
    hovertemplate=(
        "<b>%{hovertext}</b><br>" + "≈öredni wynik: %{z:.2f}%<br>" + "Mediana: %{customdata[1]:.2f}%<br>" + "Odchylenie: %{customdata[0]:.2f}%<br>" + "Dominanta: %{customdata[2]:.2f}%<br>" + "Liczba zdajƒÖcych: %{customdata[3]}<extra></extra>"
    ),
    colorscale="Reds",
    marker_opacity=0.7,
    marker_line_width=0.5,
    marker_line_color='gray',
    zmin=0, zmax=100,
    showscale=False,
    visible=True
))

# --- POWIATY ---
fig.add_trace(go.Choroplethmapbox(
    geojson=pow_geo,
    locations=pow_gdf.index,
    z=pow_gdf["mean_val_polski"],
    customdata=pow_gdf[[
        'std_val_polski', 
        'median_val_polski', 
        'mode_val_polski', 
        'liczba_zdajacych'
    ]],
    text=pow_gdf["name"],
    hovertext=pow_gdf["name"],
    hovertemplate=(
        "<b>%{hovertext}</b><br>" + "≈öredni wynik: %{z:.2f}%<br>" + "Mediana: %{customdata[1]:.2f}%<br>" + "Odchylenie: %{customdata[0]:.2f}%<br>" + "Dominanta: %{customdata[2]:.2f}%<br>" + "Liczba zdajƒÖcych: %{customdata[3]}<extra></extra>"
    ),
    colorscale="Reds",
    marker_opacity=0.7,
    marker_line_width=0.5,
    marker_line_color='gray',
    zmin=0, zmax=100,
    showscale=False,
    visible=False
))

# --- GMINY ---
fig.add_trace(go.Choroplethmapbox(
    geojson=gmi_geo,
    locations=gmi_gdf.index,
    z=gmi_gdf["mean_val_polski"],
    customdata=gmi_gdf[[
        'std_val_polski', 
        'median_val_polski', 
        'mode_val_polski', 
        'liczba_zdajacych'
    ]],
    text=gmi_gdf["name"],
    hovertext=gmi_gdf["name"],
    hovertemplate=(
        "<b>%{hovertext}</b><br>" + "≈öredni wynik: %{z:.2f}%<br>" + "Mediana: %{customdata[1]:.2f}%<br>" + "Odchylenie: %{customdata[0]:.2f}%<br>" + "Dominanta: %{customdata[2]:.2f}%<br>" + "Liczba zdajƒÖcych: %{customdata[3]}<extra></extra>"
    ),
    colorscale="Reds",
    marker_opacity=0.7,
    marker_line_width=0.5,
    marker_line_color='gray',
    zmin=0, zmax=100,
    showscale=False,
    visible=False
))

# --- MIASTA ---
fig.add_trace(go.Scattermapbox(
    lat=cities_df["lat"],
    lon=cities_df["lon"],
    mode="markers",
    marker=dict(
        size=cities_df["marker_size"],
        color="darkblue",
        opacity=0.7
    ),
    hovertext=cities_df["city"],
    hovertemplate=(
        "<b>%{hovertext}</b><br>" + "≈öredni wynik: %{customdata[4]:.2f}%<br>" + "Mediana: %{customdata[1]:.2f}%<br>" + "Odchylenie: %{customdata[0]:.2f}%<br>" + "Dominanta: %{customdata[2]:.2f}%<br>" + "Liczba zdajƒÖcych: %{customdata[3]}<extra></extra>"
    ),
    text=cities_df["city"],
    customdata=cities_df[[
        'std_val_polski', 
        'median_val_polski', 
        'mode_val_polski', 
        'liczba_zdajacych',
        'mean_val_polski'
    ]],
    name="Miasta",
    visible=False  # only visible when Cities level is selected
))


def pad(label, n=2):
    return f"{' '*n}{label}{' '*n}"

def get_custom_data(gdf, subject):
    return gdf[[
        f'std_val_{subject}', 
        f'median_val_{subject}', 
        f'mode_val_{subject}', 
        'liczba_zdajacych',
        f'mean_val_{subject}'
    ]].values

fig.update_layout(
    mapbox=dict(
        style="carto-positron",
        center=dict(lat=52.06, lon=19.48),
        zoom=6
    ),
    # 1. Increase top margin to make room for title + 2 rows of buttons
    margin=dict(r=0, t=75, l=0, b=0),
    
    # 2. Position Title at the absolute top
    title=dict(
        text="üìä Wyniki matur podstawowych ‚Äì 2025",
        x=0.5,
        y=0.98,  # Near the top of the 150px margin
        xanchor="center",
        yanchor="top",
        font=dict(size=24, family="Arial", color="#2c3e50")
    ),
    
    updatemenus=[
        # --- Row 1: Level selector ---
        dict(
            type="buttons",
            direction="right",
            x=0.5,
            y=0.98,  # Lowered to sit below title
            xanchor="center",
            yanchor="top",
            bgcolor="rgba(255,255,255,0.9)",
            bordercolor="#d1d1d1",
            borderwidth=1,
            font=dict(size=12, color="#34495e"),
            pad={"r": 10, "t": 10},
            buttons=[
                dict(label="üó∫ Wojew√≥dztwa", method="update",
                     args=[{"visible": [True, False, False, False]}]),
                dict(label="üèô Powiaty", method="update",
                     args=[{"visible": [False, True, False, False]}]),
                dict(label="üè° Gminy", method="update",
                     args=[{"visible": [False, False, True, False]}]),
                dict(label="üè¢ Miasta", method="update",
                     args=[{"visible": [False, False, False, True]}]),
            ]
        ),
        # --- Row 2: Subject selector ---
        dict(
            type="buttons",
            direction="right",
            x=0.5,
            y=0.94,  # Lowered further to sit below the first row
            xanchor="center",
            yanchor="top",
            bgcolor="rgba(255,255,255,0.9)",
            bordercolor="#d1d1d1",
            borderwidth=1,
            font=dict(size=12, color="#34495e"),
            pad={"r": 10, "t": 10},
            buttons=[
                dict(label="üìò Polski", method="update", # Use 'update' to modify trace data AND layout
                    args=[{
                        "z": [woj_gdf["mean_val_polski"], pow_gdf["mean_val_polski"], gmi_gdf["mean_val_polski"]],
                        "customdata": [get_custom_data(woj_gdf, 'polski'), 
                                        get_custom_data(pow_gdf, 'polski'), 
                                        get_custom_data(gmi_gdf, 'polski'),
                                        get_custom_data(cities_df, 'polski')]
                    }, 
                    {"colorbar.title.text": "Polski (%)"}]),

                dict(label="üìê Matematyka", method="update",
                    args=[{
                        "z": [woj_gdf["mean_val_matematyka"], pow_gdf["mean_val_matematyka"], gmi_gdf["mean_val_matematyka"]],
                        "customdata": [get_custom_data(woj_gdf, 'matematyka'), 
                                        get_custom_data(pow_gdf, 'matematyka'), 
                                        get_custom_data(gmi_gdf, 'matematyka'),
                                        get_custom_data(cities_df, 'matematyka')]
                    }, 
                    {"colorbar.title.text": "Matematyka (%)"}]),

                dict(label="üåç Angielski", method="update",
                    args=[{
                        "z": [woj_gdf["mean_val_angielski"], pow_gdf["mean_val_angielski"], gmi_gdf["mean_val_angielski"]],
                        "customdata": [get_custom_data(woj_gdf, 'angielski'), 
                                        get_custom_data(pow_gdf, 'angielski'), 
                                        get_custom_data(gmi_gdf, 'angielski'),
                                        get_custom_data(cities_df, 'angielski')]
                    }, 
                    {"colorbar.title.text": "Angielski (%)"}])
            ]
        )
    ]
)

fig.write_html("dashboard.html")


*choroplethmapbox* is deprecated! Use *choroplethmap* instead. Learn more at: https://plotly.com/python/mapbox-to-maplibre/


*choroplethmapbox* is deprecated! Use *choroplethmap* instead. Learn more at: https://plotly.com/python/mapbox-to-maplibre/


*choroplethmapbox* is deprecated! Use *choroplethmap* instead. Learn more at: https://plotly.com/python/mapbox-to-maplibre/


*scattermapbox* is deprecated! Use *scattermap* instead. Learn more at: https://plotly.com/python/mapbox-to-maplibre/

