### Imports

In [127]:
import pandas as pd
import plotly.express as px
import numpy as np
import json
import plotly.graph_objects as go
import geopandas as gpd
import plotly.io as pio
pio.renderers.default = "vscode"

### Data

In [128]:
df = pd.read_excel('data.xlsx', sheet_name='SAS', engine='openpyxl', skiprows=1)
df = df.iloc[:, :-25]

"""
['ID OKE',
 'wojew√≥dztwo - nazwa',
 'powiat - nazwa',
 'Gmina - nazwa',
 'Typ gminy',
 'Kod teryt gminy',
 'RSPO',
 'rodzaj plac√≥wki\n',
 'czy publiczna',
 'Identyfikator szko≈Çy',
 'Nazwa szko≈Çy',
 'Miejscowo≈õƒá',
 'Ulica nr',
 'liczba zdajƒÖcych',
 'wynik ≈õredni (%)',
 'odchylenie standardowe (%)',
 'mediana (%)',
 'modalna (%)',
 'liczba zdajƒÖcych.1',
 'wynik ≈õredni (%).1',
 'odchylenie standardowe (%).1',
 'mediana (%).1',
 'modalna (%).1',
 'liczba zdajƒÖcych.2',
 'wynik ≈õredni (%).2',
 'odchylenie standardowe (%).2',
 'mediana (%).2',
 'modalna (%).2']
"""
polski_df_woj = df.groupby('wojew√≥dztwo - nazwa').agg(
    mean_val_polski   = ('wynik ≈õredni (%)', 'mean'),
    std_val_polski    = ('odchylenie standardowe (%)', 'mean'),
    median_val_polski = ('mediana (%)', 'median'),
    mode_val_polski   = ('modalna (%)', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych  = ('liczba zdajƒÖcych', 'sum')
).reset_index()
polski_df_woj = polski_df_woj.reset_index()
polski_df_woj.name = 'polski_wyniki'
polski_df_woj['wojew√≥dztwo - nazwa'] = polski_df_woj['wojew√≥dztwo - nazwa'].astype(str).str.strip().str.lower()

matematyka_df_woj = df.groupby('wojew√≥dztwo - nazwa').agg(
    mean_val_matematyka   = ('wynik ≈õredni (%).1', 'mean'),
    std_val_matematyka    = ('odchylenie standardowe (%).1', 'mean'),
    median_val_matematyka = ('mediana (%).1', 'median'),
    mode_val_matematyka   = ('modalna (%).1', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych      = ('liczba zdajƒÖcych.1', 'sum')
).reset_index()
matematyka_df_woj.name = 'matematyka_wyniki'
matematyka_df_woj['wojew√≥dztwo - nazwa'] = matematyka_df_woj['wojew√≥dztwo - nazwa'].astype(str).str.strip().str.lower()

angielski_df_woj = df.groupby('wojew√≥dztwo - nazwa').agg(
    mean_val_angielski   = ('wynik ≈õredni (%).2', 'mean'),
    std_val_angielski    = ('odchylenie standardowe (%).2', 'mean'),
    median_val_angielski = ('mediana (%).2', 'median'),
    mode_val_angielski   = ('modalna (%).2', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych     = ('liczba zdajƒÖcych.2', 'sum')
).reset_index()
angielski_df_woj = angielski_df_woj.reset_index()
angielski_df_woj.name = 'angielski_wyniki'
angielski_df_woj['wojew√≥dztwo - nazwa'] = angielski_df_woj['wojew√≥dztwo - nazwa'].astype(str).str.strip().str.lower()

polski_df_pow = df.groupby('powiat - nazwa').agg(
    mean_val_polski   = ('wynik ≈õredni (%)', 'mean'),
    std_val_polski    = ('odchylenie standardowe (%)', 'mean'),
    median_val_polski = ('mediana (%)', 'median'),
    mode_val_polski   = ('modalna (%)', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych  = ('liczba zdajƒÖcych', 'sum')
).reset_index()
polski_df_pow = polski_df_pow.reset_index()
polski_df_pow.name = 'polski_wyniki'
polski_df_pow['powiat - nazwa'] = polski_df_pow['powiat - nazwa'].astype(str).str.strip().str.lower()

matematyka_df_pow = df.groupby('powiat - nazwa').agg(
    mean_val_matematyka   = ('wynik ≈õredni (%).1', 'mean'),
    std_val_matematyka    = ('odchylenie standardowe (%).1', 'mean'),
    median_val_matematyka = ('mediana (%).1', 'median'),
    mode_val_matematyka   = ('modalna (%).1', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych      = ('liczba zdajƒÖcych.1', 'sum')
).reset_index()
matematyka_df_pow.name = 'matematyka_wyniki'
matematyka_df_pow['powiat - nazwa'] = matematyka_df_pow['powiat - nazwa'].astype(str).str.strip().str.lower()

angielski_df_pow = df.groupby('powiat - nazwa').agg(
    mean_val_angielski   = ('wynik ≈õredni (%).2', 'mean'),
    std_val_angielski    = ('odchylenie standardowe (%).2', 'mean'),
    median_val_angielski = ('mediana (%).2', 'median'),
    mode_val_angielski   = ('modalna (%).2', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych     = ('liczba zdajƒÖcych.2', 'sum')
).reset_index()
angielski_df_pow.name = 'angielski_wyniki'
angielski_df_pow['powiat - nazwa'] = angielski_df_pow['powiat - nazwa'].astype(str).str.strip().str.lower()

polski_df_gmi = df.groupby('Gmina - nazwa').agg(
    mean_val_polski   = ('wynik ≈õredni (%)', 'mean'),
    std_val_polski    = ('odchylenie standardowe (%)', 'mean'),
    median_val_polski = ('mediana (%)', 'median'),
    mode_val_polski   = ('modalna (%)', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych  = ('liczba zdajƒÖcych', 'sum')
).reset_index()
polski_df_gmi.name = 'polski_wyniki'
polski_df_gmi['Gmina - nazwa'] = polski_df_gmi['Gmina - nazwa'].astype(str).str.strip().str.lower()

matematyka_df_gmi = df.groupby('Gmina - nazwa').agg(
    mean_val_matematyka   = ('wynik ≈õredni (%).1', 'mean'),
    std_val_matematyka    = ('odchylenie standardowe (%).1', 'mean'),
    median_val_matematyka = ('mediana (%).1', 'median'),
    mode_val_matematyka   = ('modalna (%).1', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych      = ('liczba zdajƒÖcych.1', 'sum')
).reset_index()
matematyka_df_gmi = matematyka_df_gmi.reset_index()
matematyka_df_gmi.name = 'matematyka_wyniki'
matematyka_df_gmi['Gmina - nazwa'] = matematyka_df_gmi['Gmina - nazwa'].astype(str).str.strip().str.lower()

angielski_df_gmi = df.groupby('Gmina - nazwa').agg(
    mean_val_angielski   = ('wynik ≈õredni (%).2', 'mean'),
    std_val_angielski    = ('odchylenie standardowe (%).2', 'mean'),
    median_val_angielski = ('mediana (%).2', 'median'),
    mode_val_angielski   = ('modalna (%).2', lambda x: x.mode().iloc[0] if not x.mode().empty else None),
    liczba_zdajacych     = ('liczba zdajƒÖcych.2', 'sum')
).reset_index()
angielski_df_gmi.name = 'angielski_wyniki'
angielski_df_gmi['Gmina - nazwa'] = angielski_df_gmi['Gmina - nazwa'].astype(str).str.strip().str.lower()

# Liczba zdajƒÖcych, ≈õrednie wyniki, reszta statystyk z obszar√≥w: Polska -> Wojew√≥dztwa -> Gminy/Powiat -> Miasta

In [None]:
woj_gdf = gpd.read_file("voivodeships.geojson")
pow_gdf = gpd.read_file("counties.geojson")
gmi_gdf = gpd.read_file("municipalities.geojson")
woj_geo = json.loads(woj_gdf.to_json())
pow_geo = json.loads(pow_gdf.to_json())
gmi_geo = json.loads(gmi_gdf.to_json())

woj_gdf['name'] = woj_gdf['name'].astype(str).str.strip().str.lower()
pow_gdf['name'] = pow_gdf['name'].astype(str).str.strip().str.lower()
gmi_gdf['name'] = gmi_gdf['name'].astype(str).str.strip().str.lower()

woj_gdf = woj_gdf.merge(
    polski_df_woj, 
    left_on='name', 
    right_on='wojew√≥dztwo - nazwa', 
    how='left'
)

woj_gdf = woj_gdf.merge(
    matematyka_df_woj, 
    left_on='name', 
    right_on='wojew√≥dztwo - nazwa', 
    how='left'
)

woj_gdf = woj_gdf.merge(
    angielski_df_woj, 
    left_on='name', 
    right_on='wojew√≥dztwo - nazwa', 
    how='left'
)

pow_gdf = pow_gdf.merge(
    polski_df_pow, 
    left_on='name', 
    right_on='powiat - nazwa', 
    how='left'
)

pow_gdf = pow_gdf.merge(
    matematyka_df_pow, 
    left_on='name', 
    right_on='powiat - nazwa', 
    how='left'
)

pow_gdf = pow_gdf.merge(
    angielski_df_pow, 
    left_on='name', 
    right_on='powiat - nazwa', 
    how='left'
)

gmi_gdf = gmi_gdf.merge(
    polski_df_gmi, 
    left_on='name', 
    right_on='Gmina - nazwa', 
    how='left'
)

gmi_gdf = gmi_gdf.merge(
    matematyka_df_gmi, 
    left_on='name', 
    right_on='Gmina - nazwa', 
    how='left'
)

gmi_gdf = gmi_gdf.merge(
    angielski_df_gmi, 
    left_on='name', 
    right_on='Gmina - nazwa', 
    how='left'
)

woj_gdf['name'] = "Wojew√≥dztwo " + woj_gdf['name']
pow_gdf['name'] = "Powiat " + pow_gdf['name']
gmi_gdf['name'] = "Gmina " + gmi_gdf['name']


### Visualization


##### Old

In [130]:
powiaty = gpd.read_file('counties.geojson')
powiaty.rename(columns={'name': 'powiat - nazwa'}, inplace=True)
print(powiaty.head())

powiaty['powiat - nazwa'] = powiaty['powiat - nazwa'].astype(str).str.strip().str.lower()

merged_gdf = powiaty.merge(
    polski_df, 
    left_on='powiat - nazwa', 
    right_on='powiat - nazwa', 
    how='left'
)

merged_gdf = merged_gdf.merge(
    matematyka_df, 
    left_on='powiat - nazwa', 
    right_on='powiat - nazwa', 
    how='left'
)

merged_gdf = merged_gdf.merge(
    angielski_df, 
    left_on='powiat - nazwa', 
    right_on='powiat - nazwa', 
    how='left'
)

print(merged_gdf.head())

# print(powiaty['powiat - nazwa'])
# print(polski_df['powiat - nazwa'])

# 3. Prepare City Data with Values (e.g., Population in thousands)
cities_data = {
    'name': ['Warszawa', 'Krak√≥w', '≈Å√≥d≈∫', 'Wroc≈Çaw', 'Pozna≈Ñ', 'Gda≈Ñsk', 'Szczecin', 'Bydgoszcz', 'Lublin', 'Bia≈Çystok'],
    'lat': [52.2297, 50.0647, 51.7592, 51.1079, 52.4064, 54.3520, 53.4285, 53.1235, 51.2465, 53.1325],
    'lon': [21.0122, 19.9450, 19.4560, 17.0385, 16.9252, 18.6466, 14.5528, 18.0084, 22.5684, 23.1688],
    'pop_val': [1860, 804, 670, 672, 546, 486, 396, 337, 334, 294]
}
df_cities = pd.DataFrame(cities_data)


fig = go.Figure()

# --- Layer 1: Colored Powiaty (Choropleth) ---
fig.add_trace(go.Choroplethmap(
    geojson=merged_gdf.__geo_interface__,
    locations=merged_gdf.index,
    z=merged_gdf['mean_val_polski'],
    colorscale="Reds",
    marker_opacity=0.7,
    marker_line_width=0.5,
    marker_line_color='gray',
    colorbar_title="≈öredni wynik (%)",
    hovertext=merged_gdf['powiat - nazwa'],
    hovertemplate="<b>Powiat:</b> %{hovertext}<br><b>≈öredni wynik</b> %{z} %<extra></extra>"
))

# --- Layer 2: Cities with Hover Data ---
fig.add_trace(go.Scattermap(
    lat=df_cities['lat'],
    lon=df_cities['lon'],
    mode='text',
    text=df_cities['name'],
    textfont=dict(size=11, color="black", family="Arial Black"),
    # Custom hover data
    customdata=df_cities['pop_val'],
    hovertemplate="<b>Miasto:</b> %{text}<br><b>Populacja:</b> %{customdata} tys.<extra></extra>"
))

fig.update_layout(
    mapbox=dict(
        style="carto-positron",
        center=dict(lat=52.06, lon=19.48),
        zoom=6,
    ),
    margin={"r":0,"t":50,"l":0,"b":0},
    title="Analiza Regionalna: Wyniki z matury",
    
    # --- NEW CODE START ---
    updatemenus=[
        {
            "buttons": [
                {
                    "label": "Polski",
                    "method": "restyle",
                    "args": [{"z": [merged_gdf['mean_val_polski']]}, {"colorbar_title" :"≈öredni wynik z Jƒôzyka Polskiego"}]
                },
                {
                    "label": "Matematyka",
                    "method": "restyle",
                    "args": [{"z": [merged_gdf['mean_val_matematyka']]}, {"colorbar_title" :"≈öredni wynik z Matematyki"}]
                },
                {
                    "label": "Angielski",
                    "method": "restyle",
                    "args": [{"z": [merged_gdf['mean_val_angielski']]}, {"colorbar_title" :"≈öredni wynik z Jƒôzyka Angielskiego"}]
                }
            ],
            "direction": "down",
            "showactive": True,
            "x": 0.02, # Slightly offset from the left edge
            "y": 0.98  # Just below the title
        }
    ]
    # --- NEW CODE END ---
)


fig.write_html("polska_dane.html")

   terc  powiat - nazwa                                           geometry
0  0201   boles≈Çawiecki  MULTIPOLYGON (((15.33974 51.25966, 15.29723 51...
1  0202  dzier≈ºoniowski  MULTIPOLYGON (((16.57123 50.75785, 16.54799 50...
2  0203       g≈Çogowski  MULTIPOLYGON (((15.91243 51.72554, 15.92972 51...
3  0204        g√≥rowski  MULTIPOLYGON (((16.38844 51.61193, 16.35543 51...
4  0205        jaworski  MULTIPOLYGON (((16.1594 50.95069, 16.16983 50....


KeyError: 'powiat - nazwa'

##### New

In [136]:
fig = go.Figure()

# --- WOJEW√ìDZTWA ---
fig.add_trace(go.Choroplethmapbox(
    geojson=woj_geo,
    locations=woj_gdf.index,
    z=woj_gdf["mean_val_polski"],
    customdata=woj_gdf[[
        'std_val_polski', 
        'median_val_polski', 
        'mode_val_polski', 
        'liczba_zdajacych'
    ]],
    text=woj_gdf["name"],
    hovertext=woj_gdf["name"],
    hovertemplate=(
        "<b>%{hovertext}</b><br>" + "≈öredni wynik: %{z:.2f}%<br>" + "Mediana: %{customdata[1]:.2f}%<br>" + "Odchylenie: %{customdata[0]:.2f}%<br>" + "Dominanta: %{customdata[2]:.2f}%<br>" + "Liczba zdajƒÖcych: %{customdata[3]}<extra></extra>"
    ),
    colorscale="Reds",
    marker_opacity=0.7,
    marker_line_width=0.5,
    marker_line_color='gray',
    zmin=0, zmax=100,
    showscale=True,
    visible=True
))

# --- POWIATY ---
fig.add_trace(go.Choroplethmapbox(
    geojson=pow_geo,
    locations=pow_gdf.index,
    z=pow_gdf["mean_val_polski"],
    customdata=pow_gdf[[
        'std_val_polski', 
        'median_val_polski', 
        'mode_val_polski', 
        'liczba_zdajacych'
    ]],
    text=pow_gdf["name"],
    hovertext=pow_gdf["name"],
    hovertemplate=(
        "<b>%{hovertext}</b><br>" + "≈öredni wynik: %{z:.2f}%<br>" + "Mediana: %{customdata[1]:.2f}%<br>" + "Odchylenie: %{customdata[0]:.2f}%<br>" + "Dominanta: %{customdata[2]:.2f}%<br>" + "Liczba zdajƒÖcych: %{customdata[3]}<extra></extra>"
    ),
    colorscale="Reds",
    marker_opacity=0.7,
    marker_line_width=0.5,
    marker_line_color='gray',
    zmin=0, zmax=100,
    showscale=False,
    visible=False
))

# --- GMINY ---
fig.add_trace(go.Choroplethmapbox(
    geojson=gmi_geo,
    locations=gmi_gdf.index,
    z=gmi_gdf["mean_val_polski"],
    customdata=gmi_gdf[[
        'std_val_polski', 
        'median_val_polski', 
        'mode_val_polski', 
        'liczba_zdajacych'
    ]],
    text=gmi_gdf["name"],
    hovertext=gmi_gdf["name"],
    hovertemplate=(
        "<b>%{hovertext}</b><br>" + "≈öredni wynik: %{z:.2f}%<br>" + "Mediana: %{customdata[1]:.2f}%<br>" + "Odchylenie: %{customdata[0]:.2f}%<br>" + "Dominanta: %{customdata[2]:.2f}%<br>" + "Liczba zdajƒÖcych: %{customdata[3]}<extra></extra>"
    ),
    colorscale="Reds",
    marker_opacity=0.7,
    marker_line_width=0.5,
    marker_line_color='gray',
    zmin=0, zmax=100,
    showscale=False,
    visible=False
))

fig.update_layout(
    mapbox=dict(
        style="carto-positron",
        center=dict(lat=52.06, lon=19.48),
        zoom=6
    ),
    margin=dict(r=0, t=50, l=0, b=0),
)

def pad(label, n=2):
    return f"{' '*n}{label}{' '*n}"

fig.update_layout(
    updatemenus=[
        dict(
            type="buttons",
            direction="right",
            x=0.5,
            y=1.18,
            xanchor="center",
            yanchor="top",
            bgcolor="rgba(240,240,240,0.85)",
            bordercolor="#cccccc",
            borderwidth=1,
            font=dict(size=13),
            buttons=[
                dict(label=pad("üó∫ Wojew√≥dztwa", 3), method="update",
                     args=[{"visible": [True, False, False]}]),
                dict(label=pad("üèô Powiaty", 3), method="update",
                     args=[{"visible": [False, True, False]}]),
                dict(label=pad("üè° Gminy", 3), method="update",
                     args=[{"visible": [False, False, True]}]),
            ]
        ),

        dict(
            type="buttons",
            direction="right",
            x=0.5,
            y=1.08,
            xanchor="center",
            yanchor="top",
            bgcolor="rgba(240,240,240,0.85)",
            bordercolor="#cccccc",
            borderwidth=1,
            font=dict(size=13),
            buttons=[
                dict(label=pad("üìò Polski", 3), method="restyle",
                     args=[{"z": [woj_gdf["mean_val_polski"],
                                  pow_gdf["mean_val_polski"],
                                  gmi_gdf["mean_val_polski"]]},
                           {"colorbar.title.text": "≈öredni wynik ‚Äì Jƒôzyk Polski (%)"}]),
                dict(label=pad("üìê Matematyka", 3), method="restyle",
                     args=[{"z": [woj_gdf["mean_val_matematyka"],
                                  pow_gdf["mean_val_matematyka"],
                                  gmi_gdf["mean_val_matematyka"]]},
                           {"colorbar.title.text": "≈öredni wynik ‚Äì Matematyka (%)"}]),
                dict(label=pad("üåç Angielski", 3), method="restyle",
                     args=[{"z": [woj_gdf["mean_val_angielski"],
                                  pow_gdf["mean_val_angielski"],
                                  gmi_gdf["mean_val_angielski"]]},
                           {"colorbar.title.text": "≈öredni wynik ‚Äì Jƒôzyk Angielski (%)"}]),
            ]
        )
    ]
)

fig.write_html("polska_warstwowy_widok.html")


*choroplethmapbox* is deprecated! Use *choroplethmap* instead. Learn more at: https://plotly.com/python/mapbox-to-maplibre/


*choroplethmapbox* is deprecated! Use *choroplethmap* instead. Learn more at: https://plotly.com/python/mapbox-to-maplibre/


*choroplethmapbox* is deprecated! Use *choroplethmap* instead. Learn more at: https://plotly.com/python/mapbox-to-maplibre/

