## Baseline Models for Education Prediction

As a point of comparison, we also evaluate standard regression models trained directly on household-level features, without using simulated labels or clustering.

These models include:
- **Decision Tree**
- **Linear Regression**
- **Random Forest Regressor**
- **XGBoost**

Each baseline model is trained to predict the real percentage of higher education attainment (`Vyssi_vzdelani_real`) using only the observed household features available at the district level.

This allows us to evaluate whether the simulation-based approach improves over direct supervised learning when fine-grained labels are limited or incomplete.


In [15]:
# Baseline: Train Decision Tree on Kraj-level education, predict at Okres level using household stats

import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_error

# Load data
krajske_vzdelani = pd.read_excel("./DATA/krajske_vzdelani_percentage_only.xlsx")
okresni_vzdelani = pd.read_excel("./DATA/vzdelani_with_percentage_only.xlsx")
domacnosti = pd.read_excel("./DATA/domacnosti.xlsx")

# Normalize text

def normalize_text(series):
    return (
        series.str.lower().str.replace(" ", "")
        .str.normalize("NFKD").str.encode("ascii", errors="ignore").str.decode("utf-8")
    )

# Normalize and clean
krajske_vzdelani.columns = ["Kraj", "Vyssi_vzdelani"]
krajske_vzdelani["Kraj"] = normalize_text(krajske_vzdelani["Kraj"])
okresni_vzdelani.columns = ["Okres", "Vyssi_vzdelani"]
okresni_vzdelani = okresni_vzdelani[~okresni_vzdelani["Okres"].str.contains("ƒçesk√° republika", case=False)]
okresni_vzdelani["Okres"] = normalize_text(okresni_vzdelani["Okres"])
domacnosti = domacnosti.rename(columns={"region": "Okres"})
domacnosti["Okres"] = normalize_text(domacnosti["Okres"].astype(str))

# Remove aggregate rows
domacnosti_okres = domacnosti[~domacnosti["Okres"].str.contains("kraj|ceskarepublika")].copy()

# Map Okres to Kraj manually
okres_to_kraj_map = {
    "hlavnimestopraha": "hlavnimestopraha",
    "benesov": "stredoceskykraj",
    "beroun": "stredoceskykraj",
    "kladno": "stredoceskykraj",
    "kolin": "stredoceskykraj",
    "kutnahora": "stredoceskykraj",
    "melnik": "stredoceskykraj",
    "mladaboleslav": "stredoceskykraj",
    "nymburk": "stredoceskykraj",
    "praha-vychod": "stredoceskykraj",
    "praha-zapad": "stredoceskykraj",
    "pribram": "stredoceskykraj",
    "rakovnik": "stredoceskykraj",
    "ceskebudejovice": "jihoceskykraj",
    "ceskykrumlov": "jihoceskykraj",
    "jindrichuvhradec": "jihoceskykraj",
    "pisek": "jihoceskykraj",
    "prachatice": "jihoceskykraj",
    "strakonice": "jihoceskykraj",
    "tabor": "jihoceskykraj",
    "domazlice": "plzenskykraj",
    "klatovy": "plzenskykraj",
    "plzen": "plzenskykraj",
    "plzen-jih": "plzenskykraj",
    "plzen-mesto": "plzenskykraj",
    "plzen-sever": "plzenskykraj",
    "rokycany": "plzenskykraj",
    "tachov": "plzenskykraj",
    "cheb": "karlovarskykraj",
    "karlovyvary": "karlovarskykraj",
    "sokolov": "karlovarskykraj",
    "decin": "usteckykraj",
    "chomutov": "usteckykraj",
    "litomerice": "usteckykraj",
    "louny": "usteckykraj",
    "most": "usteckykraj",
    "teplice": "usteckykraj",
    "usti": "usteckykraj",
    "ceskalipa": "libereckykraj",
    "jablonecnadnisou": "libereckykraj",
    "liberec": "libereckykraj",
    "semily": "libereckykraj",
    "hradeckralove": "kralovehradeckykraj",
    "jicin": "kralovehradeckykraj",
    "nachod": "kralovehradeckykraj",
    "rychnovnadkneznou": "kralovehradeckykraj",
    "trutnov": "kralovehradeckykraj",
    "chrudim": "pardubickykraj",
    "pardubice": "pardubickykraj",
    "svitavy": "pardubickykraj",
    "ustranadlabem": "pardubickykraj",
    "havlickuvbrod": "krajvysocina",
    "jihlava": "krajvysocina",
    "pelhrimov": "krajvysocina",
    "trebic": "krajvysocina",
    "zdarnadsazavou": "krajvysocina",
    "blansko": "jihomoravskykraj",
    "brno": "jihomoravskykraj",
    "brnomesto": "jihomoravskykraj",
    "brno-venkov": "jihomoravskykraj",
    "breclav": "jihomoravskykraj",
    "hodonin": "jihomoravskykraj",
    "vyskov": "jihomoravskykraj",
    "znojmo": "jihomoravskykraj",
    "jesenik": "olomouckykraj",
    "olomouc": "olomouckykraj",
    "prostejov": "olomouckykraj",
    "prerov": "olomouckykraj",
    "sumperk": "olomouckykraj",
    "bruntal": "moravskoslezskykraj",
    "frydekmistek": "moravskoslezskykraj",
    "karvina": "moravskoslezskykraj",
    "novyjicin": "moravskoslezskykraj",
    "opava": "moravskoslezskykraj",
    "ostrava": "moravskoslezskykraj",
    "ustinadlabem": "usteckykraj",
    "ustinadorlici": "pardubickykraj",
    "brno-mesto": "jihomoravskykraj",
    "kromeriz": "zlinskykraj",
    "uherskehradiste": "zlinskykraj",
    "vsetin": "zlinskykraj",
    "zlin": "zlinskykraj",
    "frydek-mistek": "moravskoslezskykraj",
    "ostrava-mesto": "moravskoslezskykraj",
}

domacnosti_okres["Kraj"] = domacnosti_okres["Okres"].map(okres_to_kraj_map)

# Merge for training at Kraj level
df_train = pd.merge(domacnosti_okres, krajske_vzdelani, on="Kraj", how="inner")

X_kraj = df_train.drop(columns=["Okres", "Kraj", "Vyssi_vzdelani"])
y_kraj = df_train["Vyssi_vzdelani"]

scaler = StandardScaler()
X_kraj_scaled = scaler.fit_transform(X_kraj)

# Train decision tree
model = DecisionTreeRegressor(random_state=42)
model.fit(X_kraj_scaled, y_kraj)

# Predict for Okres
X_okres = domacnosti_okres.drop(columns=["Okres", "Kraj"])
X_okres_scaled = scaler.transform(X_okres)
domacnosti_okres["Predicted_Education"] = model.predict(X_okres_scaled)

# Merge with real Okres data
df_eval = pd.merge(domacnosti_okres, okresni_vzdelani, on="Okres", how="left")
df_eval = df_eval.dropna(subset=["Vyssi_vzdelani"])

# Evaluate
mae = mean_absolute_error(df_eval["Vyssi_vzdelani"], df_eval["Predicted_Education"])
print(f"üå≥ Decision Tree MAE (Kraj-trained ‚Üí Okres prediction): {mae:.4f}")

# Save output
df_output = df_eval[["Okres", "Vyssi_vzdelani", "Predicted_Education"]]

üå≥ Decision Tree MAE (Kraj-trained ‚Üí Okres prediction): 2.9372


In [16]:
# Baseline: Train on Kraj-level education, predict at Okres-level using household features

import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_error

# Load files
krajske_vzdelani = pd.read_excel("./DATA/krajske_vzdelani_percentage_only.xlsx")
okresni_vzdelani = pd.read_excel("./DATA/vzdelani_with_percentage_only.xlsx")
domacnosti = pd.read_excel("./DATA/domacnosti.xlsx")

# Normalize function
def normalize_text(series):
    return (
        series.str.lower().str.replace(" ", "")
        .str.normalize("NFKD").str.encode("ascii", errors="ignore").str.decode("utf-8")
    )

# Normalize names
krajske_vzdelani.columns = ["Kraj", "Vyssi_vzdelani"]
krajske_vzdelani["Kraj"] = normalize_text(krajske_vzdelani["Kraj"])
okresni_vzdelani.columns = ["Okres", "Vyssi_vzdelani"]
okresni_vzdelani = okresni_vzdelani[~okresni_vzdelani["Okres"].str.contains("ƒçesk√° republika", case=False)]
okresni_vzdelani["Okres"] = normalize_text(okresni_vzdelani["Okres"])
domacnosti = domacnosti.rename(columns={"region": "Okres"})
domacnosti["Okres"] = normalize_text(domacnosti["Okres"].astype(str))

# Remove aggregate rows
domacnosti_okres = domacnosti[~domacnosti["Okres"].str.contains("kraj|ceskarepublika")].copy()

# Map Okres to Kraj manually
okres_to_kraj_map = {
    "hlavnimestopraha": "hlavnimestopraha",
    "benesov": "stredoceskykraj",
    "beroun": "stredoceskykraj",
    "kladno": "stredoceskykraj",
    "kolin": "stredoceskykraj",
    "kutnahora": "stredoceskykraj",
    "melnik": "stredoceskykraj",
    "mladaboleslav": "stredoceskykraj",
    "nymburk": "stredoceskykraj",
    "praha-vychod": "stredoceskykraj",
    "praha-zapad": "stredoceskykraj",
    "pribram": "stredoceskykraj",
    "rakovnik": "stredoceskykraj",
    "ceskebudejovice": "jihoceskykraj",
    "ceskykrumlov": "jihoceskykraj",
    "jindrichuvhradec": "jihoceskykraj",
    "pisek": "jihoceskykraj",
    "prachatice": "jihoceskykraj",
    "strakonice": "jihoceskykraj",
    "tabor": "jihoceskykraj",
    "domazlice": "plzenskykraj",
    "klatovy": "plzenskykraj",
    "plzen": "plzenskykraj",
    "plzen-jih": "plzenskykraj",
    "plzen-mesto": "plzenskykraj",
    "plzen-sever": "plzenskykraj",
    "rokycany": "plzenskykraj",
    "tachov": "plzenskykraj",
    "cheb": "karlovarskykraj",
    "karlovyvary": "karlovarskykraj",
    "sokolov": "karlovarskykraj",
    "decin": "usteckykraj",
    "chomutov": "usteckykraj",
    "litomerice": "usteckykraj",
    "louny": "usteckykraj",
    "most": "usteckykraj",
    "teplice": "usteckykraj",
    "usti": "usteckykraj",
    "ceskalipa": "libereckykraj",
    "jablonecnadnisou": "libereckykraj",
    "liberec": "libereckykraj",
    "semily": "libereckykraj",
    "hradeckralove": "kralovehradeckykraj",
    "jicin": "kralovehradeckykraj",
    "nachod": "kralovehradeckykraj",
    "rychnovnadkneznou": "kralovehradeckykraj",
    "trutnov": "kralovehradeckykraj",
    "chrudim": "pardubickykraj",
    "pardubice": "pardubickykraj",
    "svitavy": "pardubickykraj",
    "ustranadlabem": "pardubickykraj",
    "havlickuvbrod": "krajvysocina",
    "jihlava": "krajvysocina",
    "pelhrimov": "krajvysocina",
    "trebic": "krajvysocina",
    "zdarnadsazavou": "krajvysocina",
    "blansko": "jihomoravskykraj",
    "brno": "jihomoravskykraj",
    "brnomesto": "jihomoravskykraj",
    "brno-venkov": "jihomoravskykraj",
    "breclav": "jihomoravskykraj",
    "hodonin": "jihomoravskykraj",
    "vyskov": "jihomoravskykraj",
    "znojmo": "jihomoravskykraj",
    "jesenik": "olomouckykraj",
    "olomouc": "olomouckykraj",
    "prostejov": "olomouckykraj",
    "prerov": "olomouckykraj",
    "sumperk": "olomouckykraj",
    "bruntal": "moravskoslezskykraj",
    "frydekmistek": "moravskoslezskykraj",
    "karvina": "moravskoslezskykraj",
    "novyjicin": "moravskoslezskykraj",
    "opava": "moravskoslezskykraj",
    "ostrava": "moravskoslezskykraj",
    "ustinadlabem": "usteckykraj",
    "ustinadorlici": "pardubickykraj",
    "brno-mesto": "jihomoravskykraj",
    "kromeriz": "zlinskykraj",
    "uherskehradiste": "zlinskykraj",
    "vsetin": "zlinskykraj",
    "zlin": "zlinskykraj",
    "frydek-mistek": "moravskoslezskykraj",
    "ostrava-mesto": "moravskoslezskykraj",
}
domacnosti_okres["Kraj"] = domacnosti_okres["Okres"].map(okres_to_kraj_map)

# Group to Kraj level for training
df_kraj_train = domacnosti_okres.groupby("Kraj").mean(numeric_only=True).reset_index()
df_kraj_train = pd.merge(df_kraj_train, krajske_vzdelani, on="Kraj", how="inner")

X_kraj = df_kraj_train.drop(columns=["Kraj", "Vyssi_vzdelani"])
y_kraj = df_kraj_train["Vyssi_vzdelani"]

scaler = StandardScaler()
X_kraj_scaled = scaler.fit_transform(X_kraj)

# Train model
model = LinearRegression()
model.fit(X_kraj_scaled, y_kraj)

# Prepare Okres-level prediction
X_okres = domacnosti_okres.drop(columns=["Okres", "Kraj"])
X_okres_scaled = scaler.transform(X_okres)
domacnosti_okres["LR_Predicted"] = model.predict(X_okres_scaled)

# Merge with real education for evaluation
df_eval = pd.merge(domacnosti_okres, okresni_vzdelani, on="Okres", how="left")
df_eval = df_eval.dropna(subset=["Vyssi_vzdelani"])

# Compute MAE
mae = mean_absolute_error(df_eval["Vyssi_vzdelani"], df_eval["LR_Predicted"])
print(f"üìâ MAE (Kraj-trained Linear Regression ‚Üí Okres prediction): {mae:.4f}")

# Save output
df_output = df_eval[["Okres", "Vyssi_vzdelani", "LR_Predicted"]]

üìâ MAE (Kraj-trained Linear Regression ‚Üí Okres prediction): 2.0845


In [17]:
# Baseline: Train Random Forest on Kraj-level education, predict at Okres level using household stats

import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_error

# Load data
krajske_vzdelani = pd.read_excel("./DATA/krajske_vzdelani_percentage_only.xlsx")
okresni_vzdelani = pd.read_excel("./DATA/vzdelani_with_percentage_only.xlsx")
domacnosti = pd.read_excel("./DATA/domacnosti.xlsx")

# Normalize function
def normalize_text(series):
    return (
        series.str.lower().str.replace(" ", "")
        .str.normalize("NFKD").str.encode("ascii", errors="ignore").str.decode("utf-8")
    )

# Normalize names
krajske_vzdelani.columns = ["Kraj", "Vyssi_vzdelani"]
krajske_vzdelani["Kraj"] = normalize_text(krajske_vzdelani["Kraj"])
okresni_vzdelani.columns = ["Okres", "Vyssi_vzdelani"]
okresni_vzdelani = okresni_vzdelani[~okresni_vzdelani["Okres"].str.contains("ƒçesk√° republika", case=False)]
okresni_vzdelani["Okres"] = normalize_text(okresni_vzdelani["Okres"])
domacnosti = domacnosti.rename(columns={"region": "Okres"})
domacnosti["Okres"] = normalize_text(domacnosti["Okres"].astype(str))

# Remove aggregate rows
domacnosti_okres = domacnosti[~domacnosti["Okres"].str.contains("kraj|ceskarepublika")].copy()

# Okres to Kraj mapping
okres_to_kraj_map = {
    "hlavnimestopraha": "hlavnimestopraha",
    "benesov": "stredoceskykraj",
    "beroun": "stredoceskykraj",
    "kladno": "stredoceskykraj",
    "kolin": "stredoceskykraj",
    "kutnahora": "stredoceskykraj",
    "melnik": "stredoceskykraj",
    "mladaboleslav": "stredoceskykraj",
    "nymburk": "stredoceskykraj",
    "praha-vychod": "stredoceskykraj",
    "praha-zapad": "stredoceskykraj",
    "pribram": "stredoceskykraj",
    "rakovnik": "stredoceskykraj",
    "ceskebudejovice": "jihoceskykraj",
    "ceskykrumlov": "jihoceskykraj",
    "jindrichuvhradec": "jihoceskykraj",
    "pisek": "jihoceskykraj",
    "prachatice": "jihoceskykraj",
    "strakonice": "jihoceskykraj",
    "tabor": "jihoceskykraj",
    "domazlice": "plzenskykraj",
    "klatovy": "plzenskykraj",
    "plzen": "plzenskykraj",
    "plzen-jih": "plzenskykraj",
    "plzen-mesto": "plzenskykraj",
    "plzen-sever": "plzenskykraj",
    "rokycany": "plzenskykraj",
    "tachov": "plzenskykraj",
    "cheb": "karlovarskykraj",
    "karlovyvary": "karlovarskykraj",
    "sokolov": "karlovarskykraj",
    "decin": "usteckykraj",
    "chomutov": "usteckykraj",
    "litomerice": "usteckykraj",
    "louny": "usteckykraj",
    "most": "usteckykraj",
    "teplice": "usteckykraj",
    "usti": "usteckykraj",
    "ceskalipa": "libereckykraj",
    "jablonecnadnisou": "libereckykraj",
    "liberec": "libereckykraj",
    "semily": "libereckykraj",
    "hradeckralove": "kralovehradeckykraj",
    "jicin": "kralovehradeckykraj",
    "nachod": "kralovehradeckykraj",
    "rychnovnadkneznou": "kralovehradeckykraj",
    "trutnov": "kralovehradeckykraj",
    "chrudim": "pardubickykraj",
    "pardubice": "pardubickykraj",
    "svitavy": "pardubickykraj",
    "ustranadlabem": "pardubickykraj",
    "havlickuvbrod": "krajvysocina",
    "jihlava": "krajvysocina",
    "pelhrimov": "krajvysocina",
    "trebic": "krajvysocina",
    "zdarnadsazavou": "krajvysocina",
    "blansko": "jihomoravskykraj",
    "brno": "jihomoravskykraj",
    "brnomesto": "jihomoravskykraj",
    "brno-venkov": "jihomoravskykraj",
    "breclav": "jihomoravskykraj",
    "hodonin": "jihomoravskykraj",
    "vyskov": "jihomoravskykraj",
    "znojmo": "jihomoravskykraj",
    "jesenik": "olomouckykraj",
    "olomouc": "olomouckykraj",
    "prostejov": "olomouckykraj",
    "prerov": "olomouckykraj",
    "sumperk": "olomouckykraj",
    "bruntal": "moravskoslezskykraj",
    "frydekmistek": "moravskoslezskykraj",
    "karvina": "moravskoslezskykraj",
    "novyjicin": "moravskoslezskykraj",
    "opava": "moravskoslezskykraj",
    "ostrava": "moravskoslezskykraj",
    "ustinadlabem": "usteckykraj",
    "ustinadorlici": "pardubickykraj",
    "brno-mesto": "jihomoravskykraj",
    "kromeriz": "zlinskykraj",
    "uherskehradiste": "zlinskykraj",
    "vsetin": "zlinskykraj",
    "zlin": "zlinskykraj",
    "frydek-mistek": "moravskoslezskykraj",
    "ostrava-mesto": "moravskoslezskykraj",
}
domacnosti_okres["Kraj"] = domacnosti_okres["Okres"].map(okres_to_kraj_map)

# Merge household features with Kraj-level target
df_train = pd.merge(domacnosti_okres, krajske_vzdelani, on="Kraj", how="inner")

# Prepare training features
X_kraj = df_train.drop(columns=["Okres", "Kraj", "Vyssi_vzdelani"])
y_kraj = df_train["Vyssi_vzdelani"]

scaler = StandardScaler()
X_kraj_scaled = scaler.fit_transform(X_kraj)

# Train model
model = RandomForestRegressor(random_state=42)
model.fit(X_kraj_scaled, y_kraj)

# Predict for Okres-level
X_okres = domacnosti_okres.drop(columns=["Okres", "Kraj"])
X_okres_scaled = scaler.transform(X_okres)
domacnosti_okres["Predicted_Education"] = model.predict(X_okres_scaled)

# Merge with real Okres-level data
df_eval = pd.merge(domacnosti_okres, okresni_vzdelani, on="Okres", how="left")
df_eval = df_eval.dropna(subset=["Vyssi_vzdelani"])

# Evaluate
mae = mean_absolute_error(df_eval["Vyssi_vzdelani"], df_eval["Predicted_Education"])
print(f"üå≤ Random Forest MAE (Kraj-trained ‚Üí Okres prediction): {mae:.4f}")

# Save output
df_output = df_eval[["Okres", "Vyssi_vzdelani", "Predicted_Education"]]

üå≤ Random Forest MAE (Kraj-trained ‚Üí Okres prediction): 2.9146


In [18]:
# Baseline: Train XGBoost on Kraj-level education, predict at Okres level using household stats

import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_error
from xgboost import XGBRegressor

# Load data
krajske_vzdelani = pd.read_excel("./DATA/krajske_vzdelani_percentage_only.xlsx")
okresni_vzdelani = pd.read_excel("./DATA/vzdelani_with_percentage_only.xlsx")
domacnosti = pd.read_excel("./DATA/domacnosti.xlsx")

# Normalize function
def normalize_text(series):
    return (
        series.str.lower().str.replace(" ", "")
        .str.normalize("NFKD").str.encode("ascii", errors="ignore").str.decode("utf-8")
    )

# Normalize and clean
krajske_vzdelani.columns = ["Kraj", "Vyssi_vzdelani"]
krajske_vzdelani["Kraj"] = normalize_text(krajske_vzdelani["Kraj"])
okresni_vzdelani.columns = ["Okres", "Vyssi_vzdelani"]
okresni_vzdelani = okresni_vzdelani[~okresni_vzdelani["Okres"].str.contains("ƒçesk√° republika", case=False)]
okresni_vzdelani["Okres"] = normalize_text(okresni_vzdelani["Okres"])
domacnosti = domacnosti.rename(columns={"region": "Okres"})
domacnosti["Okres"] = normalize_text(domacnosti["Okres"].astype(str))

# Filter only real Okres rows
domacnosti_okres = domacnosti[~domacnosti["Okres"].str.contains("kraj|ceskarepublika")].copy()

# Map Okres to Kraj manually
okres_to_kraj_map = {
    "hlavnimestopraha": "hlavnimestopraha",
    "benesov": "stredoceskykraj",
    "beroun": "stredoceskykraj",
    "kladno": "stredoceskykraj",
    "kolin": "stredoceskykraj",
    "kutnahora": "stredoceskykraj",
    "melnik": "stredoceskykraj",
    "mladaboleslav": "stredoceskykraj",
    "nymburk": "stredoceskykraj",
    "praha-vychod": "stredoceskykraj",
    "praha-zapad": "stredoceskykraj",
    "pribram": "stredoceskykraj",
    "rakovnik": "stredoceskykraj",
    "ceskebudejovice": "jihoceskykraj",
    "ceskykrumlov": "jihoceskykraj",
    "jindrichuvhradec": "jihoceskykraj",
    "pisek": "jihoceskykraj",
    "prachatice": "jihoceskykraj",
    "strakonice": "jihoceskykraj",
    "tabor": "jihoceskykraj",
    "domazlice": "plzenskykraj",
    "klatovy": "plzenskykraj",
    "plzen": "plzenskykraj",
    "plzen-jih": "plzenskykraj",
    "plzen-mesto": "plzenskykraj",
    "plzen-sever": "plzenskykraj",
    "rokycany": "plzenskykraj",
    "tachov": "plzenskykraj",
    "cheb": "karlovarskykraj",
    "karlovyvary": "karlovarskykraj",
    "sokolov": "karlovarskykraj",
    "decin": "usteckykraj",
    "chomutov": "usteckykraj",
    "litomerice": "usteckykraj",
    "louny": "usteckykraj",
    "most": "usteckykraj",
    "teplice": "usteckykraj",
    "usti": "usteckykraj",
    "ceskalipa": "libereckykraj",
    "jablonecnadnisou": "libereckykraj",
    "liberec": "libereckykraj",
    "semily": "libereckykraj",
    "hradeckralove": "kralovehradeckykraj",
    "jicin": "kralovehradeckykraj",
    "nachod": "kralovehradeckykraj",
    "rychnovnadkneznou": "kralovehradeckykraj",
    "trutnov": "kralovehradeckykraj",
    "chrudim": "pardubickykraj",
    "pardubice": "pardubickykraj",
    "svitavy": "pardubickykraj",
    "ustranadlabem": "pardubickykraj",
    "havlickuvbrod": "krajvysocina",
    "jihlava": "krajvysocina",
    "pelhrimov": "krajvysocina",
    "trebic": "krajvysocina",
    "zdarnadsazavou": "krajvysocina",
    "blansko": "jihomoravskykraj",
    "brno": "jihomoravskykraj",
    "brnomesto": "jihomoravskykraj",
    "brno-venkov": "jihomoravskykraj",
    "breclav": "jihomoravskykraj",
    "hodonin": "jihomoravskykraj",
    "vyskov": "jihomoravskykraj",
    "znojmo": "jihomoravskykraj",
    "jesenik": "olomouckykraj",
    "olomouc": "olomouckykraj",
    "prostejov": "olomouckykraj",
    "prerov": "olomouckykraj",
    "sumperk": "olomouckykraj",
    "bruntal": "moravskoslezskykraj",
    "frydekmistek": "moravskoslezskykraj",
    "karvina": "moravskoslezskykraj",
    "novyjicin": "moravskoslezskykraj",
    "opava": "moravskoslezskykraj",
    "ostrava": "moravskoslezskykraj",
    "ustinadlabem": "usteckykraj",
    "ustinadorlici": "pardubickykraj",
    "brno-mesto": "jihomoravskykraj",
    "kromeriz": "zlinskykraj",
    "uherskehradiste": "zlinskykraj",
    "vsetin": "zlinskykraj",
    "zlin": "zlinskykraj",
    "frydek-mistek": "moravskoslezskykraj",
    "ostrava-mesto": "moravskoslezskykraj",
}
domacnosti_okres["Kraj"] = domacnosti_okres["Okres"].map(okres_to_kraj_map)

# Merge for training
kraj_train = pd.merge(domacnosti_okres, krajske_vzdelani, on="Kraj", how="inner")
X_kraj = kraj_train.drop(columns=["Okres", "Kraj", "Vyssi_vzdelani"])
y_kraj = kraj_train["Vyssi_vzdelani"]

scaler = StandardScaler()
X_kraj_scaled = scaler.fit_transform(X_kraj)

# Train model
model = XGBRegressor(random_state=42)
model.fit(X_kraj_scaled, y_kraj)

# Predict for Okres
X_okres = domacnosti_okres.drop(columns=["Okres", "Kraj"])
X_okres_scaled = scaler.transform(X_okres)
domacnosti_okres["Predicted_Education"] = model.predict(X_okres_scaled)

# Merge with ground truth
df_eval = pd.merge(domacnosti_okres, okresni_vzdelani, on="Okres", how="left")
df_eval = df_eval.dropna(subset=["Vyssi_vzdelani"])

# MAE
mae = mean_absolute_error(df_eval["Vyssi_vzdelani"], df_eval["Predicted_Education"])
print(f"‚ö° XGBoost MAE (Kraj-trained ‚Üí Okres prediction): {mae:.4f}")


‚ö° XGBoost MAE (Kraj-trained ‚Üí Okres prediction): 2.9370


In [19]:
from sklearn.ensemble import GradientBoostingRegressor
import pandas as pd
from collections import OrderedDict
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_error

# === ƒåty≈ôi baseline modely (pokud u≈æ jsou definovan√© v√Ω≈°, tenhle blok m≈Ø≈æe≈° p≈ôeskoƒçit) ===
baseline_models = OrderedDict([
    ("Linear Regression", LinearRegression()),
    ("Decision Tree", DecisionTreeRegressor(random_state=42)),
    ("Random Forest", RandomForestRegressor(
        n_estimators=500,
        random_state=42,
        n_jobs=-1,
    )),
    ("Gradient Boosting", GradientBoostingRegressor(
        random_state=42,
    )),
])

# === Load education data ===
df_okres_edu = pd.read_excel("./DATA/vzdelani_with_percentage_only.xlsx")
df_kraj_edu = pd.read_excel("./DATA/krajske_vzdelani_percentage_only.xlsx")
df_households = pd.read_excel("./DATA/domacnosti.xlsx")

# --- sjednocen√≠ n√°zvu sloupce s n√°zvem √∫zem√≠ na "region" ---
for df in [df_okres_edu, df_kraj_edu, df_households]:
    if "region" not in df.columns:
        if "Unnamed: 0" in df.columns:
            df.rename(columns={"Unnamed: 0": "region"}, inplace=True)

# === Normalize region names ===
def normalize_region(s: pd.Series) -> pd.Series:
    return (
        s.astype(str)
         .str.lower()
         .str.strip()
         .str.replace(" ", "", regex=False)
         .str.normalize("NFKD")
         .str.encode("ascii", errors="ignore")
         .str.decode("utf-8")
    )

for df in [df_okres_edu, df_kraj_edu, df_households]:
    df["region"] = normalize_region(df["region"])

# === Rename target column for clarity ===
if "% vy≈°≈°√≠ vzdƒõl√°n√≠" in df_okres_edu.columns:
    df_okres_edu = df_okres_edu.rename(columns={"% vy≈°≈°√≠ vzdƒõl√°n√≠": "Edu_Share"})
if "% vy≈°≈°√≠ vzdƒõl√°n√≠" in df_kraj_edu.columns:
    df_kraj_edu = df_kraj_edu.rename(columns={"% vy≈°≈°√≠ vzdƒõl√°n√≠": "Edu_Share"})

# === Join households to KRAJ and OKRES tables ===
df_kraj_merged_edu = pd.merge(
    df_kraj_edu,
    df_households,
    on="region",
    how="left",
)

df_okres_merged_edu = pd.merge(
    df_okres_edu,
    df_households,
    on="region",
    how="left",
)

# === Feature columns from household statistics ===
# Kandid√°ti podle datov√© karty ‚Äì pou≈æijeme jen ty, kter√© opravdu v datech existuj√≠
feature_candidates_edu = [
    "celkem",
    "1 rodinou",
    "2 a v√≠ce rodinami",
    "2 a vice rodinami",
    "dom√°cnosti jednotlivc≈Ø",
    "domacnosti jednotlivcu",
    "v√≠ceƒçlenn√© dom√°cnosti",
    "viceclenne domacnosti",
]

# vezmeme pr≈Ønik s re√°ln√Ωmi sloupci po merge
feature_cols_edu = [
    col for col in feature_candidates_edu
    if col in df_kraj_merged_edu.columns and col in df_okres_merged_edu.columns
]

print("Pou≈æit√© feature sloupce pro education baseline:", feature_cols_edu)

# Drop rows with missing features or target
df_kraj_merged_edu = df_kraj_merged_edu.dropna(subset=feature_cols_edu + ["Edu_Share"])
df_okres_merged_edu = df_okres_merged_edu.dropna(subset=feature_cols_edu + ["Edu_Share"])

# === Training data (KRAJ level) ===
X_kraj_edu = df_kraj_merged_edu[feature_cols_edu]
y_kraj_edu = df_kraj_merged_edu["Edu_Share"]

# === Evaluation data (OKRES level) ===
X_okres_edu = df_okres_merged_edu[feature_cols_edu]
y_okres_edu = df_okres_merged_edu["Edu_Share"]

# === Scale features ===
scaler_edu = StandardScaler()
X_kraj_edu_scaled = scaler_edu.fit_transform(X_kraj_edu)
X_okres_edu_scaled = scaler_edu.transform(X_okres_edu)

# === Evaluate 4 baseline models ===
print("=== Baseline models (Kraj ‚Üí Okres education) ===")
mae_edu_baselines = OrderedDict()

for name, model in baseline_models.items():
    model.fit(X_kraj_edu_scaled, y_kraj_edu)
    y_pred_edu = model.predict(X_okres_edu_scaled)
    mae = mean_absolute_error(y_okres_edu, y_pred_edu)
    mae_edu_baselines[name] = mae
    print(f"{name} MAE: {mae:.4f}")

mae_edu_baselines


Pou≈æit√© feature sloupce pro education baseline: ['celkem', '1 rodinou']
=== Baseline models (Kraj ‚Üí Okres education) ===
Linear Regression MAE: 4.8877
Decision Tree MAE: 4.4086
Random Forest MAE: 3.4579
Gradient Boosting MAE: 4.3861


OrderedDict([('Linear Regression', 4.8877336740723765),
             ('Decision Tree', 4.408625676240569),
             ('Random Forest', 3.4579310026126233),
             ('Gradient Boosting', 4.386129327871837)])