In [3]:
import pandas as pd
import json
import re

# ========= 1. Wczytanie obu plików =========
pkd_data = pd.read_excel(r"C:\Users\wojte\Desktop\DATA_PKD_SPECIFIC.xlsx", sheet_name="Arkusz1")
sectors = pd.read_excel(r"C:\Users\wojte\Desktop\Hacknation2025\charts\sector_top_values.xlsx", sheet_name="Sheet1")

# ========= 2. Wyciągnięcie samego numeru PKD =========
def extract_pkd_number(x):
    if pd.isna(x):
        return None
    s = str(x).strip()
    m = re.match(r"^\s*(\d+(?:\.\d+)?)", s)
    return m.group(1) if m else None

sectors["pkd_num"] = sectors["numer i nazwa PKD"].apply(extract_pkd_number)
pkd_codes = sectors["pkd_num"].dropna().astype(str).tolist()

# ========= 3. Ręcznie zdefiniowane mapowanie PKD -> zmienne
# (nazwy dokładnie takie, jak w kolumnach DATA_PKD_SPECIFIC.xlsx)
mapping_manual = {
    "35.1": [
        "Średnia roczna cena sprzedaży energii elektrycznej na rynku konkurencyjnym [zł/MWh]",
        "GAZ ZIEMNY_close",
        "Węgiel_USD",
        "CPI",
        "usd/pln",
        "eur/pln",
        "energia elektryczna dla gospodarstw domowych",
        "ciepła woda - za 1m3",
        "wynagrodzenia brutto; ogółem",
    ],
    "46.7": [
        "Sprzedaż hurtowa - dynamika",
        "Export_mln_PLN",
        "CPI",
        "usd/pln",
        "eur/pln",
        "wynagrodzenia brutto; ogółem",
        "Bezrobotni zarejestrowani pozostający bez pracy dłużej niż 1 rok",
        "Aluminium",
        "Polietylen",
    ],
    "47.1": [
        "CPI",
        "wynagrodzenia brutto; ogółem",
        "Bezrobotni zarejestrowani pozostający bez pracy dłużej niż 1 rok",
        "Kwoty świadczeń rodzinnych wypłaconych w roku - ogółem",
        "energia elektryczna dla gospodarstw domowych",
        "odkurzacz typu domowego",
    ],
    "45.1": [
        "Samochody osobowe ogółem",
        "HICP - Motor cars",
        "Interest rates (yr close)",
        "usd/pln",
        "eur/pln",
        "Benzyna 95 1l",
        "wynagrodzenia brutto; ogółem",
        "Bezrobotni zarejestrowani pozostający bez pracy dłużej niż 1 rok",
    ],
    "46.3": [
        "Sprzedaż hurtowa - dynamika",
        "CPI",
        "pszenica 1 dt",
        "ziemniaki 1 dt",
        "buraki cukrowe 1 dt",
        "liście tytoniu 1dt",
        "chmiel surowy 1dt",
        "żywiec bydło",
        "mleko krowie 1l",
        "usd/pln",
        "eur/pln",
    ],
    "46.9": [
        "Sprzedaż hurtowa - dynamika",
        "Export_mln_PLN",
        "CPI",
        "usd/pln",
        "eur/pln",
        "wynagrodzenia brutto; ogółem",
        "Aluminium",
        "Polietylen",
    ],
    "46.4": [
        "Sprzedaż hurtowa - dynamika",
        "CPI",
        "wynagrodzenia brutto; ogółem",
        "Bezrobotni zarejestrowani pozostający bez pracy dłużej niż 1 rok",
        "Średnia cena za metr w WWA",
        "Interest rates (yr close)",
        "odkurzacz typu domowego",
        "energia elektryczna dla gospodarstw domowych",
    ],
    "29.3": [
        "Samochody osobowe ogółem",
        "HICP - Motor cars",
        "Export_mln_PLN",
        "Aluminium",
        "usd/pln",
        "eur/pln",
        "Interest rates (yr close)",
    ],
    "47.7": [
        "CPI",
        "wynagrodzenia brutto; ogółem",
        "Bezrobotni zarejestrowani pozostający bez pracy dłużej niż 1 rok",
        "Kwoty świadczeń rodzinnych wypłaconych w roku - ogółem",
        "odkurzacz typu domowego",
        "eur/pln",
        "usd/pln",
    ],
    "10.1": [
        "żywiec bydło",
        "mleko krowie 1l",
        "pszenica 1 dt",
        "CPI",
        "usd/pln",
        "eur/pln",
        "Export_mln_PLN",
    ],
    "49.4": [
        "przewieziona masa towarów mln ton",
        "Benzyna 95 1l",
        "CPI",
        "Export_mln_PLN",
        "Interest rates (yr close)",
        "wynagrodzenia brutto; ogółem",
    ],
    "22.2": [
        "Polietylen",
        "GAZ ZIEMNY_close",
        "Węgiel_USD",
        "usd/pln",
        "eur/pln",
        "Export_mln_PLN",
        "CPI",
    ],
    "62.0": [
        "It zarobki",
        "wynagrodzenia brutto; ogółem",
        "Interest rates (yr close)",
        "CPI",
        "Bezrobotni zarejestrowani pozostający bez pracy dłużej niż 1 rok",
        "eur/pln",
        "usd/pln",
    ],
    "41.2": [
        "Pozwolenia wydane na budowe",
        "Function of costs of budowa",
        "Średnia cena za metr w WWA",
        "Interest rates (yr close)",
        "wynagrodzenia brutto; ogółem",
        "CPI",
        "Aluminium",
    ],
    "52.2": [
        "przewieziona masa towarów mln ton",
        "Export_mln_PLN",
        "CPI",
        "Benzyna 95 1l",
        "wynagrodzenia brutto; ogółem",
        "eur/pln",
        "usd/pln",
    ],
}

# ========= 4. Ograniczenie do PKD z excela =========
pkd_set = set(pkd_codes)
mapping = {k: v for k, v in mapping_manual.items() if k in pkd_set}

# ========= 5. Zapis do JSON =========
out_file = "pkd_to_variables.json"
with open(out_file, "w", encoding="utf-8") as f:
    json.dump(mapping, f, ensure_ascii=False, indent=2)

print(f"Zapisano do {out_file}")
print("Podgląd:")
for k, v in mapping.items():
    print(k, "->", v)


Zapisano do pkd_to_variables.json
Podgląd:
35.1 -> ['Średnia roczna cena sprzedaży energii elektrycznej na rynku konkurencyjnym [zł/MWh]', 'GAZ ZIEMNY_close', 'Węgiel_USD', 'CPI', 'usd/pln', 'eur/pln', 'energia elektryczna dla gospodarstw domowych', 'ciepła woda - za 1m3', 'wynagrodzenia brutto; ogółem']
46.7 -> ['Sprzedaż hurtowa - dynamika', 'Export_mln_PLN', 'CPI', 'usd/pln', 'eur/pln', 'wynagrodzenia brutto; ogółem', 'Bezrobotni zarejestrowani pozostający bez pracy dłużej niż 1 rok', 'Aluminium', 'Polietylen']
47.1 -> ['CPI', 'wynagrodzenia brutto; ogółem', 'Bezrobotni zarejestrowani pozostający bez pracy dłużej niż 1 rok', 'Kwoty świadczeń rodzinnych wypłaconych w roku - ogółem', 'energia elektryczna dla gospodarstw domowych', 'odkurzacz typu domowego']
45.1 -> ['Samochody osobowe ogółem', 'HICP - Motor cars', 'Interest rates (yr close)', 'usd/pln', 'eur/pln', 'Benzyna 95 1l', 'wynagrodzenia brutto; ogółem', 'Bezrobotni zarejestrowani pozostający bez pracy dłużej niż 1 rok']
46.3 