# Povezava do vira podatkovne zbirke: https://podatki.gov.si/dataset/surs0714611s

## ŠTEVILO PROSTIH DELOVNIH MEST SKUPAJ

In [1]:
import warnings
warnings.simplefilter("ignore", category = FutureWarning)

# Uvozimo vse potrebne knjižnice
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.impute import KNNImputer

# OPOMBE:
# Najprej smo opravili osnovno transformacijo podatkov s pomočjo programa PX-Win
# (izbor podatkov, transformacijo vrstic in stolpcev)
# Datoteko smo shranili kot .csv, ki ima podatke ločene z ';'
# V Excelu smo šumnike nadomestili s sprejemljivimi inačicami (Š - S, Č - C, Ž - Z)

# Uvozimo .csv datoteko, ki za delimiter uporablja ';'
prosta_delovna_mesta_skupaj = pd.read_csv("../../podatki/delovna_mesta/prosta_delovna_mesta_skupaj.csv", sep = ";")

# V vseh vrsticah (z izjemo imen stolpcev) izbrišemo 'M' iz same vrednosti – npr. namesto '3822 M' bo sedaj vrednost '3822'
prosta_delovna_mesta_skupaj.iloc[:, 1:] = prosta_delovna_mesta_skupaj.iloc[:, 1:].applymap(lambda x: x.replace('M', '') if isinstance(x, str) else x)

# V naši podatkovni zbirki vrednost 'N' predstavlja manjkajoči podatek - nadomestimo jih z NaN vrednostjo, ki jo bomo
# ustrezno nadomestili z uporabo strojnega učenja
prosta_delovna_mesta_skupaj.iloc[:, 3:] = prosta_delovna_mesta_skupaj.iloc[:, 3:].replace('N', pd.np.nan)

# Izberemo 5 najbljižjih sosedov
imputer = KNNImputer(n_neighbors=5)

# Nad vsakim stolpec uporabimo KNNImputer, da nadomestimo manjkajoče vrednosti z napovedjo
prosta_delovna_mesta_skupaj.iloc[:, 3:] = imputer.fit_transform(prosta_delovna_mesta_skupaj.iloc[:, 3:])

# Prva dva stolpca pretvorimo v 'STRING'
prosta_delovna_mesta_skupaj.iloc[:, 0:2] = prosta_delovna_mesta_skupaj.iloc[:, 0:2].astype(str)
# Preostale stolpce pretvorimo v 'INTEGER'
prosta_delovna_mesta_skupaj.iloc[:, 2:] = prosta_delovna_mesta_skupaj.iloc[:, 2:].astype(int)

In [2]:
# Shranimo v .xlsx datoteko
# prosta_delovna_mesta_skupaj.to_excel('prosta_delovna_mesta_skupaj.xlsx', index=False)

In [3]:
# Pregled vseh stolpcev
print(prosta_delovna_mesta_skupaj.columns)

Index(['CETRTLETJE', 'MERITVE', 'SKD Dejavnost - SKUPAJ [B do S]',
       'B RUDARSTVO', 'C PREDELOVALNE DEJAVNOSTI',
       'D OSKRBA Z ELEKTRICNO ENERGIJO, PLINOM IN PARO',
       'E OSKRBA Z VODO, RAVNANJE Z ODPLAKAMI IN ODPADKI, SANIRANJE OKOLJA',
       'F GRADBENISTVO', 'G TRGOVINA, VZDRZEVANJE IN POPRAVILA MOTORNIH VOZIL',
       'H PROMET IN SKLADISCENJE', 'I GOSTINSTVO',
       'J INFORMACIJSKE IN KOMUNIKACIJSKE DEJAVNOSTI',
       'K FINANCNE IN ZAVAROVALNISKE DEJAVNOSTI',
       'L POSLOVANJE Z NEPREMICNINAMI',
       'M STROKOVNE, ZNANSTVENE IN TEHNICNE DEJAVNOSTI',
       'N DRUGE RAZNOVRSTNE POSLOVNE DEJAVNOSTI',
       'O DEJAVNOST JAVNE UPRAVE IN OBRAMBE, DEJAVNOST OBVEZNE SOCIALNE VARNOSTI',
       'P IZOBRAZEVANJE', 'Q ZDRAVSTVO IN SOCIALNO VARSTVO',
       'R KULTURNE, RAZVEDRILNE IN REKREACIJSKE DEJAVNOSTI',
       'S DRUGE DEJAVNOSTI'],
      dtype='object')


In [4]:
# Pretvorimo prvi stolpec (ČETRTLETJE) v 'DATETIME'
prosta_delovna_mesta_skupaj.iloc[:,0] = pd.to_datetime(prosta_delovna_mesta_skupaj.iloc[:,0])

---

## ŠTEVILO ZASEDENIH DELOVNIH MEST SKUPAJ

In [5]:
# OPOMBE:
# Najprej smo opravili osnovno transformacijo podatkov s pomočjo programa PX-Win
# (izbor podatkov, transformacijo vrstic in stolpcev)
# Datoteko smo shranili kot .csv, ki ima podatke ločene z ';'
# V Excelu smo šumnike nadomestili s sprejemljivimi inačicami (Š - S, Č - C, Ž - Z)

# Uvozimo .csv datoteko, ki za delimiter uporablja ';'
zasedena_delovna_mesta_skupaj = pd.read_csv("../../podatki/delovna_mesta/zasedena_delovna_mesta_skupaj.csv", sep = ";")

# V vseh vrsticah (z izjemo imen stolpcev) izbrišemo 'M' iz same vrednosti – npr. namesto '3822 M' bo sedaj vrednost '3822'
zasedena_delovna_mesta_skupaj.iloc[:, 1:] = zasedena_delovna_mesta_skupaj.iloc[:, 1:].applymap(lambda x: x.replace('M', '') if isinstance(x, str) else x)

# V naši podatkovni zbirki vrednost 'N' predstavlja manjkajoči podatek - nadomestimo jih z NaN vrednostjo, ki jo bomo
# ustrezno nadomestili z uporabo strojnega učenja
zasedena_delovna_mesta_skupaj.iloc[:, 3:] = zasedena_delovna_mesta_skupaj.iloc[:, 3:].replace('N', pd.np.nan)

# Izberemo 5 najbljižjih sosedov
imputer = KNNImputer(n_neighbors=5)

# Nad vsakim stolpec uporabimo KNNImputer, da nadomestimo manjkajoče vrednosti z napovedjo
zasedena_delovna_mesta_skupaj.iloc[:, 3:] = imputer.fit_transform(zasedena_delovna_mesta_skupaj.iloc[:, 3:])

# Prva dva stolpca pretvorimo v 'STRING'
zasedena_delovna_mesta_skupaj.iloc[:, 0:2] = zasedena_delovna_mesta_skupaj.iloc[:, 0:2].astype(str)
# Preostale stolpce pretvorimo v 'INTEGER'
zasedena_delovna_mesta_skupaj.iloc[:, 2:] = zasedena_delovna_mesta_skupaj.iloc[:, 2:].astype(int)

In [6]:
# Shranimo v .xlsx datoteko
# prosta_delovna_mesta_skupaj.to_excel('prosta_delovna_mesta_skupaj.xlsx', index=False)

In [7]:
# Pregled vseh stolpcev
print(zasedena_delovna_mesta_skupaj.columns)

Index(['CETRTLETJE', 'MERITVE', 'SKD Dejavnost - SKUPAJ [B do S]',
       'B RUDARSTVO', 'C PREDELOVALNE DEJAVNOSTI',
       'D OSKRBA Z ELEKTRICNO ENERGIJO, PLINOM IN PARO',
       'E OSKRBA Z VODO, RAVNANJE Z ODPLAKAMI IN ODPADKI, SANIRANJE OKOLJA',
       'F GRADBENISTVO', 'G TRGOVINA, VZDRZEVANJE IN POPRAVILA MOTORNIH VOZIL',
       'H PROMET IN SKLADISCENJE', 'I GOSTINSTVO',
       'J INFORMACIJSKE IN KOMUNIKACIJSKE DEJAVNOSTI',
       'K FINANCNE IN ZAVAROVALNISKE DEJAVNOSTI',
       'L POSLOVANJE Z NEPREMICNINAMI',
       'M STROKOVNE, ZNANSTVENE IN TEHNICNE DEJAVNOSTI',
       'N DRUGE RAZNOVRSTNE POSLOVNE DEJAVNOSTI',
       'O DEJAVNOST JAVNE UPRAVE IN OBRAMBE, DEJAVNOST OBVEZNE SOCIALNE VARNOSTI',
       'P IZOBRAZEVANJE', 'Q ZDRAVSTVO IN SOCIALNO VARSTVO',
       'R KULTURNE, RAZVEDRILNE IN REKREACIJSKE DEJAVNOSTI',
       'S DRUGE DEJAVNOSTI'],
      dtype='object')


In [8]:
# Pretvorimo prvi stolpec (ČETRTLETJE) v 'DATETIME'
zasedena_delovna_mesta_skupaj.iloc[:,0] = pd.to_datetime(zasedena_delovna_mesta_skupaj.iloc[:,0])

---

## STOPNJA PROSTIH DELOVNIH MEST (%) SKUPAJ

In [9]:
# OPOMBE:
# Najprej smo opravili osnovno transformacijo podatkov s pomočjo programa PX-Win
# (izbor podatkov, transformacijo vrstic in stolpcev)
# Datoteko smo shranili kot .csv, ki ima podatke ločene z ';'
# V Excelu smo šumnike nadomestili s sprejemljivimi inačicami (Š - S, Č - C, Ž - Z)

# Uvozimo .csv datoteko, ki za delimiter uporablja ';'
stopnja_prostih_delovnih_mest_skupaj = pd.read_csv("../../podatki/delovna_mesta/stopnja_prostih_delovnih_mest_skupaj.csv", sep = ";")

# V vseh vrsticah (z izjemo imen stolpcev) izbrišemo 'M' iz same vrednosti – npr. namesto '3822 M' bo sedaj vrednost '3822'
stopnja_prostih_delovnih_mest_skupaj.iloc[:, 1:] = stopnja_prostih_delovnih_mest_skupaj.iloc[:, 1:].applymap(lambda x: x.replace('M', '') if isinstance(x, str) else x)

# V naši podatkovni zbirki vrednost 'N' predstavlja manjkajoči podatek - nadomestimo jih z NaN vrednostjo, ki jo bomo
# ustrezno nadomestili z uporabo strojnega učenja
stopnja_prostih_delovnih_mest_skupaj.iloc[:, 3:] = stopnja_prostih_delovnih_mest_skupaj.iloc[:, 3:].replace('N', pd.np.nan)

# Zaradi kasnejših pretvorb v 'FLOAT' nadomestimo vse ',' s '.'
stopnja_prostih_delovnih_mest_skupaj.iloc[:, 2:] = stopnja_prostih_delovnih_mest_skupaj.iloc[:, 2:].applymap(lambda x: x.replace(',', '.') if isinstance(x, str) else x)

# Izberemo 5 najbljižjih sosedov
imputer = KNNImputer(n_neighbors=5)

# Nad vsakim stolpec uporabimo KNNImputer, da nadomestimo manjkajoče vrednosti z napovedjo
stopnja_prostih_delovnih_mest_skupaj.iloc[:, 3:] = imputer.fit_transform(stopnja_prostih_delovnih_mest_skupaj.iloc[:, 3:])

# Prva dva stolpca pretvorimo v 'STRING'
stopnja_prostih_delovnih_mest_skupaj.iloc[:, 0:2] = zasedena_delovna_mesta_skupaj.iloc[:, 0:2].astype(str)
# Preostale stolpce pretvorimo v 'FLOAT'
stopnja_prostih_delovnih_mest_skupaj.iloc[:, 2:] = stopnja_prostih_delovnih_mest_skupaj.iloc[:, 2:].astype(float)

In [10]:
# Shranimo v .xlsx datoteko
# stopnja_prostih_delovnih_mest_skupaj.to_excel('stopnja_prostih_delovnih_mest_skupaj.xlsx', index=False)

In [11]:
# Pregled vseh stolpcev
print(zasedena_delovna_mesta_skupaj.columns)

Index(['CETRTLETJE', 'MERITVE', 'SKD Dejavnost - SKUPAJ [B do S]',
       'B RUDARSTVO', 'C PREDELOVALNE DEJAVNOSTI',
       'D OSKRBA Z ELEKTRICNO ENERGIJO, PLINOM IN PARO',
       'E OSKRBA Z VODO, RAVNANJE Z ODPLAKAMI IN ODPADKI, SANIRANJE OKOLJA',
       'F GRADBENISTVO', 'G TRGOVINA, VZDRZEVANJE IN POPRAVILA MOTORNIH VOZIL',
       'H PROMET IN SKLADISCENJE', 'I GOSTINSTVO',
       'J INFORMACIJSKE IN KOMUNIKACIJSKE DEJAVNOSTI',
       'K FINANCNE IN ZAVAROVALNISKE DEJAVNOSTI',
       'L POSLOVANJE Z NEPREMICNINAMI',
       'M STROKOVNE, ZNANSTVENE IN TEHNICNE DEJAVNOSTI',
       'N DRUGE RAZNOVRSTNE POSLOVNE DEJAVNOSTI',
       'O DEJAVNOST JAVNE UPRAVE IN OBRAMBE, DEJAVNOST OBVEZNE SOCIALNE VARNOSTI',
       'P IZOBRAZEVANJE', 'Q ZDRAVSTVO IN SOCIALNO VARSTVO',
       'R KULTURNE, RAZVEDRILNE IN REKREACIJSKE DEJAVNOSTI',
       'S DRUGE DEJAVNOSTI'],
      dtype='object')


In [12]:
# Pretvorimo prvi stolpec (ČETRTLETJE) v 'DATETIME'
stopnja_prostih_delovnih_mest_skupaj.iloc[:,0] = pd.to_datetime(stopnja_prostih_delovnih_mest_skupaj.iloc[:,0])

---