# Povezava do vira podatkovne zbirke: https://podatki.gov.si/dataset/surs0727802s

## POVPREČNO MESEČNO ŠTEVILO PLAČANIH IN OPRAVLJENIH DELOVNIH UR NA ZAPOSLENO OSEBO PO DEJAVNOSTIH

In [1]:
import warnings
warnings.simplefilter("ignore", category = FutureWarning)

# Uvozimo vse potrebne knjižnice
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.impute import KNNImputer

# OPOMBE:
# Najprej smo opravili osnovno transformacijo podatkov s pomočjo programa PX-Win
# (izbor podatkov, transformacijo vrstic in stolpcev)
# Datoteko smo shranili kot .csv, ki ima podatke ločene z ';'
# V Excelu smo šumnike nadomestili s sprejemljivimi inačicami (Š - S, Č - C, Ž - Z)

# Uvozimo .csv datoteko, ki za delimiter uporablja ';'
delovne_ure = pd.read_csv("../../podatki/delovne_ure/delovne_ure.csv", sep = ";")

# Pretvorimo imena stolpcev v velike črke
delovne_ure.columns = delovne_ure.columns.str.upper()

# Pretvorimo vrstice v velike črke
delovne_ure['URE'] = delovne_ure['URE'].apply(lambda x: x.upper())

# Izberemo 5 najbljižjih sosedov
imputer = KNNImputer(n_neighbors=5)

# Nad vsakim stolpec uporabimo KNNImputer, da nadomestimo manjkajoče vrednosti z napovedjo
delovne_ure.iloc[:, 2:] = imputer.fit_transform(delovne_ure.iloc[:, 2:])

# Prva dva stolpca pretvorimo v 'STRING'
delovne_ure.iloc[:, 0:2] = delovne_ure.iloc[:, 0:2].astype(str)
# Preostale stolpce pretvorimo v 'INTEGER'
delovne_ure.iloc[:, 2:] = delovne_ure.iloc[:, 2:].astype(int)

In [2]:
# Shranimo v .xlsx datoteko
# delovne_ure.to_excel('delovne_ure.xlsx', index=False)

In [3]:
# Pregled vseh stolpcev
print(delovne_ure.columns)

Index(['URE', 'CETRTLETJE', 'SKD DEJAVNOST - SKUPAJ',
       'A KMETIJSTVO IN LOV, GOZDARSTVO, RIBISTVO', 'B RUDARSTVO',
       'C PREDELOVALNE DEJAVNOSTI',
       'D OSKRBA Z ELEKTRICNO ENERGIJO, PLINOM IN PARO',
       'E OSKRBA Z VODO, RAVNANJE Z ODPLAKAMI IN ODPADKI, SANIRANJE OKOLJA',
       'F GRADBENISTVO', 'G TRGOVINA, VZDRZEVANJE IN POPRAVILA MOTORNIH VOZIL',
       'H PROMET IN SKLADISCENJE', 'I GOSTINSTVO',
       'J INFORMACIJSKE IN KOMUNIKACIJSKE DEJAVNOSTI',
       'K FINANCNE IN ZAVAROVALNISKE DEJAVNOSTI',
       'L POSLOVANJE Z NEPREMICNINAMI',
       'M STROKOVNE, ZNANSTVENE IN TEHNICNE DEJAVNOSTI',
       'N DRUGE RAZNOVRSTNE POSLOVNE DEJAVNOSTI',
       'O DEJAVNOST JAVNE UPRAVE IN OBRAMBE, DEJAVNOST OBVEZNE SOCIALNE VARNOSTI',
       'P IZOBRAZEVANJE', 'Q ZDRAVSTVO IN SOCIALNO VARSTVO',
       'R KULTURNE, RAZVEDRILNE IN REKREACIJSKE DEJAVNOSTI',
       'S DRUGE DEJAVNOSTI'],
      dtype='object')


In [4]:
# Pretvorimo drugi stolpec (ČETRTLETJE) v 'DATETIME'
delovne_ure.iloc[:,1] = pd.to_datetime(delovne_ure.iloc[:,1])

---