# Povezava do vira podatkovne zbirke: https://podatki.gov.si/dataset/surs0762112s

## BREZPOSELNOST GLEDE NA DOSEŽENO IZOBRAZBO IN SPOL, KOHEZIJSKI REGIJI


In [1]:
import warnings
warnings.simplefilter("ignore", category = FutureWarning)

# Uvozimo vse potrebne knjižnice
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.impute import KNNImputer

# OPOMBE:
# Najprej smo opravili osnovno transformacijo podatkov s pomočjo programa PX-Win
# (izbor podatkov, transformacijo vrstic in stolpcev)
# Datoteko smo shranili kot .csv, ki ima podatke ločene z ';'
# V Excelu smo šumnike nadomestili s sprejemljivimi inačicami (Š - S, Č - C, Ž - Z)

# Uvozimo .csv datoteko, ki za delimiter uporablja ';'
brezposelnost = pd.read_csv("../../podatki/brezposelnost/brezposelnost.csv", sep = ";")

# V vseh vrsticah (z izjemo imen stolpcev in vrstic v tretjem stolpcu (spol 'MOSKI')) izbrišemo 'M' iz same vrednosti
# npr. namesto '3822 M' bo sedaj vrednost '3822'
brezposelnost.iloc[:, 3:] = brezposelnost.iloc[:, 3:].applymap(lambda x: x.replace('M', '') if isinstance(x, str) else x)

# V naši podatkovni zbirki vrednost 'N' predstavlja manjkajoči podatek - nadomestimo jih z NaN vrednostjo, ki jo bomo
# ustrezno nadomestili z uporabo strojnega učenja
brezposelnost.iloc[:, 3:] = brezposelnost.iloc[:, 3:].replace('N', pd.np.nan)

# Pretvorimo imena stolpcev v velike črke
brezposelnost.columns = brezposelnost.columns.str.upper()

# Zaradi kasnejših pretvorb v 'FLOAT' nadomestimo vse ',' s '.'
brezposelnost.iloc[:, 2:] = brezposelnost.iloc[:, 2:].applymap(lambda x: x.replace(',', '.') if isinstance(x, str) else x)

# Pretvorimo vrstice v velike črke
brezposelnost['KOHEZIJSKA REGIJA'] = brezposelnost['KOHEZIJSKA REGIJA'].apply(lambda x: x.upper())
brezposelnost['SPOL'] = brezposelnost['SPOL'].apply(lambda x: x.upper())

# Izberemo 5 najbljižjih sosedov
imputer = KNNImputer(n_neighbors=5)

# Nad vsakim stolpec uporabimo KNNImputer, da nadomestimo manjkajoče vrednosti z napovedjo
brezposelnost.iloc[:, 3:] = imputer.fit_transform(brezposelnost.iloc[:, 3:])

# Prvi stolpec pretvorimo v 'INTEGER'
brezposelnost.iloc[:, 0] = brezposelnost.iloc[:, 0].astype(int)
# Druga dva stolpca pretvorimo v 'STRING'
brezposelnost.iloc[:, 1:3] = brezposelnost.iloc[:, 1:3].astype(str)
# Preostale stolpce pretvorimo v 'FLOAT'
brezposelnost.iloc[:, 3:] = brezposelnost.iloc[:, 3:].astype(float)

In [2]:
# Shranimo v .xlsx datoteko
# brezposelnost.to_excel('brezposelnost.xlsx', index=False)

In [3]:
# Pregled vseh stolpcev
print(brezposelnost.columns)

Index(['LETO', 'KOHEZIJSKA REGIJA', 'SPOL',
       'RAVEN DOSEZENE IZOBRAZBE - SKUPAJ DELEZ (V %)',
       'BREZ IZOBRAZBE, NEPOPOLNA OSNOVNOSOLSKA DELEZ (V %)',
       'OSNOVNOSOLSKA DELEZ (V %)', 'NIZJA ALI SREDNJA POKLICNA DELEZ (V %)',
       'SREDNJA STROKOVNA, SPLOSNA DELEZ (V %)',
       'VISJESOLSKA, VISOKOSOLSKA DELEZ (V %)'],
      dtype='object')


![My Image](../../slike/kohezijski_regiji.png)

---