# Prečiščevanje podatkov

Včasih je potrebno podatkovne zbirke predobdelati, da jih lahko uporabljamo v analizah in nadaljnjem delu. Čeprav je velika večina podatkovnih zbirk danes urejenih in pripravljenih za takojšnjo uporabo, se ob večjih količinah podatkov lahko zgodi, da nekateri avtorji podatkovnih zbirk ne pripravijo podatkov v obliki za takojšnjo uporabo. V tem primeru je na nas, da si podatkovno zbirko pripravimo tako, da jo bomo lahko obdelovali.

Knjižnica Pandas nam nudi nekaj koristnih funkcij za prečiščevanje podatkov, ki si jih bomo pogledali v tej enoti. Te funkcije lahko uporabljamo tako z manjšimi podatkovnimi zbirkami, kot tudi z velikimi količinami podatkov (velepodatki). V nadaljevanju si bomo podrobneje pogledali kako rešujemo manjkajoče podatke, podatke v nepravilnih oblikah, napačne podatke in podvojevanje podatkov.

Za začetek bomo uporabili manjšo podatkovno zbirko ``SiStat-education``, ki smo jo uporabljali v eni od prejšnjih enot. Naložimo podatkovno zbirko in poglejmo težave:

In [16]:
import pandas as pd

# Prenos CSV
!wget "https://univerzamb-my.sharepoint.com/:x:/g/personal/mladen_borovic_um_si/EUqhd7Rf_CNGlDOqdAjEmXoBzDyc2kAV5U7D9Dl0NmVi_Q?download=1" -O SiStat-education.csv

# Branje CSV
df = pd.read_csv('SiStat-education.csv', encoding='unicode_escape')

df.head(25) # delni izpis

--2024-05-30 12:01:52--  https://univerzamb-my.sharepoint.com/:x:/g/personal/mladen_borovic_um_si/EUqhd7Rf_CNGlDOqdAjEmXoBzDyc2kAV5U7D9Dl0NmVi_Q?download=1
Resolving univerzamb-my.sharepoint.com (univerzamb-my.sharepoint.com)... 52.105.152.27, 2a01:111:f402:f0a8::27
Connecting to univerzamb-my.sharepoint.com (univerzamb-my.sharepoint.com)|52.105.152.27|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: /personal/mladen_borovic_um_si/Documents/Share/SiStat-education.csv?ga=1 [following]
--2024-05-30 12:01:53--  https://univerzamb-my.sharepoint.com/personal/mladen_borovic_um_si/Documents/Share/SiStat-education.csv?ga=1
Reusing existing connection to univerzamb-my.sharepoint.com:443.
HTTP request sent, awaiting response... 200 OK
Length: 215606 (211K) [application/octet-stream]
Saving to: ‘SiStat-education.csv’


2024-05-30 12:01:55 (221 KB/s) - ‘SiStat-education.csv’ saved [215606/215606]



Unnamed: 0,VRSTA IZOBRAEVANJA,OBÈINE,2007/08,2008/09,2009/10,2010/11,2011/12,2012/13,2013/14,2014/15,2015/16,2016/17,2017/18,2018/19,2019/20,2020/21,2021/22,2022/23
0,Vije strokovno,Ajdovèina,103,99,129,123,108,102,116,106,88,80,88,87,80,69,59,64
1,Vije strokovno,Ankaran/Ancarano,-,-,-,-,-,-,-,-,6,7,8,8,8,7,8,8
2,Vije strokovno,Apaèe,30,29,24,23,16,16,11,13,15,11,11,15,13,10,12,10
3,Vije strokovno,Beltinci,82,67,71,73,71,70,54,52,44,55,54,53,55,62,74,65
4,Vije strokovno,Benedikt,17,20,21,18,16,25,14,14,22,27,20,13,14,15,13,16
5,Vije strokovno,Bistrica ob Sotli,8,9,13,12,11,14,11,6,5,4,5,3,7,6,8,3
6,Vije strokovno,Bled,88,84,74,62,85,67,65,57,54,43,37,43,46,42,43,39
7,Vije strokovno,Bloke,12,10,12,8,12,7,9,11,13,7,4,7,9,9,5,10
8,Vije strokovno,Bohinj,54,50,46,30,47,57,56,58,52,36,29,31,35,43,37,30
9,Vije strokovno,Borovnica,40,33,27,23,13,21,25,27,23,24,29,25,20,22,28,16


Vidimo, da bo potrebno naloženo podatkovno zbirko predobdelati, preden bomo lahko začeli z nadaljnjim delom. Imena nekaterih stolpcev so zaradi šumnikov napačna, podobno pa je tudi z nazivi vrste izobraževanja in nazivi občin. Ponekod vidimo tudi neštevilčno vrednost, kjer bi pričakovali številčno vrednost. Lotimo se prečiščevanja podatkovne zbirke!

## Manjkajoče vrednosti

V delnem izpisu podatkovne zbirke lahko vidimo, da za občino Ankaran manjkajo vrednosti za določena šolska leta. Manjkajoči podatki so označeni z znakom ``-``. Najprej poglejmo kolikokrat se to v naši podatkovni zbirki sploh zgodi.

In [17]:
# izpišimo vse vrstice, ki vsebujejo znak '-'
df[df.apply(lambda row: '-' in row.values, axis=1)]

# Uporabimo funkcijo .apply(), ki sprejme funkcijo, ki jo želimo uporabiti na vsaki vrstici.
# To je lambda funkcija, ki preveri, če je znak '-' v vrednostih vrstice.
# Parameter axis=1 pove, da želimo funkcijo uporabiti na vsaki vrstici.


Unnamed: 0,VRSTA IZOBRAEVANJA,OBÈINE,2007/08,2008/09,2009/10,2010/11,2011/12,2012/13,2013/14,2014/15,2015/16,2016/17,2017/18,2018/19,2019/20,2020/21,2021/22,2022/23
1,Vije strokovno,Ankaran/Ancarano,-,-,-,-,-,-,-,-,6,7,8,8,8,7,8,8
48,Vije strokovno,Hodo/Hodos,3,4,3,1,2,5,4,1,1,1,1,-,-,-,-,-
64,Vije strokovno,Kobilje,5,5,6,13,8,5,5,3,-,2,3,5,5,4,4,1
70,Vije strokovno,Kostel,1,1,5,6,2,1,-,-,2,3,2,2,3,3,2,1
102,Vije strokovno,Mirna,-,-,-,-,-,30,32,25,13,9,11,11,18,15,8,11
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2324,Doktorsko (3. bolonjska stopnja),Zavrè,-,-,-,-,-,-,-,-,1,1,1,-,1,2,2,1
2327,Doktorsko (3. bolonjska stopnja),elezniki,-,-,3,6,11,11,9,11,7,8,10,6,11,9,7,6
2328,Doktorsko (3. bolonjska stopnja),etale,-,-,-,-,-,1,2,1,1,0,-,-,1,1,1,2
2329,Doktorsko (3. bolonjska stopnja),iri,-,-,10,9,10,7,5,5,3,3,4,7,9,8,10,9


Na dnu izpisa vidimo dimenzije izbranega dela podatkovne zbirke. Vidimo, da obsega 1362 vrstic, kjer se pojavi znak ``-``. Za začetek zamenjajmo vse vrednosti ``-`` z oznako NA *(ang. Not Available)*. To storimo s funkcijo ``replace()``, ki jo izvedemo nad podatkovno strukturo DataFrame. Prvi parameter funkcije je niz znakov, ki jih želimo zamenjati, drugi parameter pa je nadomestna vrednost s katero želimo zamenjati obstoječo vrednost. Funkcija ``replace()`` ima več parametrov, ki jih lahko pogledate v [dokumentaciji](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html).

Za nas je pomemben podatek, da funkcija ``replace()`` vrne kopijo podatkovne strukture DataFrame in s tem ne spremeni originalnih vrednosti. Če želimo, lahko s parametrom ``inplace=True`` določimo, da se sprememba izvede kar na originalnih vrednostih. V tem primeru funkcija vrne vrednost ``None``. Za manjkajoče vrednosti lahko uporabimo nadomestno vrednost ``pd.NA``, ki bo koristna za nadaljnjo obdelavo. Tako bomo jasno označili dele podatkov, ki so manjkajoči, določene funkcije Pandas pa jih bodo lahko zaznale in primerno obravnavale.

In [18]:
# primer zamenjave '-' s pd.NA s kopiranjem v novo spremenljivko (n_df)
n_df = df.replace('-', pd.NA)
n_df.head(5) # delni izpis

Unnamed: 0,VRSTA IZOBRAEVANJA,OBÈINE,2007/08,2008/09,2009/10,2010/11,2011/12,2012/13,2013/14,2014/15,2015/16,2016/17,2017/18,2018/19,2019/20,2020/21,2021/22,2022/23
0,Vije strokovno,Ajdovèina,103.0,99.0,129.0,123.0,108.0,102.0,116.0,106.0,88,80,88,87,80,69,59,64
1,Vije strokovno,Ankaran/Ancarano,,,,,,,,,6,7,8,8,8,7,8,8
2,Vije strokovno,Apaèe,30.0,29.0,24.0,23.0,16.0,16.0,11.0,13.0,15,11,11,15,13,10,12,10
3,Vije strokovno,Beltinci,82.0,67.0,71.0,73.0,71.0,70.0,54.0,52.0,44,55,54,53,55,62,74,65
4,Vije strokovno,Benedikt,17.0,20.0,21.0,18.0,16.0,25.0,14.0,14.0,22,27,20,13,14,15,13,16


In [19]:
# primer zamenjave '-' s pd.NA v obstoječem DataFrame-u
df.replace('-', pd.NA, inplace=True)
df.head(5) # delni izpis

Unnamed: 0,VRSTA IZOBRAEVANJA,OBÈINE,2007/08,2008/09,2009/10,2010/11,2011/12,2012/13,2013/14,2014/15,2015/16,2016/17,2017/18,2018/19,2019/20,2020/21,2021/22,2022/23
0,Vije strokovno,Ajdovèina,103.0,99.0,129.0,123.0,108.0,102.0,116.0,106.0,88,80,88,87,80,69,59,64
1,Vije strokovno,Ankaran/Ancarano,,,,,,,,,6,7,8,8,8,7,8,8
2,Vije strokovno,Apaèe,30.0,29.0,24.0,23.0,16.0,16.0,11.0,13.0,15,11,11,15,13,10,12,10
3,Vije strokovno,Beltinci,82.0,67.0,71.0,73.0,71.0,70.0,54.0,52.0,44,55,54,53,55,62,74,65
4,Vije strokovno,Benedikt,17.0,20.0,21.0,18.0,16.0,25.0,14.0,14.0,22,27,20,13,14,15,13,16


Naši manjkajoči podatki so zdaj jasno označeni s ``pd.NA`` oziroma so izpisani kot ``<NA>``. Preverimo, če smo uspešno zamenjali vse pojavitve znaka ``-`` v ``<NA>``:

In [20]:
# Tokrat lahko uporabimo funkcijo .isna(), ki vrne True, če je vrednost pd.NA.
# Z metodo .any() preverimo, če je vsaj ena vrednost pd.NA v vrstici.
# Parameter axis=1 pove, da želimo preveriti po vrsticah.

df[df.isna().any(axis=1)]


Unnamed: 0,VRSTA IZOBRAEVANJA,OBÈINE,2007/08,2008/09,2009/10,2010/11,2011/12,2012/13,2013/14,2014/15,2015/16,2016/17,2017/18,2018/19,2019/20,2020/21,2021/22,2022/23
1,Vije strokovno,Ankaran/Ancarano,,,,,,,,,6,7,8,8,8,7,8,8
48,Vije strokovno,Hodo/Hodos,3,4,3,1,2,5,4,1,1,1,1,,,,,
64,Vije strokovno,Kobilje,5,5,6,13,8,5,5,3,,2,3,5,5,4,4,1
70,Vije strokovno,Kostel,1,1,5,6,2,1,,,2,3,2,2,3,3,2,1
102,Vije strokovno,Mirna,,,,,,30,32,25,13,9,11,11,18,15,8,11
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2324,Doktorsko (3. bolonjska stopnja),Zavrè,,,,,,,,,1,1,1,,1,2,2,1
2327,Doktorsko (3. bolonjska stopnja),elezniki,,,3,6,11,11,9,11,7,8,10,6,11,9,7,6
2328,Doktorsko (3. bolonjska stopnja),etale,,,,,,1,2,1,1,0,,,1,1,1,2
2329,Doktorsko (3. bolonjska stopnja),iri,,,10,9,10,7,5,5,3,3,4,7,9,8,10,9


V rezultatu vidimo ponovno 1362 vrstic, kar je enaka vrednost, ki smo jo dobili prej. Če bi želeli, bi lahko vse vrstice z manjkajočimi podatki enostavno odstranili iz podatkovne zbirke. To nam omogoča funkcija ``dropna()``. Ta funkcija podobno kot ``replace()`` podpira delo s kopijo ali pa kar na originalnih podatkih (parameter ``inplace``). Omogoča nam tudi različne načine odstranjevanja (parametri ``axis``, ``how`` in ``thresh`` - [glej dokumentacijo](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html)). Odstranimo torej vse vrstice z manjkajočimi podatki:

In [21]:
# rezultat odstranjevanja shranimo v nov DataFrame n_df
n_df = df.dropna()

# izpišemo obliko DataFrame-a pred in po odstranjevanju
print(f'Oblika DataFrame-a pred odstranjevanjem: {df.shape} in po odstranjevanju: {n_df.shape}')

Oblika DataFrame-a pred odstranjevanjem: (2332, 18) in po odstranjevanju: (970, 18)


Če odstranimo vse vrstice z manjkajočimi podatki, s tem odstranimo približno polovico vseh podatkov. To v določenih primerih ni sprejemljivo, zato odstranjevanje morda ni najboljša ideja. Glede na naše podatke vidimo, da je večina manjkajočih vrednosti številčnih, ki pa predstavljajo število ljudi vpisanih v različne vrste izobraževanja. Manjkajoča vrednost ``<NA>`` torej pomeni, da takrat ni bilo vpisanih ljudi. Če bi želeli izrisati graf vpisov skozi čas, bi bilo bolje, če bi manjkajočo vrednost zamenjali s številom 0, saj s tem ohranimo konsistentnost podatkov (vsa števila vpisov so celoštevičnega podatkovnega tipa).

Zamenjavo mankajočih vrednosti lahko izvedemo s funkcijo [``fillna()``](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html), v katero podamo vrednost, ki jo želimo videti namesto ``<NA>``. Zamenjajmo vse vrednosti ``<NA>`` z vrednostjo 0:

In [22]:
# zamenjava pd.NA z 0 v novem DataFrame-u
n_df = df.fillna(0)
n_df.head(5)

Unnamed: 0,VRSTA IZOBRAEVANJA,OBÈINE,2007/08,2008/09,2009/10,2010/11,2011/12,2012/13,2013/14,2014/15,2015/16,2016/17,2017/18,2018/19,2019/20,2020/21,2021/22,2022/23
0,Vije strokovno,Ajdovèina,103,99,129,123,108,102,116,106,88,80,88,87,80,69,59,64
1,Vije strokovno,Ankaran/Ancarano,0,0,0,0,0,0,0,0,6,7,8,8,8,7,8,8
2,Vije strokovno,Apaèe,30,29,24,23,16,16,11,13,15,11,11,15,13,10,12,10
3,Vije strokovno,Beltinci,82,67,71,73,71,70,54,52,44,55,54,53,55,62,74,65
4,Vije strokovno,Benedikt,17,20,21,18,16,25,14,14,22,27,20,13,14,15,13,16


In [23]:
# zamenjava pd.NA z 0 v obstoječem DataFrame-u
df.fillna(0, inplace=True)
df.head(25)

Unnamed: 0,VRSTA IZOBRAEVANJA,OBÈINE,2007/08,2008/09,2009/10,2010/11,2011/12,2012/13,2013/14,2014/15,2015/16,2016/17,2017/18,2018/19,2019/20,2020/21,2021/22,2022/23
0,Vije strokovno,Ajdovèina,103,99,129,123,108,102,116,106,88,80,88,87,80,69,59,64
1,Vije strokovno,Ankaran/Ancarano,0,0,0,0,0,0,0,0,6,7,8,8,8,7,8,8
2,Vije strokovno,Apaèe,30,29,24,23,16,16,11,13,15,11,11,15,13,10,12,10
3,Vije strokovno,Beltinci,82,67,71,73,71,70,54,52,44,55,54,53,55,62,74,65
4,Vije strokovno,Benedikt,17,20,21,18,16,25,14,14,22,27,20,13,14,15,13,16
5,Vije strokovno,Bistrica ob Sotli,8,9,13,12,11,14,11,6,5,4,5,3,7,6,8,3
6,Vije strokovno,Bled,88,84,74,62,85,67,65,57,54,43,37,43,46,42,43,39
7,Vije strokovno,Bloke,12,10,12,8,12,7,9,11,13,7,4,7,9,9,5,10
8,Vije strokovno,Bohinj,54,50,46,30,47,57,56,58,52,36,29,31,35,43,37,30
9,Vije strokovno,Borovnica,40,33,27,23,13,21,25,27,23,24,29,25,20,22,28,16


Vse manjkajoče številčne vrednosti smo uspešno zamenjali z vrednostjo 0. Te podatke lahko zdaj analiziramo brez potencialnih napak zaradi številčnih tipov. Čeprav smo glavnino predobdelave rešili pa imamo še vedno težave z nazivi občin in vrst izobraževanja. V nadaljevanju poskusimo rešiti še to.

## Podatki v nepravilnih oblikah

Jasno je, da imamo težave s predstavitvijo šumnikov v nazivih občin in vrst izobraževanja. To je najverjetneje posledica načina shranjevanja datoteke ``SiStat-education.csv``. Če le imamo možnost poskrbeti za pravilno kodiranje znakov pred nalaganjem podatkov, je to definitivno najboljši pristop, da se takšnim težavam izognemo. V tem primeru bomo morali to reševati v sklopu predobdelave podatkovne zbirke.

Najprej poskusimo rešiti imeni stolpcev:

In [24]:
# poglejmo, če je v zapisu prvega stolpca kaj posebnega
df.columns[0]

'VRSTA IZOBRA\x8eEVANJA'

In [25]:
# preimenujmo stolpca v DataFrame-u
df.rename(columns={
    'VRSTA IZOBRA\x8eEVANJA': 'VRSTA_IZOBRAZEVANJA', # nastavimo novo ime stolpca, tokrat v skladu z dobro prakso (uporaba podčrtaja)
    'OBÈINE': 'OBCINE' # popravimo še ime drugega stolpca
    }, inplace=True)
df.head(5)

Unnamed: 0,VRSTA_IZOBRAZEVANJA,OBCINE,2007/08,2008/09,2009/10,2010/11,2011/12,2012/13,2013/14,2014/15,2015/16,2016/17,2017/18,2018/19,2019/20,2020/21,2021/22,2022/23
0,Vije strokovno,Ajdovèina,103,99,129,123,108,102,116,106,88,80,88,87,80,69,59,64
1,Vije strokovno,Ankaran/Ancarano,0,0,0,0,0,0,0,0,6,7,8,8,8,7,8,8
2,Vije strokovno,Apaèe,30,29,24,23,16,16,11,13,15,11,11,15,13,10,12,10
3,Vije strokovno,Beltinci,82,67,71,73,71,70,54,52,44,55,54,53,55,62,74,65
4,Vije strokovno,Benedikt,17,20,21,18,16,25,14,14,22,27,20,13,14,15,13,16


Lotimo se še popravljanja zapisa vrst izobraževanja in občin. Pripravili bomo popravljene vrednosti in jih zamenjali z obstoječimi.

In [26]:
# pridobimo vse vrste izobraževanja
edutype_bad = df['VRSTA_IZOBRAZEVANJA'].unique().tolist()

# izpišimo
edutype_bad

['Vi\x9aje strokovno',
 'Visoko\x9aolsko strokovno (prej\x9anje)',
 'Visoko\x9aolsko strokovno (1. bolonjska stopnja)',
 'Visoko\x9aolsko univerzitetno (1. bolonjska stopnja)',
 'Visoko\x9aolsko univerzitetno (prej\x9anje)',
 'Magistrsko (2. bolonjska stopnja) - enovito magistrsko',
 'Magistrsko (2. bolonjska stopnja) - po konèani 1. bolonjski stopnji',
 'Specialistièno',
 'Magistrsko (prej\x9anje)',
 'Doktorsko (prej\x9anje)',
 'Doktorsko (3. bolonjska stopnja)']

In [27]:
# pripravimo seznam pravilnih vrednosti
edutype_fixed = ['Višje strokovno',
         'Visokošolsko strokovno (prejšnje)',
         'Visokošolsko strokovno (1. bolonjska stopnja)',
         'Visokošolsko univerzitetno (1. bolonjska stopnja)',
         'Visokošolsko univerzitetno (prejšnje)',
         'Magistrsko (2. bolonjska stopnja) - enovito magistrsko',
         'Magistrsko (2. bolonjska stopnja) - po končani 1. bolonjski stopnji',
         'Specialistično',
         'Magistrsko (prejšnje)',
         'Doktorsko (prejšnje)',
         'Doktorsko (3. bolonjska stopnja)']

# združimo s pomočjo zip() v slovar
fix_dict = dict(zip(edutype_bad, edutype_fixed))

# izpišimo slovar oz. preslikavo
fix_dict


{'Vi\x9aje strokovno': 'Višje strokovno',
 'Visoko\x9aolsko strokovno (prej\x9anje)': 'Visokošolsko strokovno (prejšnje)',
 'Visoko\x9aolsko strokovno (1. bolonjska stopnja)': 'Visokošolsko strokovno (1. bolonjska stopnja)',
 'Visoko\x9aolsko univerzitetno (1. bolonjska stopnja)': 'Visokošolsko univerzitetno (1. bolonjska stopnja)',
 'Visoko\x9aolsko univerzitetno (prej\x9anje)': 'Visokošolsko univerzitetno (prejšnje)',
 'Magistrsko (2. bolonjska stopnja) - enovito magistrsko': 'Magistrsko (2. bolonjska stopnja) - enovito magistrsko',
 'Magistrsko (2. bolonjska stopnja) - po konèani 1. bolonjski stopnji': 'Magistrsko (2. bolonjska stopnja) - po končani 1. bolonjski stopnji',
 'Specialistièno': 'Specialistično',
 'Magistrsko (prej\x9anje)': 'Magistrsko (prejšnje)',
 'Doktorsko (prej\x9anje)': 'Doktorsko (prejšnje)',
 'Doktorsko (3. bolonjska stopnja)': 'Doktorsko (3. bolonjska stopnja)'}

In [28]:
# zamenjamo vrednosti v DataFrame-u
df.replace({'VRSTA_IZOBRAZEVANJA': fix_dict}, inplace=True)

df.head(25)

Unnamed: 0,VRSTA_IZOBRAZEVANJA,OBCINE,2007/08,2008/09,2009/10,2010/11,2011/12,2012/13,2013/14,2014/15,2015/16,2016/17,2017/18,2018/19,2019/20,2020/21,2021/22,2022/23
0,Višje strokovno,Ajdovèina,103,99,129,123,108,102,116,106,88,80,88,87,80,69,59,64
1,Višje strokovno,Ankaran/Ancarano,0,0,0,0,0,0,0,0,6,7,8,8,8,7,8,8
2,Višje strokovno,Apaèe,30,29,24,23,16,16,11,13,15,11,11,15,13,10,12,10
3,Višje strokovno,Beltinci,82,67,71,73,71,70,54,52,44,55,54,53,55,62,74,65
4,Višje strokovno,Benedikt,17,20,21,18,16,25,14,14,22,27,20,13,14,15,13,16
5,Višje strokovno,Bistrica ob Sotli,8,9,13,12,11,14,11,6,5,4,5,3,7,6,8,3
6,Višje strokovno,Bled,88,84,74,62,85,67,65,57,54,43,37,43,46,42,43,39
7,Višje strokovno,Bloke,12,10,12,8,12,7,9,11,13,7,4,7,9,9,5,10
8,Višje strokovno,Bohinj,54,50,46,30,47,57,56,58,52,36,29,31,35,43,37,30
9,Višje strokovno,Borovnica,40,33,27,23,13,21,25,27,23,24,29,25,20,22,28,16


In [29]:
# podobno storimo za stolpec 'OBCINE'

# shranimo vse občine v seznam
obcine_bad = df['OBCINE'].unique().tolist()

# izpišimo
obcine_bad

['Ajdov\x9aèina',
 'Ankaran/Ancarano',
 'Apaèe',
 'Beltinci',
 'Benedikt',
 'Bistrica ob Sotli',
 'Bled',
 'Bloke',
 'Bohinj',
 'Borovnica',
 'Bovec',
 'Braslovèe',
 'Brda',
 'Brezovica',
 'Bre\x9eice',
 'Cankova',
 'Celje',
 'Cerklje na Gorenjskem',
 'Cerknica',
 'Cerkno',
 'Cerkvenjak',
 'Cirkulane',
 'Èren\x9aovci',
 'Èrna na Koro\x9akem',
 'Èrnomelj',
 'Destrnik',
 'Divaèa',
 'Dobje',
 'Dobrepolje',
 'Dobrna',
 'Dobrova - Polhov Gradec',
 'Dobrovnik/Dobronak',
 'Dol pri Ljubljani',
 'Dolenjske Toplice',
 'Dom\x9eale',
 'Dornava',
 'Dravograd',
 'Duplek',
 'Gorenja vas - Poljane',
 'Gori\x9anica',
 'Gorje',
 'Gornja Radgona',
 'Gornji Grad',
 'Gornji Petrovci',
 'Grad',
 'Grosuplje',
 'Hajdina',
 'Hoèe - Slivnica',
 'Hodo\x9a/Hodos',
 'Horjul',
 'Hrastnik',
 'Hrpelje - Kozina',
 'Idrija',
 'Ig',
 'Ilirska Bistrica',
 'Ivanèna Gorica',
 'Izola/Isola',
 'Jesenice',
 'Jezersko',
 'Jur\x9ainci',
 'Kamnik',
 'Kanal',
 'Kidrièevo',
 'Kobarid',
 'Kobilje',
 'Koèevje',
 'Komen',
 'Komenda',

In [30]:
# pripravimo seznam občin s pravilnimi vrednostmi
obcine_fixed = ['Ajdovščina', 'Ankaran/Ancarano', 'Apače', 'Beltinci', 'Benedikt', 'Bistrica ob Sotli', 'Bled', 'Bloke', 'Bohinj', 'Borovnica', 'Bovec', 'Braslovče', 'Brda', 'Brezovica', 'Brežice',
 'Cankova', 'Celje', 'Cerklje na Gorenjskem', 'Cerknica', 'Cerkno', 'Cerkvenjak', 'Cirkulane', 'Črenšovci', 'Črna na Koroškem', 'Črnomelj', 'Destrnik', 'Divača', 'Dobje', 'Dobrepolje', 'Dobrna',
 'Dobrova - Polhov Gradec', 'Dobrovnik/Dobronak', 'Dol pri Ljubljani', 'Dolenjske Toplice', 'Domžale', 'Dornava', 'Dravograd', 'Duplek', 'Gorenja vas - Poljane', 'Gorišnica', 'Gorje', 'Gornja Radgona',
 'Gornji Grad', 'Gornji Petrovci', 'Grad', 'Grosuplje', 'Hajdina', 'Hoče - Slivnica', 'Hodoš/Hodos', 'Horjul', 'Hrastnik', 'Hrpelje - Kozina', 'Idrija', 'Ig', 'Ilirska Bistrica', 'Ivančna Gorica',
 'Izola/Isola', 'Jesenice', 'Jezersko', 'Juršinci', 'Kamnik', 'Kanal', 'Kidričevo', 'Kobarid', 'Kobilje', 'Kočevje', 'Komen', 'Komenda', 'Koper/Capodistria', 'Kostanjevica na Krki', 'Kostel', 'Kozje',
 'Kranj', 'Kranjska Gora', 'Križevci', 'Krško', 'Kungota', 'Kuzma', 'Laško', 'Lenart', 'Lendava/Lendva', 'Litija', 'Ljubljana', 'Ljubno', 'Ljutomer', 'Log - Dragomer', 'Logatec', 'Loška dolina', 'Loški Potok',
 'Lovrenc na Pohorju', 'Luče', 'Lukovica', 'Majšperk', 'Makole', 'Maribor', 'Markovci', 'Medvode', 'Mengeš', 'Metlika', 'Mežica', 'Miklavž na Dravskem polju', 'Miren - Kostanjevica', 'Mirna', 'Mirna Peč',
 'Mislinja', 'Mokronog - Trebelno', 'Moravče', 'Moravske Toplice', 'Mozirje', 'Murska Sobota', 'Muta', 'Naklo', 'Nazarje', 'Nova Gorica', 'Novo mesto', 'Odranci', 'Oplotnica', 'Ormož', 'Osilnica', 'Pesnica',
 'Piran/Pirano', 'Pivka', 'Podčetrtek', 'Podlehnik', 'Podvelka', 'Poljčane', 'Polzela', 'Postojna', 'Prebold', 'Preddvor', 'Prevalje', 'Ptuj', 'Puconci', 'Rače - Fram', 'Radeče', 'Radenci', 'Radlje ob Dravi',
 'Radovljica', 'Ravne na Koroškem', 'Razkrižje', 'Rečica ob Savinji', 'Renče - Vogrsko', 'Ribnica', 'Ribnica na Pohorju', 'Rogaška Slatina', 'Rogašovci', 'Rogatec', 'Ruše', 'Selnica ob Dravi', 'Semič', 'Sevnica',
 'Sežana', 'Slovenj Gradec', 'Slovenska Bistrica', 'Slovenske Konjice', 'Sodražica', 'Solčava', 'Središče ob Dravi', 'Starše', 'Straža', 'Sveta Ana', 'Sveta Trojica v Slov. goricah', 'Sveti Andraž v Slov. goricah',
 'Sveti Jurij ob Ščavnici', 'Sveti Jurij v Slov. goricah', 'Sveti Tomaž', 'Šalovci', 'Šempeter - Vrtojba', 'Šenčur', 'Šentilj', 'Šentjernej', 'Šentjur', 'Šentrupert', 'Škocjan', 'Škofja Loka', 'Škofljica',
 'Šmarje pri Jelšah', 'Šmarješke Toplice', 'Šmartno ob Paki', 'Šmartno pri Litiji', 'Šoštanj', 'Štore', 'Tabor', 'Tišina', 'Tolmin', 'Trbovlje', 'Trebnje', 'Trnovska vas', 'Trzin', 'Tržič', 'Turnišče',
 'Velenje', 'Velika Polana', 'Velike Lašče', 'Veržej', 'Videm', 'Vipava', 'Vitanje', 'Vodice', 'Vojnik', 'Vransko', 'Vrhnika', 'Vuzenica', 'Zagorje ob Savi', 'Zavrč', 'Zreče', 'Žalec', 'Železniki', 'Žetale',
 'Žiri', 'Žirovnica', 'Žužemberk']
# združimo s pomočjo zip() v slovar
fix_dict = dict(zip(obcine_bad, obcine_fixed))

# izpišimo slovar
fix_dict

{'Ajdov\x9aèina': 'Ajdovščina',
 'Ankaran/Ancarano': 'Ankaran/Ancarano',
 'Apaèe': 'Apače',
 'Beltinci': 'Beltinci',
 'Benedikt': 'Benedikt',
 'Bistrica ob Sotli': 'Bistrica ob Sotli',
 'Bled': 'Bled',
 'Bloke': 'Bloke',
 'Bohinj': 'Bohinj',
 'Borovnica': 'Borovnica',
 'Bovec': 'Bovec',
 'Braslovèe': 'Braslovče',
 'Brda': 'Brda',
 'Brezovica': 'Brezovica',
 'Bre\x9eice': 'Brežice',
 'Cankova': 'Cankova',
 'Celje': 'Celje',
 'Cerklje na Gorenjskem': 'Cerklje na Gorenjskem',
 'Cerknica': 'Cerknica',
 'Cerkno': 'Cerkno',
 'Cerkvenjak': 'Cerkvenjak',
 'Cirkulane': 'Cirkulane',
 'Èren\x9aovci': 'Črenšovci',
 'Èrna na Koro\x9akem': 'Črna na Koroškem',
 'Èrnomelj': 'Črnomelj',
 'Destrnik': 'Destrnik',
 'Divaèa': 'Divača',
 'Dobje': 'Dobje',
 'Dobrepolje': 'Dobrepolje',
 'Dobrna': 'Dobrna',
 'Dobrova - Polhov Gradec': 'Dobrova - Polhov Gradec',
 'Dobrovnik/Dobronak': 'Dobrovnik/Dobronak',
 'Dol pri Ljubljani': 'Dol pri Ljubljani',
 'Dolenjske Toplice': 'Dolenjske Toplice',
 'Dom\x9eale': 'Domž

In [31]:
# zamenjamo vrednosti v DataFrame-u
df.replace({'OBCINE': fix_dict}, inplace=True)

df.head(25)

Unnamed: 0,VRSTA_IZOBRAZEVANJA,OBCINE,2007/08,2008/09,2009/10,2010/11,2011/12,2012/13,2013/14,2014/15,2015/16,2016/17,2017/18,2018/19,2019/20,2020/21,2021/22,2022/23
0,Višje strokovno,Ajdovščina,103,99,129,123,108,102,116,106,88,80,88,87,80,69,59,64
1,Višje strokovno,Ankaran/Ancarano,0,0,0,0,0,0,0,0,6,7,8,8,8,7,8,8
2,Višje strokovno,Apače,30,29,24,23,16,16,11,13,15,11,11,15,13,10,12,10
3,Višje strokovno,Beltinci,82,67,71,73,71,70,54,52,44,55,54,53,55,62,74,65
4,Višje strokovno,Benedikt,17,20,21,18,16,25,14,14,22,27,20,13,14,15,13,16
5,Višje strokovno,Bistrica ob Sotli,8,9,13,12,11,14,11,6,5,4,5,3,7,6,8,3
6,Višje strokovno,Bled,88,84,74,62,85,67,65,57,54,43,37,43,46,42,43,39
7,Višje strokovno,Bloke,12,10,12,8,12,7,9,11,13,7,4,7,9,9,5,10
8,Višje strokovno,Bohinj,54,50,46,30,47,57,56,58,52,36,29,31,35,43,37,30
9,Višje strokovno,Borovnica,40,33,27,23,13,21,25,27,23,24,29,25,20,22,28,16


Po vsem tem dodatnem delu, končno pridemo do berljivih podatkov v ustrezni obliki. Za vsak slučaj preverimo, ali smo res ustrezno popravili celotno podatkovno zbirko:

In [32]:
# poglejmo, če je karkoli enako <NA>
df[df.isna().any(axis=1)]

Unnamed: 0,VRSTA_IZOBRAZEVANJA,OBCINE,2007/08,2008/09,2009/10,2010/11,2011/12,2012/13,2013/14,2014/15,2015/16,2016/17,2017/18,2018/19,2019/20,2020/21,2021/22,2022/23


Rezultat je prazen, torej v naših podatkih ne obstajajo vrednosti ``<NA>``. Naša podatkovna zbirka je zdaj pripravljena za uporabo. Preden nadaljujemo, pa še nekaj dodatnih funkcionalnosti Pandas, ki nam lahko pomagajo pri prečiščevanju podatkov.

## Podvojeni podatki

Podvojene podatke lahko zaznamo z uporabo funkcije ``duplicated()``. Ta funkcija nam vrne vrednost ``True``, za vsako vrstico, ki je podvojena. V vseh ostalih primerih vrne vrednost ``False``. Poglejmo, ali naša podatkovna zbirka vsebuje podvojene vrstice:

In [33]:
df.duplicated()

0       False
1       False
2       False
3       False
4       False
        ...  
2327    False
2328    False
2329    False
2330    False
2331    False
Length: 2332, dtype: bool

In [34]:
# Iz zgornjega izpisa pri veliki količini podatkov ne vidimo koliko je podvojenih.
# Uporabimo funkcijo sum()
df.duplicated().sum()

0

V podatkovni zbirki nimamo podvojenih vrstic. Če bi jih imeli in bi jih želeli odstraniti, bi lahko uporabili funkcijo [``drop_duplicates()``](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html).


Da ves naš trud ne bo zaman, še shranimo prečiščeno podatkovno zbirko v novo datoteko:

In [35]:
df.to_csv('SiStat-education-cleaned.csv', index=False)