# Osnovne funkcionalnosti Pandas

V tej enoti se boste seznanili s podatkovnimi strukturami za delo s podatki v knjižnici Pandas. Podrobneje bosta predstavljeni strukturi **Series** in **DataFrame**, ki se uporabljata za delo s podatki. Nato boste spoznali funkcije za branje datotek formatov **CSV** in **JSON** s katerimi boste kasneje lahko nalagali poljubne podatkovne zbirke in jih obdelovali s knjižnico Pandas. Nadalje bodo predstavljene še funkcije za vpogled v naložene podatke, ki nam lahko povejo pomembne informacije o naloženi podatkovni zbirki.

## Podatkovne strukture

Knjižnica Pandas ima tri podatkovne strukture - Series, DataFrame in Panel. Vsaka izmed njih nam omogoča shranjevanje podatkov različnih dimenzij. Series lahko razumemo kot stolpec v tabeli, podatki pa tvorijo seznam (1D). DataFrame razširi Series in to podatkovno strukturo lahko razumemo kot tabelo, podatki pa tvorijo vrstice in stolpce (2D). Panel nadalje razširi DataFrame, kar lahko razumemo kot več tabel v zaporedju (3D). V tej enoti se bomo osredotočili na podatkovni strukturi Series in DataFrame, ki sta tudi bolj pogosto uporabljeni v praksi.

### Series

Series predstavlja 1D polje (seznam), ki lahko hrani poljuben podatkovni tip. Poglejmo Series na primeru:

In [1]:
# Primer 1: podatkovna struktura Series

import pandas as pd

data = ['Maribor', 'Novo Mesto', 'Kranj', 'Ljubljana', 'Koper', 'Celje']

series = pd.Series(data)

print(series)

0       Maribor
1    Novo Mesto
2         Kranj
3     Ljubljana
4         Koper
5         Celje
dtype: object


V izpisu vidimo, da smo ustvarili stolpec (seznam) z imeni slovenskih mest. Lastnost ``dtype`` nam pove, da je podatkovni tip ``object``, hkrati pa nam je knjižnica Pandas indeksirala podatke s števili med 0 in 5. S pomočjo indeksov lahko dostopamo do posameznega elementa v ustvarjenem stolpcu. Poskusimo izpisati slovensko mesto z indeksom 3:

In [2]:
# Primer 2: podatkovna struktura Series - indeksiranje
# !!! Ker smo knjižnico Pandas in podatke naložili že v prejšnjem primeru, nam
# !!! tega ni potrebno ponovno izvesti.

mesto = series[3] # v oglatih oklepajih podamo indeks
print(f'Mesto na indeksu 3 je: {mesto}')

Mesto na indeksu 3 je: Ljubljana


V določenih situacijah bi morda želeli imeti oznako namesto indeksa. Oznake lahko vključimo v Series tako, da jih ob inicializaciji podatkovne strukture podamo na vhodu. To storimo s parametrom ``index``. Poglejmo na primeru:

In [3]:
# Primer 3: podatkovna struktura Series - oznake
# !!! Tokrat bomo ponovno inicializirali podatkovno strukturo, zato moramo ta
# !!! del kode ponoviti. Vključevanje knjižnice z import ni potrebno, saj smo
# !!! to že storili prej.

data = ['Maribor', 'Novo Mesto', 'Kranj', 'Ljubljana', 'Koper', 'Celje']

# nastavimo oznake => Maribor bo A, Novo Mesto bo B, ...
oznake = ['A', 'B', 'C', 'D', 'E', 'F']

series = pd.Series(data, index=oznake) # oznake podamo s parametrom index

# poskusimo z izpisom mesta z oznako F
mesto = series['F'] # v oglatih oklepajih je tokrat oznaka
print(f'Mesto z oznako F je: {mesto}')


Mesto z oznako F je: Celje


V programskem jeziku Python velikokrat uporabljamo podatkovno strukturo slovarja (dictionary). Ta je sestavljena iz parov (ključ, vrednost) *(ang. key-value pair)*. Če podatkovno strukturo Series inicializiramo s podatki v obliki slovarja, se ključi preslikajo v oznake. Poglejmo na primeru podatkov o prebivalstvu v slovenskih mestih:

In [4]:
# Primer 4: podatkovna struktura Series - inicializacija s slovarjem

# podatki so zdaj v obliki slovarja (dictionary)
data = {
    'Maribor': 113000,
    'Novo Mesto': 38075,
    'Kranj': 57171,
    'Ljubljana': 296228,
    'Koper': 48776,
    'Celje': 53875
}

series = pd.Series(data)
print(series)

Maribor       113000
Novo Mesto     38075
Kranj          57171
Ljubljana     296228
Koper          48776
Celje          53875
dtype: int64


V izpisu vidimo, da smo dobili število prebivalcev po mestih, ki so določena kar z oznakami. Podatkovni tip (``dtype``) je ``int64``, ki predstavlja 64-bitna cela števila. **Ne smemo pozabiti, da gre zgolj za seznam števil prebivalcev** - tj. polje števil. Z oznakami smo samo nadomestili indeks! S takšnim načinom nalaganja podatkov lahko tudi izvajamo filtriranje. Poskusimo naložiti samo podatke za Maribor in Ljubljano:

In [5]:
# Primer 5: podatkovna struktura Series - inicializacija s slovarjem in filtriranje
# !!! Spremenljivka data nam je ostala od prej

# s parametrom index izberemo samo Maribor in Ljubljano
series = pd.Series(data, index=['Maribor', 'Ljubljana'])
print(series)

Maribor      113000
Ljubljana    296228
dtype: int64


Podobno kot v prejšnjem izpisu dobimo seznam števil prebivalcev le, da smo tokrat izbrali samo podatke za Maribor in Ljubljano. To smo storili z omejitvijo indeksa oziroma nastavljanjem oznak.

### DataFrame

S podatkovno strukturo DataFrame imamo daleč največ opravka kadar uporabljamo knjižnico Pandas za nalaganje in obdelavo podatkovnih zbirk. Gre za tabelično predstavitev podatkovne zbirke, kjer so vrstice instance podatkov, stolpci pa  različne lastnosti. DataFrame je torej 2D polje (tabela), ki lahko hrani poljuben podatkovni tip. Poglejmo DataFrame na primeru:

In [6]:
# Primer 6: podatkovna struktura DataFrame

data = {
    'mesto': ['Maribor', 'Novo Mesto', 'Kranj', 'Ljubljana', 'Koper', 'Celje'],
    'st_prebivalcev': [113000, 38075, 57171, 296228, 48776, 53875],
    'regija': ['podravska', 'jugovzhodna Slovenija', 'gorenjska', 'osrednjeslovenska', 'obalno-kraška', 'savinjska']
}

df = pd.DataFrame(data)

print(df)

        mesto  st_prebivalcev                 regija
0     Maribor          113000              podravska
1  Novo Mesto           38075  jugovzhodna Slovenija
2       Kranj           57171              gorenjska
3   Ljubljana          296228      osrednjeslovenska
4       Koper           48776          obalno-kraška
5       Celje           53875              savinjska


Naši podatki so predstavljeni kot tabela z indeksiranimi vrsticami. Vsak stolpec (``mesto``, ``st_prebivalcev`` in ``regija``) predstavlja lastnost posamezne instance podatka. Opazimo lahko, da imamo različne podatkovne tipe - števila in nize znakov. V takšni predstavitvi podatkov si pogosto želimo dostopati do vrstice, ki predstavlja instanco podatka. Podatkovna struktura DataFrame ima atribut ``loc``, ki nam omogoča vračanje ene ali večih vrstic. Poskusimo pridobiti instanco podatka, ki je na indeksu 2:

In [7]:
# Primer 7: podatkovna struktura DataFrame - uporaba atributa loc

# uporaba atributa loc z indeksom 2
print(df.loc[2])

mesto                 Kranj
st_prebivalcev        57171
regija            gorenjska
Name: 2, dtype: object


V rezultatu vidimo, da smo izpisali mesto Kranj s pripadajočim številom prebivalcev in regijo. Dobili smo vrstico DataFrame-a v obliki stolpca. **Rezultat je pravzaprav podatkovna struktura Series!** Preizkusimo še pridobivanje več vrstic hkrati - recimo, da želimo instance podatkov, ki so na indeksih 1, 3 in 5:

In [8]:
# Primer 8: podatkovna struktura DataFrame - uporaba atributa loc

# uporaba atributa loc z indeksi 1, 3 in 5
print(df.loc[[1, 3, 5]]) # indekse podamo kot seznam

        mesto  st_prebivalcev                 regija
1  Novo Mesto           38075  jugovzhodna Slovenija
3   Ljubljana          296228      osrednjeslovenska
5       Celje           53875              savinjska


**Tokrat je rezultat DataFrame**, saj gre za filtrirano podmnožico izvornih podatkov. **Kadar z atributom ``loc`` uporabimo oglate oklepaje ``[]`` bo rezultat DataFrame.**

Podobno kot pri Series, lahko tudi v DataFrame uporabimo lastne oznake. Preizkusimo še to:

In [9]:
# Primer 9: podatkovna struktura DataFrame - oznake

data = {
    'mesto': ['Maribor', 'Novo Mesto', 'Kranj', 'Ljubljana', 'Koper', 'Celje'],
    'st_prebivalcev': [113000, 38075, 57171, 296228, 48776, 53875],
    'regija': ['podravska', 'jugovzhodna Slovenija', 'gorenjska', 'osrednjeslovenska', 'obalno-kraška', 'savinjska']
}

# pri inicializaciji DataFrame smo podali svoje oznake
df = pd.DataFrame(data, index=['A', 'B', 'C', 'D', 'E', 'F'])

print(df)

        mesto  st_prebivalcev                 regija
A     Maribor          113000              podravska
B  Novo Mesto           38075  jugovzhodna Slovenija
C       Kranj           57171              gorenjska
D   Ljubljana          296228      osrednjeslovenska
E       Koper           48776          obalno-kraška
F       Celje           53875              savinjska


Namesto indeksov imamo zdaj oznake (črke A-F). Preizkusimo še atribut ``loc`` z oznakami:

In [10]:
# Primer 10: podatkovna struktura DataFrame - oznake in atribut loc

# prej smo uporabili indeks 2, zdaj poskusimo z oznako C
print(df.loc['C'])

mesto                 Kranj
st_prebivalcev        57171
regija            gorenjska
Name: C, dtype: object


Rezultat je enak kot prej, ko smo uporabili indeks 2. Kaj pa, če uporabimo več oznak (podobno kot smo prej uporabili indekse 1, 3 in 5)?

In [11]:
# Primer 11: podatkovna struktura DataFrame - oznake in atribut loc

# prej smo uporabili indekse 1, 3 in 5, zdaj poskusimo z oznakami B, D in F
print(df.loc[['B', 'D', 'F']])

        mesto  st_prebivalcev                 regija
B  Novo Mesto           38075  jugovzhodna Slovenija
D   Ljubljana          296228      osrednjeslovenska
F       Celje           53875              savinjska


Ponovno je rezultat enak kot prej. Vidimo torej, da lahko uporabljamo indekse ali oznake po želji. V praksi ponavadi uporabljamo kar indekse, čeprav so lahko v določenih primerih oznake bolj uporabne.

## Branje podatkov

Do zdaj smo podatke nalagali tako, da smo pripravili nekaj vrednosti v obliki slovarja (dictionary) ali seznama (list) in jih naložili. Ko govorimo o podatkovnih zbirkah, so podatki največkrat podani v obliki datotek **CSV** ali **JSON**. To velja tudi za velepodatke *(ang. big data)*, s tem da imamo takrat opravka z večjimi datotekami ali celo z več večjimi ločenimi datotekami. Delo z velepodatki bomo podrobneje obravnavali v naslednji enoti, zaenkrat pa si poglejmo kako sploh lahko naložimo datoteke s podatki, da jih lahko obdelamo s funkcijami knjižnice Pandas.

### Branje datotek CSV

Datoteke CSV *(ang. comma separated values)* so zelo pogosta oblika za shranjevanje podatkovnih zbirk na področju podatkovne znanosti. Podatki so shranjeni tako, da so ločeni z vejicami. Takšne podatkovne zbirke zlahka naložimo s knjižnico Pandas z uporabo namenskih funkcij za datoteke CSV. Poglejmo si primer nalaganja manjše podatkovne zbirke, ki smo jo pridobili iz podatkovne baze SiStat, ki jo vzdržuje Statistični urad Republike Slovenije (SURS). Datoteko CSV lahko naložimo s funkcijo ``read_csv()``:


In [12]:
# Prenos manjše podatkovne zbirke SiStat-education

# Prenos CSV
!wget "https://univerzamb-my.sharepoint.com/:x:/g/personal/mladen_borovic_um_si/EUqhd7Rf_CNGlDOqdAjEmXoBzDyc2kAV5U7D9Dl0NmVi_Q?download=1" -O SiStat-education.csv

# Prenos JSON
!wget "https://univerzamb-my.sharepoint.com/:u:/g/personal/mladen_borovic_um_si/EQCSZpie-YhIpUQh8sf7J20BgOVe0fMBwE8JU7Q1nL-gJA?download=1" -O SiStat-education.json

--2024-04-10 12:18:12--  https://univerzamb-my.sharepoint.com/:x:/g/personal/mladen_borovic_um_si/EUqhd7Rf_CNGlDOqdAjEmXoBzDyc2kAV5U7D9Dl0NmVi_Q?download=1
Resolving univerzamb-my.sharepoint.com (univerzamb-my.sharepoint.com)... 13.107.136.10, 13.107.138.10, 2620:1ec:8f8::10, ...
Connecting to univerzamb-my.sharepoint.com (univerzamb-my.sharepoint.com)|13.107.136.10|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: /personal/mladen_borovic_um_si/Documents/Share/SiStat-education.csv?ga=1 [following]
--2024-04-10 12:18:13--  https://univerzamb-my.sharepoint.com/personal/mladen_borovic_um_si/Documents/Share/SiStat-education.csv?ga=1
Reusing existing connection to univerzamb-my.sharepoint.com:443.
HTTP request sent, awaiting response... 200 OK
Length: 215606 (211K) [application/octet-stream]
Saving to: ‘SiStat-education.csv’


2024-04-10 12:18:13 (5.57 MB/s) - ‘SiStat-education.csv’ saved [215606/215606]

--2024-04-10 12:18:13--  https://univerzamb-my.sharepoin

In [13]:
# Primer 12: branje datoteke CSV

# Odprimo datoteko 'SiStat-education.csv' in nastavimo kodiranje na 'unicode_escape'.
# !!! Nastavitev kodiranja je potrebna zaradi šumnikov; Pandas privzeto nalaga
# !!! v kodiranju UTF-8. To bomo popravili kasneje, pri prečiščevanju podatkov.
df = pd.read_csv('SiStat-education.csv', encoding='unicode_escape')

Poglejmo vsebino CSV datoteke, ki smo jo shranili v Pandas DataFrame. DataFrame lahko izpišemo delno ali pa v celoti. Vse podatke izpišemo z uporabo funkcije ``to_string()``:

In [14]:
# Primer 13: izpis celotne vsebine DataFrame

print(df.to_string()) # uporaba funkcije to_string()

                                                      VRSTA IZOBRAEVANJA                         OBÈINE 2007/08 2008/09 2009/10 2010/11 2011/12 2012/13 2013/14 2014/15 2015/16 2016/17 2017/18 2018/19 2019/20 2020/21 2021/22 2022/23
0                                                         Vije strokovno                     Ajdovèina     103      99     129     123     108     102     116     106      88      80      88      87      80      69      59      64
1                                                         Vije strokovno               Ankaran/Ancarano       -       -       -       -       -       -       -       -       6       7       8       8       8       7       8       8
2                                                         Vije strokovno                          Apaèe      30      29      24      23      16      16      11      13      15      11      11      15      13      10      12      10
3                                                         Vije stro

Izpis vseh podatkov morda ni najbolj smiseln, ko imamo večje ali ogromne količine podatkov. Preizkusimo delni izpis DataFrame-a:

In [15]:
# Primer 14: izpis delne vsebine DataFrame

print(df)

                   VRSTA IZOBRAEVANJA            OBÈINE 2007/08 2008/09  \
0                      Vije strokovno        Ajdovèina     103      99   
1                      Vije strokovno  Ankaran/Ancarano       -       -   
2                      Vije strokovno             Apaèe      30      29   
3                      Vije strokovno          Beltinci      82      67   
4                      Vije strokovno          Benedikt      17      20   
...                                ...               ...     ...     ...   
2327  Doktorsko (3. bolonjska stopnja)         elezniki       -       -   
2328  Doktorsko (3. bolonjska stopnja)            etale       -       -   
2329  Doktorsko (3. bolonjska stopnja)              iri       -       -   
2330  Doktorsko (3. bolonjska stopnja)         irovnica       1       2   
2331  Doktorsko (3. bolonjska stopnja)         uemberk       -       -   

     2009/10 2010/11 2011/12 2012/13 2013/14 2014/15 2015/16 2016/17 2017/18  \
0      

Delni izpis je krajši ampak ni praktičen za hitro preverjanje naloženih podatkov. Uporabimo alternativni funkciji ``head()`` in ``tail()``, ki nam vrneta prvih N oziroma zadnjih N vrstic v DataFrame-u. Preizkusimo ju:

In [16]:
# Primer 15: izpis delne vsebine DataFrame s funkcijo head()
# Funkcija head() izpiše prvih N vrstic

df.head() # uporaba funkcije head(); privzeto vrne 5 vrstic

Unnamed: 0,VRSTA IZOBRAEVANJA,OBÈINE,2007/08,2008/09,2009/10,2010/11,2011/12,2012/13,2013/14,2014/15,2015/16,2016/17,2017/18,2018/19,2019/20,2020/21,2021/22,2022/23
0,Vije strokovno,Ajdovèina,103,99,129,123,108,102,116,106,88,80,88,87,80,69,59,64
1,Vije strokovno,Ankaran/Ancarano,-,-,-,-,-,-,-,-,6,7,8,8,8,7,8,8
2,Vije strokovno,Apaèe,30,29,24,23,16,16,11,13,15,11,11,15,13,10,12,10
3,Vije strokovno,Beltinci,82,67,71,73,71,70,54,52,44,55,54,53,55,62,74,65
4,Vije strokovno,Benedikt,17,20,21,18,16,25,14,14,22,27,20,13,14,15,13,16


In [17]:
# Primer 16: izpis delne vsebine DataFrame s funkcijo head() in omejitvijo na 10 vrstic
# Funkcija head() izpiše prvih N vrstic

df.head(10) # uporaba funkcije head(); tokrat sami podamo število vrstic

Unnamed: 0,VRSTA IZOBRAEVANJA,OBÈINE,2007/08,2008/09,2009/10,2010/11,2011/12,2012/13,2013/14,2014/15,2015/16,2016/17,2017/18,2018/19,2019/20,2020/21,2021/22,2022/23
0,Vije strokovno,Ajdovèina,103,99,129,123,108,102,116,106,88,80,88,87,80,69,59,64
1,Vije strokovno,Ankaran/Ancarano,-,-,-,-,-,-,-,-,6,7,8,8,8,7,8,8
2,Vije strokovno,Apaèe,30,29,24,23,16,16,11,13,15,11,11,15,13,10,12,10
3,Vije strokovno,Beltinci,82,67,71,73,71,70,54,52,44,55,54,53,55,62,74,65
4,Vije strokovno,Benedikt,17,20,21,18,16,25,14,14,22,27,20,13,14,15,13,16
5,Vije strokovno,Bistrica ob Sotli,8,9,13,12,11,14,11,6,5,4,5,3,7,6,8,3
6,Vije strokovno,Bled,88,84,74,62,85,67,65,57,54,43,37,43,46,42,43,39
7,Vije strokovno,Bloke,12,10,12,8,12,7,9,11,13,7,4,7,9,9,5,10
8,Vije strokovno,Bohinj,54,50,46,30,47,57,56,58,52,36,29,31,35,43,37,30
9,Vije strokovno,Borovnica,40,33,27,23,13,21,25,27,23,24,29,25,20,22,28,16


In [18]:
# Primer 17: izpis delne vsebine DataFrame s funkcijo tail()
# Funkcija tail() izpiše zadnjih N vrstic

df.tail() # uporaba funkcije tail(); privzeto vrne 5 vrstic

Unnamed: 0,VRSTA IZOBRAEVANJA,OBÈINE,2007/08,2008/09,2009/10,2010/11,2011/12,2012/13,2013/14,2014/15,2015/16,2016/17,2017/18,2018/19,2019/20,2020/21,2021/22,2022/23
2327,Doktorsko (3. bolonjska stopnja),elezniki,-,-,3,6,11,11,9,11,7,8,10,6,11,9,7,6
2328,Doktorsko (3. bolonjska stopnja),etale,-,-,-,-,-,1,2,1,1,0,-,-,1,1,1,2
2329,Doktorsko (3. bolonjska stopnja),iri,-,-,10,9,10,7,5,5,3,3,4,7,9,8,10,9
2330,Doktorsko (3. bolonjska stopnja),irovnica,1,2,3,4,7,6,7,10,7,9,6,9,8,7,9,9
2331,Doktorsko (3. bolonjska stopnja),uemberk,-,-,1,2,3,4,5,2,3,1,3,3,5,4,5,4


In [19]:
# Primer 18: izpis delne vsebine DataFrame s funkcijo tail() in omejitvijo
# Funkcija tail() izpiše zadnjih N vrstic

df.tail(10) # uporaba funkcije tail(); tokrat sami podamo število vrstic

Unnamed: 0,VRSTA IZOBRAEVANJA,OBÈINE,2007/08,2008/09,2009/10,2010/11,2011/12,2012/13,2013/14,2014/15,2015/16,2016/17,2017/18,2018/19,2019/20,2020/21,2021/22,2022/23
2322,Doktorsko (3. bolonjska stopnja),Vuzenica,-,-,2,3,2,6,4,3,3,4,1,3,3,3,2,1
2323,Doktorsko (3. bolonjska stopnja),Zagorje ob Savi,1,3,11,13,13,13,11,11,10,10,13,17,20,18,15,22
2324,Doktorsko (3. bolonjska stopnja),Zavrè,-,-,-,-,-,-,-,-,1,1,1,-,1,2,2,1
2325,Doktorsko (3. bolonjska stopnja),Zreèe,1,1,3,2,4,4,3,3,3,5,6,1,4,5,6,6
2326,Doktorsko (3. bolonjska stopnja),alec,4,8,17,32,31,32,26,19,13,15,20,19,17,19,21,27
2327,Doktorsko (3. bolonjska stopnja),elezniki,-,-,3,6,11,11,9,11,7,8,10,6,11,9,7,6
2328,Doktorsko (3. bolonjska stopnja),etale,-,-,-,-,-,1,2,1,1,0,-,-,1,1,1,2
2329,Doktorsko (3. bolonjska stopnja),iri,-,-,10,9,10,7,5,5,3,3,4,7,9,8,10,9
2330,Doktorsko (3. bolonjska stopnja),irovnica,1,2,3,4,7,6,7,10,7,9,6,9,8,7,9,9
2331,Doktorsko (3. bolonjska stopnja),uemberk,-,-,1,2,3,4,5,2,3,1,3,3,5,4,5,4


Po izpisu vzorcev podatkov vidimo, da imamo kar nekaj napak. Ponekod manjkajo šumniki ali pa so označeni s posebnimi znaki. Ponekod v podatkih ni številk, kjer bi jih sicer pričakovali. Vse to spada k delu s podatkovnimi zbirkami in je tudi pričakovano. Če imamo srečo, je podatkovna zbirka ustrezno pripravljena, prečiščena in enostavno pripravljena za uporabo. Večinoma nimamo takšne sreče in je potrebno pred obdelavo in nadaljnjo analizo podatkov, le-te še dodatno prečistiti, preoblikovati ali kako drugače predobdelati. Tega se bomo lotili v naslednji enoti. Zaenkrat pa preverimo, ali je rezultat nalaganja podatkovne zbirke kaj boljši, če uporabimo drug format - recimo **JSON**.

### Branje datotek JSON

Datoteke JSON *(ang. JavaScript Object Notation)* so ob datotekah CSV prav tako pogosta oblika za shranjevanje podatkovnih zbirk. To je predvsem iz razloga, da ima večina podatkovnih baz pripravljenih tudi spletne storitve za prenos podatkov, ki pa kot format za izmenjavo uporabljajo JSON. Tradicionalno je ta oblika značilna za razvoj spletnih strani, storitev in aplikacij v jeziku JavaScript. Podobno kot za datoteke CSV, knjižnica Pandas omogoča nalaganje podatkov iz datotek JSON z namenskimi funkcijami. Poglejmo si primer nalaganja enake podatkovne zbirke kot prej, vendar tokrat v obliki JSON. Datoteko JSON lahko naložimo s funkcijo ``read_json()``:

In [20]:
# Primer 19: branje datoteke JSON

# Odprimo datoteko 'SiStat-education.json'
df = pd.read_json('SiStat-education.json')

In [21]:
# Primer 20: branje datoteke JSON - funkcija head()

df.head()

Unnamed: 0,VRSTA IZOBRAEVANJA,OBÈINE,2007/08,2008/09,2009/10,2010/11,2011/12,2012/13,2013/14,2014/15,2015/16,2016/17,2017/18,2018/19,2019/20,2020/21,2021/22,2022/23
0,Vije strokovno,Ajdovèina,103,99,129,123,108,102,116,106,88,80,88,87,80,69,59,64
1,Vije strokovno,Ankaran/Ancarano,-,-,-,-,-,-,-,-,6,7,8,8,8,7,8,8
2,Vije strokovno,Apaèe,30,29,24,23,16,16,11,13,15,11,11,15,13,10,12,10
3,Vije strokovno,Beltinci,82,67,71,73,71,70,54,52,44,55,54,53,55,62,74,65
4,Vije strokovno,Benedikt,17,20,21,18,16,25,14,14,22,27,20,13,14,15,13,16


In [22]:
# Primer 21: branje datoteke JSON - funkcija tail()

df.tail()

Unnamed: 0,VRSTA IZOBRAEVANJA,OBÈINE,2007/08,2008/09,2009/10,2010/11,2011/12,2012/13,2013/14,2014/15,2015/16,2016/17,2017/18,2018/19,2019/20,2020/21,2021/22,2022/23
2327,Doktorsko (3. bolonjska stopnja),elezniki,-,-,3,6,11,11,9,11,7,8,10,6,11,9,7,6
2328,Doktorsko (3. bolonjska stopnja),etale,-,-,-,-,-,1,2,1,1,0,-,-,1,1,1,2
2329,Doktorsko (3. bolonjska stopnja),iri,-,-,10,9,10,7,5,5,3,3,4,7,9,8,10,9
2330,Doktorsko (3. bolonjska stopnja),irovnica,1,2,3,4,7,6,7,10,7,9,6,9,8,7,9,9
2331,Doktorsko (3. bolonjska stopnja),uemberk,-,-,1,2,3,4,5,2,3,1,3,3,5,4,5,4


Kot vidimo so naloženi podatki enaki kot pri datoteki CSV, uporabljamo pa lahko iste funkcije knjižnice Pandas nad podatkovno strukturo DataFrame. Vidimo tudi, da v formatu JSON podatki niso v primerni obliki za nadaljnjo obdelavo. **Iz tega lahko zaključimo, da je podatke vedno, ne glede na format, smiselno preveriti in po potrebi prečistiti ali kako drugače predobdelati.**

## Shranjevanje datotek CSV in JSON

V nadaljevanju bomo podatke z ustrezno predobdelavo pripravili za nadaljnjo analizo. Takrat bo smiselno, da si predobdelane podatke shranimo v datoteko, da nam ne bo potrebno tega izvajati vedno znova. S Pandas lahko podatke v obliki DataFrame shranimo v datoteko CSV ali JSON z vgrajenima funkcijama ``to_csv()`` in ``to_json()``. Poglejmo si ju na primerih:

In [23]:
# Primer 22: shranjevanje datotek CSV in JSON

# shranimo trenutni DataFrame v datoteko CSV
df.to_csv('SiStat-education-preprocessed.csv', index=False) # s parametrom index=False ne shranimo indeksa; glej dokumentacijo: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html

# shranimo trenutni DataFrame v datoteko JSON
df.to_json('SiStat-education-preprocessed.json') # v formatu JSON se indeks ne shranjuje; glej dokumentacijo: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_json.html

## Funkcija ``info()``

Podatkovna struktura DataFrame ima še funkcijo ``info()``, ki nam lahko veliko pove o naloženi podatkovni zbirki. Ta funkcija nam vrne strukturo podatkovne zbirke z vsemi lastnostmi, podatkovnimi tipi in drugimi koristnimi informacijami. Preizkusimo funkcijo ``info()`` na naši podatkovni zbirki:

In [24]:
# Primer 23: funkcija info()

df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2332 entries, 0 to 2331
Data columns (total 18 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   VRSTA IZOBRAEVANJA  2332 non-null   object
 1   OBÈINE               2332 non-null   object
 2   2007/08              2332 non-null   object
 3   2008/09              2332 non-null   object
 4   2009/10              2332 non-null   object
 5   2010/11              2332 non-null   object
 6   2011/12              2332 non-null   object
 7   2012/13              2332 non-null   object
 8   2013/14              2332 non-null   object
 9   2014/15              2332 non-null   object
 10  2015/16              2332 non-null   object
 11  2016/17              2332 non-null   object
 12  2017/18              2332 non-null   object
 13  2018/19              2332 non-null   object
 14  2019/20              2332 non-null   object
 15  2020/21              2332 non-null   object
 16  2021/22    

Iz rezultata funkcije ``info()`` lahko razberemo, da ima podatkovna zbirka 2332 vrstic in 18 stolpcev. Vsak izmed stolpcev ima podatkovni tip ``object``. V izpisih zgoraj smo videli, da so podatki v stolpcih lahko nizi znakov ali pa števila. Za nadaljnjo analizo podatkov bo smiselno, da nize znakov pretvorimo v podatkovni tip ``str``, števila pa v enega izmed celoštevilčnih podatkovnih tipov (npr. ``int`` ali ``int64``). Na koncu vidimo še, da naša podatkovna zbirka zavzema 410.7 KB v pomnilniku. Gre torej za očitno zelo malo podatkovno zbirko.