# Osnovno delo s knjižnico Pandas

Spodaj je pregled najosnovnejših metod, ki jih ponuja knjižnica Pandas. Vsaka od naštetih metod ponuja še cel kup dodatnih možnosti, ki so natančno opisane v [uradni dokumentaciji](http://pandas.pydata.org/pandas-docs/stable/). Z branjem dokumentacije se vam seveda najbolj splača začeti pri [uvodih](http://pandas.pydata.org/pandas-docs/stable/tutorials.html).

### Predpriprava

In [1]:
# naložimo paket
import pandas as pd

# naložimo razpredelnico, s katero bomo delali
filmi = pd.read_csv('filmi.csv', index_col='id')

# ker bomo delali z velikimi razpredelnicami, povemo, da naj se vedno izpiše le 20 vrstic
pd.options.display.max_rows = 20

### Osnovni izbori elementov razpredelnic

Z metodo `.head(n=5)` pogledamo prvih `n`, z metodo `.tail(n=5)` pa zadnjih `n` vrstic razpredelnice.

In [2]:
filmi.head(10)

Unnamed: 0_level_0,naslov,leto,ocena
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
6631,An Enemy to the King,1916,8.2
9544,Revenge,1918,7.7
10323,The Cabinet of Dr. Caligari,1920,8.1
12190,The Four Horsemen of the Apocalypse,1921,7.9
12349,The Kid,1921,8.4
12364,The Phantom Carriage,1921,8.1
12532,Orphans of the Storm,1921,7.9
12928,Beauty&#x27;s Worth,1922,8.4
13086,Dr. Mabuse: The Gambler,1922,7.9
13442,Nosferatu,1922,8.0


In [3]:
filmi.tail()

Unnamed: 0_level_0,naslov,leto,ocena
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5330596,GARAKOWA - Restore the World,2016,8.0
5334470,Proximity,2016,9.7
5334704,Twin Peaks: The Missing Pieces,2014,8.2
5340534,Express Raja,2016,8.0
5341670,The Stones of Okella,2015,9.8


Z indeksiranjem razpredelnice dostopamo do posameznih stolpcev. Če želimo več stolpcev, moramo za indeks podati seznam vseh oznak. Z rezinami pa dostopamo do izbranih vrstic.

In [4]:
filmi['naslov']

id
6631                         An Enemy to the King
9544                                      Revenge
10323                 The Cabinet of Dr. Caligari
12190         The Four Horsemen of the Apocalypse
12349                                     The Kid
12364                        The Phantom Carriage
12532                        Orphans of the Storm
12928                         Beauty&#x27;s Worth
13086                     Dr. Mabuse: The Gambler
13442                                   Nosferatu
                            ...                  
5254458                    The Belly of the Beast
5285050                                 Pasanga 2
5297750    Taylor Swift: The 1989 World Tour Live
5311546                                 Natsamrat
5320522                           Monsoon Mangoes
5330596              GARAKOWA - Restore the World
5334470                                 Proximity
5334704            Twin Peaks: The Missing Pieces
5340534                              Express Ra

In [5]:
filmi[['naslov', 'ocena']]

Unnamed: 0_level_0,naslov,ocena
id,Unnamed: 1_level_1,Unnamed: 2_level_1
6631,An Enemy to the King,8.2
9544,Revenge,7.7
10323,The Cabinet of Dr. Caligari,8.1
12190,The Four Horsemen of the Apocalypse,7.9
12349,The Kid,8.4
12364,The Phantom Carriage,8.1
12532,Orphans of the Storm,7.9
12928,Beauty&#x27;s Worth,8.4
13086,Dr. Mabuse: The Gambler,7.9
13442,Nosferatu,8.0


In [6]:
filmi[120:125]

Unnamed: 0_level_0,naslov,leto,ocena
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
27652,Fury,1936,7.9
27977,Modern Times,1936,8.6
28096,The Petrified Forest,1936,7.6
28566,Ali Baba Goes to Town,1937,8.1
28691,Captains Courageous,1937,8.0


Do vrednosti z indeksom `i` dostopamo z `.iloc[i]`, do tiste s ključem `k` pa z `.loc[k]`.

In [7]:
filmi.iloc[120]

naslov    Fury
leto      1936
ocena      7.9
Name: 27652, dtype: object

In [8]:
filmi.loc[379786]

naslov    Serenity
leto          2005
ocena            8
Name: 379786, dtype: object

### Filtriranje in urejanje

Izbor določenih vrstic razpredelnice naredimo tako, da za indeks podamo stolpec logičnih vrednosti, ki ga dobimo z običajnimi operacijami. V vrnjeni razpredelnici bodo ostale vrstice, pri katerih je v stolpcu vrednost `True`.

In [9]:
filmi.ocena >= 8

id
6631        True
9544       False
10323       True
12190      False
12349       True
12364       True
12532      False
12928       True
13086      False
13442       True
           ...  
5254458     True
5285050     True
5297750     True
5311546     True
5320522     True
5330596     True
5334470     True
5334704     True
5340534     True
5341670     True
Name: ocena, dtype: bool

In [10]:
filmi[filmi.ocena >= 8]

Unnamed: 0_level_0,naslov,leto,ocena
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
6631,An Enemy to the King,1916,8.2
10323,The Cabinet of Dr. Caligari,1920,8.1
12349,The Kid,1921,8.4
12364,The Phantom Carriage,1921,8.1
12928,Beauty&#x27;s Worth,1922,8.4
13442,Nosferatu,1922,8.0
13750,When Knighthood Was in Flower,1922,8.5
14205,Little Old New York,1923,8.3
14429,Safety Last!,1923,8.3
14636,Zaza,1923,8.5


In [11]:
filmi[(filmi.leto > 2010) & (filmi.ocena >= 8.5)]

Unnamed: 0_level_0,naslov,leto,ocena
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
816692,Interstellar,2014,8.6
858419,Bolden!,2015,8.8
1345836,The Dark Knight Rises,2012,8.5
1564563,Half Empty,2011,8.5
1618473,Sensory Perception,2015,8.6
1675434,The Intouchables,2011,8.6
1681370,The Algerian,2014,8.5
1783234,40 Point Plan,2012,8.6
1791611,Spreading Darkness,2015,8.5
1795369,National Theatre Live: Frankenstein,2011,9.1


Razpredelnico urejamo z metodo `.sort_values`, ki ji podamo ime ali seznam imen stolpcev, po katerih želimo urejati. Po želji lahko tudi povemo, kateri stolpci naj bodo urejeni naraščajoče in kateri padajoče.

In [12]:
filmi.sort_values('leto')

Unnamed: 0_level_0,naslov,leto,ocena
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
6631,An Enemy to the King,1916,8.2
9544,Revenge,1918,7.7
10323,The Cabinet of Dr. Caligari,1920,8.1
12190,The Four Horsemen of the Apocalypse,1921,7.9
12349,The Kid,1921,8.4
12364,The Phantom Carriage,1921,8.1
12532,Orphans of the Storm,1921,7.9
135481,Jesse James Under the Black Flag,1921,7.4
246233,Silver Spurs,1922,7.6
13750,When Knighthood Was in Flower,1922,8.5


In [13]:
# najprej uredi padajoče po oceni, pri vsaki oceni pa še naraščajoče po letu
filmi.sort_values(['ocena', 'leto'], ascending=[False, True])

Unnamed: 0_level_0,naslov,leto,ocena
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5341670,The Stones of Okella,2015,9.8
5334470,Proximity,2016,9.7
3527510,The Prosecutor the Defender the Father and His...,2015,9.6
4659548,Rebellious Flower,2016,9.6
3383262,Honeyglue,2015,9.5
5311546,Natsamrat,2016,9.5
252487,The Chaos Class,1975,9.4
111161,The Shawshank Redemption,1994,9.3
5046534,Felix Manalo,2015,9.3
68646,The Godfather,1972,9.2


### Skupine

Z metodo `.groupby` ustvarimo razpredelnico posebne vrste, v katerem so vrstice združene glede na skupno lastnost.

In [14]:
filmi_po_letih = filmi.groupby('leto')

In [15]:
# povprečna ocena vsakega leta
filmi_po_letih['ocena'].mean()

leto
1916    8.200000
1918    7.700000
1920    8.100000
1921    7.940000
1922    8.080000
1923    8.366667
1924    8.100000
1925    8.000000
1926    8.010000
1927    7.987500
          ...   
2007    7.913208
2008    7.977083
2009    7.910448
2010    7.998387
2011    7.976923
2012    7.997248
2013    8.057353
2014    8.170619
2015    8.232099
2016    8.485000
Name: ocena, dtype: float64

In [16]:
# če želimo, lahko združujemo tudi po izračunanih lastnostih
filmi['desetletje'] = 10 * (filmi.leto // 10)
filmi

Unnamed: 0_level_0,naslov,leto,ocena,desetletje
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
6631,An Enemy to the King,1916,8.2,1910
9544,Revenge,1918,7.7,1910
10323,The Cabinet of Dr. Caligari,1920,8.1,1920
12190,The Four Horsemen of the Apocalypse,1921,7.9,1920
12349,The Kid,1921,8.4,1920
12364,The Phantom Carriage,1921,8.1,1920
12532,Orphans of the Storm,1921,7.9,1920
12928,Beauty&#x27;s Worth,1922,8.4,1920
13086,Dr. Mabuse: The Gambler,1922,7.9,1920
13442,Nosferatu,1922,8.0,1920


In [17]:
filmi_po_desetletjih = filmi.groupby('desetletje')

Preštejemo, koliko filmov je bilo v vsakem desetletju. Pri vsakem stolpcu dobimo iste številke, ker imamo v vsakem stolpcu enako vnosov. Če bi kje kakšen podatek manjkal, bi bila številka manjša.

In [18]:
filmi_po_desetletjih.count()

Unnamed: 0_level_0,naslov,leto,ocena
desetletje,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1910,2,2,2
1920,63,63,63
1930,89,89,89
1940,181,181,181
1950,222,222,222
1960,221,221,221
1970,254,254,254
1980,262,262,262
1990,248,248,248
2000,447,447,447


Če želimo dobiti le število članov posamezne skupine, uporabimo metodo `.size()`. V tem primeru dobimo le stolpec, ne razpredelnice.

In [19]:
filmi_po_desetletjih.size()

desetletje
1910      2
1920     63
1930     89
1940    181
1950    222
1960    221
1970    254
1980    262
1990    248
2000    447
2010    842
dtype: int64

Pogledamo povprečja vsakega desetletja. Dobimo povprečno oceno in povprečno leto (torej povprečno leto izdaje vsakega filma v danem desetletju – vidimo, da je bilo v vseh desetletjih razen v petdesetih več boljših filmov v prvi polovici). Povprečnega naslova ne dobimo, ker se ga ne da izračunati, zato ustreznega stolpca ni.

In [20]:
filmi_po_desetletjih.mean()

Unnamed: 0_level_0,leto,ocena
desetletje,Unnamed: 1_level_1,Unnamed: 2_level_1
1910,1917.0,7.95
1920,1925.349206,8.047619
1930,1934.325843,7.8
1940,1945.337017,7.604972
1950,1954.36036,7.800901
1960,1964.570136,8.060181
1970,1974.692913,8.102756
1980,1984.568702,8.074427
1990,1994.689516,8.003226
2000,2005.12528,7.930649
