# Osnovno delo s knjižnico Pandas

Spodaj je pregled najosnovnejših metod, ki jih ponuja knjižnica Pandas. Vsaka od naštetih metod ponuja še cel kup dodatnih možnosti, ki so natančno opisane v [uradni dokumentaciji](http://pandas.pydata.org/pandas-docs/stable/). Z branjem dokumentacije se vam seveda najbolj splača začeti pri [uvodih](http://pandas.pydata.org/pandas-docs/stable/tutorials.html).

### Predpriprava

In [1]:
# naložimo paket
import pandas as pd

# naložimo razpredelnico, s katero bomo delali
filmi = pd.read_csv('filmi.csv', index_col='id')

# ker bomo delali z velikimi razpredelnicami, povemo, da naj se vedno izpiše le 20 vrstic
pd.options.display.max_rows = 20

### Osnovni izbori elementov razpredelnic

Z metodo `.head(n=5)` pogledamo prvih `n`, z metodo `.tail(n=5)` pa zadnjih `n` vrstic razpredelnice.

In [2]:
filmi.head(10)

Unnamed: 0_level_0,naslov,leto,ocena
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
245429,Spirited Away,2001,8.6
1049413,Up,2009,8.3
184894,Shanghai Noon,2000,6.6
56172,Lawrence of Arabia,1962,8.4
1631867,Edge of Tomorrow,2014,7.9
57129,The Haunting,1963,7.6
45152,Singin&#x27; in the Rain,1952,8.4
253474,The Pianist,2002,8.5
1490017,The Lego Movie,2014,7.8
92067,Castle in the Sky,1986,8.1


In [3]:
filmi.tail()

Unnamed: 0_level_0,naslov,leto,ocena
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
92965,Empire of the Sun,1987,7.8
55630,Yojimbo,1961,8.3
317219,Cars,2006,7.2
325710,The Last Samurai,2003,7.7
77651,Halloween,1978,7.9


Z indeksiranjem razpredelnice dostopamo do posameznih stolpcev. Če želimo več stolpcev, moramo za indeks podati seznam vseh oznak. Z rezinami pa dostopamo do izbranih vrstic.

In [4]:
filmi['naslov']

id
245429                     Spirited Away
1049413                               Up
184894                     Shanghai Noon
56172                 Lawrence of Arabia
1631867                 Edge of Tomorrow
57129                       The Haunting
45152           Singin&#x27; in the Rain
253474                       The Pianist
1490017                   The Lego Movie
92067                  Castle in the Sky
                       ...              
91217                           Hoosiers
107048                     Groundhog Day
275847                Lilo &#x26; Stitch
97351                    Field of Dreams
73629      The Rocky Horror Picture Show
92965                  Empire of the Sun
55630                            Yojimbo
317219                              Cars
325710                  The Last Samurai
77651                          Halloween
Name: naslov, dtype: object

In [5]:
filmi[['naslov', 'ocena']]

Unnamed: 0_level_0,naslov,ocena
id,Unnamed: 1_level_1,Unnamed: 2_level_1
245429,Spirited Away,8.6
1049413,Up,8.3
184894,Shanghai Noon,6.6
56172,Lawrence of Arabia,8.4
1631867,Edge of Tomorrow,7.9
57129,The Haunting,7.6
45152,Singin&#x27; in the Rain,8.4
253474,The Pianist,8.5
1490017,The Lego Movie,7.8
92067,Castle in the Sky,8.1


In [7]:
filmi[120:125]

Unnamed: 0_level_0,naslov,leto,ocena
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3848892,Baby,2015,8.1
68699,High Plains Drifter,1973,7.6
287467,Talk to Her,2002,8.0
379786,Serenity,2005,8.0
49366,Invasion of the Body Snatchers,1956,7.8


Do vrednosti z indeksom `i` dostopamo z `.iloc[i]`, do tiste s ključem `k` pa z `.loc[k]`.

In [8]:
filmi.iloc[120]

naslov    Baby
leto      2015
ocena      8.1
Name: 3848892, dtype: object

In [9]:
filmi.loc[379786]

naslov    Serenity
leto          2005
ocena            8
Name: 379786, dtype: object

### Filtriranje in urejanje

Izbor določenih vrstic razpredelnice naredimo tako, da za indeks podamo stolpec logičnih vrednosti, ki ga dobimo z običajnimi operacijami. V vrnjeni razpredelnici bodo ostale vrstice, pri katerih je v stolpcu vrednost `True`.

In [10]:
filmi.ocena >= 8

id
245429      True
1049413     True
184894     False
56172       True
1631867    False
57129      False
45152       True
253474      True
1490017    False
92067       True
           ...  
91217      False
107048      True
275847     False
97351      False
73629      False
92965      False
55630       True
317219     False
325710     False
77651      False
Name: ocena, dtype: bool

In [12]:
filmi[filmi.ocena >= 8]

Unnamed: 0_level_0,naslov,leto,ocena
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
245429,Spirited Away,2001,8.6
1049413,Up,2009,8.3
56172,Lawrence of Arabia,1962,8.4
45152,Singin&#x27; in the Rain,1952,8.4
253474,The Pianist,2002,8.5
92067,Castle in the Sky,1986,8.1
52311,Touch of Evil,1958,8.1
82096,Das Boot,1981,8.4
3863552,Bajrangi Bhaijaan,2015,8.2
99685,Goodfellas,1990,8.7


In [13]:
filmi[(filmi.leto > 2010) & (filmi.ocena >= 8.5)]

Unnamed: 0_level_0,naslov,leto,ocena
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
816692,Interstellar,2014,8.6
2199711,Vishwaroopam,2013,8.8
2488496,Star Wars: The Force Awakens,2015,8.5
2582802,Whiplash,2014,8.5
2375559,1,2014,8.7
1821700,Waar,2013,8.5
1345836,The Dark Knight Rises,2012,8.5
2631186,Baahubali: The Beginning,2015,8.7
1675434,The Intouchables,2011,8.6
1853728,Django Unchained,2012,8.5


Razpredelnico urejamo z metodo `.sort_values`, ki ji podamo ime ali seznam imen stolpcev, po katerih želimo urejati. Po želji lahko tudi povemo, kateri stolpci naj bodo urejeni naraščajoče in kateri padajoče.

In [14]:
filmi.sort_values('leto')

Unnamed: 0_level_0,naslov,leto,ocena
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10323,The Cabinet of Dr. Caligari,1920,8.1
12349,The Kid,1921,8.4
13442,Nosferatu,1922,8.0
15648,Battleship Potemkin,1925,8.0
15864,The Gold Rush,1925,8.3
17925,The General,1926,8.3
17136,Metropolis,1927,8.3
18455,Sunrise,1927,8.4
20629,All Quiet on the Western Front,1930,8.1
21814,Dracula,1931,7.6


In [16]:
# najprej uredi padajoče po oceni, pri vsaki oceni pa še naraščajoče po letu
filmi.sort_values(['ocena', 'leto'], ascending=[False, True])

Unnamed: 0_level_0,naslov,leto,ocena
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
111161,The Shawshank Redemption,1994,9.3
68646,The Godfather,1972,9.2
71562,The Godfather: Part II,1974,9.0
468569,The Dark Knight,2008,9.0
50083,12 Angry Men,1957,8.9
60196,"The Good, the Bad and the Ugly",1966,8.9
108052,Schindler&#x27;s List,1993,8.9
110912,Pulp Fiction,1994,8.9
137523,Fight Club,1999,8.9
167260,The Lord of the Rings: The Return of the King,2003,8.9


### Skupine

Z metodo `.groupby` ustvarimo razpredelnico posebne vrste, v katerem so vrstice združene glede na skupno lastnost.

In [17]:
filmi_po_letih = filmi.groupby('leto')

In [18]:
# povprečna ocena vsakega leta
filmi_po_letih['ocena'].mean()

leto
1920    8.100000
1921    8.400000
1922    8.000000
1925    8.150000
1926    8.300000
1927    8.350000
1930    8.100000
1931    8.150000
1932    8.000000
1933    8.000000
          ...   
2006    7.852632
2007    7.876190
2008    7.950000
2009    7.873684
2010    7.960000
2011    7.837500
2012    7.966667
2013    7.861905
2014    8.126316
2015    8.183333
Name: ocena, dtype: float64

In [19]:
# če želimo, lahko združujemo tudi po izračunanih lastnostih
filmi['desetletje'] = 10 * (filmi.leto // 10)
filmi

Unnamed: 0_level_0,naslov,leto,ocena,desetletje
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
245429,Spirited Away,2001,8.6,2000
1049413,Up,2009,8.3,2000
184894,Shanghai Noon,2000,6.6,2000
56172,Lawrence of Arabia,1962,8.4,1960
1631867,Edge of Tomorrow,2014,7.9,2010
57129,The Haunting,1963,7.6,1960
45152,Singin&#x27; in the Rain,1952,8.4,1950
253474,The Pianist,2002,8.5,2000
1490017,The Lego Movie,2014,7.8,2010
92067,Castle in the Sky,1986,8.1,1980


In [20]:
filmi_po_desetletjih = filmi.groupby('desetletje')

Preštejemo, koliko filmov je bilo v vsakem desetletju. Pri vsakem stolpcu dobimo iste številke, ker imamo v vsakem stolpcu enako vnosov. Če bi kje kakšen podatek manjkal, bi bila številka manjša.

In [21]:
filmi_po_desetletjih.count()

Unnamed: 0_level_0,naslov,leto,ocena
desetletje,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1920,8,8,8
1930,18,18,18
1940,21,21,21
1950,40,40,40
1960,43,43,43
1970,46,46,46
1980,65,65,65
1990,98,98,98
2000,175,175,175
2010,90,90,90


Pogledamo povprečja vsakega desetletja. Dobimo povprečno oceno in povprečno leto (torej povprečno leto izdaje vsakega filma v danem desetletju – vidimo, da je bilo v vseh desetletjih razen v petdesetih več boljših filmov v prvi polovici). Povprečnega naslova ne dobimo, ker se ga ne da izračunati, zato ustreznega stolpca ni.

In [22]:
filmi_po_desetletjih.mean()

Unnamed: 0_level_0,leto,ocena
desetletje,Unnamed: 1_level_1,Unnamed: 2_level_1
1920,1924.125,8.225
1930,1934.722222,8.072222
1940,1943.52381,8.104762
1950,1955.025,8.1275
1960,1964.55814,8.027907
1970,1974.695652,8.028261
1980,1984.8,7.921538
1990,1994.877551,7.95
2000,2004.651429,7.878286
2010,2012.633333,7.992222
