# Analiza podatkov s knjižnico Pandas

Spodaj je pregled najosnovnejših metod, ki jih ponuja knjižnica Pandas. Vsaka od naštetih metod ponuja še cel kup dodatnih možnosti, ki so natančno opisane v [uradni dokumentaciji](http://pandas.pydata.org/pandas-docs/stable/). Z branjem dokumentacije se vam seveda najbolj splača začeti pri [uvodih](http://pandas.pydata.org/pandas-docs/stable/tutorials.html).

## Predpriprava

In [2]:
# naložimo paket
import pandas as pd

# naložimo razpredelnico, s katero bomo delali
filmi = pd.read_csv('obdelani-podatki/filmi.csv', index_col='id')

# ker bomo delali z velikimi razpredelnicami, povemo, da naj se vedno izpiše le 20 vrstic
pd.options.display.max_rows = 20

## Osnovni izbori elementov razpredelnic

Z metodo `.head(n=5)` pogledamo prvih `n`, z metodo `.tail(n=5)` pa zadnjih `n` vrstic razpredelnice.

In [None]:
filmi.head(10)

In [None]:
filmi.tail()

Z rezinami pa dostopamo do izbranih vrstic.

In [None]:
filmi[3:10:2]

Z indeksiranjem razpredelnice dostopamo do posameznih stolpcev.

In [None]:
filmi['ocena']

Do stolpcev pogosto dostopamo, zato lahko uporabimo tudi krajši zapis.

In [None]:
filmi.ocena

Če želimo več stolpcev, moramo za indeks podati seznam vseh oznak.

In [None]:
filmi[['naslov', 'ocena']]

Do vrednosti z indeksom `i` dostopamo z `.iloc[i]`, do tiste s ključem `k` pa z `.loc[k]`.

In [None]:
filmi.iloc[120]

In [None]:
filmi.loc[97576]

## Filtriranje

Izbor določenih vrstic razpredelnice naredimo tako, da za indeks podamo stolpec logičnih vrednosti, ki ga dobimo z običajnimi operacijami. V vrnjeni razpredelnici bodo ostale vrstice, pri katerih je v stolpcu vrednost `True`.

In [3]:
filmi.ocena >= 8

id
12349       True
13442       True
15864       True
17136       True
17925       True
21749       True
22100       True
24216      False
25316       True
27977       True
           ...  
5580390    False
5700672    False
5715874    False
5726616     True
5776858    False
5813916     True
5988370    False
6294822    False
6644200    False
7784604    False
Name: ocena, Length: 2500, dtype: bool

In [4]:
filmi[filmi.ocena >= 8]

Unnamed: 0_level_0,naslov,dolzina,leto,ocena,metascore,glasovi,zasluzek,opis
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
12349,The Kid,68,1921,8.3,,90443,5450000.0,"The Tramp cares for an abandoned child, but ev..."
13442,"Nosferatu, simfonija groze",94,1922,8.0,,77975,,Vampire Count Orlok expresses interest in a ne...
15864,Zlata mrzlica,95,1925,8.2,,85136,5450000.0,A prospector goes to the Klondike in search of...
17136,Metropolis,153,1927,8.3,98.0,136601,26435.0,In a futuristic city sharply divided between t...
17925,General,67,1926,8.2,,68196,,When Union spies steal an engineer's beloved l...
21749,Luči velemesta,87,1931,8.5,,138228,19181.0,"With the aid of a wealthy erratic tippler, a d..."
22100,M - mesto isce morilca,117,1931,8.4,,121443,28877.0,When the police in a German city are unable to...
25316,Zgodilo se je neke noci,105,1934,8.1,87.0,81390,,A spoiled heiress running away from her family...
27977,Moderni časi,87,1936,8.5,96.0,179725,163245.0,The Tramp struggles to live in modern industri...
31381,V vrtincu,238,1939,8.2,97.0,254666,198676459.0,A manipulative woman and a roguish man conduct...


In [5]:
filmi[(filmi.leto > 2010) & (filmi.ocena > 8)]

Unnamed: 0_level_0,naslov,dolzina,leto,ocena,metascore,glasovi,zasluzek,opis
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
816692,Medzvezdje,169,2014,8.6,74.0,1216019,188020017.0,A team of explorers travel through a wormhole ...
848228,Maščevalci,143,2012,8.1,69.0,1127736,623357910.0,Earth's mightiest heroes must come together an...
993846,Volk z Wall Streeta,180,2013,8.2,75.0,978535,116900694.0,"Based on the true story of Jordan Belfort, fro..."
1201607,Harry Potter in Svetinje smrti - 2. del,130,2011,8.1,87.0,660265,381011219.0,"Harry, Ron, and Hermione search for Voldemort'..."
1291584,Bojevnik,140,2011,8.2,71.0,390633,13657115.0,The youngest son of an alcoholic former boxer ...
1345836,Vzpon Viteza teme,164,2012,8.4,78.0,1333877,448139099.0,Eight years after the Joker's reign of anarchy...
1392190,Pobesneli Max: cesta besa,120,2015,8.1,90.0,737849,153636354.0,"In a post-apocalyptic wasteland, a woman rebel..."
1392214,Ugrabljeni,153,2013,8.1,74.0,499644,61002302.0,When Keller Dover's daughter and her friend go...
1454029,Služkinje,146,2011,8.1,62.0,378363,169708112.0,An aspiring author during the civil rights mov...
1675434,Prijatelja,112,2011,8.5,57.0,637139,13182281.0,After he becomes a quadriplegic from a paragli...


### Naloga

Poiščite filme, ki si jih želimo izogniti za vsako ceno, torej tiste, ki so daljši od dveh ur in imajo oceno pod 6.5.

In [None]:
filmi[(filmi.ocena < 6) & (filmi.dolzina > 150)]

## Urejanje

Razpredelnico urejamo z metodo `.sort_values`, ki ji podamo ime ali seznam imen stolpcev, po katerih želimo urejati. Po želji lahko tudi povemo, kateri stolpci naj bodo urejeni naraščajoče in kateri padajoče.

In [None]:
filmi.sort_values('dolzina')

In [None]:
# najprej uredi padajoče po oceni, pri vsaki oceni pa še naraščajoče po letu
filmi.sort_values(['ocena', 'leto'], ascending=[False, True])

## Združevanje

Z metodo `.groupby` ustvarimo razpredelnico posebne vrste, v katerem so vrstice združene glede na skupno lastnost.

In [None]:
filmi_po_letih = filmi.groupby('leto')

In [None]:
filmi_po_letih

In [None]:
# povprečna ocena vsakega leta
filmi_po_letih.ocena.mean()

Če želimo, lahko združujemo tudi po izračunanih lastnostih. Izračunajmo stolpec in ga shranimo v razpredelnico.

In [None]:
filmi['desetletje'] = 10 * (filmi.leto // 10)

In [None]:
filmi

In [None]:
filmi_po_desetletjih = filmi.groupby('desetletje')

Preštejemo, koliko filmov je bilo v vsakem desetletju. Pri večini stolpcev dobimo iste številke, ker imamo v vsakem stolpcu enako vnosov. Če kje kakšen podatek manjkal, je številka manjša.

In [None]:
filmi_po_desetletjih.count()

Če želimo dobiti le število članov posamezne skupine, uporabimo metodo `.size()`. V tem primeru dobimo le stolpec, ne razpredelnice.

In [None]:
filmi_po_desetletjih.size()

Pogledamo povprečja vsakega desetletja. Dobimo povprečno leto, povprečno dolžino in oceno. Povprečnega naslova ne dobimo, ker se ga ne da izračunati, zato ustreznega stolpca ni.

In [None]:
filmi_po_desetletjih.mean()

### Naloga

Izračunajte število filmov posamezne dolžine, zaokrožene na 5 minut.

## Risanje grafov

In [None]:
# vključimo risanje grafov (če stvari začnejo delati počasneje, izklopimo možnost inline)
%matplotlib inline

Običajen graf dobimo z metodo `plot`. Uporabljamo ga, kadar želimo prikazati spreminjanje vrednosti v odvisnosti od zvezne spremenljivke. Naša hipoteza je, da so zlata leta filma mimo. Graf to potrjuje.

In [None]:
filmi[filmi.ocena > 8.5].groupby('desetletje').size().plot()

Razsevni diagram dobimo z metodo `plot.scatter`. Uporabljamo ga, če želimo ugotoviti povezavo med dvema spremenljivkama.

In [None]:
filmi.plot.scatter('dolzina', 'ocena')

In [None]:
filmi[filmi.dolzina < 250].plot.scatter('dolzina', 'ocena')

Stolpčni diagram dobimo z metodo `plot.bar`. Uporabljamo ga, če želimo primerjati vrednosti pri diskretnih (običajno kategoričnih) spremenljivkah. Pogosto je koristno, da graf uredimo po vrednostih.

In [None]:
filmi.sort_values('zasluzek', ascending=False).head(20).plot.bar(x='naslov', y='zasluzek')

### Naloga

Narišite grafe, ki ustrezno kažejo:
- Povezavo med IMDB in metascore oceno
- Spreminjanje povprečne dolžine filmov skozi leta

## Stikanje

In [None]:
osebe = pd.read_csv('obdelani-podatki/osebe.csv', index_col='id')
vloge = pd.read_csv('obdelani-podatki/vloge.csv')
zanri = pd.read_csv('obdelani-podatki/zanri.csv')

Razpredelnice stikamo s funkcijo `merge`, ki vrne razpredelnico vnosov iz obeh tabel, pri katerih se vsi istoimenski podatki ujemajo.

In [None]:
vloge[vloge.film == 12349]

In [None]:
zanri[zanri.film == 12349]

In [None]:
pd.merge(vloge, zanri).head(20)

V osnovi vsebuje staknjena razpredelnica le tiste vnose, ki se pojavijo v obeh tabelah. Temu principu pravimo notranji stik (_inner join_). Lahko pa se odločimo, da izberemo tudi tiste vnose, ki imajo podatke le v levi tabeli (_left join_), le v desni tabeli (_right join_) ali v vsaj eni tabeli (_outer join_). Če v eni tabeli ni vnosov, bodo v staknjeni tabeli označene manjkajoče vrednosti. Ker smo v našem primeru podatke jemali iz IMDBja, kjer so za vsak film določeni tako žanri kot vloge, do razlik ne pride.

Včasih želimo stikati tudi po stolpcih z različnimi imeni. V tem primeru funkciji `merge` podamo argumenta `left_on` in `right_on`.

In [None]:
pd.merge(pd.merge(vloge, zanri), osebe, left_on='oseba', right_on='id')

Poglejmo, katera osebe so nastopale v največ komedijah.

In [None]:
zanri_oseb = pd.merge(pd.merge(vloge, zanri), osebe, left_on='oseba', right_on='id')
zanri_oseb[
    (zanri_oseb.zanr == 'Comedy') &
    (zanri_oseb.vloga == 'igralec')
].groupby(
    'ime'
).size(
).sort_values(
    ascending=False
).head(20)

### Naloga

- Izračunajte povprečno oceno vsakega žanra.
- Kateri režiserji snemajo najdonosnejše filme?

## Zahtevnejši primer: naivni Bayesov klasifikator

Zanima nas, ali lahko iz opisa filma napovemo njegove žanre. Gre za _klasifikacijski problem_, saj želimo filme klasificirati v žanre, naša naloga pa je napisati ustrezen program, ki mu pravimo _klasifikator_. Da zadevo naredimo bolj obvladljivo, bomo opis predstavili le z množico korenov besed, ki se v opisu pojavljajo.

In [None]:
def koren_besede(beseda):
    beseda = ''.join(znak for znak in beseda if znak.isalpha())
    if not beseda:
        return '$'
    konec = len(beseda) - 1
    if beseda[konec] in 'ds':
        konec -= 1
    while konec >= 0 and beseda[konec] in 'aeiou':
        konec -= 1
    return beseda[:konec + 1]

def koreni_besed(niz):
    return {
        koren_besede(beseda) for beseda in niz.replace('-', ' ').lower().split() if beseda
    }

In [None]:
koreni_besed("In 1938, after his father Professor Henry Jones, Sr. goes missing while pursuing the Holy Grail, Indiana Jones finds himself up against Adolf Hitler's Nazis again to stop them obtaining its powers.")

Zanimala nas bo torej verjetnost, da ima film žanr $Ž_i$ ob pogoju, da njegov opis vsebuje korene $K_1, \ldots, K_m$, torej

$$P(Ž_i | K_1 \cap \cdots \cap K_n)$$

Pri tem se bomo poslužili Bayesovega izreka

$$P(A | B) = \frac{P(A \cap B)}{P(B)} = \frac{P(B | A) \cdot P(A)}{P(B)}$$

zaradi česar našemu klasifikatorju pravimo _Bayesov klasifikator_. Velja

$$P(Ž_i | K_1 \cap \cdots \cap K_n) = \frac{P(K_1 \cap \cdots \cap K_n | Ž_i) \cdot P(Ž_i)}{P(K_1 \cap \cdots \cap K_n)}$$

Nadalje si nalogo poenostavimo s predpostavko, da so pojavitve besed med seboj neodvisne. To sicer ni res, na primer ob besedi _treasure_ se bolj pogosto pojavlja beseda _hidden_ kot na primer _boring_, zato pravimo, da je klasifikator _naiven_. Ob tej predpostavki velja:

$$P(K_1 \cap \cdots \cap K_n | Ž_i) = P(K_1 | Ž_i) \cdot \cdots \cdot P(K_n | Ž_i)$$

oziroma

$$P(Ž_i | K_1 \cap \cdots \cap K_n) = \frac{P(K_1 | Ž_i) \cdot \cdots \cdot P(K_n | Ž_i) \cdot P(Ž_i)}{P(K_1 \cap \cdots \cap K_n)}$$

Filmu, katerega opis vsebuje korene $K_1, \dots, K_n$ bomo priredili tiste žanre $Ž_i$, pri katerih je dana verjetnost največja. Ker imenovalec ni odvisen od žanra, moramo torej za vsak $Ž_i$ izračunati le števec:

$$P(K_1 | Ž_i) \cdot \cdots \cdot P(K_n | Ž_i) \cdot P(Ž_i)$$

Vse te podatke znamo izračunati, zato se lahko lotimo dela.

Verjetnost posameznega žanra $P(Ž)$ izračunamo brez večjih težav:

In [None]:
verjetnosti_zanrov = zanri.groupby('zanr').size() / len(filmi)
verjetnosti_zanrov

Verjetnosti $P(K|Ž)$ bomo shranili v razpredelnico, v kateri bodo vrstice ustrezale korenom $K$, stolpci pa žanrom $Ž$. Najprej moramo poiskati vse filme, ki imajo žanr $Ž$, njihov opis pa vsebuje koren $K$. Vzemimo vse opise filmov:

In [None]:
filmi.opis

To vrsto nizov pretvorimo v vrsto množic besed. Uporabimo metodo `apply`, ki dano funkcijo uporabi na vsakem vnosu.

In [None]:
filmi.opis.apply(
    koreni_besed
)

Po nekaj [iskanja po internetu](https://stackoverflow.com/questions/30885005/pandas-series-of-lists-to-one-series) in masiranja pridemo do iskane razpredelnice:

In [None]:
koreni_filmov = filmi.opis.apply(
    koreni_besed
).apply(
    list
).apply(
    pd.Series
).stack(
).reset_index(
    level='id'
).rename(columns={
    'id': 'film',
    0: 'koren',
})
koreni_filmov

Razpredelnico združimo z razpredelnico žanrov, da dobimo razpredelnico korenov žanrov.

In [None]:
koreni_zanrov = pd.merge(
    koreni_filmov,
    zanri
)[['koren', 'zanr']]
koreni_zanrov

S pomočjo funkcije `crosstab` preštejemo, kolikokrat se vsaka kombinacija pojavi.

In [None]:
pojavitve_korenov_po_zanrih = pd.crosstab(koreni_zanrov.koren, koreni_zanrov.zanr)
pojavitve_korenov_po_zanrih

Iskane verjetnosti sedaj dobimo tako, da vsak stolpec delimo s številom filmov danega žanra. Da ne bomo dobili ničelne verjetnosti pri korenih, ki se v našem vzorcu ne pojavijo, verjetnost malenkost povečamo.

In [None]:
verjetnosti_korenov_po_zanrih = pojavitve_korenov_po_zanrih / zanri.groupby('zanr').size() + 0.001

Poglejmo, kaj so najpogostejši koreni pri nekaj žanrih:

In [None]:
verjetnosti_korenov_po_zanrih.Crime.sort_values(ascending=False).head(20)

In [None]:
verjetnosti_korenov_po_zanrih.Romance.sort_values(ascending=False).head(20)

In [None]:
verjetnosti_korenov_po_zanrih['Sci-Fi'].sort_values(ascending=False).head(20)

Žanre sedaj določimo tako, da za vsak žanr pomnožimo verjetnost žanra in pogojne verjetnosti vseh korenov, ki nastopajo v opisu filma.

In [None]:
def doloci_zanre(opis):
    faktorji_zanrov = verjetnosti_zanrov * verjetnosti_korenov_po_zanrih[
        verjetnosti_korenov_po_zanrih.index.isin(
            koreni_besed(opis)
        )
    ].prod()
    faktorji_zanrov /= max(faktorji_zanrov)
    return faktorji_zanrov.sort_values(ascending=False).head(5)

In [None]:
doloci_zanre('Alien space ship appears above Slovenia.')

In [None]:
doloci_zanre('A story about a young mathematician, who discovers her artistic side')