# Analiza podatkov s strani _Allmovie.com_
**Jan Kamnikar, Programiranje 1, september 2023**

# 1. Uvod

V okviru projektne naloge bomo na različne načine obdelali podatke s strani [Allmovie.com](https://allmovie.com) in poizkusili potrditi oz. ovreči nekaj raziskovalnih hipotez. Spletna stran _Allmovie_ vsebuje podatke o filmih, igralcih in režiserjih. Osredotočili se bomo na filme. 

Podatke s strani smo zajeli s programskim jezikom _Python_, knjižnico _requests_ in uporabo regularnih izrazov. Ker se spletna stran _Allmovie_ močno zanaša na uporabo programskega jezika javascript za prikazovanje vsebine, smo knjižnico _requests_ nadomestili z modificirano verzijo [requests-HTML](https://requests.readthedocs.io/projects/requests-html/en/latest/) , ki omogoča shranjevanje spletne strani v HTML po tem, ko se izvede javascript.

**Zajem podatkov**

Podatke o filmih smo zajemali po kategorijah. Na vsaki strani je prikazanih približno 12 filmov v posamezni kategoriji. Za vsako kategorijo smo shranili 12 strani. Filmi so lahko hkrati v več kategorijah, zato smo na ta način nabrali nekaj več kot 1000 različnih filmov. Iz seznamov smo povezave do strani za posameznih filmov in jih shranili. Posebaj smo shranili tudi podstran, ki vsebuje filmske igralce za posamezen film.

Podatke smo iz shranjenih HTML datotek obdelali z uporabo regularnih izrazov in jih shranili v obliki JSON ter normalizirali in shranili v več CSV tabel. Za vsak film smo shranili sledeče podatke:

- naslov
- leto
- opis
- trajanje
- ocena kritikov
- oznaka (MPAA)
- igralci
- reziserji
- žanri
- države snemanja
- teme, ki se pojavljajo v filmu
- oznake primernosti filma (MPAA flags)

Ocene filma, ki jo določi publika, s strani nismo mogli dobiti, saj uporablja naprednejši javascript kot ga zna prebrati requests-HTML.


# 2. Podatki

Poglejmo si zajete podatke o filmih iz datoteke `.csv`:

In [54]:
import pandas as pd

pd.options.display.min_rows = 20

pd.options.display.max_rows = 20

In [55]:
filmi = pd.read_csv('obdelani-podatki/filmi.csv', index_col='film')
filmi

Unnamed: 0_level_0,naslov,leto,opis,trajanje,ocena_kritikov,oznaka
film,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,Prince of the City,1981,"Inspired by a true story, Prince of the City s...",167,9,R
1,The Black Phone,2022,"It is 1978 in North Denver, and shy thirteen-y...",102,8,R
2,The Tree of Life,2011,The eldest son of a 1950s-era Texas family set...,139,9,PG13
3,Born Yesterday,1950,Garson Kanin's Broadway hit was transferred to...,103,9,NR
4,Quatermass II: Enemy from Space,1957,"Originally titled Quatermass II, Enemy from Sp...",85,9,NR
5,Star Wars: The Empire Strikes Back,1980,The second entry in George Lucas' Star Wars tr...,124,10,PG
6,Eternity and a Day,1998,Theo Angelopoulos (Reconstruction) directed th...,134,10,NR
7,In the Shadows,2001,New York hit man Eric O'Byrne (Matthew Modine)...,105,9,R
8,Nina Forever,2015,Grieving boyfriend Rob (Cian Barry) has hope t...,98,8,R
9,If Beale Street Could Talk,2019,African-American teen sweethearts Fonny (Steph...,119,9,R


Poglejmo si še ostale tabele `.csv`:

In [56]:
pd.options.display.min_rows = 10
pd.options.display.max_rows = 10

ljudje_indeks = pd.read_csv('obdelani-podatki/ljudje_indeks.csv', index_col='clovek')
ljudje_indeks

Unnamed: 0_level_0,ime
clovek,Unnamed: 1_level_1
0,Sope Aluko
1,John Longden
2,Julie Estelle
3,Paul Dubov
4,Purv Pullen
...,...
25307,George Micheal
25308,Russell Hicks
25309,Kevin Jamal Woods
25310,Heather Marie Pate


In [57]:
ljudje_filmi = pd.read_csv('obdelani-podatki/ljudje_filmi.csv', index_col='film')
ljudje_filmi

Unnamed: 0_level_0,clovek,vloga
film,Unnamed: 1_level_1,Unnamed: 2_level_1
0,23183,Igralec
0,6689,Igralec
0,17312,Igralec
0,19938,Igralec
0,15782,Igralec
...,...,...
1015,13928,Igralec
1015,18254,Igralec
1015,21533,Igralec
1015,12374,Igralec


In [58]:
teme_filmi = pd.read_csv('obdelani-podatki/teme_filmi.csv', index_col='film')
teme_filmi

Unnamed: 0_level_0,tema
film,Unnamed: 1_level_1
0,Police Corruption
0,Whistleblowers
1,Kidnapping
1,Serial Killers
2,Existential Crisis
...,...
1014,White People Among Indians
1015,Culture Clash
1015,Farm Life
1015,Heroic Mission


In [59]:
zanri_filmi = pd.read_csv('obdelani-podatki/zanri_filmi.csv', index_col='film')
zanri_filmi

Unnamed: 0_level_0,zanr
film,Unnamed: 1_level_1
0,Thriller
0,Drama
0,Crime
1,Horror
1,Crime
...,...
1014,Western
1014,Drama
1015,Action
1015,Adventure


In [60]:
oznake_filmi = pd.read_csv('obdelani-podatki/oznake_filmi.csv', index_col='film')
oznake_filmi

Unnamed: 0_level_0,oznaka
film,Unnamed: 1_level_1
0,Adult Language
0,Adult Situations
0,Not For Children
0,Profanity
0,Violence
...,...
1014,Mild Violence
1014,Questionable for Children
1014,Western Violence
1015,Questionable for Children


# 3. Hipoteze

Na podlagi zajetih podatkov smo oblikovali 6 hipotez, ki jih bomo v nadaljevanju z obdelavo podatkov potrdili ali ovrgli. 

1. bla
2. bla bla
3. alls
4. asodoaksd
5. oasoksdk
6. oasdoaksd

# 4. Analiza