# Analiza podatkov s strani www.rtvslo.si

## Opis projekta

Program obisce www.rtvslo.si in iz arhiva za teme: šport, zdravje, svet, slovenija, gospodarstvo, znanost in tehnologija, zabava, ture avanture in kultura, vzame najnovejsih približno 100 (glej opombo spodaj) člankov, ter iz vsakega pridobi naslednje podatke: število ocen članka, povprečna ocena članka, število komentarjev, število pozitivnih ocen komentarjev in število negativnih ocen komenarjev.

Namen je, da se iz teh podatkov ugotovi, za katere članke menimo, da so najbolj kvalitetni, kateri so najbolj popularni in pri kateri temi se najbolj strinjamo. Oceno kvalitete članka po mnenju bralcev dobimo iz povprečne ocene članka. Popularnost razberemo iz števila ocen članka in števila komentarjev. Strinjanje pri določeni temi pa je največja relativna razlika med pozitivnimi in negativnimi ocenami komentarjev.

## Hipoteza

Moja hipoteza, ki sem jo skoval po nekajletnem vsakodnevnem obiskovanju te spletne strani je:

1. Bralci smo mnenja, da so najbolj kvalitetni članki na teme ture avanture, Slovenija, kultura, zdravje, znanost in tehnologija, gospodarstvo in šport, manj kvalitetni pa s področja zabave in sveta. Takega mnenja sem zato, ker ima tema ture avanture vsak ponedeljek rubriko "Glej ga Sloven'c", ki ima dober odziv. Tudi ostale rubrike te teme imajo zveste bralce in so napisane kvalitetno in poglobljeno. Kultura ima prav tako bolj poglobljene članke, vendar pa ima zahtevnejše bralce, tako da je ocena verjetno malce nižja. Članki s področja športa so verjetno dobro sprejeti, saj smo Slovenci precej samovšečni in tako radi radodarno ocenjujemo članke na temo športa, kjer smo uspešni (še posebej v zimskem športu). Tudi na temo zdravja predvidevam, da so članki kvalitetni (saj bi bilo skoraj neetično objavljati nekorektne članke s področja zdravja). Mislim, da ima RTV tudi kakšnega strokovnjaka za gospodarstvo ter za znanost in tehnologijo, tako da ustvarja dobre članke na to temo. Tudi članki na temo Slovenija so verjetno kvalitetni, saj so novinarji v direktnem stiku z dogajanjem. Članki s področja sveta so napisani površneje in imajo veliko napak (nekatere po mnenju komentatorjev kažejo na to, da so nekateri članki le prevedeni, saj je veliko slovničnih napak), saj je njihov namen, da čimpej dosežejo bralca. Prav tako nekateri niso najbolj objektivni in zato negativno ocenjujejo članek, če opisuje njihovega osovraženega politika oziroma državo. Članki s področja zabave so napisani bolj površno, saj se ne ukvarjajo s kakšnimi globljimi temami, kar razjezi nekatere in zato negativno ocenijo tak članek.

2. Menim, da so najbolj popularni članki na temo šport, saj Slovenci radi beremo o naših športnih uspehih. Žal je verjetno najmanj popularna tema kultura, saj nas to na splošno ne zanima najbolj. Zabava je verjetno tudi kar popularna, a manj kot šport. Ture avanture so po mojem mnenju tudi bolj popularna tema kot kultura (saj vsak rad potuje), a manj kot šport. Slovenija in svet sta verjetno še bolj poularni kot šport, saj se na srečo zavedamo vsaj tega, da je pomembno biti osveščen o dogajanju okoli nas. Gospodarstvo ter znanost in tehnologijo berejo tisti, ki se s tem ukvarjajo in laiki, ki jih to zanima. Ne upam si trditi, da taki prevladujejo. Zdravje se nam zdi pomembno a večina se raje posvetuje z zdravnikom, tako da po mojem mnenju ni veliko rednih bralcev.

3. Najbolj se strinjamo pri športu, saj prevladujejo članki o slovenskem športu, tam pa ni antagonalnih strani in se tako vsi strinjajo. Prav tako se verjetno strinjamo na področjih tem kulture, zdravja, znanosti in tehnologije, gospodarstva in tur avantur, saj tisti, ki berejo take članke ne doživljajo mnenja drugih kot grožnjo njihovemu in zato spoštujejo njihovega. Svet in Slovenija pa sta neznanka. Opazil sem protipriseljenska nagnenja nekaterih, pa tudi nasprotovanje dejanjem ZDA, pa nestrinjanje s politiko Merklove, kar sem razbral iz komentarjev. Tako sem sprva menil, da bodo ocene komentarjev bolj negativne, kot pozitivne. Vendar sem ob podrobnejšem ogledovanju ocen komentarjev na to temo pred začetkom projekta opazil, da se ljudje strinjajo glede takih stvari, kar me je presenetilo. Zabavo verjetno kdaj obišče kdo, ki se s takim poročanjem ne strinja, zato je pričakovati nestrinjanje. Prav tako zabava pokriva popularno glasbo in popkulturo, kjer imamo različna mnenja in nestrinjanje z njimi nekateri dojemajo kot napad na njihovo osebnost.

In [37]:
import pandas as pd

In [38]:
pd.options.display.max_rows = 200
pd.options.display.max_columns = 16

In [39]:
tabela = pd.read_csv('projekt_tabela.csv', index_col='id')

### Najprej predstavitev podatkov

In [40]:
tabela

Unnamed: 0_level_0,tema,stevilo_komentarjev,stevilo_ocen_komentarjev,stevilo_pozitivnih,stevilo_negativnih,ocena_novice,stevilo_ocen
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
386762,zabava,22,21,17,4,3.7,3
386758,zabava,12,13,10,3,3.4,5
386752,zabava,14,16,12,4,4.0,5
386133,zabava,4,2,1,1,2.6,5
386742,zabava,0,0,0,0,3.5,6
386738,zabava,8,15,15,0,1.0,4
386727,zabava,16,66,39,27,3.3,7
386725,zabava,38,133,127,6,2.0,9
386723,zabava,6,3,3,0,5.0,1
386699,zabava,32,45,38,7,4.8,16


### Analiza podatkov

In [41]:
tabela.groupby('tema').size()

tema
gospodarstvo               94
kultura                   107
slovenija                 102
sport                      99
svet                       92
tureavanture               80
zabava                    100
zdravje                    77
znanost-in-tehnologija     99
dtype: int64

In [42]:
tabela[tabela.ocena_novice != 0.0].groupby('tema').mean().sort_values('ocena_novice', ascending=False)[['ocena_novice']]

Unnamed: 0_level_0,ocena_novice
tema,Unnamed: 1_level_1
sport,4.084848
kultura,3.969524
znanost-in-tehnologija,3.884848
tureavanture,3.7975
zdravje,3.30137
gospodarstvo,3.245745
zabava,3.207216
svet,2.838043
slovenija,2.785567


In [44]:
tabela\
    .groupby('tema')\
    .mean()\
    .sort_values(['stevilo_komentarjev', 'stevilo_ocen'], ascending=[False, False])[['stevilo_komentarjev', 'stevilo_ocen']]

Unnamed: 0_level_0,stevilo_komentarjev,stevilo_ocen
tema,Unnamed: 1_level_1,Unnamed: 2_level_1
slovenija,143.098039,39.892157
svet,140.217391,33.554348
sport,96.848485,18.606061
gospodarstvo,90.170213,19.43617
znanost-in-tehnologija,67.717172,28.505051
zdravje,57.142857,13.467532
tureavanture,50.25,27.0
zabava,30.98,12.82
kultura,14.635514,10.401869


Z mojo hipotezo sem precej zadel; res je najbolj popularna tema slovenija, ter nato svet in šport. Tudi za gospodarstvo, znanost in tehnologijo ter zdravje se mi je dozdevalo, da nam je pomembno. Prav tako sem imel na žalost prav, saj je kultura najmanj popularna (daleč najmanj popularna). Preseneča me to, da zabava ni bolj poularna in da je tema ture avanture manj kot sem menil.

Opomba 1: Za prvi kriterij za razvrščanje sem vzel stevilo komentarjev, saj se mi zdi, da to najbolje odraža popularnost, saj menim, da ljudje več komentirajo kot ocenjujejo (kar se vidi tudi iz tabele).

Opomba 2: Najprej sem pogrupiral po temah in izračunal povprečje na posamezni članek iz teme. Nato pa sem sortiral tabelo, najprej po številu komentarjev in nato po številu ocen.

In [45]:
tabela2 = tabela.groupby('tema').mean()[['stevilo_pozitivnih', 'stevilo_negativnih', 'stevilo_ocen_komentarjev']]

In [34]:
tabela2

Unnamed: 0_level_0,stevilo_pozitivnih,stevilo_negativnih,stevilo_ocen_komentarjev
tema,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
gospodarstvo,314.548387,101.451613,416.0
kultura,61.52459,31.245902,92.770492
slovenija,870.264368,391.816092,1262.08046
sport,384.231579,149.536842,533.768421
svet,856.518072,327.457831,1183.975904
tureavanture,226.824324,85.351351,312.175676
zabava,104.011364,44.488636,148.5
zdravje,186.666667,76.652174,263.318841
znanost-in-tehnologija,190.774194,104.526882,295.301075


In [46]:
tabela2['relativna_razlika'] = tabela2.stevilo_negativnih/tabela2.stevilo_pozitivnih

In [50]:
tabela2.sort_values('relativna_razlika', ascending= False)

Unnamed: 0_level_0,stevilo_pozitivnih,stevilo_negativnih,stevilo_ocen_komentarjev,relativna_razlika
tema,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
znanost-in-tehnologija,179.212121,98.191919,277.40404,0.547909
kultura,35.074766,17.813084,52.88785,0.50786
slovenija,742.284314,334.196078,1076.480392,0.450227
zabava,91.53,39.15,130.68,0.427729
zdravje,167.272727,68.688312,235.961039,0.410637
sport,368.707071,143.494949,512.20202,0.389184
svet,772.728261,295.423913,1068.152174,0.382313
tureavanture,209.8125,78.95,288.7625,0.376288
gospodarstvo,311.202128,100.37234,411.574468,0.322531


Opomba: Najprej sem pogrupiral teme med sabo in izračunal povprečje. Nato sem izračunal nov stolpec kot kvocient med povprečjem negativnih in pozitivnih ocen komentarjev na članek za določeno temo. Tako sem dobil boljšo sliko, saj imajo lahko nekatere novice več ocen in moramo to upoštevati.
To, da se najbolj strinjamo pri znanosti in tehnologiji ter kulturi sem pričakoval. Presenetilo pa me je, da se najmanj strinjamo pri gospodarstvu in temi ture avanture. Presenetilo me je, da se precej strinjamo pri temi Slovenija. Ker je ena glavnih tematik pri temi Slovenija begunska kriza, to verjetno pomeni, da se Slovenci glede te tematike strinjamo. Ker pa je večina komentarjev na rtv proti beguncem, to pomeni, da smo na splošno Slovenci proti beguncem.

In [51]:
tabela.sort_values(['stevilo_komentarjev', 'stevilo_ocen'], ascending=[False, False])[['stevilo_komentarjev', 'stevilo_ocen']].head(n=10)

Unnamed: 0_level_0,stevilo_komentarjev,stevilo_ocen
id,Unnamed: 1_level_1,Unnamed: 2_level_1
385948,1040,166
386352,1034,68
385774,1030,98
386444,1012,51
386386,952,116
386561,922,64
386582,792,64
385922,754,60
386679,750,73
385865,666,54


In [163]:
import requests

In [164]:
b = tabela.sort_values(['stevilo_komentarjev', 'stevilo_ocen'], ascending=[False, False])[['stevilo_komentarjev', 'stevilo_ocen']].head(n=1)

In [165]:
c = b.reset_index()

In [166]:
d = str(int(c.id))

In [168]:
d

'385948'

In [169]:
a = requests.get('http://www.rtvslo.si/arhiv/{0}'.format(d))

ConnectionError: HTTPConnectionPool(host='www.rtvslo.si', port=80): Max retries exceeded with url: /arhiv/385948 (Caused by NewConnectionError('<requests.packages.urllib3.connection.HTTPConnection object at 0x7f47ce90e4e0>: Failed to establish a new connection: [Errno -2] Name or service not known',))

In [None]:
besedilo = a.text

In [None]:
besedilo