#  ANALIZA ZNANE ROCK GLASBE

Podatke najbolj znanih rock glasb bomo dobili iz spletne strani [last.fm](https://www.last.fm/tag/rock/tracks).
Uvožene podatke si lahko bralec pogleda v enostavni tabeli, ki se skriva spodaj. Po naslovu posamezne vrstice lahko sam razbere kaj je zapisano v posameznih vrsticah. Za lažjo analizo sem uvozila tudi pretvorjene podatke za dolžino glasbe, število poslušalcev in scrobbles, da nimam težav z različnimi enotami.
Scrobbles je približno kako pogostokrat se je predvajala neka glasba.


In [75]:
import pandas as pd

import os.path      
pd.options.display.max_rows = 10

%matplotlib notebook


In [76]:
glasba = pd.read_csv('popularna_rock_glasba.csv')
glasba[["izvajalec", "naslov", "album",  "dolzina", "st_poslusalcev", "scrobbles", "prvi_zanr", "drugi_zanr", "tretji_zanr"]]

Unnamed: 0,izvajalec,naslov,album,dolzina,st_poslusalcev,scrobbles,prvi_zanr,drugi_zanr,tretji_zanr
0,Nirvana,Smells Like Teen Spirit,Nevermind,4:47,2.4M,19.8M,grunge,rock,alternative
1,Oasis,Wonderwall,(What&#39;s the Story) Morning Glory?,4:18,2M,16.8M,britpop,rock,90s
2,The Cranberries,Zombie,No Need to Argue,5:09,1.5M,10.6M,rock,alternative,90s
3,Led Zeppelin,Stairway to Heaven,Led Zeppelin IV,10:58,1.3M,11.2M,classic rock,rock,70s
4,Red Hot Chili Peppers,Californication,Californication,5:30,1.8M,14.5M,rock,alternative rock,alternative
...,...,...,...,...,...,...,...,...,...
972,Elvis Presley,Jailhouse Rock,Elvis 30 #1 Hits,2:30,693.7K,3.2M,rock n roll,classic rock,oldies
973,The Beatles,Penny Lane,Magical Mystery Tour,2:50,712.8K,4.1M,classic rock,60s,rock
974,INXS,New Sensation,Kick,3:40,276.5K,1.2M,80s,rock,pop
975,Alanis Morissette,Hands Clean,The Collection,4:31,280.9K,1.5M,female vocalists,rock,alternative


Poglejmo si najprej tri tabele kjer bomo na vrhu našli glasbe z največ poslušalci, najdaljšo minutažo oz. največ scrobbles-i.

In [77]:
glasba_po_poslusanosti = glasba.sort_values('poslusalci_tisoc', ascending=False)
glasba_po_poslusanosti[["izvajalec", "naslov", "st_poslusalcev"]]

Unnamed: 0,izvajalec,naslov,st_poslusalcev
0,Nirvana,Smells Like Teen Spirit,2.4M
37,The Killers,Mr. Brightside,2.3M
6,Nirvana,Come as You Are,2.1M
28,Radiohead,Creep,2M
1,Oasis,Wonderwall,2M
...,...,...,...
937,Ugly Kid Joe,Cats in the Cradle,221K
887,Lenny Kravitz,I&#39;ll Be Waiting,216.3K
768,INXS,Suicide Blonde,214.1K
913,Poets of the Fall,Carnival of Rust,199.7K


In [78]:
glasba_po_dolzini = glasba.sort_values('dolzina_v_sek', ascending=False)
glasba_po_dolzini[["izvajalec", "naslov", "dolzina"]]

Unnamed: 0,izvajalec,naslov,dolzina
780,Pink Floyd,Echoes,23:31
730,Iron Butterfly,In-A-Gadda-Da-Vida,17:05
187,Pearl Jam,Black,13:04
821,Led Zeppelin,No Quarter,12:30
580,The Doors,The End,11:35
...,...,...,...
593,Black Sabbath,War Pigs,1:55
478,The White Stripes,Fell in Love With a Girl,1:50
767,Prince,Purple Rain,1:27
850,The Beatles,Sgt. Pepper&#39;s Lonely Hearts Club Band,1:18


In [79]:
glasba_po_scrobbles = glasba.sort_values('scrobbles_tisoc', ascending=False)
glasba_po_scrobbles[["izvajalec", "naslov", "scrobbles"]]

Unnamed: 0,izvajalec,naslov,scrobbles
37,The Killers,Mr. Brightside,25.3M
0,Nirvana,Smells Like Teen Spirit,19.8M
28,Radiohead,Creep,18M
16,Coldplay,Viva la Vida,17.9M
40,Radiohead,Karma Police,17.2M
...,...,...,...
963,U2,The Fly,1M
937,Ugly Kid Joe,Cats in the Cradle,1M
768,INXS,Suicide Blonde,957.9K
958,Meat Loaf,I&#39;d Do Anything for Love (But I Won&#39;t ...,808.1K


### Hipoteza 1:
Hipoteza 1 pravi, da se bodo najbolj znani izvajalci ponovili vsaj dvajsetkrat. Torej da se v seznamu 977 najbolj znanih rock glasb skriva več kot dvajset njihovih glasb.

In [80]:
presteti = glasba.groupby("izvajalec").size().sort_values()
presteti

izvajalec
Midnight Oil     1
John Lennon      1
Joe Cocker       1
Joan Osborne     1
Rush             1
                ..
Queen           22
Coldplay        24
U2              25
Muse            27
The Beatles     27
Length: 275, dtype: int64

Hipoteza je držala in med izvajalci z največjim številom znanih glasb najdemo nekatere večne zvezde (npr. Queene), ki jih poznamo vsi, pa tudi bande ki še igrajo še danes(npr. Coldplay).

### Hipoteza 2:
Hipoteza 2 pravi, da bo največji procent glasb z srednje dobro poslušanostjo, tj. okoli 1,2M. Naj opozorim, da ima spodnji diagram na y-osi število poslušalcev v tisočkah in na x-osi število glasb s tem številom poslušanosti. Nižje pa imamo še tortni diagram s tremi kosi. V enem se skriva procent glasb z več poslušalci kot 1,7M. V drugem z poslušalci med 800K in 1,7M in tretjem manj kot 800K.

In [81]:
poslusalci_zaokrozeno = round(glasba["poslusalci_tisoc"], -2)
glasba["zaokrozeni_poslusalci"] = poslusalci_zaokrozeno
glasba.groupby("zaokrozeni_poslusalci").size().plot.bar()

<IPython.core.display.Javascript object>

<AxesSubplot:xlabel='zaokrozeni_poslusalci'>

In [82]:
velika_poslusanost = glasba["poslusalci_tisoc"] > 1700
majhna_poslusanost = glasba["poslusalci_tisoc"] < 800
dobro_poslusana_glasba = glasba[velika_poslusanost]
slabo_poslusana_glasba = glasba[majhna_poslusanost]
st_dobro_poslusanih = len(dobro_poslusana_glasba)
st_slabo_poslusanih = len(slabo_poslusana_glasba)
st_srednje_poslusanih = len(glasba) - (st_dobro_poslusanih + st_slabo_poslusanih)
diagram = pd.DataFrame({'število' : [st_dobro_poslusanih, st_srednje_poslusanih, st_slabo_poslusanih]},
                                    index=['dobra', 'srednja', 'slaba'])
plot = diagram.plot(kind='pie', y='število', figsize=(5, 5), title='Poslušanost')

<IPython.core.display.Javascript object>

Hipotezo moramo ovržti, saj ima največ glasb nekje med 600K in 700K poslušalcev, kar pa po naših predpostavkah pade v kategorijo slabe poslušanosti. 

### Hipoteza 3:
Hipoteza pravi, da ljudje najraje poslušajo glasbe dolge med 3,5 minutami (210s) in 4,5 minutami (270s).

In [86]:
dolzina_zaokrozenost = round(glasba["dolzina_v_sek"], -1)
glasba["zaokrozena_dolzina"] = dolzina_zaokrozenost
dobra_poslusanost = glasba["poslusalci_tisoc"] > 1500
izbrana = glasba[dobra_poslusanost]
izbrana.groupby("zaokrozena_dolzina").mean()[["poslusalci_tisoc"]].plot()

<IPython.core.display.Javascript object>

<AxesSubplot:xlabel='zaokrozena_dolzina'>

Hipoteza ni čisto pravilna, naš graf doseže vrh pri približno 290s kar so 4 minute in 50 sekund. So pa najbolj poslušane glasbe dolžine nekje med 4 in 5 minutah.


### Hipoteza 4 in 5:
Hipoteza 4 je trdila, da bo število poslušalcev in Scrobbles-ov približno enako.

In [84]:
razlika = abs(glasba["scrobbles_tisoc"] - glasba["poslusalci_tisoc"])
glasba["razlika"] = razlika

def podobno_stevilo(razlika):
    return razlika <= 1000

izbrana_glasba = glasba["razlika"].apply(podobno_stevilo)
iskana_glasba = glasba[izbrana_glasba]
iskana_glasba[["izvajalec", "naslov", "st_poslusalcev", "scrobbles"]]

Unnamed: 0,izvajalec,naslov,st_poslusalcev,scrobbles
488,Bon Jovi,Keep the Faith,249.1K,1.2M
618,Aerosmith,Love in an Elevator,284.1K,1.2M
623,U2,"Hold Me, Thrill Me, Kiss Me, Kill Me",222.4K,1.1M
677,Genesis,I Can&#39;t Dance,300.5K,1.3M
695,U2,Bad,263.6K,1.2M
...,...,...,...,...
895,Theory of a Deadman,Say Goodbye,275.8K,1.1M
937,Ugly Kid Joe,Cats in the Cradle,221K,1M
958,Meat Loaf,I&#39;d Do Anything for Love (But I Won&#39;t ...,170.9K,808.1K
963,U2,The Fly,221.4K,1M


Ta hipoteza je bila čisto napačna. Število predvajanj (scrobbles) bo seveda v večini primerov veliko večje saj lahko ena oseba večkrat predvaja isto glasbo. Poglejmo si graf obeh podatkov za lažjo predstavo.

In [98]:
glasba.plot.scatter('poslusalci_tisoc', 'scrobbles_tisoc')

<IPython.core.display.Javascript object>

<AxesSubplot:xlabel='poslusalci_tisoc', ylabel='scrobbles_tisoc'>

Graf je skoraj linearen kar nam pove da se število poslušalcev in število Scrobbles-ov linearno povečuje, je pa njuna razlika velika. Scrobbles-ov je približno 10x več kot poslušalcev.

Hipoteza 5 je trdila ravno to, da se bosta ta dva podatka linearna odvisna med seboj. Graf sicer ni najlepši, a njegova oblika daleč najbolj spominja na linearno.

### Hipoteza 6:
Največ žanrov bo imelo v imenu besedo rock.

In [95]:
def ima_besedo(zanr):
    return ("rock" in zanr.split(" "))

glasba_z_besedo_rock1 = glasba["prvi_zanr"].apply(ima_besedo)
glasba_z_besedo_rock2 = glasba["drugi_zanr"].apply(ima_besedo)
glasba_z_besedo_rock3 = glasba["tretji_zanr"].apply(ima_besedo)
glasba_z_besedo_rock = glasba[glasba_z_besedo_rock1 | glasba_z_besedo_rock2 | glasba_z_besedo_rock3]
glasba_z_besedo_rock

Unnamed: 0,izvajalec,naslov,st_poslusalcev,poslusalci_tisoc,scrobbles,scrobbles_tisoc,dolzina,dolzina_v_sek,prvi_zanr,drugi_zanr,tretji_zanr,album,besedilo,zaokrozeni_poslusalci,zaokrozena_dolzina,razlika,poslusalci_zaokrozeno,zaokrozeni_scrobbles
0,Nirvana,Smells Like Teen Spirit,2.4M,2400,19.8M,19800,4:47,287,grunge,rock,alternative,Nevermind,"Here we are now, entertain us",2400,290,17400,2000,20000
1,Oasis,Wonderwall,2M,2000,16.8M,16800,4:18,258,britpop,rock,90s,(What&#39;s the Story) Morning Glory?,I don't believe that anybody feels the way I d...,2000,260,14800,2000,17000
2,The Cranberries,Zombie,1.5M,1500,10.6M,10600,5:09,309,rock,alternative,90s,No Need to Argue,"With their tanks, and their bombs, and their b...",1500,310,9100,2000,11000
3,Led Zeppelin,Stairway to Heaven,1.3M,1300,11.2M,11200,10:58,658,classic rock,rock,70s,Led Zeppelin IV,And she's buying a stairway to heaven,1300,660,9900,1000,11000
4,Red Hot Chili Peppers,Californication,1.8M,1800,14.5M,14500,5:30,330,rock,alternative rock,alternative,Californication,Pay your surgeon very well to break the spell ...,1800,330,12700,2000,14000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
972,Elvis Presley,Jailhouse Rock,693.7K,693,3.2M,3200,2:30,150,rock n roll,classic rock,oldies,Elvis 30 #1 Hits,"Everybody, let's rock",700,150,2507,1000,3000
973,The Beatles,Penny Lane,712.8K,712,4.1M,4100,2:50,170,classic rock,60s,rock,Magical Mystery Tour,Penny Lane is in my ears and in my eyes,700,170,3388,1000,4000
974,INXS,New Sensation,276.5K,276,1.2M,1200,3:40,220,80s,rock,pop,Kick,"A new sensation, (a new sensation)",300,220,924,0,1000
975,Alanis Morissette,Hands Clean,280.9K,280,1.5M,1500,4:31,271,female vocalists,rock,alternative,The Collection,Overlook this supposed crime,300,270,1220,0,2000


Skoraj vse glasbe imajo v enem od žanrov besedo rock.