# Analiza zajetih podatkov
S strani [billboard 200](https://www.billboard.com/charts/billboard-200) sem zajel podatke o albumih, ki so na lestvici v tem trenutku.

In [52]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

albumi = pd.read_csv("podatki/bil.csv", na_values=["None"])

pd.options.display.max_rows = 20

Spodaj je predstavljena razpredelnica zajetih podatkov, ki vključujejo mesto uvrstitve albuma, avtorja, naslov, mesto, ki ga je album zasedal prejšnji teden, v kolikor je bil na lestvici, najvišjo uvrstitev in število tednov na lestvici. Če kateri od podatkov manjka, je to v razpredelnici predstavljeno z NaN. V eni izmed prejšnjih verij analize podatkov sem preveril, da je takih 12 albumov, torej bom v urejenih seznamih opazoval sezname, ki so skrajšani za 12 albumov.

In [53]:
albumi.head()

Unnamed: 0,rank,artist,title,last_week,peek_position,weeks_on_chart
0,2,Soundtrack,Spider-Man: Into The Spider-Verse,3.0,2.0,5.0
1,3,21 Savage,I Am &gt; I Was,2.0,1.0,4.0
2,4,Post Malone,beerbongs &amp; bentleys,5.0,1.0,38.0
3,5,Meek Mill,Championships,4.0,1.0,7.0
4,6,Lady Gaga &amp; Bradley Cooper,A Star Is Born (Soundtrack),7.0,1.0,15.0


Poglejmo sedaj nekaj razpredelnic, ki nam morda razkrijejo kakšne zanimive informacije o uvrstitvah albumov:

In [54]:
#najprej uredimo albume po številu tednov na lestvici
albumi.sort_values(["weeks_on_chart"], ascending=True)[:187]

Unnamed: 0,rank,artist,title,last_week,peek_position,weeks_on_chart
176,178,YNW Melly,I Am You,192.0,178.0,2.0
194,196,R. Kelly,The Essential R. Kelly,144.0,144.0,2.0
106,108,Blueface,Famous Cryp,162.0,108.0,2.0
1,3,21 Savage,I Am &gt; I Was,2.0,1.0,4.0
9,11,Bad Bunny,X 100PRE,12.0,11.0,4.0
16,18,YoungBoy Never Broke Again,Realer,15.0,15.0,4.0
0,2,Soundtrack,Spider-Man: Into The Spider-Verse,3.0,2.0,5.0
8,10,Kodak Black,Dying To Live,9.0,1.0,5.0
102,104,Mitchell Tenpenny,Telling All My Secrets,88.0,53.0,5.0
152,154,Brett Young,Ticket To L.A.,130.0,15.0,6.0


Vidimo torej, da je je album, ki se je najdalj održal na lestvici delo Boba Marleya in The Wailers, kar 557 tednov, in trenutno najmanj album YBN Mellya, 2 tedna. Poglejmo tudi malce bolj nazoren prikaz časa, ki ga posamezen album preživi na lestvici in možne povezave z drugimi podatki:

In [55]:
#povprečno število tednov na lestvici
albumi["weeks_on_chart"].mean().round()

100.0

In [75]:
#mogoča povezava med tedni na lestvici in najvišjim mestom
albumi[albumi["weeks_on_chart"] >= 10].plot.scatter("weeks_on_chart", "peek_position")

<matplotlib.axes._subplots.AxesSubplot at 0x117937208>

Zgornji prikaz kaže, da gre pri albumih na lestvicah večinoma za "muhe nekaj tednice"; opazimo namreč največjo zgostitev pikic v spodnjem levem kotu. To so albumi, ki prispejo na lestvico, zasedejo mesta pri vrhu, vendar kmalu zbledijo. Malo je takih, ki so zasedli visoka mesta in se še vedno obdržali na lestvici. Da se izognem albumom, ki so šele prispeli na lestvico, sem obravnaval le tiste, ki so tam že vsaj deset tednov. 

In [57]:
#združimo albume glede na avtorja
po_avtorjih = albumi.groupby("artist")
po_avtorjih = po_avtorjih.size().sort_values(ascending=True)
po_avtorjih = po_avtorjih[po_avtorjih >= 3]
po_avtorjih 

artist
Queen                         3
The Weeknd                    3
Taylor Swift                  3
Imagine Dragons               3
XXXTENTACION                  3
YoungBoy Never Broke Again    3
The Beatles                   3
Drake                         6
Soundtrack                    9
dtype: int64

Na kratko bom analiziral povezave med avtorji in številom njihovih albumov na lestvici v tem trenutku. Izbral sem le tiste, ki imajo na lestvici tri ali več albumov. Izvajalec Soundtrack pomeni, da gre za album pesmi, ki so del nekega filma in niso dejansko plod istega izvajalca. Kljub temu jih bom vključil v analizo, saj so dober pokazatelj dejstva, da pesmi iz filma postanejo precej popularne, ko film izide, oziroma prejme nagrado. 

In [67]:
tadobri = albumi[albumi["artist"].isin(po_avtorjih.index)]
tadobri.head()

Unnamed: 0,rank,artist,title,last_week,peek_position,weeks_on_chart,skok,moč
0,2,Soundtrack,Spider-Man: Into The Spider-Verse,3.0,2.0,5.0,1.0,3.5
6,8,Drake,Scorpion,8.0,1.0,29.0,0.0,29.0
7,9,Soundtrack,The Greatest Showman,11.0,1.0,58.0,2.0,60.0
11,13,Queen,Bohemian Rhapsody (Soundtrack),76.0,3.0,13.0,63.0,67.333333
16,18,YoungBoy Never Broke Again,Realer,15.0,15.0,4.0,-3.0,3.266667


In [68]:
tadobri.sort_values(["artist"])

Unnamed: 0,rank,artist,title,last_week,peek_position,weeks_on_chart,skok,moč
198,200,Drake,If You&#039;re Reading This It&#039;s Too Late,,,,,
6,8,Drake,Scorpion,8.0,1.0,29.0,0.0,29.000000
68,70,Drake,Views,75.0,1.0,142.0,5.0,147.000000
65,67,Drake,Take Care,73.0,1.0,307.0,6.0,313.000000
81,83,Drake,More Life,91.0,1.0,96.0,8.0,104.000000
129,131,Drake,Nothing Was The Same,149.0,1.0,268.0,18.0,286.000000
69,71,Imagine Dragons,Night Visions,60.0,2.0,329.0,-11.0,175.500000
33,35,Imagine Dragons,Evolve,31.0,2.0,82.0,-4.0,45.000000
24,26,Imagine Dragons,Origins,22.0,2.0,10.0,-4.0,9.000000
41,43,Queen,Greatest Hits,,,,,


Za še malo zanimivejši vpogled, sem nastavil formulo za novo količino, ki sem jo poimenoval "moč". Njalažje jo je identificirati z volatilnostjo, z dodatkom popularnosti:

In [66]:
albumi["moč"] = abs(albumi["skok"]) + albumi["weeks_on_chart"] / albumi["peek_position"]

In [74]:
tadobri1 = tadobri.groupby("artist")["moč"].mean()
tadobri1.plot.bar()

<matplotlib.axes._subplots.AxesSubplot at 0x1178bfdd8>

Lahko vidimo, da približno srednja vrednost moči najbolje opiše stabilno popularnost. Tisti, ki imajo veliko moč, so bodisi že zelo dolgo na lestvici, oziroma skačejo po njej. Tisti, ki imajo majhno vrednost, niso nikoli dosegli prav visokega mesta na lestvici. Izvajalci z vmesno vrednostjo, kakor na primer Drake in Taylor Swift pa sta stalna člana vrha lestvice.

V tabelo podatkov bom dodal še en stolpec z imenom "skok", ki pove kolikšen premik po lestvici je v zadnjem tednu naredil nek album. Pričakovati bi bilo, da ob prihodu na lestvico album hitro skače, potem, ko pa na lestvici prebije ze nekaj tednov, se njegov tedenski skok umiri. Poglejmo, če je temu res tako: 

In [60]:
albumi["skok"] = albumi["last_week"] - albumi["rank"]
albumi["skok"].sort_values(ascending=True)[:187]

185   -177.0
177    -55.0
194    -52.0
154    -51.0
139    -44.0
113    -38.0
77     -34.0
132    -33.0
195    -32.0
80     -32.0
       ...  
100     21.0
143     22.0
158     27.0
165     28.0
156     28.0
148     33.0
106     54.0
11      63.0
130     67.0
36      88.0
Name: skok, Length: 187, dtype: float64

In [61]:
albumi.plot.scatter("weeks_on_chart", "skok")

<matplotlib.axes._subplots.AxesSubplot at 0x11779c860>

In [62]:
albumi.loc[185]

rank                                                            187
artist                                                        Queen
title             Greatest Hits I II &amp; III: The Platinum Col...
last_week                                                        10
peek_position                                                     9
weeks_on_chart                                                  127
skok                                                           -177
Name: 185, dtype: object

Kakor vidimo, hipoteza drži, torej so pikice pri y osi, oziroma "skok" osi bolj razpršene vzdolž osi, kakor pikice, ki so od nje bolj oddaljene. Seveda pa je pikica pri skoku -177 izjema. Gre za album Queenov, ki je v zadnjem času kar nekajkrat poskočil na lestvici. Skok, ki smo ga zaznali pri naši analizi je posledica pozitivnega skoka prejšnji teden, ko je film Bohemian Rhapsody prejel Zlati globus in tako rahlo razburkal poziciji albuma skupine Queen in albuma pesmi iz filma (soundtrack).

# Zaključek 

Pri analizi smo opazili, da skoraj vse hipoteze, ki bi si jih človek ustvaril glede dogajanja na lestvici, držijo. Kljub temu pa je treba opazovati tudi druge dejavnike, ki igrajo pomembno vlogo v svetu glasbe, na primer podlitve nagrad, smrti pevcev, kot je na primer XXXTENTACION, čigar albumi so po njegovem umoru lani poleti zasedli vrhove skorajda vseh glasbenih lestvic. 

Popoularnost pa je najbolj učinkovito meriti po številu albumov posameznega izvajalca na lestvici v nekem trenutku. Kakor smo videli v prikazu moči, je to pravzaprav res eden izmed najboljših pokazateljev pribljubljenosti.