## 1. Увод

Да ли се музикa мења, има ли истине у критикама наших родитеља да је наша музика лошија од њихове? Да ли су неке песме (пре)више бучне, неке друге више за играње, неке више тужне...? Да ли је нешто од овога типично за неки музички жанр? Постоји ли нешто специфично код култних песама? О којим темама се најчешће пева? Сигурни смо да на сва или готово сва ова питања имате одговоре на основу свог музичког искуства и музичког укуса, али је циљ анализа пред нама да пробамо да потражимо одговоре на ова питања систематичније, на основу података.

***Питања***: Какви (који) подаци су вам потребни да одговорите на ова питања? (питање са понуђеним одговорима: текст, слика, бројеви,...)
Где бисте потражили податке да одговорите на ова питања? (питање са понуђеним одговоима: Репубублички завод за статистику, Јутјуб, Гугл тренд, лична колекција плоча, подаци платформе Спотифај...)

У овом одељку, анализираћемо скуп података прикупљен у оквиру једног научно-истраживачког рада. Аутори рада су у духу отворене науке и отворених података све прикупљене податке, анализиране у раду, оставили на располагање и свима нама да поновимо неке од претрага али и постављамо своја питања и тражимо одговоре. Оригинални рад бави се анализом тема о којима се пева у песмама од 1950 до данас и можете га пронаћи у локалном фолдеру, док се подаци прикупљени и анализирани у њему налазе [**овде**](https://data.mendeley.com/datasets/3t9vbwxgr5/3), али и у локалном фолдеру са подацима. 

Пре него што додатно формулишемо наша питања и кренемо у потрагу за одговорима, хајмо да се упознамо са садржајем скупа података, са карактеристикама податка, али предностима и манама метода којим су прикупљени и припремљени.

За почетак, учитаћемо само [pandas](https://pandas.pydata.org/docs/) библиотеку да бисмо учитали податке и погледали првих пар редова користећи функције [read_csv](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) и [head](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html).

In [1]:
import pandas as pd # učitavanje biblioteke i nazivanje je njenom standardnom skraćenicom "pd"

In [2]:
podaci = pd.read_csv('muzika podaci/tcc_ceds_music_wo_index.csv') # učitavanje podataka csv formata iz lokalnog foldera
podaci.head(2) # prikaz prva dva reda podataka u tabeli

Unnamed: 0,artist_name,track_name,release_date,genre,lyrics,len,dating,violence,world/life,night/time,...,sadness,feelings,danceability,loudness,acousticness,instrumentalness,valence,energy,topic,age
0,mukesh,mohabbat bhi jhoothi,1950,pop,hold time feel break feel untrue convince spea...,95,0.000598,0.063746,0.000598,0.000598,...,0.380299,0.117175,0.357739,0.454119,0.997992,0.901822,0.339448,0.13711,sadness,1.0
1,frankie laine,i believe,1950,pop,believe drop rain fall grow believe darkest ni...,51,0.035537,0.096777,0.443435,0.001284,...,0.001284,0.001284,0.331745,0.64754,0.954819,2e-06,0.325021,0.26324,world/life,1.0


Како видимо да нам је на располагању 30 колона и не видимо све податке у прва два реда (зато што нису излистане све колоне), погледаћемо њихова имена, садржај и тип података користећи опцију [info](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html):

In [3]:
podaci.info() # prikaz imena kolona, broja unosa i tipa podataka u svakoj od kolona

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28372 entries, 0 to 28371
Data columns (total 30 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   artist_name               28372 non-null  object 
 1   track_name                28372 non-null  object 
 2   release_date              28372 non-null  int64  
 3   genre                     28372 non-null  object 
 4   lyrics                    28372 non-null  object 
 5   len                       28372 non-null  int64  
 6   dating                    28372 non-null  float64
 7   violence                  28372 non-null  float64
 8   world/life                28372 non-null  float64
 9   night/time                28372 non-null  float64
 10  shake the audience        28372 non-null  float64
 11  family/gospel             28372 non-null  float64
 12  romantic                  28372 non-null  float64
 13  communication             28372 non-null  float64
 14  obscen

Видимо да имамо на располагању нешто преко 28 хиљада уноса (различитих песама - како бисте проверили да ли су све различите?), видимо да се у 30 колона крију подаци различитих типова и назива. Да ли имате идеју шта је у колонама? Како бисмо то открили?

На пример, можемо искористити и функцију [describe](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html) која ће нам дати увид у основне сумарне статистике за колоне у којима су бројеви ```podaci.describe()```.

Али можемо погледати и различите вредности које се налазе у појединим колонама, на пример користећи функцију [unique](https://pandas.pydata.org/docs/reference/api/pandas.unique.html) и примењујући је на колону жанр (енг. *genre*) можемо видети који све жанрови нумера постоје у подацима:

In [4]:
podaci.genre.unique()

array(['pop', 'country', 'blues', 'jazz', 'reggae', 'rock', 'hip hop'],
      dtype=object)

Појединачним колонама можете приступати на два начина или користећи `podaci.genre` као горе, или користећи `podaci['genre']` оба начина ће произвести приказ података из колоне (пробајте). Први начин за позивање колона има краћи запис и већ писањем `podaci.g` можете притиском на таб подстаћи *jupyter* да вас допуни и понуди различита имена колона и метода који почињу словом `g`, међутим овај начин не ради уколико имате имена колона која у себи садрже празне карактере или неке карактере које `python` не дозвољава у именима променљивих (нпр. ћирилична имена колона, колоне које садрже `/` итд), стога је други начин често сигурнији начин да ћете позвати жељену колону. 

Садржај неких колона је очигледан, нпр. име аутора (енг. *artist_name*), име песме (енг. *track_name*), итд. На пример, горе, у резултатима наредбе `podaci.info()` видимо да је колона време (енг. *relese_date*) типа `int64` тј. целобројно, што значи да је највероватније у питању година издавања нумере (што видимо и у резултатима наредбе `podaci.head()`). Поред ових очигледнијих колона (укључујући и жанр, текст песме и сл.), постоји и прегршт нумеричких колона (типа `float64`) чије нам име, али ни претходно виђених првих пар уноса не говоре пуно - на пример `dating`, `violence`, `romantic`, `communication`. Неразумевање података и њиховог садржаја (чак и када је нагађање могуће) је обично добар повод да се потраже такозвани метаподаци, тј. опис садржаја података које су аутори скупа података или оставили заједно са табелама, или се као у овом случају детаљи могу наћи у раду или неком другом виду документације. Ово је кључан корак да бисмо могли да установимо да ли подаци које имамо могу да нам помогну да нађемо одговоре на питања која истражујемо.

Ако погледамо изворни рад сазнаћемо да су подаци о песмама прикупљени користећи платформу [Spotify](https://www.spotify.com/) и детаљи о појединачним колонама које представљају атрибуте, тј. каратеристике песама можемо наћи у документацији [овде](https://developer.spotify.com/documentation/web-api/reference/#/operations/get-audio-features). Карактеристике песама налазе се у следећим колонама:
- Акустичност (енг. *аcousticness*), говори нам да ли песма садржи музику акустичних или електричних инструмената, што је ова вредност ближа 1 песма је више акустична, док је ближе 0 песма у којој су доминантне електрични инструменти (нпр. електричне гитаре, или генерално електронска музика).
- Погодност за плес (енг. *danceability*, коју ћемо у наставку материјала звати плесозовност), овај атрибут је комбинација музичких елемената попут темпа, ритма и служи да оцени "разиграност" песме - нумере које имају вредност близу 1 су добре за плес.
- Гласност (енг. *loudness*), тј. субјективна јачина звука усредњена током целе песме, вредности су такође нормиране на распон од 0 до 1 (јако гласно).
- Инструменталност (енг. *instrumentalness*) у екстремним вредностима каже нам да ли је песма инструментал (1) или чисто вокална (0).
- Валентност (енг. *valence*) је мера позитивности (1 одговара срећним, еуфоричним емоцијама), тј. негативности (0 одговара тужним или љутим емоцијама) емоција које изазива песма.
- Енергичност (енг. *еnergy*) је мера којом разликујемо  брзе, гласне и бучне песме од оних које су споре, тихе и сл. аутори дају пример метал музике као енергичне, насупрот Баховим "Prelude" које би имале ниску вредност на овој скали.

Хајде да погледамо која песма у скупу података је оцењена као најпогоднија за плес. То можемо урадити тако што прво у једној променљивој сачувамо највећу пронађену вредност у колони `danceability` а затим нађемо ред табеле који у колони `danceability` има ту вредност:

In [5]:
maxdance = max(podaci['danceability']) # funkcija max pronalazi najveću vrednost u koloni danceability tabele 
podaci[podaci['danceability']==maxdance] # prikaz dela tabele za koji je tačno da se u koloni danceability nalazi baš pronađena maksimalna vrednost

Unnamed: 0,artist_name,track_name,release_date,genre,lyrics,len,dating,violence,world/life,night/time,...,sadness,feelings,danceability,loudness,acousticness,instrumentalness,valence,energy,topic,age
27612,vanilla ice,ice ice baby (re-recorded version),2008,hip hop,kick baby baby right stop collaborate listen b...,74,0.158434,0.00117,0.00117,0.00117,...,0.00117,0.00117,0.993502,0.842833,0.002509,8e-06,0.576463,0.792786,obscene,0.171429


Претходно смо објаснили да `podaci['danceability']` излистава садржај колоне, у овом случају колоне `danceability` и стога смо над тим садржајем могли да применимо функцију [`max`](https://docs.python.org/3/library/functions.html) да нађемо највећу вредност овог параметра. Међутим, једна јако згодна особина табела у *pandas* библиотеци је што у угласте заграде, осим имена колоне, можемо ставити и неки услов и на тај начин ћемо добити део табеле за који је тај услов испуњен. То смо испробали у другом реду горњег кода. Наш услов је да вредност колоне `danceability` буде једнака баш вредности коју смо издвојили као максималну и исход тог дела кода је ред табеле у коме можемо прочитати све карактеристике нумере која има максималну плесозовност. Ево и [линка](https://www.youtube.com/watch?v=1hJiQT2pVH0) ка истакнутој песми, преслушајте и реците и ви да ли вас довољно вуче на игру.

<div class="alert alert-block alert-info"><img src="muzika slike/zad.png" align="left"/>Како бисте идентификовали која песма је најмање инструментална? А највише енергична?</div> 

In [6]:
#resenje
#podaci[podaci['instrumentalness']==min(podaci['instrumentalness'])] 
#podaci[podaci['energy']==max(podaci['energy'])] 

Као што сте сигурно приметили слушајући музику до сада, песме се разликују по дужини, по броју и типу вокала (нпр. да ли је у питању песма једне ауторке или хора, да ли је у питњу инструментална нумера...), по постојању инструмената (да ли се у нумери чује гитара, бубањ, саксофон...), да ли је песма брза, гласна и још много других различитих квалитета. Додатно, свака од песама може имати једне квалитете на почетку (нпр. почиње инструменталним уводом), а затим се драстично променити до краја. То значи да бисмо практично сваки од претходно уведених атрибута могли да меримо као неку карактеристику песме из тренутка у тренутак и то значи да би само једна песма могла бити цео један компликован скуп података за себе. За питања која имамо на уму, да бисмо лакше поредили најразличитије нумере, свођење компликованог описа сваке песме (и свих њених музичких параметара који вам могу пасти на ум) на пар претходно излистаних бројева који су сви на истој скали значајно олакшава поређење песама и закључивање о сличностима и разликама међу песмама и жанровима. 

**Иванова илустрација *осакаћених* песама.**

Овакав тип анализе где се компликовани подаци (какве су музичке нумере) своде на групу кључних карактеристика превазилази оквире овог курса, али за више информација можете истражити издвајање карактеристика машинским учењем (енг. *feature extraction*, *feature engineering*).

Уводно упознавање са подацима, завршићемо идентификујући ауторе који имају највише нумера у скупу податка. До тог броја можемо доћи на више различитих начина, овде ћемо се фокусирати на функцију [value_counts](https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html) која пребројава понављања различитих уноса у колони, а коју ћемо применити на колону `artist_name`:

In [7]:
podaci['artist_name'].value_counts() # prebrojavamo sva pojavljivanja različitih unosa u koloni

johnny cash           190
ella fitzgerald       188
dean martin           146
willie nelson         131
george jones          107
                     ... 
keith jarrett trio      1
stigmato inc            1
plej                    1
slow train soul         1
$uicideboy$             1
Name: artist_name, Length: 5426, dtype: int64

Видимо да се у скупу података налазе 5426 различита извођача међу којима **johnny cash** има највише нумера. У наредним сегментима видећемо како овакве податке можемо визуелно представити на ефективнији начин осим табелом, али сада ево само једног интересантог запажања, прво двоје од 5426 аутора заслужно је за преко 1% од 28372 нумере, док са друге стране постоји преко 2000 аутора који имају само по једну песму у овом скупу података (како бисте нашли њихов тачан број?). 

Ова необичност заправо је врло честа одлика података и видимо је у расподели богатства, заступљености речи у језику, броју публикација научника, и можда сте чули за ову особину под називом **Паретов парадокс** или **Паретова дистрибуција**, али вратићемо се на то касније у овом темату.

In [8]:
# rešenje pitalice u tekstu
# sum(podaci['artist_name'].value_counts()==1)

<div class="alert alert-block alert-info"><img src="muzika slike/zad.png" align="left"/>Као што смо открили колико који аутор има песама у табели, можемо истражити колико има песама ког жанра, истражите!</div> 

In [9]:
# rešenje zadatka
# podaci['genre'].value_counts()

За наставак истраживања ових музичких података, фокусираћемо се само на изворне колоне које су аутори рада прикупили са **Spotify** платформе (које смо додатно описали претходно), док ћемо елиминисати колоне које су продукт анализа спроведених у раду, али подстичемо заинтересоване читаоце да истраже и њихов садржај.

In [10]:
#nazivi kolona koje ćemo zadržati
kolone = [ 'release_date', 'artist_name','track_name','genre', 'lyrics','acousticness',
           'danceability','instrumentalness','loudness','valence','energy']
novi_podaci = podaci[kolone].copy() # pravimo kopiju tabele koja sadrži samo kolone na koje će se fokusirati ostatak analize
novi_podaci.head() # prikaz prvih pet redova tabele koju ćemo koristiti u nastavku

Unnamed: 0,release_date,artist_name,track_name,genre,lyrics,acousticness,danceability,instrumentalness,loudness,valence,energy
0,1950,mukesh,mohabbat bhi jhoothi,pop,hold time feel break feel untrue convince spea...,0.997992,0.357739,0.901822,0.454119,0.339448,0.13711
1,1950,frankie laine,i believe,pop,believe drop rain fall grow believe darkest ni...,0.954819,0.331745,2e-06,0.64754,0.325021,0.26324
2,1950,johnnie ray,cry,pop,sweetheart send letter goodbye secret feel bet...,0.840361,0.456298,0.0,0.585288,0.351814,0.139112
3,1950,pérez prado,patricia,pop,kiss lips want stroll charm mambo chacha merin...,0.083935,0.686992,0.199393,0.744404,0.77535,0.743736
4,1950,giorgos papadopoulos,apopse eida oneiro,pop,till darling till matter know till dream live ...,0.975904,0.291671,0.000246,0.646489,0.597073,0.394375


Коначно, додаћемо и колону која ће године трансформисати и у одговарајуће музичке декаде (попут веселих седамдесетих) пошто ће нам често бити згодно да тако пратимо промене. Нећемо се служити математичком дефиницијом десетице по којој би нпр. осма десетица садржала бројеве од 71 до 80, већ ћемо користити периоде од 10 година који су типичнији за музику, те су седамдесете од 70 до 79 године.

In [11]:
#dodajemo jos jednu kolonu zato sto ce nam biti od koristi da grupisemo podatke u nastavku:
novi_podaci['muzicka_dekada']=pd.cut(novi_podaci.release_date,
                      bins=[1949,1959,1969,1979,1989,1999,2009,2019],
                      labels=['1950s','1960s','1970s','1980s','1990s','2000s','2010s'])

Новонасталу табелу са знатно мањим бројем колона ћемо сачувати за истраживања које ће уследити:

In [12]:
novi_podaci.to_csv('muzika podaci/music_data.csv',# čuvamo novu verziju skupa podataka za dalje korišćenje
            index=False) # ovom opcijom izbegavamo da čuvamo indeksnu kolonu pošto su u njoj trenutno samo redni brojevi koje ćemo svakako dobiti učitavanjem tabele