# Eska Rock playlista od 2010 r.

In [363]:
import pandas as pd

### Wczytujemy dane

In [364]:
df = pd.read_csv('eska-full.csv')

## Porządkujemy dane

### Nazwy utworów i artystów zamieniamy na małe litery

In [365]:
df['title'] = df['title'].str.lower()
df['artist'] = df['artist'].str.lower()

### Sprawdzamy co się powtarza

In [366]:
duplicates = df.duplicated()

In [367]:
df[duplicates == True].sort_values(by=['date_played','time_played','title','artist'])

Unnamed: 0,title,artist,date_played,time_played
19474,arahja,kult,2010-10-29,20:50
96627,shotgun,limp bizkit,2011-08-01,01:00
121808,dorosłe dzieci,turbo,2011-10-30,01:00
135791,levitate,hollywood undead,2011-11-21,19:44
135777,alibis,mona,2011-11-23,20:17
139747,monarchy of roses,red hot chili peppers,2011-12-10,17:05
137469,open your eyes,guano apes,2011-12-11,09:07
138585,warszawa,t.love,2011-12-11,13:21
139793,shake it out,florence and the machine,2011-12-14,20:14
136429,another one bites the dust,queen,2011-12-16,00:05


### Usuwamy powtórzenia

In [368]:
df.count()

title          909678
artist         909678
date_played    909678
time_played    909678
dtype: int64

In [369]:
df.drop_duplicates().count()

title          908343
artist         908343
date_played    908343
time_played    908343
dtype: int64

In [370]:
df.drop_duplicates(inplace=True)

### time_played zmieniamy na typ Timestamp

In [372]:
df['datetime'] = df['date_played'] + ' ' + df['time_played']
df['datetime'] = pd.DatetimeIndex(df['datetime'])

### Zmieniamy typ pola date_played z object na datetime24

In [373]:
df['date_played'] = df['date_played'].astype('datetime64')

In [374]:
df.sort_values(by=['datetime']).tail()

Unnamed: 0,title,artist,date_played,time_played,datetime
909276,wojna,maciek balcar,2018-10-28,23:49,2018-10-28 23:49:00
909291,błyski,hurrockaine,2018-10-28,23:52,2018-10-28 23:52:00
909292,bóg,t.love,2018-10-28,23:55,2018-10-28 23:55:00
909280,wehikuł czasu,dżem,2018-10-28,23:59,2018-10-28 23:59:00
909279,bóg,t.love,2018-10-28,23:59,2018-10-28 23:59:00


In [375]:
df.drop(axis=1, labels='time_played', inplace=True)

In [376]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 908343 entries, 0 to 909677
Data columns (total 4 columns):
title          908343 non-null object
artist         908343 non-null object
date_played    908343 non-null datetime64[ns]
datetime       908343 non-null datetime64[ns]
dtypes: datetime64[ns](2), object(2)
memory usage: 34.7+ MB


## Przechodzimy do analizy dancyh

### Weźmy 50 najczęściej granych zespołów

In [377]:
artists = df['artist']
top_50_artists = artists.value_counts().head(50)
top_50_artists

hey                         17407
myslovitz                   16436
t.love                      15802
perfect                     14773
kult                        14431
u2                          13093
lady pank                   12905
red hot chili peppers       12379
happysad                    12259
queen                       11204
strachy na lachy            10865
maanam                      10735
dżem                        10397
edyta bartosiewicz          10259
linkin park                 10199
republika                    9801
foo fighters                 8122
ira                          7946
coldplay                     7914
o.n.a.                       7846
kings of leon                7726
aerosmith                    7719
oddział zamknięty            7281
ac/dc                        7256
coma                         7117
lipali                       6793
florence and the machine     6529
bon jovi                     6467
lenny kravitz                6383
the rolling st

### Jaki procent odtworzeń wszystkich utworów stanowią utwory czołowych 50 artystów

In [378]:
top_50_artists_percentage_of_all = top_50_artists.sum() / artists.value_counts()[50:].sum() * 100
round(top_50_artists_percentage_of_all, 1) 

80.7

### Dla porównania sprawdźmy jaki procent wszystkich zespołów stanowi nasza pięćdziesiątka

In [379]:
top_50_artists_to_number_of_all_artists = top_50_artists.count() / len(artists.unique()) * 100
round(top_50_artists_to_number_of_all_artists, 1)

1.9

### Teraz czas na najczęstrze utwory

In [380]:
titles = df['title']
top_50_titles = titles.value_counts().head(50)
top_50_titles

sen                                    2108
kocham wolność                         1829
syreny                                 1762
biała flaga                            1757
tak tak to ja                          1724
mamona                                 1712
załoga g                               1683
szare miraże                           1667
na pół                                 1660
kryzysowa narzeczona                   1650
whisky                                 1648
chodź ze mną                           1638
nadzieja                               1633
radioactive                            1632
warszawa                               1616
party                                  1612
ona jest ze snu                        1575
drzwi                                  1570
winna                                  1569
kiedy powiem sobie dość                1561
czerwony jak cegła                     1558
chcemy być sobą                        1556
koła czasu                      

Teraz sprawdźmy kto grał te kawałki

In [381]:
artist_title = df[['artist', 'title']]
top_50_titles.index.values
artist_title[artist_title['title'].isin(top_50_titles.index.values)].drop_duplicates().sort_values(by=['title'])

Unnamed: 0,artist,title
75492,the wombats,1996
91,t.love,1996
274,t.love,ajrisz
151,perfect,ale w koło jest wesoło
58,kult,arahja
90,perfect,autobiografia
609,republika,biała flaga
10446,lipali,biała flaga
205,perfect,chcemy być sobą
129995,power of trinity,chodź ze mną


ups nagla zamiast 50 utworów zrobiło się 67 :)
top_50 utworów trzeba inaczej policzyć

In [382]:
artist_title = df[['artist', 'title']].copy()
artist_title['arti'] = artist_title['artist'] + artist_title['title']
played_times = artist_title['arti'].value_counts()
played_times
played_times_df = played_times.to_frame(name='played_times')
result = pd.merge(left=artist_title, right=played_times_df, how='left', left_on='arti', right_index=True)
result.drop(axis=1, labels='arti', inplace=True)
result.drop_duplicates(inplace=True)
# w pierwszej sześciesiątce nie ma zagranicznych utworów!
result.sort_values(by='played_times', ascending=False).head(50)
result.sort_values(by='played_times', ascending=False).head(120).tail(60)

Unnamed: 0,artist,title,played_times
568,oddział zamknięty,andzia i ja,1350
164,myslovitz,z twarzą marilyn monroe,1348
371,myslovitz,dla ciebie,1341
70,sztywny pal azji,"wieża radości, wieża samotności",1329
425,t.love,wychowanie,1324
244,edyta bartosiewicz,skłamałam,1322
96,myslovitz,peggy brown,1313
1030,myslovitz,długość dźwięku samotności,1311
1231,voo voo,nim stanie się tak,1304
163,coma,daleka droga do domu,1297


In [387]:
"Dataset zawiera dane o utworach zagranych od %s do %s. W sumie ok. %s odtworzeń" % (min(df['datetime']), max(df['datetime']), len(df))

'Dataset zawiera dane o utworach zagranych od 2010-09-01 00:04:00 do 2018-10-28 23:59:00. W sumie ok. 908343 odtworzeń'

ile utworów średnio dziennie jest granych

In [395]:
df.groupby('date_played').count().mean()

title       305.325378
artist      305.325378
datetime    305.325378
dtype: float64

In [396]:
df[df['date_played'] >= '2018-01-01'].groupby('artist').count().sort_values(by='title', ascending=False)

Unnamed: 0_level_0,title,date_played,datetime
artist,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
perfect,1914,1914,1914
t.love,1911,1911,1911
hey,1868,1868,1868
kult,1620,1620,1620
lady pank,1599,1599,1599
myslovitz,1592,1592,1592
queen,1459,1459,1459
u2,1438,1438,1438
dawid podsiadło,1428,1428,1428
dżem,1386,1386,1386


In [412]:
most_popular_artists_2018 = df[df['date_played'] >= '2018-01-01'].groupby('artist').count().sort_values(by='title', ascending=False)

In [413]:
most_popular_artists_2018 = most_popular_artists_2018.drop(columns=['title', 'date_played'])

In [416]:
most_popular_artists_2018.columns = ['played_times']

In [418]:
most_popular_artists_2018

Unnamed: 0_level_0,played_times
artist,Unnamed: 1_level_1
perfect,1914
t.love,1911
hey,1868
kult,1620
lady pank,1599
myslovitz,1592
queen,1459
u2,1438
dawid podsiadło,1428
dżem,1386


Sprawdźmy teraz kiedy zaczęto grać małomiasteczkowego, ile razy go zagrano, jaka była częstotliwość w rozbiciu na dnie

In [432]:
df_2018 = df[df['date_played'] >= '2018-01-01']

title          92619
artist         92619
date_played    92619
datetime       92619
dtype: int64

In [450]:
first_time = min(df_2018[df_2018['title'] == 'małomiasteczkowy']['datetime'])
first_time

Timestamp('2018-06-10 02:33:00')

In [451]:
last_time = max(df_2018[df_2018['title'] == 'małomiasteczkowy']['datetime'])
last_time

Timestamp('2018-10-19 05:50:00')

In [434]:
times_played = len(df_2018[df_2018['title'] == 'małomiasteczkowy'])

In [452]:
times_played

480

In [445]:
df_malomiasteczkowy_times_played = df_2018[df_2018['title'] == 'małomiasteczkowy'].groupby('date_played').count()
df_malomiasteczkowy_times_played = df_malomiasteczkowy_times_played.drop(columns=['title', 'artist'])
df_malomiasteczkowy_times_played.columns = ['times_played'] 

In [449]:
df_malomiasteczkowy_times_played.sort_values(by=['times_played'], ascending=False)

Unnamed: 0_level_0,times_played
date_played,Unnamed: 1_level_1
2018-08-07,9
2018-08-05,8
2018-08-09,8
2018-08-16,8
2018-08-13,8
2018-08-17,8
2018-08-18,8
2018-08-12,8
2018-08-10,8
2018-08-19,8
