본 노트북은 스포티파이에서 제공한 TOP 100 스트리밍 음악을 분석해 상위 랭크 음악들의 흥미로운 패턴을 찾고자 만들었습니다. 

In [1]:
import warnings
warnings.filterwarnings("ignore")

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

plt.style.use("seaborn-whitegrid")
plt.rc("figure", autolayout=True)
plt.rc("axes", labelweight="bold", labelsize="large", titleweight="bold", titlesize=14, titlepad=10)


# Custom function definition

In [2]:
def num_plot(df, col):
    fig, ax = plt.subplots(2, 1, sharex=True, figsize=(8,5),gridspec_kw={"height_ratios": (.2, .8)})
    ax[0].set_title(col + 'distribution',fontsize=18)
    sns.boxplot(x=col, data=df, ax=ax[0])
    ax[0].set(yticks=[])
    sns.histplot(x=col, data=df, ax=ax[1])
    ax[1].set_xlabel(col, fontsize=16)
    plt.tight_layout()
    plt.show()

In [3]:
def plot_features_obj(df,string):
    fig, ax = plt.subplots(2,4, figsize=(18,9), sharey=True)
    fig.suptitle('TOP 100 songs musical attributes by Release Year', fontsize=40)
    g=sns.barplot(ax=ax[0,0], x=string, y= 'energy', data=df,ci=False, palette='rocket')
    g.bar_label(g.containers[0], fmt='%.1f', fontsize=10)
    ax[0,0].set_title('energy')
    ax[0,0].set_xlabel('')
    ax[0,0].set_ylabel('')
    ax[0,0].tick_params(axis='y',labelsize=17)
    
    g=sns.barplot(ax=ax[0,1], x=string, y= 'danceability', data=df,ci=False, palette='crest_r')
    g.bar_label(g.containers[0], fmt='%.1f', fontsize=10)
    ax[0,1].set_title('danceability')
    ax[0,1].set_ylabel('')
    ax[0,1].set_xlabel('')
    
    g=sns.barplot(ax=ax[0,2], x=string, y= 'liveness', data=df,ci=False, palette='magma')
    g.bar_label(g.containers[0], fmt='%.1f', fontsize=10)
    g.bar_label(g.containers[0], fmt='%.1f', fontsize=10)
    ax[0,2].set_title('liveness')
    ax[0,2].set_ylabel('')
    ax[0,2].set_xlabel('')
    
    g=sns.barplot(ax=ax[0,3], x=string, y= 'valance', data=df,ci=False, palette='flare_r')
    g.bar_label(g.containers[0], fmt='%.1f', fontsize=10)
    ax[0,3].set_title('valance')
    ax[0,3].set_ylabel('')
    ax[0,3].set_xlabel('')
    
    g=sns.barplot(ax=ax[1,0], x=string, y= 'acousticness', data=df,ci=False, palette='mako')
    g.bar_label(g.containers[0], fmt='%.1f', fontsize=10)
    ax[1,0].set_title('acousticness')
    ax[1,0].set_ylabel('')
    ax[1,0].set_xlabel('')
    ax[1,0].tick_params(axis='y',labelsize=17)
    
    g=sns.barplot(ax=ax[1,1], x=string, y= 'speechiness', data=df,ci=False, palette='cubehelix')
    g.bar_label(g.containers[0], fmt='%.1f', fontsize=10)
    ax[1,1].set_title('speechiness')
    ax[1,1].set_ylabel('')
    ax[1,1].set_xlabel('')

    
    g=sns.barplot(ax=ax[1,2], x=string, y= 'popularity', data=df,ci=False, palette='YlOrBr_r')
    g.bar_label(g.containers[0], fmt='%.1f', fontsize=10)
    ax[1,2].set_title('popularity')
    ax[1,2].set_ylabel('')
    ax[1,2].set_xlabel('')
    
    ax=ax[1,3].axis('off')
    plt.tight_layout()
    plt.show()

In [4]:
def plot_features(df, text, ax):
  ax.set_title('Musical Attributes densities of songs by'+text)
  sns.kdeplot(x='energy', data=df, label='energy', ax=ax)
  sns.kdeplot(x='danceability', data=df, label='danceability', ax=ax)
  sns.kdeplot(x='liveness', data=df, label='liveness', ax=ax)
  sns.kdeplot(x='valance', data=df, label='valance', ax=ax)
  sns.kdeplot(x='acousticness', data=df, label='acousticness', ax=ax)
  sns.kdeplot(x='speechiness', data=df, label='speechiness', ax=ax)
  ax.set_xlabel('')
  ax.legend(fontsize=10, fancybox=True, shadow=True, frameon=True)

  plt.legend()


# Dataframe Info

- acousticness: [0–1] Confidence measure of whether the track is acoustic.
- danceability: [0–1] Describes how suitable a track is for dancing based on musical attributes including tempo, rhythm, stability, beat strength, and overall regularity.
- energy: [0–1] Perceptual measure of intensity and activity. Energetic tracks feel fast, loud, and noisy (e.g. death metal: high energy, Bach prelude: low energy).
- instrumentalness: [0–1] Predicts whether a track contains no vocals (values above 0.5 represent instrumental tracks whereas rap songs would have a score close to 0).
- liveness: [0–1] Detects the presence of an audience in the recording.
- loudness: [-60–0 dB] The average volume across an entire track.
- speechiness: [0–1] Detects the presence of spoken words in a track (values above 0.66 describe tracks that are probably made entirely of spoken words, 0.33–0.66 describe tracks that may contain both music and speech, and values below 0.33 most likely represent music and other non-speech-like tracks).
- valence: [0–1] Describes the musical positiveness conveyed by a track. Tracks with high valence sound more positive (e.g. happy, cheerful, euphoric), while tracks with low valence sound more negative (e.g. sad, depressed, angry).
- tempo: [0–300 BPM] The speed or pace of a given piece, as derived from the estimated average beat duration.

In [7]:
df= pd.read_csv('/kaggle/input/top-100-most-streamed-songs-on-spotify/Top 100 most Streamed - Sheet1.csv')

In [8]:
df.head()

In [9]:
df.info()

In [10]:
df.describe()

우린 각 음악들이 각기 다른 음악적 특징으로 이루어진 것을 확인할 수 있었습니다. 
상위에 랭크된 음악들이 공통점이 있는지 파악 하기 위해 음악들의 특징을 분석 해 볼수 있습니다 .

# Exploratory Data Analysis

## Correlation Matrix

In [11]:
plt.figure(figsize=(9,6))
plt.title('Correlation Matrix', fontsize=25)
sns.heatmap(df.corr(), cmap='RdBu', annot=True)
plt.show()

위의 상관관계를 보며 우린 파악 할 수 있습니다:
- loudness 와 energy 간의 높은 상관관계 (+0.73)
- acousticness 와 energy 간의 낮은 상관관계 (-0.71)
- valance와 danceabiliy 간의 상단히 높은 상관관계 (+0.48)
- loudness 와 acousticness 간의 상단히 낮은 상관관계 (-0.54)

# Release Year

발매년도와 상위랭크 노래의 상관관계가 있는지 알아보겠다. 

In [12]:
num_plot(df, 'year')

2010년 전 데이터에 outlier 데이터들이 약간 있다. 

In [13]:
df[df['year']<2010]

4개의 노래가 2010년 이전 발매된 곡이지만 TOP 100에 랭크되어 있다. plot의 readbility를 더 좋게 하기 위해 위 4개의 데이터를 삭제하겠다. 

In [14]:
df_clean=df.loc[df['year']>2010]

In [15]:
df_clean['year']

# BPM by release year

In [16]:
plt.figure(figsize=(10,5))
g=sns.barplot(x='year', y= 'beats.per.minute', data=df_clean,ci=False, palette='mako')
g.bar_label(g.containers[0], fmt='%.0f',fontsize=14)
plt.ylabel('BPM', fontsize=14)
plt.xticks(fontsize=18)
plt.xlabel('Release Year', fontsize=18)
plt.title('BPM vs Release Year', fontsize=20)
plt.show()

2013년과 2021년에 BPM이 대폭 하락한 것을 볼 수 있습니다. 

# Song duration by Release Year

In [17]:
plt.figure(figsize=(10,5))
g=sns.barplot(x='year', y= 'length', data=df_clean, ci=False, palette='viridis')
g.bar_label(g.containers[0], fmt='%.1f', fontsize=14)
plt.ylabel('Length (minutes)', fontsize=14)
plt.xticks(fontsize=18)
plt.xlabel('Release Year', fontsize=18)
plt.title('Length vs Release Year', fontsize=20)
plt.show()

년도가 진행할수록 곡의 길이는 줄어드는 추세를 볼 수 있습니다. 

# Song loudness by Release Year

In [18]:
plt.figure(figsize=(10,5))
g=sns.barplot(x='year', y= 'loudness.dB', data=df_clean, ci=False, palette='Reds_r')
g.bar_label(g.containers[0], fmt='%.1f', fontsize=14)
plt.ylabel('Length (minutes)', fontsize=14)
plt.xticks(fontsize=18)
plt.xlabel('Release Year', fontsize=18)
plt.title('Loudness vs Release Year', fontsize=20)
plt.show()


2021년에는 2019년과 2020년도에 비해 음악의 크기가 줄어든 것을 확인할 수 있습니다. 

# Musical attributes by release year

In [19]:
df_clean.head()

In [20]:

plot_features_obj(df_clean,'year')

우린 danceability와 speechiness가 년도가 지날수록 음악 흥행에 영향을 끼친다는 점을 확인 할 수 있습니다. 
acousticness는 2021년에 비교적 크게 증가했음을 확인할 수 있었습니다. 


# Mean Musical Attributes

우선 음악적 특성만을 포함한 dataframe을 생성해 줍니다.

In [21]:
df_feat=df_clean.drop(['year','artist','top genre','title','loudness.dB','length','beats.per.minute'], axis=1)

In [28]:
df_mean = pd.DataFrame(df_feat.mean().sort_values(ascending=False).reset_index())
df_mean.rename(columns={ df_mean.columns[1]: "value" }, inplace = True)

In [29]:
plt.figure(figsize=(8,5))
plt.title('Musical attributes mean values', fontsize=25)
g = sns.barplot(x='index', y='value', data=df_mean, palette='Reds_r')
g.bar_label(g.containers[0], fmt='%.1f', fontsize=16)
plt.xlabel('')
plt.xticks(fontsize=12)
plt.ylabel('Value', fontsize=18)
plt.yticks(fontsize=15)
plt.show()

위의 그래프를 통해 TOP 100 곡들의 특징은:
- 꽤 높은 popularity, danceability, energy 그리고 valance
- 꽤 낮은 liveness, acousticness 그리고 speechiness

# Song by artist Analysis

## top 100에 여러곡이 수록된 가수가 있을까?

In [31]:
df['artist'].value_counts()

In [33]:
df['artist'].nunique()

본 데이터셋에는 64명의 아티스트들이 있다. 

In [34]:
plt.figure(figsize=(8,5.5))
plt.title('No. of distinct songs in TOP100 by distinct artist ', fontsize=18)
g = sns.countplot(df['artist'].value_counts(ascending=True).values)
g.bar_label(g.containers[0], fmt='%.0f', fontsize=16)
plt.ylabel('No. artists', fontsize=20)
plt.xticks(fontsize=12)
plt.xlabel('No. songs ', fontsize=18)
plt.yticks(fontsize=15)
plt.show()

64명의 아티스트중에 45명의 아티스트만이 top 100에 한곡이 등재되었다. 

# Which are the artists with more than one song in the top 100?

In [36]:
df_art=df['artist'].value_counts()

In [37]:
top_art=df_art[df_art>1]
top_art

In [38]:
plt.figure(figsize=(10,6))
plt.title('No. different songs in TOP100 by artist')
g=sns.barplot(top_art.index, top_art, palette='mako')
g.bar_label(g.containers[0], fmt='%.0f', fontsize=16)
plt.xticks(rotation=90)
plt.yticks([])
plt.ylabel('No.Songs')
plt.show()

우린 Post Malone이 TOP100에 7 노래나 있는것을 확인할 수 있다. 
그 다음에 뒤 따라오는 아티스트는 The Weeknd, Ed Sheeran

# TOP artist analysis

TOP 100애서 가장 순위가 높은 3명의 아티스트에 대해 분석해 보겠다.

In [39]:
_, ax = plt.subplots(2,2, figsize=(16,7))
plot_features(df,'all artists',ax[0,0])
plot_features(df[df['artist']== 'Post Malone'],'Post Malone',ax[0,1])
plot_features(df[df['artist']== 'Ed Sheeran'],'Ed Sheeran',ax[1,0])
plot_features(df[df['artist']== 'The Weeknd'],'The Weeknd',ax[1,1])
plt.show()

우린 위의 plot을 통해 Ed Sheeran과 Post Malone의 곡의 유사성을 파악할 수 있다. 
그들은 낮은 speechiness를 가지고 있으며 다른 수치들은 타 아티스트들과 유사하다. 
The Weeknd의 경우에는 다른 아티스트들에 비해 매우 낮은 liveness를 확인할 수 있다. 