# [**blog.osmanballi.com**](http://blog.osmanballi.com)

# Spotify Top 50 Analysis

![Spotify](https://www.bulentongun.com/wp-content/uploads/2013/10/spotify-logo.png)

# *Feature Information*

* **Danceability** = 	Danceability describes how suitable a track is for dancing based on a combination of musical elements including tempo, rhythm stability, beat strength, and overall regularity. 
* **Energy** = Typically, energetic tracks feel fast, loud, and noisy. For example, death metal has high energy, while a Bach prelude scores low on the scale. Perceptual features contributing to this attribute include dynamic range, perceived loudness, timbre, onset rate, and general entropy.
* **Liveness** = Detects the presence of an audience in the recording. Higher liveness values represent an increased probability that the track was performed live. 
* **Loudness** = The overall loudness of a track in decibels (dB). Loudness values are averaged across the entire track and are useful for comparing relative loudness of tracks. Loudness is the quality of a sound that is the primary psychological correlate of physical strength (amplitude).
* **Speechiness** = Detects the presence of spoken words in a track.

* **danceability**= Tempo, ritim kararlılığı, vuruş gücü ve genel düzenlilik de dahil olmak üzere müzikal unsurların bir kombinasyonuna dayanarak bir parçanın dans için ne kadar uygun olduğunu açıklar.
* **Energy** = Tipik olarak, enerjik parçalar hızlı ve gürültülüdür. Örneğin, death metal yüksek enerjiye sahipken, Bach'ın bir başlangıç müziğinin ölçeği düşüktür. Bu özelliğe katkıda bulunan algısal özellikler arasında dinamik aralık, algılanan ses yüksekliği, tını, başlangıç hızı ve genel entropi bulunur.
* **liveness** = Kayıtta bir kitlenin varlığını algılar. Daha yüksek canlılık değerleri, parçanın canlı olarak gerçekleştirilme olasılığının arttığını gösterir.
* **loudness** = Desibel (dB) bir parçanın genel ses yüksekliği. Ses yüksekliği değerleri tüm parça boyunca ortalaması alınır ve parçaların göreceli ses yüksekliğini karşılaştırmak için kullanışlıdır. Ses yüksekliği, fiziksel gücün (genlik) birincil psikolojik korelasyonu olan bir sesin kalitesidir.
* **Speechiness** = Bir parçada konuşulan kelimelerin varlığını algılar. Daha özel konuşma-kayıt (örneğin talk show, sesli kitap, şiir), 1.0 öznitelik değerine yakındır.

In [None]:
# Osman Balli


import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import seaborn as sns
import matplotlib.pyplot as plt


import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))


In [None]:
data = pd.read_csv("../input/top50spotify2019/top50.csv",encoding='ISO-8859-1')
data.head()

In [None]:
data.shape

In [None]:
data.describe()

In [None]:
data.columns

In [None]:
# columns have been renamed and deleted "Unnamed: 0" column
data.rename(columns={"Loudness..dB..":"Loudness",
                     "Valance.":"Valance",
                     "Length.":"Length",
                     "Acousticness..":"Acousticness",
                     "Speechiness.":"Speechiness",
                     "Beats.Per.Minute":"BPM",
                     "Track.Name":"Track",
                     "Artist.Name":"Artist"},inplace=True)
data.drop("Unnamed: 0",axis=1,inplace=True)
print(data.columns)


In [None]:
# checked null values
print(data.isnull().sum())


In [None]:
# Grouped by genre
genre_ = data.groupby('Genre').groups
print(genre_)
# Grouped by genre
genre_ = data.groupby('Genre').sum()
genre_.head()

In [None]:
sns.catplot(y = "Genre", kind = "count",
            palette = "pastel", edgecolor = ".6",
            data = data)

In [None]:
#energy values of the groups are listed
genre_energy=data.groupby("Genre",as_index=False)['Energy'].mean().sort_values("Energy")
print(genre_energy)

In [None]:
#energy values of the groups are plotted
labels=genre_energy["Genre"]
x=np.arange(0,len(genre_energy["Genre"]))
y=genre_energy["Energy"]
plt.plot(x,y,linestyle='solid')
plt.xticks(x, labels, rotation=75)
plt.ylabel("Energy")
plt.xlabel("Genre")
plt.legend("Mean Energy")
plt.title("Ranking of Mean Energy in Genres")
plt.grid(color='r', linestyle='dotted', linewidth=0.5)
plt.show()

In [None]:
columns=["Energy","Length","Acousticness","BPM","Danceability","Loudness","Liveness","Speechiness","Popularity"]
maximum=[]

genre=data.groupby("Genre",as_index=False)[columns].mean()
print(genre)


In [None]:
#The maximum values of the columns and their groups
for i in columns:
    maximum.append(genre[i].agg(np.max))
k=0
for i in range(0,len(genre["Genre"])):
    for j in columns:
        if genre.loc[i,j]==maximum[k]:
            print("maximum "+j+"="+str(maximum[k])+"--->"+genre.loc[i,"Genre"])
        k=k+1
        if k==len(maximum):
            break
    k=0

In [None]:
# 10 most popular songs
popularity = data.sort_values("Popularity",  ascending = False).head(10)[["Popularity","Artist","Genre","Energy"]]
print(popularity)

In [None]:
#correlation between features
#correlation map 
plt.figure(figsize=(9,9))
plt.title('Correlation Map')
ax=sns.heatmap(genre.corr(),
               linewidth=1,
               annot=True,
               center=2)

In [None]:

plt.figure(figsize=(12,8))
sns.violinplot(x='Loudness', y='Energy', data=data)
plt.xlabel('Loudness', fontsize=12)
plt.ylabel('Energy', fontsize=12)
