**Ekplorasi Data Spotify Tahun 2019**

Tujuan dari notebook ini:
    1. Mengetahui genre-genre terpopouler pada tahun 2019
    2. Mengetahui artis terpopuler pada tahun 2019 
    3. Mengetahui faktor-faktor yang membuat lagu menjadi populer

In [None]:
# Melakukan Import Libraries
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
print("Setup Complete")

In [None]:
# Memasukkan datasets
data = pd.read_csv("../input/top50spotify2019/top50.csv", encoding = "ISO-8859-1")

data.head(10) # Mencetak sepuluh data teratas pada datasets

In [None]:
# Mencetak ukuan dari datasets

data.shape

In [None]:
# Mencetak tipa-tipe data dari datasets

print(data.dtypes)

In [None]:
# Menghitung jumlah lagu pada tiap genres

print(type(data['Genre']))
genre_terpopuler=data.groupby('Genre').size().unique
print(genre_terpopuler)
list_genre=data['Genre'].values.tolist()

In [None]:
# Menampilkan Trending Genre Terlaris 

xtick = ['atl hip hop', 'australian pop ', 'big room', 'boy band', 'brostep'
        'canadian hip hop', 'canadian pop', 'country pop', 'country rap', 
        'dance pop', 'dfw rap', 'edm', 'electropop', 'escape room', 'latin', 
        'panamanian pop', 'pop', 'pop house', 'r&b en espanol', 'reggaeton', 
        'reggaeton flow', 'trap music']

panjang = np.arange(len(xtick)) # np.arange berguna untuk mengembalikan nilai dari interval yang diberikan. 
# Interval yang diberikan pada variabel length adalah panjang dari xtick, yakni 21. 

genre_groupby = data.groupby('Genre')['Track.Name'].agg(len) 
plt.figure(figsize=(15,10))

plt.bar(panjang, genre_groupby, color = "gray") # Membuat bar plot 
# Panjang adalah sumbu-x dan genre_groupby sebagai sumbu-y 

plt.xticks(panjang, xtick) # xticks digunakan untuk mendapatkan atau menentukan lokasi dan 
# labels dari sumbu-x
plt.xticks(rotation = 90) # Memutar 90 derajat untuk genre 
# Jika tidak ada plt.xticks(rotation = 90), maka nama-nama genre akan bertabrakan
plt.xlabel('Genre', fontsize = 18) # Memberikan judul(label) untuk sumbu-x
plt.ylabel('Jumlah lagu', fontsize = 18) # Memberikan judul(label) untuk sumbu-y
plt.title('Jumlah lagu untuk setiap genre', fontsize=23) # Menambahkan judul untuk figure 
plt.annotate('Genre terlaris di tahun 2019', xy=(8,8), xytext=(0.5,6),
            arrowprops=dict(arrowstyle='-'), fontsize = 12
            ) # Memberikan tanda untuk mempermudah menunjukkan data 

Berdasarkan diagram di atas, dapat diketahui bahwa genre terpopoler pada tahun 2019 adalah **dance pop** 
dengan jumlah 8 lagu untuk genre tersebut.

In [None]:
# Mengetahui artis terpopouler pada tahun 2019 berdasarkan Spotify 

# Mencari data artis-artis 

data_artis = pd.read_csv("../input/top50spotify2019/top50.csv", encoding = "ISO-8859-1")

data_artis.head()

In [None]:
# Mencetak tipe data dari dataset
print(data_artis.dtypes)

# Mengetahi siapa saja artis yang ada di dataset
data_artis['Artist.Name'].values.tolist()



Data di atas menunjukkan seluruh artis yang ada di urutan 50 terpopoler pada tahun 2019. Namun, cara tersebut tidak efisien untuk mengetahui siapa yang terpopoluer. 
Oleh karena itu, kita lakukan dengan cara di bawah ini. 

In [None]:
list_artis = data_artis['Artist.Name'].unique()
print(list_artis)

In [None]:
# Menghitung jumlah lagu untuk setiap artis 

artis_terpopuler=data_artis.groupby('Artist.Name').size().unique
list_artis_terpopuler=data_artis['Artist.Name'].values.tolist()
print(artis_terpopuler)


Dengan data di atas dapat diketahui jumlah lagu dari para artis, tetapi kurang baik untuk ditampilkan ke klien. Mari kita lakukan plot data agar lebih nyaman untuk dipandang dan dilakukan analisis.

In [None]:
# Peng-inputan data-data yang ingin di-plot 

# Data untuk sumbu-x 
list_artis = data_artis['Artist.Name'].unique()

# Data untuk sumbu-y
panjang_y = np.arange(len(list_artis))

# Artis group by
jumlah_lagu = data_artis.groupby('Artist.Name')['Track.Name'].agg(len)

plt.figure(figsize=(15,10))
sns.barplot(list_artis, jumlah_lagu) # Memplot diagram

Kita sudah berhasil melakukan visualisasi data berdasarkan dataset spotify. Namun, masih harus menambahkan beberapa hal agar visualisasi data dapat lebih bagus, yakni dengan menambahkan label untuk sumbu-y, label untuk sumbu-x, judul figure, memutar 90 derajat nama-nama artis, menambahkan anotasi agar lebih mudah, dan beberapa tambahan lainnya. 



In [None]:
# Data untuk sumbu-x 
list_artis = data_artis['Artist.Name'].unique()

# Data untuk sumbu-y
panjang_y = np.arange(len(list_artis))

# Artis group by
jumlah_lagu = data_artis.groupby('Artist.Name')['Track.Name'].agg(len)

plt.figure(figsize=(15,10))

# Memplot diagram
data_artis.groupby('Artist.Name')['Track.Name'].agg(len).sort_values(ascending = False).plot(kind = 'bar', color="gray")

# Menambahkan judul 
plt.title("Jumlah lagu pada setiap artis", fontsize = 20)

# Menambahkan label untuk sumbu y dan x 
plt.xlabel('Nama Artis', fontsize=15)
plt.ylabel('Jumlah lagu (tiap artis)', fontsize=15)

plt.annotate('Artis terpopuler di tahun 2019', xy=(1,4), xytext=(2,3),
            arrowprops=dict(arrowstyle='->'), fontsize = 12
            ) # Memberikan tanda untuk mempermudah menunjukkan data 

Diagram di atas menunjukkan artis dengan lagu terbanyak di top 50 chart Spotify, yakni Ed Sheeran. 

Mari kita lihat berapa lagu milik Ed Sheeran dan masuk ke dalam 50 besar. 

In [None]:
ed_sheeran = pd.read_csv("../input/top50spotify2019/top50.csv", encoding = "ISO-8859-1")

ed_sheeran.head()

In [None]:
# Informasi mengenai dataset

ed_sheeran.info()

Tidak ada missing value sehingga dapat diolah lebih lanjut. 

In [None]:
data_ed = ed_sheeran[ed_sheeran['Artist.Name']=="Ed Sheeran"]

data_ed.head()

Dari tabel di atas dapat diketahui bahwa Ed Sheeran memiliki empat lagu di 50 terbesar