In [1]:
# Nhập dữ liệu
# https://www.kaggle.com/datasets/maharshipandya/-spotify-tracks-dataset

import numpy as np
import pandas as pd

# data = pd.read_csv("/content/drive/MyDrive/dataset.csv")
data = pd.read_csv("dataset/dataset.csv")
print(data.head(5))

# Tiền xử lý dữ liệu

In [2]:
# Tiền xử lý dữ liệu
# Xóa những dòng có giá trị null

data.isnull().sum()
data = data.dropna()


In [3]:

# Kiểm tra dữ liệu trùng lặp
duplicate_rows = data[data.duplicated(subset=['track_id'])]
print("Number of duplicate rows: ", duplicate_rows.shape)

In [4]:
# Xóa dữ liệu trùng lặp
data = data.drop_duplicates(subset="track_id", keep='first', inplace=False)
print(data[data.duplicated(subset=['track_id'])].shape)

In [5]:
# Ta thấy có thuộc tính track_genre và explicit là categorical nhưng mà nó quan trọng cho việc huấn luyện và dự báo, ta sẽ chuyển nó thành dạng số
data['track_genre_categorical'] = data['track_genre']
data['explicit_categorical'] = data['explicit']
data['track_genre'] = pd.Categorical(data['track_genre'])
data['track_genre'] = data['track_genre'].cat.codes
data['explicit'] = data['explicit'].astype(int)

print(data['track_genre'].unique())
print(data['explicit'].unique())

# EDA

In [60]:
#Độ lơn của dữ liệu
print(data.shape)

In [6]:
# Các thuộc tính của dữ liệu
print(data.columns)

In [7]:
# Phân phối của các thuộc tính

data.describe().transpose()

In [8]:
#Populatiry sorting
# Sắp xếp theo độ phổ biến

most_popular = data.query ('popularity>90', inplace = False).sort_values('popularity', ascending = False)
most_popular [:20]

In [9]:
# Phan phối của các thể loại theo độ phổ biến

popularity_genre = data.groupby([data['track_genre_categorical']])['popularity'].mean().sort_values(ascending = False)
popularity_genre[:20]

In [10]:
# Phân phối các nghệ sĩ theo độ phổ biến
popularity_artist = data.groupby([data['artists']])['popularity'].mean().sort_values(ascending = False)
popularity_artist[:20]

In [25]:
# Phân phối các album theo độ phổ biến
popularity_album = data.groupby([data['album_name']])['popularity'].mean().sort_values(ascending = False)
popularity_album[:20]

Genre analysis and visualization

Ở phần này, nhóm muốn đi sâu vào phân tích tương quan và sâu hơn để khám phá các yếu tố nào trong bài hát thể hiện mối tương quan cao hơn với 20 thể loại phổ biến nhất. Mục tiêu chính là xác định những yếu tố ảnh hưởng góp phần vào sự phổ biến của thể loại này. Từ đó, nhóm mong muốn đạt được những hiểu biết sâu sắc có giá trị về mối quan hệ cơ bản giữa đặc điểm âm nhạc và sở thích thể loại của người nghe.

In [13]:
# Nhóm sẽ tập trung vào 20 thể loại phổ biến nhất để thực hiện phân tích

genre_popularity = data.groupby('track_genre_categorical')['popularity'].mean()

genre_popularity_sorted = genre_popularity.sort_values(ascending=False)
# Đoạn code naỳ tính toán độ phổ biến trung bình cho mỗi thể loại và sắp xếp chúng theo thứ tự giảm dần.
top_genres = genre_popularity_sorted.head(20)

In [16]:
#Genre-based analysis of popularity
# Phân tích dựa trên thể loại của độ phổ biến
import matplotlib.pyplot as plt
import seaborn as sns
plt.figure(figsize=(12, 6))
sns.barplot(x=top_genres.index, y=top_genres.values, palette="husl")
plt.title("Độ phổ biến trung binh của các thể loại nhạc")
plt.xlabel('Genre')
plt.ylabel('Average Popularity')
plt.xticks(rotation=90)
plt.tight_layout()
plt.show()

- Kpop và Pop là 2 thể loại phổ biến nhất, theo sau là Metal Rock và Chill.

In [18]:
# Phân phối năng lượng trong các thể loại khác nhau
high_energy_genres = top_genres.head(20)

plt.figure(figsize=(10, 6))

# Box plot or violin plot for high energy genres
sns.boxplot(x=data[data['track_genre_categorical'].isin(high_energy_genres.index)]['track_genre_categorical'], y='energy', data=data, palette="husl")
plt.title("Phân phối năng lượng trong các thể loại nhạc phổ biến")
plt.xlabel("Genre")
plt.ylabel("Energy")
plt.xticks(rotation=45)


plt.show()

In [19]:
danceability = data['danceability']
popularity = data['popularity']


plt.figure(figsize=(8, 6))
sns.scatterplot(x=data['danceability'], y=data['popularity'])
plt.title("Danceability vs Popularity")
plt.xlabel("Danceability")
plt.ylabel("Popularity")
plt.show()

- Có vẻ như có nhiều bài hát có "danceability" cao nhưng không phải lúc nào cũng phổ biến. Nhưng vẫn có độ dốc nhất định cho thấy nhiều bài hát có "danceability" cao thì càng phổ biến hơn.

In [24]:
plt.figure(figsize=(10, 8))

# Scatter plot for duration vs popularity
# Tạo thêm cột duration để chuyển đổi thời lượng từ ms sang giây
data['duration'] = data['duration_ms'] / 1000

sns.scatterplot(x='duration', y='popularity', hue='track_genre_categorical', data=data[data['track_genre_categorical'].isin(top_genres.index)], alpha=0.7, palette='husl')
plt.title("Duration vs. Popularity by Genre")
plt.xlabel("Duration in seconds")
plt.ylabel("Popularity")


plt.show()

- Các bài hát phổ biến thường có thời lượng từ 230s đến 250s

## Kết luận EDA
- Kpop và Pop là 2 thể loại phổ biến nhất, theo sau là Metal Rock và Chill.
- Có vẻ như có nhiều bài hát có "danceability" cao nhưng không phải lúc nào cũng phổ biến. Nhưng vẫn có độ dốc nhất định cho thấy nhiều bài hát có "danceability" cao thì càng phổ biến hơn.
- Các bài hát phổ biến thường có thời lượng từ 230s đến 250s
- Chỉ số energy của bài hát thể hiện đúng tính chất của thể loại nhạc đó 
- Không thấy được sự tương quan rõ ràng giữa lời bài hát và độ phổ biến vì chỉ có biến explicit làm đại diện cho lời bài hát nhưng không đanh giá được chất lượng của lời bài hát 

# Bài toán phân cụm

## Mục tiêu của nhóm là xây dựng một hệ thống gợi ý dựa trên nội dung của bài hát. 
- Nhóm sẽ gom các thuộc tính ảnh hưởng tới nội dung của bài hát như danceability, energy, key, loudness, mode, speechiness, acousticness, instrumentalness, liveness, valence, tempo, track_genre, explicit để phân cụm các bài hát.
- Nhóm sẽ test và đánh giá 4 phương pháp, mô hình phân cụm bao gồm K-means, Gaussian Mixture Model, DBSCAN và AutoEncoder kết hợp với K-means để chọn ra mô hình tốt nhất.
- Sau khi chọn ra mô hình tốt nhất, nhóm sẽ lưu lại mô hình và dữ liệu đã được gán nhãn để sử dụng cho việc gợi ý bài hát.
- Với mỗi bài hát đầu vào, hệ thống sẽ dùng mô hình đã được huấn luyện để dự báo nhãn của bài hát đó và tìm kiếm những bài hát có nhãn tương tự, tiếp theo sử dụng cosine similarity để tìm ra 10 bài hát tương tự nhất.  

## Dữ liệu này là dữ liệu không gán nhãn và sự dụng phuơng pháp intrinsic evaluation để đánh giá mô hình  

Vì dữ liệu thuộc dải số lớn nên nhóm sẽ sử dụng MinMaxScaler để chuẩn hóa dữ liệu, chuẩn hóa các thuộc tính ảnh hưởng tới nội dung của bài hát như danceability, energy, key, loudness, mode, speechiness, acousticness, instrumentalness, liveness, valence, tempo, track_genre, explicit

In [61]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
#train_data
music_features_train = data[['danceability', 'energy', 'key',
                           'loudness', 'mode', 'speechiness', 'acousticness',
                           'instrumentalness', 'liveness', 'valence', 'tempo', 'track_genre', 'explicit']].values
music_features_scaled_train = scaler.fit_transform(music_features_train)
#Lưu lại scaler đã được fit
import pickle
filename = 'scaler.sav'
pickle.dump(scaler, open(filename, 'wb'))
print(music_features_scaled_train.shape)

# K-means

In [26]:
# Cho số lượng cụm để chạy tìm cụm nào cho điểm cao nhất
from yellowbrick.cluster import SilhouetteVisualizer
from sklearn.metrics import silhouette_score
from sklearn.cluster import KMeans
from yellowbrick.cluster import KElbowVisualizer

model = KMeans(init="k-means++")
visualizer = KElbowVisualizer(model, k=(1,25))
visualizer.fit(music_features_scaled_train)
visualizer.show()

Chọn số cụm là 9

In [28]:
# Test score

kmean = KMeans(init="k-means++", n_clusters=9)
visualizer = SilhouetteVisualizer(kmean, colors='yellowbrick')

visualizer.fit(music_features_scaled_train)        # Fit the data to the visualizer
visualizer.show()        # Finalize and render the figure

In [29]:
print(f"Silhouette Score for KMeans", silhouette_score(music_features_scaled_train, kmean.labels_))

In [30]:
# Giảm chiều dữ liệu để vẽ biểu đồ mô tả phân cụm
from sklearn.manifold import TSNE
import plotly.express as px

tsne = TSNE(n_components=2)
tsne_results = tsne.fit_transform(music_features_scaled_train)

In [31]:
# Vẽ biểu đồ phân cụm (sử dụng được cho nhiều model khác nhau)


import matplotlib.patheffects as PathEffects
import seaborn as sns
import numpy as np

def _plot_kmean_scatter(X, labels):
    '''
    X: dữ liệu đầu vào
    labels: nhãn dự báo
    '''
    # lựa chọn màu sắc
    num_classes = len(np.unique(labels))
    palette = np.array(sns.color_palette("hls", num_classes))

    # vẽ biểu đồ scatter
    fig = plt.figure(figsize=(12, 8))
    ax = plt.subplot()
    sc = ax.scatter(X[:,0], X[:,1], lw=0, s=40, c=palette[labels])
    plt.xlim(-150, 150)
    plt.ylim(-150, 150)

    # thêm nhãn cho mỗi cluster
    txts = []

    for i in range(num_classes):
        # Vẽ text tên cụm tại trung vị của mỗi cụm
        xtext, ytext = np.median(X[labels == i, :], axis=0)
        txt = ax.text(xtext, ytext, str(i), fontsize=24)
        txt.set_path_effects([
            PathEffects.Stroke(linewidth=5, foreground="w"),
            PathEffects.Normal()])
        txts.append(txt)
    plt.title('t-sne visualization')

_plot_kmean_scatter(tsne_results, kmean.labels_)

In [32]:
# Nhóm sẽ lưu lại dữ liệu và gắn nhãn để đánh giá tính chất của các cụm
k_mean_labels = kmean.labels_
k_mean_data_labels = data
k_mean_data_labels['cluster'] = k_mean_labels

k_mean_data_labels.to_csv('saved_data/k_mean_data_labels.csv')

# Gaussian Mixture Model

- Sử dụng BIC score để chọn số cụm tốt nhất và loại covariance type tốt nhất

In [33]:
from sklearn.mixture import GaussianMixture
import numpy as np
import pandas as pd
import seaborn as sns
import itertools
from scipy import linalg
import matplotlib.pyplot as plt
import matplotlib.patheffects as PathEffects
from matplotlib.patches import Ellipse
from sklearn.preprocessing import MinMaxScaler
from sklearn.mixture import GaussianMixture

lowest_bic = np.infty
bic = []
n_components_range = range(1, 7)
# cv_types = ['spherical', 'tied', 'diag', 'full']
cv_types = ['full', 'tied']
for cv_type in cv_types:
    for n_components in n_components_range:
        # Fit Gaussian mixture theo phương pháp huấn luyện EM
        gmm = GaussianMixture(n_components=n_components,
                              covariance_type=cv_type)
        gmm.fit(music_features_scaled_train)
        bic.append(gmm.bic(music_features_scaled_train))
        # Gán model có BIC scores thấp nhất là model tốt nhất
        if bic[-1] < lowest_bic:
            lowest_bic = bic[-1]
            best_gmm = gmm

bic = np.array(bic)
color_iter = itertools.cycle(['navy', 'turquoise'])
clf = best_gmm
bars = []

# Vẽ biểu đồ BIC scores
plt.figure(figsize=(12, 8))
for i, (cv_type, color) in enumerate(zip(cv_types, color_iter)):
    xpos = np.array(n_components_range) + .2 * (i - 2)
    bars.append(plt.bar(xpos, bic[i * len(n_components_range):
                                  (i + 1) * len(n_components_range)],
                        width=.2, color=color))
plt.xticks(n_components_range)
plt.ylim([bic.min() * 1.01 - .01 * bic.max(), bic.max()])
plt.title('BIC score per model')
xpos = np.mod(bic.argmin(), len(n_components_range)) + .65 + \
       .2 * np.floor(bic.argmin() / len(n_components_range))
plt.text(xpos, bic.min() * 0.97 + .03 * bic.max(), '*', fontsize=14)
plt.xlabel('Number of components')
plt.legend([b[0] for b in bars], cv_types)

Nhìn vào bảng trên ta chọn được n = 5 và cv_type = full

In [34]:
# Test score

model = best_gmm
labels = model.predict(music_features_scaled_train)

print(f"Silhouette Score for Gaussian Mixture Model", silhouette_score(music_features_scaled_train, labels))

In [35]:
# Vẽ biểu đồ phân cụm
labels = best_gmm.predict(music_features_scaled_train)
_plot_kmean_scatter(tsne_results, labels)

In [36]:
# Nhóm sẽ lưu lại dữ liệu và gắn nhãn để đánh giá tính chất của các cụm
gmm_labels = labels
gmm_data_labels = data
gmm_data_labels['cluster'] = labels

gmm_data_labels.to_csv('saved_data/gmm_data_labels.csv')

# DBSCAN

In [44]:
# Tìm eps bằng cách sử dụng NearestNeighbors với n_neighbors = minpts
# Tuy nhiên với dữ liệu đầu vào lớn như bộ dữ liệu Spotify, minpts cũng lớn nên ta sẽ chọn khoảng cách xa nhất từ phạm vi láng giềng của mỗi điểm


import pandas as pd
from sklearn.cluster import DBSCAN
import matplotlib.pyplot as plt
import matplotlib.patheffects as PathEffects
import seaborn as sns
import numpy as np

from sklearn.neighbors import NearestNeighbors


neighbors = 15
nbrs = NearestNeighbors(n_neighbors=neighbors ).fit(music_features_scaled_train)

# Ma trận khoảng cách distances: (N, k)
distances, indices = nbrs.kneighbors(music_features_scaled_train)

# Lấy ra khoảng cách xa nhất từ phạm vi láng giềng của mỗi điểm và sắp xếp theo thứ tự giảm dần.
distance_desc = sorted(distances[:, neighbors-1], reverse=True)

# Vẽ biểu đồ khoảng cách xa nhất ở trên theo thứ tự giảm dần
plt.figure(figsize=(12, 8))
plt.plot(list(range(1,len(distance_desc )+1)), distance_desc)
plt.axhline(y=0.45)
plt.text(2, 0.45, 'y = 0.45', fontsize=12)
plt.ylabel('distance')
plt.xlabel('indice')
plt.title('Sorting Maximum Distance in k Nearest Neighbor of kNN')
plt.show()

Ta thấy điểm elbow là 0.5 nên ta thử với elps = 0.5

In [45]:
# Huấn luyện model 

dbscan = DBSCAN(eps=0.45,
       min_samples=5,
       metric='euclidean',
       algorithm='auto'
       )
dbscan.fit(music_features_scaled_train)

# Vẽ biểu đồ phân cụm
_plot_kmean_scatter(tsne_results, dbscan.labels_)

In [46]:
print(f"Silhouette Score for DBSCAN", silhouette_score(music_features_scaled_train, dbscan.labels_))

In [47]:
# Nhóm sẽ lưu lại dữ liệu và gắn nhãn để đánh giá tính chất của các cụm
dbscan_labels = dbscan.labels_
dbscan_data_labels = data
dbscan_data_labels['cluster'] = dbscan_labels

dbscan_data_labels.to_csv('saved_data/dbscan_data_labels.csv')

# Sử dụng AutoEncoder kết hợp với K-means để phân cụm 

### AutoEncoder sẽ dùng để giảm chiều dữ liệu, sử dụng thư viện Tensorflow 

In [49]:
from tensorflow.keras.layers import Input, Add, Dense, Activation, ZeroPadding2D, BatchNormalization, Flatten, Conv2D, AveragePooling2D, MaxPooling2D, Dropout
from tensorflow.keras.models import Model, load_model
from tensorflow.keras.initializers import glorot_uniform
from tensorflow.keras.optimizers import SGD

encoding_dim = 2

input_df = Input(shape=(13,))


# Glorot normal initializer (Xavier normal initializer) draws samples from a truncated normal distribution 

x = Dense(encoding_dim, activation='relu')(input_df)
x = Dense(500, activation='relu', kernel_initializer = 'glorot_uniform')(x)
x = Dense(500, activation='relu', kernel_initializer = 'glorot_uniform')(x)
x = Dense(2000, activation='relu', kernel_initializer = 'glorot_uniform')(x)

encoded = Dense(10, activation='relu', kernel_initializer = 'glorot_uniform')(x)

x = Dense(2000, activation='relu', kernel_initializer = 'glorot_uniform')(encoded)
x = Dense(500, activation='relu', kernel_initializer = 'glorot_uniform')(x)

decoded = Dense(13, kernel_initializer = 'glorot_uniform')(x)

# autoencoder
autoencoder = Model(input_df, decoded)

#encoder - used for our dimention reduction
encoder = Model(input_df, encoded)

autoencoder.compile(optimizer= 'adam', loss='mean_squared_error')

In [50]:
autoencoder.fit(music_features_scaled_train, music_features_scaled_train, batch_size = 128, epochs = 25,  verbose = 1)

In [51]:
autoencoder.summary()

In [52]:
autoencoder.save_weights('autoencoder.weights.h5')

In [53]:
pred = encoder.predict(music_features_scaled_train)

In [54]:
model = KMeans(init="k-means++")
visualizer = KElbowVisualizer(model, k=(1,25))
visualizer.fit(pred)
visualizer.show()

In [55]:
model = KMeans(init="k-means++", n_clusters=8)
model.fit(pred)
labels = model.labels_
y_kmeans = model.fit_predict(music_features_scaled_train)

In [56]:
_plot_kmean_scatter(tsne_results, labels)

In [57]:
print(f"Silhouette Score for AutoEncoder + KMeans", silhouette_score(music_features_scaled_train, labels))

In [58]:
# Nhóm sẽ lưu lại dữ liệu và gắn nhãn để đánh giá tính chất của các cụm
kmean_autoencoder_labels = labels
kmean_autoencoder_data_labels = data
kmean_autoencoder_data_labels['cluster'] = labels

kmean_autoencoder_data_labels.to_csv('saved_data/kmean_autoencoder_data_labels.csv')

# So sánh các mô hình

- Vì dữ liệu không gán nhãn nên nhóm sử dụng phương pháp intrinsic evaluation để đánh giá mô hình
- Nhóm sẽ sử dụng silhouette score để đánh giá mô hình và đánh giá dữ liệu đã gán nhãn thủ công để xem xét mô hình nào phù hợp nhất


## Với Silhouette Score
- K-means: 0.15950412552652185
- Gaussian Mixture Model: 0.12385685016737732
- DBSCAN: 0.19205934884345846
- AutoEncoder + K-means: 0.09205263513018441

### Với điểm số silhouette, DBSCAN và K-means cho kết quả tốt nhất
- Tuy nhiên nhìn vào biểu đồ phân cụm, ta thấy K-means có chất lượng phân cụm tốt hơn
- Vì vậy nhóm sẽ kiểm tra qua dữ liệu đã gán nhãn một lượt 

In [59]:
# Tải dữ liệu đã gán nhãn của hai mô hình K-means và DBSCAN
k_mean_data_labels = pd.read_csv('saved_data/k_mean_data_labels.csv')
dbscan_data_labels = pd.read_csv('saved_data/dbscan_data_labels.csv')

In [62]:
# Gán "music_features" vào dữ liệu đã gán nhãn
labeled_df = k_mean_data_labels
labeled_df['music_features'] = music_features_scaled_train.tolist()
print(labeled_df)

In [63]:
#Lưu lại model
import pickle

filename = 'finalized_model.sav'
pickle.dump(kmean, open(filename, 'wb'))

In [64]:
#Save labeled data
labeled_df.to_csv('saved_data/labeled_data.csv')

Sau khi hoàn thành việc huấn luyện và gán nhãn dữ liệu, mục tiêu của đồ án sẽ là tạo ra một hệ thống gợi ý dựa trên nội dung của bài hát
Sau khi lựa chọn một bài hát bất kỳ từ dữ liệu, gom các thuôộc tinính laại, transform chúng bănằng Min Max Scaler đã đươợc lưu từ ban đầu
Hệ thống sẽ dự báo nhãn của bài hát đó và tìm kiếm những bài hát có nhãn tương tự
Sắp xếp theo similarity score và trả về 10 bài hát tương tự   

In [67]:
import pickle

# Hàm dự báo nhãn của bài hát

def cluster_predict(data):
    loaded_model = pickle.load(open("finalized_model.sav", 'rb'))
    prediction = loaded_model.predict(np.array(data))
    return prediction

In [78]:
from sklearn.metrics.pairwise import cosine_similarity
import ast

def recommend_util(track_id):
    if track_id not in data['track_id'].values:
        print(f"'{track_id}' not found in the dataset. Please enter a valid song name.")
        return

    # match on the basis course-id and form whole 'Description' entry out of it.
    song = (data.loc[data['track_id'] == track_id]).head(1)
    mf = song[['danceability', 'energy', 'key',
                            'loudness', 'mode', 'speechiness', 'acousticness',
                            'instrumentalness', 'liveness', 'valence', 'tempo', 'track_genre', 'explicit']].values
    
    scaler = pickle.load(open('scaler.sav', 'rb'))
    mfs = scaler.transform(mf)

    prediction_inp = cluster_predict(mfs)
    
    data_labeled = pd.read_csv('saved_data/labeled_data.csv')
    same_cluster_songs = data_labeled.loc[data_labeled['cluster'] == prediction_inp[0]]
    music_features_ar = same_cluster_songs['music_features'].to_numpy()
    music_features_ar = np.array([ast.literal_eval(x) for x in music_features_ar])
    
    similarity_scores = cosine_similarity(np.array(mfs), music_features_ar)

    # Get the indices of the most similar songs
    # Get first 50 song indices
    similar_song_indices = similarity_scores.argsort()[0][::-1][2:52]
    
    # Sau đó sẽ sắp xếp dựa trên popularity 

    content_based_recommendations = same_cluster_songs.iloc[similar_song_indices, :].sort_values('popularity', ascending=False).head(10)

    return content_based_recommendations
print("%%HTML\n" ,recommend_util("3hUxzQpSfdDqwM3ZTFQY0K").to_html())