# Курсовая работа по теме "Машинное обучение в задачах рекомендации музыки с использованием Spotify API и Python"

Набор данных с миллионом плейлистов (MPD), предоставленный Spotify, содержит 1 миллион плейлистов, созданных пользователями Spotify. Этот обширный набор данных (около 5,4 ГБ) был разделен на 1000 файлов, каждый из которых содержит 1000 плейлистов, что в общей сложности составляет 1 000 000 плейлистов.

Учитывая его огромный размер, сбор всех данных был нецелесообразен. Поэтому было решено использовать около 6 файлов JSON (ограничения оборудования) и работать только с некоторыми важными функциями, извлекаемыми с помощью вызовов API Spotify. Spotify структурирует свои данные, относящиеся к каждой песне, в четырех объектах: объект трека, объект исполнителя, объект альбома и объект звуковых характеристик. Все они относительно понятны с точки зрения хранимой информации, за исключением звуковых характеристик - этот объект хранит множество количественных данных, которые Spotify присваивает песням, таких как энергия, акустичность и т. д.

Общий метод сбора данных заключался в запросе всех четырех объектов, которые соответствовали каждой песне в плейлисте, на которую ссылается URI трека (уникальный идентификатор для каждого трека).

Этот метод сбора данных выявил несколько проблем с точки зрения масштабируемости.

1. Для получения любого из этих объектов требовался токен авторизации, но временный токен можно было легко запросить у API Spotify. Однако это требовало периодического ручного получения новых токенов, что значительно ограничивало временные рамки для сбора данных, поскольку нельзя было оставить компьютер для сбора данных во время работы, сна и т. д.
2. Spotify блокировал токены, которые слишком часто обращались к конечным точкам API, поэтому на быстром Wi-Fi и компьютерах сбор данных иронично был значительно более сложным, при этом новые токены требовались всего для 50 песен. Для обхода этой проблемы использовались более медленные мобильные точки доступа, что позволило избежать механизма блокировки. К сожалению, это приводило к побочному эффекту значительно более низкой скорости запросов, хотя и для меньшего обслуживания.
3. Во время сбора данных часто происходили случайные остановки из-за ошибок запросов; они не происходили по какой-либо закономерности, и причины их возникновения не были установлены.

Из-за вышеупомянутых факторов было собрано более 32 000 песен из плейлистов, что составляет 19 000 песен после удаления дубликатов. Это значительный объем данных, но без данных для всех песен, которые существуют в Spotify, что было бы почти невыполнимой задачей, пришлось разработать модели с определенными обходными путями.

## Глава 1. Сбор данных с использованием Spotify API

In [27]:
%%bash
head 'mpd.slice.0-999.json'

{
    "info": {
        "generated_on": "2017-12-03 08:41:42.057563", 
        "slice": "0-999", 
        "version": "v1"
    }, 
    "playlists": [
        {
            "name": "Throwbacks", 
            "collaborative": "false", 


Открытие текущего файла с 1000 плейлистами

In [28]:
import ijson

filename = "mpd.slice.0-999.json"

with open(filename, 'r') as f:
    objects = ijson.items(f, 'playlists.item')
    columns = list(objects)

In [29]:
column_names = [col["tracks"] for col in columns]

Получение URI и названия треков из плейлистов; они будут использованы в качестве ориентиров при работе с API Spotify

In [30]:
playlists = column_names
track_features_uri = []
track_features_name = []
for playlist in playlists:
    for tracks in playlist:
        track_features_uri.append(tracks["track_uri"])
        track_features_name.append(tracks["track_name"])

In [31]:
import pandas as pd

In [32]:
track_features = pd.DataFrame(track_features_name, columns=['track_name'])
track_features["ids"] = track_features_uri
track_features = track_features.drop_duplicates()
track_features.ids = track_features.ids.str.slice(14)
track_features = track_features.reset_index()
track_features.head()

Unnamed: 0,index,track_name,ids
0,0,Lose Control (feat. Ciara & Fat Man Scoop),0UaMYEvWZi0ZqiDOoHU3YI
1,1,Toxic,6I9VzXrHxO9rA9A5euc8Ak
2,2,Crazy In Love,0WqIKmW4BTrj3eJFmnCKMv
3,3,Rock Your Body,1AWQoqb9bSvzTjaLralEkT
4,4,It Wasn't Me,1lzr43nnXAijIGYnCT8M8H


In [33]:
import requests

Создание различных массивов для хранения данных последующих столбцов фрейма данных, выбор потенциально значимых атрибутов был произведен вручную

In [34]:
# из объекта трек 
album_id = [] 
album_name = [] 
album_release_date = [] 

track_artist_ids = [] 

track_id = [] 
track_duration_ms = [] 
track_explicit = [] 
track_name = [] 
track_popularity = [] 

# из объекта аудио признаков
danceability = []
energy = []
key = []
loudness = []
mode = []
speechiness = []
acousticness = []
instrumentalness = []
liveness = []
valence = []
tempo = []
audio_features_id = []

# из объекта исполнителя
artist1_id = []
followers = []
artist_popularity = []
artist_genre1 = []
artist_genre2 = []
artist_genre3 = []

# из объекта альбом
album_label = []
album_popularity = []

Функция для получения токена для доступа к Spotify API, для сохранения конфиденциальности `client_id` и `client_secret` были изменены

In [45]:
def get_spotify_token(client_id, client_secret):
    auth_url = 'https://accounts.spotify.com/api/token'
    data = {
        'grant_type': 'client_credentials',
        'client_id': client_id,
        'client_secret': client_secret,
    }
    auth_response = requests.post(auth_url, data=data)
    access_token = auth_response.json().get('access_token')
    return access_token
spid = '3b88849d7e4b4e74b8aaceffe0a549df'
spsecret = 'bb0ae5a0d78148d3a994ded6ea55348a'
token = get_spotify_token(spid,spsecret)
token

'BQB-nkxIjdBXZfPrcubl2I3JRjww7SZzk5jsR6iRxfoS_7JP8U9xzxmpBtYTsUoX7urrOd_4FpTnAFhr-TxXRAP-bHQCjWu4FLZPNlt8NT9TFd12AyY'

In [47]:
i=0
for ids in track_features.ids:
    
    # ИЗ ОБЪЕКТА ТРЕК
    track_features_endpoint = "https://api.spotify.com/v1/tracks/{}".format(ids)
    # указанный ниже токен авторизации необходимо периодически менять и вручную запрашивать у Spotify API
    headers = {"Authorization":"Bearer BQB-nkxIjdBXZfPrcubl2I3JRjww7SZzk5jsR6iRxfoS_7JP8U9xzxmpBtYTsUoX7urrOd_4FpTnAFhr-TxXRAP-bHQCjWu4FLZPNlt8NT9TFd12AyY"}
    rep = requests.get(url=track_features_endpoint, headers=headers).json()
    album_id.append(rep['album']['id'])
    cur_album_id = album_id[i]
    
    album_name.append(rep["album"]["name"])
    album_release_date.append(rep["album"]["release_date"])
    
    track_artist_ids.append([artist['id'] for artist in rep['artists']]) #this is multiple but we're only doing 1st
    track_artist_id1 = track_artist_ids[i][0]
    
    track_id.append(rep['id'])
    track_duration_ms.append(rep["duration_ms"])
    track_explicit.append(rep["explicit"])
    track_name.append(rep["name"])
    track_popularity.append(rep["popularity"])
    
    # ИЗ ОБЪЕКТА ИСПОЛНИТЕЛЬ
    artists_endpoint = "https://api.spotify.com/v1/artists/{}".format(track_artist_id1)
    rep = requests.get(url=artists_endpoint,headers=headers).json()
    artist1_id.append(rep['id'])
    followers.append(rep["followers"]["total"])
    artist_popularity.append(rep["popularity"])
    if len(rep['genres']) >= 1:
        artist_genre1.append(rep['genres'][0])
    else:
        artist_genre1.append(None)
    if len(rep['genres']) >= 2:
        artist_genre2.append(rep['genres'][1])
    else:
        artist_genre2.append(None)
    if len(rep['genres']) >= 3:
        artist_genre3.append(rep['genres'][2])
    else:
        artist_genre3.append(None)
    
    
    # ИЗ ОБЪЕКТА АУДИО ПРИЗНАКОВ
    audio_features_endpoint = "https://api.spotify.com/v1/audio-features/{}".format(ids)
    rep = requests.get(url=audio_features_endpoint, headers=headers).json()
    danceability.append(rep["danceability"])
    energy.append(rep["energy"])
    key.append(rep["key"])
    loudness.append(rep["loudness"])
    mode.append(rep["mode"])
    speechiness.append(rep["speechiness"])
    acousticness.append(rep["acousticness"])
    instrumentalness.append(rep["instrumentalness"])
    liveness.append(rep["liveness"])
    valence.append(rep["valence"])
    tempo.append(rep["tempo"])
    audio_features_id.append(rep['id'])
    
    # ИЗ ОБЪЕКТА АЛЬБОМ
    albums_endpoint = "https://api.spotify.com/v1/albums/{}".format(cur_album_id)
    rep = requests.get(url=albums_endpoint, headers=headers).json()
    album_label.append(rep["label"])
    album_popularity.append(rep["popularity"])
    
    if i==500:
        break
    # печать всех i чтобы понять когда прерывается scraping
    print("{}".format(i))
    i = i + 1

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
27

In [48]:
s = '''album_id.append(None)
album_name.append(None)
album_release_date.append(None)
track_artist_ids.append(None)
track_id.append(None)
track_duration_ms.append(None)
track_explicit.append(None)
track_name.append(None)
track_popularity.append(None)
artist1_id.append(None)
followers.append(None)
artist_popularity.append(None)
artist_genre1.append(None)
artist_genre2.append(None)
artist_genre3.append(None)
danceability.append(None)
energy.append(None)
key.append(None)
loudness.append(None)
mode.append(None)
speechiness.append(None)
acousticness.append(None)
instrumentalness.append(None)
liveness.append(None)
valence.append(None)
tempo.append(None)
audio_features_id.append(None)
album_label.append(None)
album_popularity.append(None)'''
s = s.replace('append(None)\n', '.')
s = s.split('.')
# n = []
while (s.count('')):
    s.remove('')
s.pop()
for i in s:
    array = globals()[i]
    print(len(array), i)

1268 album_id
1268 album_name
1268 album_release_date
1268 track_artist_ids
1268 track_id
1268 track_duration_ms
1268 track_explicit
1268 track_name
1268 track_popularity
1268 artist1_id
1268 followers
1268 artist_popularity
1268 artist_genre1
1268 artist_genre2
1268 artist_genre3
1268 danceability
1268 energy
1268 key
1268 loudness
1268 mode
1268 speechiness
1268 acousticness
1268 instrumentalness
1268 liveness
1268 valence
1268 tempo
1268 audio_features_id
1268 album_label
1268 album_popularity


Клетку ниже нельзя запускать заново, она гарантирует, что при объединении всех списков в один датафрейм, он не отбросит автоматически столбцы без данных, ее следует запускать только при прерывании процесса сбора данных

In [49]:
# # tracks
# album_id.append(None)
# album_name.append(None)
# album_release_date.append(None)

# track_artist_ids.append(None)

# track_id.append(None)
# track_duration_ms.append(None)
# track_explicit.append(None)
# track_name.append(None)
# track_popularity.append(None)

# #artists 
# artist1_id.append(None)
# followers.append(None)
# artist_popularity.append(None)
# artist_genre1.append(None)
# artist_genre2.append(None)
# artist_genre3.append(None)

# #audio features 
# danceability.append(None)
# energy.append(None)
# key.append(None)
# loudness.append(None)
# mode.append(None)
# speechiness.append(None)
# acousticness.append(None)
# instrumentalness.append(None)
# liveness.append(None)
# valence.append(None)
# tempo.append(None)
# audio_features_id.append(None)

# #albums
# album_label.append(None)
# album_popularity.append(None)

Объединение всех массивов в один датафрейм

In [50]:
track_records = pd.DataFrame(album_id, columns=['album_id'])

track_records["album_name"] = album_name
track_records["album_release_date"] = album_release_date

track_records["track_artist_ids"] = track_artist_ids

track_records['track_id'] = track_id
track_records["track_duration_ms"] = track_duration_ms
track_records["track_explicit"] = track_explicit
track_records["track_name"] = track_name
track_records["track_popularity"] = track_popularity


track_records["danceability"] = danceability
track_records["energy"] = energy
track_records["key"] = key
track_records["loudness"] = loudness
track_records["mode"] = mode
track_records["speechiness"] = speechiness
track_records["acousticness"] = acousticness
track_records["instrumentalness"] = instrumentalness
track_records["liveness"] = liveness
track_records["valence"] = valence
track_records["tempo"] = tempo
track_records["audio_features_id"] = audio_features_id

track_records['artist1_id'] = artist1_id
track_records['followers'] = followers
track_records['artist_popularity'] = artist_popularity
track_records['artist_genre1'] = artist_genre1
track_records['artist_genre2'] = artist_genre2
track_records['artist_genre3'] = artist_genre3

track_records['album_label'] = album_label
track_records['album_popularity'] = album_popularity

In [51]:
track_records.shape

(1268, 29)

In [52]:
track_records

Unnamed: 0,album_id,album_name,album_release_date,track_artist_ids,track_id,track_duration_ms,track_explicit,track_name,track_popularity,danceability,...,tempo,audio_features_id,artist1_id,followers,artist_popularity,artist_genre1,artist_genre2,artist_genre3,album_label,album_popularity
0,6vV5UrXcfyQD1wu4Qo2I9K,The Cookbook,2005-07-04,"[2wIVse2owClT7go1WT98tk, 2NdeV5rLm47xAvogXrYhJ...",0UaMYEvWZi0ZqiDOoHU3YI,226863,True,Lose Control (feat. Ciara & Fat Man Scoop),67,0.904,...,125.461,0UaMYEvWZi0ZqiDOoHU3YI,2wIVse2owClT7go1WT98tk,2440303,67,dance pop,hip hop,hip pop,Atlantic Records/ATG,54
1,0z7pVBGOD7HCIB7S8eLkLI,In The Zone,2003-11-13,[26dSoYclwsYLMAKD3tpOr4],6I9VzXrHxO9rA9A5euc8Ak,198800,False,Toxic,85,0.774,...,143.040,6I9VzXrHxO9rA9A5euc8Ak,26dSoYclwsYLMAKD3tpOr4,14347349,78,dance pop,pop,,Jive,72
2,25hVFAxTlDvXbx2X2QkUkE,Dangerously In Love (Alben für die Ewigkeit),2003-06-23,"[6vWDO969PvNqNYHIOW5v0m, 3nFkdlSjzX9mRTtwJOzDYB]",0WqIKmW4BTrj3eJFmnCKMv,235933,False,Crazy In Love (feat. Jay-Z),18,0.664,...,99.252,0WqIKmW4BTrj3eJFmnCKMv,6vWDO969PvNqNYHIOW5v0m,37308245,87,pop,r&b,,Columbia,9
3,6QPkyl04rXwTGlGlcYaRoW,Justified,2002-11-04,[31TPClRtHm23RisEBtV3X7],1AWQoqb9bSvzTjaLralEkT,267266,False,Rock Your Body,80,0.892,...,100.972,1AWQoqb9bSvzTjaLralEkT,31TPClRtHm23RisEBtV3X7,13962903,79,dance pop,pop,,Jive,71
4,6NmFmPX56pcLBOFMhIiKvF,Hot Shot (International Version #2),2000,"[5EvFsr3kj42KNv97ZEnqij, 67wCYxOq4A1ohAs7jWYaOJ]",1lzr43nnXAijIGYnCT8M8H,227600,False,It Wasn't Me,2,0.853,...,94.759,1lzr43nnXAijIGYnCT8M8H,5EvFsr3kj42KNv97ZEnqij,2157783,69,dance pop,pop rap,reggae fusion,Geffen,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1263,4vslpYaKUd2FnMGkZcq7vK,Out Of Hand,1975-10-29,[3KmQJ2e3T7Gn1UurVpReXs],58e5NT8x76aW7vfg2HxIpi,181280,False,Out of Hand,38,0.696,...,111.688,58e5NT8x76aW7vfg2HxIpi,3KmQJ2e3T7Gn1UurVpReXs,55920,42,classic country pop,classic texas country,outlaw country,RCA/Legacy,46
1264,44YPIDUqls7ywVmbdhpi83,Keep Movin On,1975,[3mSAqBoXQgdlpwzWsIgBzL],1r717VaFVWg0GpgMGwWssL,162533,False,Kentucky Gambler,19,0.378,...,198.882,1r717VaFVWg0GpgMGwWssL,3mSAqBoXQgdlpwzWsIgBzL,31897,49,bakersfield sound,,,Capitol Nashville,19
1265,0WDLHYfYqgIImdedUu4XXz,Killin' Time,1989-05-04,[3Ay15wt0QChT4Kapsuw5Jt],3otZLoLcx2d74hx8RaHXh6,167933,False,Killin' Time,52,0.711,...,121.294,3otZLoLcx2d74hx8RaHXh6,3Ay15wt0QChT4Kapsuw5Jt,1026718,54,contemporary country,country,country road,RCA Records Label,43
1266,7gC2wqVTLdW3xF1APhY7at,Best Of The Best Of,1972-01-01,[3mSAqBoXQgdlpwzWsIgBzL],5Afue9VTRQFArYOjtyUCri,172266,False,The Fightin' Side Of Me,39,0.757,...,95.238,5Afue9VTRQFArYOjtyUCri,3mSAqBoXQgdlpwzWsIgBzL,31897,49,bakersfield sound,,,Capitol Nashville,34


Экспортирование датафрейма в csv файл, позже все файлы будут собраны в один csv файл в Excel

In [53]:
track_records.to_csv("0-999,1268.csv", sep=',')

Представленный выше процесс сбора данных был повторен со всеми доступными json-файлами