#  Data Random Extract

En este notebook se realizará la extracción aleatoria de canciones de *spotify*, para luego coger aquellas que no han sido hits y fusionarlas con las que si y tener un dataset completo que entrenar usando diferentes modelos de aprendizaje supervisado.

Para ello, en el objeto Music_Data se ha añadido una función que dado un usuario de spotify, se permite extraer todas las canciones con sus características de todas las playlists públicas de este.

Para obtener un gran número de canciones, se va a proceder a descargar toda las canciones de los usuarios "spotifyusa" (Es el perfil oficial de *spotify* en Estados unidos) y "spotify" (El perfil oficial de *spotify* con gran cantidad de playlist y de canciones).

Posteriormente en el notebook 4, se procederá a descartar aquellas que son *hit* y fusionarlas con el dataset de *hits*.

In [2]:
from music_data import Music_Data
from datetime import datetime, timedelta
import pandas as pd
import numpy as np

In [3]:
# sp_cid: Sustituir por spotify client id (str)
# sp_secret: Sustituir por spotify secret id (str)
# ge_token: Sustituir Genius secret id (str)
data_music = Music_Data("sp_cid","sp_secret","ge_token")

Se realiza la extracción de canciones del usuario spotifyusa

In [29]:
df_usa = data_music.Get_User_Playlist_Data("spotifyusa")

   1 spotify:playlist:5XMD9KijmqXQFnRYJHDU9P Spotify’s Top U.S. Songs of Summer 2018
   2 spotify:playlist:1KSfZ4S1ZdNoSwerYTPg4n Miguel - War & Leisure
   3 spotify:playlist:1ZgeodsR3yxEDwJqpQBcTr The Sound of Franz Ferdinand
   4 spotify:playlist:1wUkqlbJjaPJEYZeTB6VYq Top Boy Bands
   5 spotify:playlist:5HKqLEIIwlcj3t4nha4TdD Surgeons Soundtrack
   6 spotify:playlist:3waye7J9nNRZk43rTBTJqE Top Daddy Tracks
   7 spotify:playlist:37i9dQZF1DX76sdHoywvaM 50 Years of Songs of the Summer
   8 spotify:playlist:4mEL33HeSkI2GR5IzX7EsA Life lessons
   9 spotify:playlist:0TlGf8oZXGUskvsytDk7Rt I got U
  10 spotify:playlist:3bq1V7mi1bnL7AFgmXBC1X SO much love for you, Ma
  11 spotify:playlist:23m37zW9ddJXKoxyxsiKNs Cheers, Mom!
  12 spotify:playlist:7JNFakULMkDzWOI83vlsim Why was I born?
  13 spotify:playlist:49lPHYZ9yqIdfAY6sE6OaT Mayor Marty Walsh’s Super Bowl LI New England Patriots Playlist
  14 spotify:playlist:0Px7aFiRZ99RYsXwgb1f2e Shopping 2016
  15 spotify:playlist:4fUVl0iCaYImWpq1Ky9q

In [96]:
df_usa.to_csv("../Data/random_songs_usa.csv", index = False, header=True)

Ya que tenemos *hits* desde 1958, procedemos a descartar todas aquellas canciones anteriores a esta fecha.

In [4]:
df_usa_filter = df_usa[df_usa["release_date"]>"1958"]

Eliminamos los duplicados.

In [5]:
df_usa_uniq =df_usa_filter.drop_duplicates(subset ="id", keep = "first") 
# A veces una misma canción, puede tener Ids diferentes, ya que esta se puede encontrar varias veces
# dentro de los artistas, puede aparecer en un recopilatorio, EP, álbum, por ello para asegurarnos de eliminar 
# estas duplicidades, eliminamos los duplicados que coincidan en título y artista.
df_usa_uniq = df_usa_uniq.drop_duplicates(subset = ["artist","title"], keep="first")

In [26]:
df_usa_uniq.to_csv("../Data/random_songs_usa_uniq_1958_2020.csv", index = False, header=True)

Se realiza la extracción de canciones del usuario spotify

In [38]:
df_spotify = data_music.Get_User_Playlist_Data("spotify")

   1 spotify:playlist:37i9dQZF1DXcBWIGoYBM5M Today's Top Hits
   2 spotify:playlist:37i9dQZF1DX0XUsuxWHRQd RapCaviar
   3 spotify:playlist:37i9dQZF1DX1lVhptIYRda Hot Country
   4 spotify:playlist:37i9dQZF1DX10zKzsJ2jva ¡Viva Latino!
   5 spotify:playlist:37i9dQZF1DX4JAvHpjipBk New Music Friday
   6 spotify:playlist:37i9dQZF1DX4dyzvuaRJ0n mint
   7 spotify:playlist:37i9dQZF1DX4SBhb3fqCJd Are & Be
   8 spotify:playlist:37i9dQZF1DWXRqgorJj26U Rock Classics
   9 spotify:playlist:37i9dQZF1DX4sWSpwq3LiO Peaceful Piano
  10 spotify:playlist:37i9dQZF1DXcF6B6QPhFDv Rock This
  11 spotify:playlist:37i9dQZF1DWXJfnUiYjUKT New Music Friday
  12 spotify:playlist:37i9dQZF1DXcRXFNfZr7Tp just hits
  13 spotify:playlist:37i9dQZF1DX4o1oenSJRJd All Out 00s
  14 spotify:playlist:37i9dQZF1DXbTxeAdrVG2l All Out 90s
  15 spotify:playlist:37i9dQZF1DX4UtSsGT1Sbe All Out 80s
  16 spotify:playlist:37i9dQZF1DWTJ7xPn4vNaz All Out 70s
  17 spotify:playlist:37i9dQZF1DXaKIA8E7WcJj All Out 60s
  18 spotify:playlist:37i

In [94]:
df_spotify.to_csv("../Data/random_songs_spotify.csv", index = False, header=True)

In [30]:
df_sp_filter = df_spotify[df_spotify["release_date"]>"1958"]

In [31]:
df_sp_uniq = df_sp_filter.drop_duplicates(subset ="id", keep = "first") 
df_sp_uniq = df_sp_uniq.drop_duplicates(subset = ["artist","title"], keep="first")

In [32]:
df_sp_uniq.to_csv("../Data/random_songs_sp_uniq_1958_2020.csv", index = False, header=True)

Realizamos la concatenación de ambos dataframes generados, eliminando todas las duplicidades que pueda haber.

In [5]:
df_concact = pd.concat([df_sp_uniq, df_usa_uniq])

In [6]:
df_concat_uniq = df_concact.drop_duplicates(subset ="id", keep = "first") 
df_concat_uniq = df_concat_uniq.drop_duplicates(subset = ["artist","title"], keep="first")

Ya que las *playlists* suelen tener temáticas o estilos concretos, y las canciones se han descargado en orden por playlist. Procedemos a mezclar las canciones para dar la mayor aleatoriedad posible.

In [11]:
df_shuffle = df_concat_uniq.sample(frac=1, random_state=33).reset_index(drop=True)

In [8]:
df_shuffle.to_csv("../Data/random_songs_uniq_1958_2020.csv", index = False, header=True)