# Extracción de APIs #

1. Registro con la cuenta de Spotify para conseguir la API Key.
2. Creación de un dashboard para registrar el proyecto.
3. Leer la documentación suministrada por Spotify for Developers y la librería Spotipy.
4. Posteriormente, en la documentación, navegar por el punto "search for item" donde observamos el endpoint (q, type, limit, offset) con el "search".
5. Importamos la librería Spotipy para poder autentificar los requests que nos daba la documentación de las APIs de Spotify (q, type, limit, offset).

In [1]:
pip install python-dotenv

Note: you may need to restart the kernel to use updated packages.


In [2]:
import spotipy
import pandas as pd
from spotipy.oauth2 import SpotifyClientCredentials
from PIL import Image
from io import BytesIO
import matplotlib.pyplot as plt
import os
from dotenv import load_dotenv

In [3]:
load_dotenv()
client_secret = os.getenv("api_key_spotify")

In [4]:
url = "https://accounts.spotify.com/api/token"

client_id = "54778a9f1fd7438d9c5710a72d0ca202"

# Autenticación

client_credential = SpotifyClientCredentials(client_id=client_id, client_secret=client_secret)

sp = spotipy.Spotify(auth_manager=client_credential)

# Llamamos a la API #

1. Con mucho trabajo y esfuerzo, hicimos una primera llamada a la API para extraer los datos entre los años 2000 y 2024. Una vez obtuvimos estos datos, filtramos por año (2021 y 2022), por género (*rock*, *pop*, *rap* e *indie*) y por tracks (canciones).
2. Basándonos en lo anterior, se creó una función para conseguir los datos usando un *bucle for in range* de 50 en 50 hasta 1000 (que es el máximo que ofrece el *offset*) canciones por género y año.
3. La búsqueda de los datos se realizó utilizando la autenticación de la librería Spotipy (sp) y .search que nos proporcionaba la documentación de la API de Spotify.
4. Se crea un bucle for para iterar por los elementos de los datos obtenidos en el paso anterior.
5. Retornamos un *Data Frame* con los datos filtrados necesarios.

In [5]:
def datos_filtrados(año, genero):


    datos_filtrados = {"artista": [], "tipo": [], "título_canción": [], "nombre_album": [], "año": [], 'genre': genero}
    for offset in range(0, 1000, 50):
        datos = sp.search(q=f"genre:{genero} year:{año}", type='track', limit=50, offset=offset)
    
        
        for elemento in datos["tracks"]["items"]:
            datos_filtrados["artista"].append(elemento["album"]["artists"][0]["name"])
            datos_filtrados["tipo"].append(elemento['type'])
            datos_filtrados["título_canción"].append(elemento['name'])
            datos_filtrados["nombre_album"].append(elemento["album"]["name"])
            datos_filtrados["año"].append(elemento["album"]["release_date"][0:4])

    return pd.DataFrame(datos_filtrados)
        

# Extracción de datos #

Creamos diferentes variables por género y año elegidos anteriormente para llamar a la función datos_filtrados y almacenamos las 1000 canciones obtenidas.

In [6]:
rock_2021 = datos_filtrados(2021, 'rock')

In [7]:
rock_2021

Unnamed: 0,artista,tipo,título_canción,nombre_album,año,genre
0,Måneskin,track,I WANNA BE YOUR SLAVE,Teatro d'ira - Vol. I,2021,rock
1,Elton John,track,Cold Heart - PNAU Remix,The Lockdown Sessions,2021,rock
2,Elton John,track,Cold Heart - PNAU Remix,Cold Heart (PNAU Remix),2021,rock
3,Parmalee,track,Just the Way,For You,2021,rock
4,OneRepublic,track,Run,Human (Deluxe),2021,rock
...,...,...,...,...,...,...
995,Fujifabric,track,楽園,I Love You,2021,rock
996,The Cleftones,track,Heart and Soul,The Kids from Queens,2021,rock
997,Chris Lane,track,Ain't Even Met You Yet,Ain't Even Met You Yet,2021,rock
998,grandson,track,Oh No!!! (from The Suicide Squad),Oh No!!! (from The Suicide Squad),2021,rock


In [8]:
rock_2022 = datos_filtrados(2022, 'rock')

rock_2022

Unnamed: 0,artista,tipo,título_canción,nombre_album,año,genre
0,Royel Otis,track,Oysters In My Pocket,Oysters In My Pocket,2022,rock
1,Imagine Dragons,track,Bones,Mercury - Acts 1 & 2,2022,rock
2,Jon Pardi,track,Your Heart Or Mine,Mr. Saturday Night,2022,rock
3,Cole Swindell,track,She Had Me At Heads Carolina,Stereotype,2022,rock
4,The 1975,track,About You,Being Funny In A Foreign Language,2022,rock
...,...,...,...,...,...,...
995,The Slaps,track,Hell No,Tomato Tree,2022,rock
996,Karma To Burn,track,Twenty Nine,Wild Wonderful Purgatory,2022,rock
997,Simple Plan,track,Wake Me Up (When This Nightmare’s Over),Harder Than It Looks,2022,rock
998,Siddhartha,track,Paraíso Lunar,00:00,2022,rock


In [9]:
pop_2021 = datos_filtrados(2021, 'pop')

pop_2021

Unnamed: 0,artista,tipo,título_canción,nombre_album,año,genre
0,Tory Lanez,track,The Color Violet,Alone At Prom,2021,pop
1,PinkPantheress,track,Pain,to hell with it,2021,pop
2,Eyedress,track,Something About You,Mulholland Drive,2021,pop
3,Jordana,track,Better in the Dark,Summer's Over,2021,pop
4,Tate McRae,track,you broke me first,TOO YOUNG TO BE SAD,2021,pop
...,...,...,...,...,...,...
995,The Marías,track,Talk to Her,CINEMA,2021,pop
996,deadmau5,track,When The Summer Dies,When The Summer Dies,2021,pop
997,Zach Hood,track,Flashbacks,Flashbacks,2021,pop
998,GAMPER & DADONI,track,My Lovin',My Lovin',2021,pop


In [10]:
pop_2022 = datos_filtrados(2022, 'pop')

pop_2022

Unnamed: 0,artista,tipo,título_canción,nombre_album,año,genre
0,Noah Kahan,track,Stick Season,Stick Season,2022,pop
1,Djo,track,End of Beginning,DECIDE,2022,pop
2,Sabrina Carpenter,track,Nonsense,emails i can't send,2022,pop
3,SZA,track,Snooze,SOS,2022,pop
4,d4vd,track,Romantic Homicide,Romantic Homicide,2022,pop
...,...,...,...,...,...,...
995,Wizkid,track,2 Sugar (feat. Ayra Starr),"More Love, Less Ego",2022,pop
996,Lil Durk,track,Computer Murderers,7220 (Reloaded),2022,pop
997,Charli xcx,track,Used to Know Me,CRASH,2022,pop
998,Bas,track,[The Jackie] (with J. Cole & Lil Tjay),[BUMP] Pick Me Up,2022,pop


In [11]:
indie_2021 = datos_filtrados(2021, 'indie')

indie_2021

Unnamed: 0,artista,tipo,título_canción,nombre_album,año,genre
0,Surf Curse,track,Freaks,Freaks,2021,indie
1,Eyedress,track,Something About You,Mulholland Drive,2021,indie
2,Jordana,track,Better in the Dark,Summer's Over,2021,indie
3,Cafuné,track,Tek It,Running,2021,indie
4,The Rare Occasions,track,Notion,Notion,2021,indie
...,...,...,...,...,...,...
995,Teen Mortgage,track,Such is Life,Such is Life,2021,indie
996,Tai Verdes,track,feeling this bad (v2),feeling this bad (v2),2021,indie
997,Jordan Ward,track,Lil Baby Crush,Remain Calm,2021,indie
998,Tone Stith,track,When You Love Someone feat. H.E.R. (feat. H.E.R.),FWM,2021,indie


In [12]:
indie_2022 = datos_filtrados(2022, 'indie')

indie_2022

Unnamed: 0,artista,tipo,título_canción,nombre_album,año,genre
0,Noah Kahan,track,Stick Season,Stick Season,2022,indie
1,Djo,track,End of Beginning,DECIDE,2022,indie
2,Noah Kahan,track,All My Love,Stick Season,2022,indie
3,Suki Waterhouse,track,Good Looking,Good Looking,2022,indie
4,beabadoobee,track,the perfect pair,Beatopia,2022,indie
...,...,...,...,...,...,...
995,Madds Buckley,track,Little Big Boy,Sunset on Summerville,2022,indie
996,Mom Jeans.,track,Hippo In the Water,Sweet Tooth,2022,indie
997,Alec Benjamin,track,Hipocrite,(Un)Commentary,2022,indie
998,mxmtoon,track,coming of age,rising,2022,indie


In [13]:
rap_2021 = datos_filtrados(2021, 'rap')

rap_2021

Unnamed: 0,artista,tipo,título_canción,nombre_album,año,genre
0,Tory Lanez,track,The Color Violet,Alone At Prom,2021,rap
1,Sleepy Hallow,track,2055,Still Sleep?,2021,rap
2,Baby Keem,track,family ties (with Kendrick Lamar),The Melodic Blue,2021,rap
3,Lil Tecca,track,LOT OF ME,We Love You Tecca 2,2021,rap
4,Polo G,track,RAPSTAR,Hall of Fame,2021,rap
...,...,...,...,...,...,...
995,1100 Himself,track,All Night Long,All Night Long,2021,rap
996,Rude-α,track,Paradise,Paradise,2021,rap
997,Isaiah Rashad,track,Darkseid,The House Is Burning,2021,rap
998,Lil Tecca,track,ABOUT YOU (with NAV),We Love You Tecca 2,2021,rap


In [14]:
rap_2022 = datos_filtrados(2022, 'rap')

rap_2022

Unnamed: 0,artista,tipo,título_canción,nombre_album,año,genre
0,SZA,track,Snooze,SOS,2022,rap
1,SZA,track,Kill Bill,SOS,2022,rap
2,Future,track,WAIT FOR U (feat. Drake & Tems),I NEVER LIKED YOU,2022,rap
3,Lil Durk,track,Broadway Girls (feat. Morgan Wallen),7220 (Reloaded),2022,rap
4,Metro Boomin,track,Too Many Nights (feat. Don Toliver & with Future),HEROES & VILLAINS,2022,rap
...,...,...,...,...,...,...
995,Lil Poppa,track,Feenin’,Under Investigation 3,2022,rap
996,Pusha T,track,Brambleton,It's Almost Dry,2022,rap
997,Baby Keem,track,durag activity (with Travis Scott),The Melodic Blue (Deluxe),2022,rap
998,Slipknot,track,Hive Mind,"The End, So Far",2022,rap


# *Data Frame* concatenado #

Una vez obtenidos todos los Data Frames, usamos la libería pandas con la función .concat() para unirlos. Para concatenarlos por filas, igualamos el axis a 0, y para ordenar los índices en orden ascendente, añadimos ingore_index = True

En total, hemos obtenido 8000 canciones.

In [15]:
df_concatenado = pd.concat([rock_2021, rock_2022, pop_2022, pop_2021, indie_2021, indie_2022, rap_2021, rap_2022], axis=0, ignore_index=True) 

In [16]:
df_concatenado

Unnamed: 0,artista,tipo,título_canción,nombre_album,año,genre
0,Måneskin,track,I WANNA BE YOUR SLAVE,Teatro d'ira - Vol. I,2021,rock
1,Elton John,track,Cold Heart - PNAU Remix,The Lockdown Sessions,2021,rock
2,Elton John,track,Cold Heart - PNAU Remix,Cold Heart (PNAU Remix),2021,rock
3,Parmalee,track,Just the Way,For You,2021,rock
4,OneRepublic,track,Run,Human (Deluxe),2021,rock
...,...,...,...,...,...,...
7995,Lil Poppa,track,Feenin’,Under Investigation 3,2022,rap
7996,Pusha T,track,Brambleton,It's Almost Dry,2022,rap
7997,Baby Keem,track,durag activity (with Travis Scott),The Melodic Blue (Deluxe),2022,rap
7998,Slipknot,track,Hive Mind,"The End, So Far",2022,rap


# ALmacenamos los datos en .csv #

Exportamos el Data Frame a .csv para poder seguir trabajando en las siguientes fases del proyecto. Usamos index=False para excluir los índices.

In [23]:
df_concatenado.to_csv('spotify_df_concatenado.csv', index=False)

In [24]:
df_spotify = pd.read_csv('spotify_df_concatenado.csv')

In [25]:
df_spotify

Unnamed: 0,artista,tipo,título_canción,nombre_album,año,genre
0,Måneskin,track,I WANNA BE YOUR SLAVE,Teatro d'ira - Vol. I,2021,rock
1,Elton John,track,Cold Heart - PNAU Remix,The Lockdown Sessions,2021,rock
2,Elton John,track,Cold Heart - PNAU Remix,Cold Heart (PNAU Remix),2021,rock
3,Parmalee,track,Just the Way,For You,2021,rock
4,OneRepublic,track,Run,Human (Deluxe),2021,rock
...,...,...,...,...,...,...
7995,Lil Poppa,track,Feenin’,Under Investigation 3,2022,rap
7996,Pusha T,track,Brambleton,It's Almost Dry,2022,rap
7997,Baby Keem,track,durag activity (with Travis Scott),The Melodic Blue (Deluxe),2022,rap
7998,Slipknot,track,Hive Mind,"The End, So Far",2022,rap


# Limpieza de datos #

Creamos una lista de artistas extraídos del Data Frame concatenado, usamos la función .unique() para la limpieza de los artistas repetidos. Creamos un Data Frame de la lista para, posteriormente, exportarlo a .csv. Con esto, ya podemos trabajar en la siguiente fase con MusicBrainz.

In [26]:
lista_artistas = list(df_spotify['artista'].unique())

df_lista_artistas = pd.DataFrame(lista_artistas)

df_lista_artistas


Unnamed: 0,0
0,Måneskin
1,Elton John
2,Parmalee
3,OneRepublic
4,Thomas Rhett
...,...
1889,xaviersobased
1890,Quando Rondo
1891,Mighty Bay
1892,50 Cent


In [27]:
df_lista_artistas.to_csv('lista_artistas_spotify.csv', index=False)