# Módulo 4: APIs
## Spotify
<img src="https://developer.spotify.com/assets/branding-guidelines/logo@2x.png" width=400></img>

En este módulo utilizaremos APIs para obtener información sobre artistas, discos y tracks disponibles en Spotify. Pero primero.. ¿Qué es una **API**?<br>
Por sus siglas en inglés, una API es una interfaz para programar aplicaciones (*Application Programming Interface*). Es decir que es un conjunto de funciones, métodos, reglas y definiciones que nos permitirán desarrollar aplicaciones (en este caso un scraper) que se comuniquen con los servidores de Spotify. Las APIs son diseñadas y desarrolladas por las empresas que tienen interés en que se desarrollen aplicaciones (públicas o privadas) que utilicen sus servicios. Spotify tiene APIs públicas y bien documentadas que estaremos usando en el desarrollo de este proyecto.
#### REST
Un término se seguramente te vas a encontrar cuando estés buscando información en internet es **REST** o *RESTful*. Significa *representational state transfer* y si una API es REST o RESTful, implica que respeta unos determinados principios de arquitectura, como por ejemplo un protocolo de comunicación cliente/servidor (que será HTTP) y (entre otras cosas) un conjunto de operaciones definidas que conocemos como **métodos**. Ya veníamos usando el método GET para hacer solicitudes a servidores web.
#### Documentación
Como mencioné antes, las APIs son diseñadas por las mismas empresas que tienen interés en que se desarrollen aplicaciones (públicas o privadas) que consuman sus servicios o información. Es por eso que la forma de utilizar las APIs variará dependiendo del servicio que querramos consumir. No es lo mismo utilizar las APIs de Spotify que las APIs de Twitter. Por esta razón es de suma importancia leer la documentación disponible, generalmente en la sección de desarrolladores de cada sitio. Te dejo el [link a la de Spotify](https://developer.spotify.com/documentation/)
#### JSON
Json significa *JavaScript Object Notation* y es un formato para describir objetos que ganó tanta popularidad en su uso que ahora se lo considera independiente del lenguaje. De hecho, lo utilizaremos en este proyecto por más que estemos trabajando en Python, porque es la forma en la que obtendremos las respuestas a las solicitudes que realicemos utilizando las APIs. Para nosotros, no será ni más ni menos que un diccionario con algunas particularidades que iremos viendo a lo largo del curso.



Links útiles para la clase:
- [todo lo que puedes hacer con la API web de spotify](https://developer.spotify.com/documentation/web-api/reference/#/)
- [Iron Maiden en Spotify](https://open.spotify.com/artist/6mdiAmATAx73kdxrNrnlao)

para contruir un link hacia una direccion especifica necesitamos 3 cosas: 
- url base: segun indica  [como construir una URL de request](https://developer.spotify.com/documentation/web-api/reference/#/)  es la base de cualquier request dese la API
- endpoint: inidica a que parte de todos los recursos de spotify quieres acceder. puede ser una 
- id: es el identificador de cualquier elemento unico en spotify. lo obtienes por ejemplo si quieres obtener un artista. buscar en la app > compartir > copiar enlace https://open.spotify.com/artist/**12Chz98pHFMPJEknJQMWvI**?si=xLJiSuMvQWa1ffZzvd1wkg el id de MUSE es lo subrayado. mas abajo crearemos una funcion para obtener el id usando la API. 

## 1er intento de acceder a una URL de la API 
en este caso construiremos la URL para hacer peticiones a la API web como nos inidico la documentacion de atras. veamos que pasa 

In [5]:
url_base = 'https://api.spotify.com/v1' # la URL base para cualquier peticion desde la API
ep_artist = '/artists/{artist_id}' # inidica el endpoint 
id_artist = '6mdiAmATAx73kdxrNrnlao' # id del artista iron maiden 
spfy_artist_url = url_base+ep_artist.format(artist_id=id_artist) # es la url para obtener informacion de ironmiden
spfy_artist_url

'https://api.spotify.com/v1/artists/6mdiAmATAx73kdxrNrnlao'

In [8]:
import requests
r = requests.get(spfy_artist_url) # segun la documentacion indica debemos usar el metodo get para hacer peticiones a la url
print(r.status_code)
r.json()

401


{'error': {'status': 401, 'message': 'No token provided'}}

vemos que la respuesta es invalida ya que la API solo esta disponible para usuarios, asi que primero debes registrarte para obtener tu token. 

### +++ Como realizar petición a Spotify API

[Documentacion para uso rápido](https://developer.spotify.com/documentation/web-api/quick-start/)
A través de la [API web de Spotify]() , las aplicaciones externas recuperan contenido de Spotify como datos de álbumes y listas de reproducción. Para acceder a los datos relacionados con el usuario a través de la API web deben de seguirse los siguientes pasos:
1. Registrar una aplicación con Spotify
	- crea una cuenta en [spotify(premium o free)]( http://www.spotify.com/)
- registrate en spotify-developers [spotify-developers](https://developer.spotify.com/dashboard/)

- crea una app  y entra a ella. Aquí encontraras el client ID y secret ID 

2.  Autenticar a un usuario y obtener autorización para acceder a los datos del usuario, hay [diferentes formas de autorización]( https://developer.spotify.com/documentation/general/guides/authorization/) en este caos usaremos [ flujo de código de autorización]( https://developer.spotify.com/documentation/general/guides/authorization/code-flow/) que nos da acceso a todos los datos. Dependiendo que tipo de app crearas con la API abra diferentes formas de autentificarte usando la consola, python, js. Pero para cualquier caso **solo necesitas el client ID y secret codificado en 64bits para hacer una requests.post() a la url de spotify token  que nos regresara un access-token que usaremos en el header de cualquier petición**. En este caso para python es: 

	a. realizar un requests.post  a la [URL get token]( https://accounts.spotify.com/api/token) con los datos de client ID y secret codificados en base 64 en forma de diccionario   

	b. del JSON de la respuesta atrás guardamos el token en una variable    

	c. configuramos el token en la variable de “Authorization” a un header 
si revisas la documentación de spotify ellos realizan los mismos pasos pero con [JS]( https://developer.spotify.com/documentation/general/guides/authorization/code-flow/#:~:text=form%2Durlencoded.-,Ejemplo,-Este%20paso%20generalmente)
3. Recuperar los datos de un punto final de API web esto significa que ya podemos hacer peticiones de cualquier informacion disponible en los [endpoints]( https://developer.spotify.com/documentation/web-api/reference/#/) la dorma que tiene una petición es asi: 
- requests.get(url_busqueda, headers=header_auth)   donde:
	- busqueda _url: es el link de lo que queremos consultar https://open.spotify.com/endPoint/ID    ejemplo:  https://open.spotify.com/artist/**12Chz98pHFMPJEknJQMWvI**?si=xLJiSuMvQWa1ffZzvd1wkg
	- header_auth = {"Authorization": "Bearer {}".format(token)}	 el token es el del paso de atrás
4. inspeccionar el resultado: el contenido de la respuesta de la API es un archivo JSON que puedes consultar mediante response.json()


### !!!! informacion delicada

In [37]:
import base64
# dado que los token de acceso expiran en 1h es mejor crear una funcion para reutilizar
def generacion_de_token():
    # Codificando a Base64 los datos de 'client_id:client_secret'
    client_id = 'and65a180a94a4514b42be9e25d19a4d'
    client_secret = 'andc51a4155ebf8c84e0786a8ba28fb2'  # Nunca compartirlo !!!!! (el actual es ficticio)

    client_str = '{client_id}:{client_secret}'.format(client_id=client_id, client_secret=client_secret)
    client_encode = base64.b64encode(client_str.encode("utf-8"))  # Codificado en Bytes
    client_encode = str(client_encode, "utf-8")  # Codificado en String

    # hacemos el requests.post con los datos para obtener el token 
    token_url = 'https://accounts.spotify.com/api/token'
    params = {'grant_type': 'client_credentials'}
    headers= {'Authorization' : 'Basic {client_encode}'.format(client_encode=client_encode)}
    r = requests.post(token_url, data=params, headers=headers)

    if r.status_code == 200:
        print("generacion de token de acceso exitoso, output: header_auth ")
        token = r.json()['access_token'] # guardamos el token en una var
        print(f"tu token es: {token}")

        # configuramos el token en una cabecera de autentificacion que se usara en request.get
        print(f"tiempo de expiracion: {r.json()['expires_in']/60} minutos")
        header_auth = {"Authorization": "Bearer {}".format(token)}
        return header_auth # nos retornara directamente la cabecera con el token 
    else: 
        print("error al generar el token")
        return None
header_auth = generacion_de_token()

generacion de token de acceso exitoso, output: header_auth 
tu token es: BQDMges4baWwoeFtkIkZMz6U8_vtAidBSOxPwuLgKrYT2x3AtWgLQ2-ieKMBQQqcTV-5-T_anSURDRSLjF1pQ74j2fk-SnVW3HB2K3z4dmT8fgMxeWB3
tiempo de expiracion: 60.0 minutos


In [20]:
r = requests.get(spfy_artist_url, headers=header_auth) # segun la documentacion indica debemos usar el metodo get para hacer peticiones a la url
print(r.status_code)
r.json()

200


{'external_urls': {'spotify': 'https://open.spotify.com/artist/6mdiAmATAx73kdxrNrnlao'},
 'followers': {'href': None, 'total': 8033033},
 'genres': ['hard rock', 'metal', 'nwobhm', 'rock'],
 'href': 'https://api.spotify.com/v1/artists/6mdiAmATAx73kdxrNrnlao',
 'id': '6mdiAmATAx73kdxrNrnlao',
 'images': [{'height': 640,
   'url': 'https://i.scdn.co/image/ab6761610000e5ebdc52c8e309e46aa8430a0fa0',
   'width': 640},
  {'height': 320,
   'url': 'https://i.scdn.co/image/ab67616100005174dc52c8e309e46aa8430a0fa0',
   'width': 320},
  {'height': 160,
   'url': 'https://i.scdn.co/image/ab6761610000f178dc52c8e309e46aa8430a0fa0',
   'width': 160}],
 'name': 'Iron Maiden',
 'popularity': 75,
 'type': 'artist',
 'uri': 'spotify:artist:6mdiAmATAx73kdxrNrnlao'}

### hacer busquedas mediante la API
ahora en lugar de diseañar una URL con endpoint + ID vamos a ingresar a la pagina de busqueda y buscaremos algo especifico. [aqui estan las instrucciones](https://developer.spotify.com/documentation/web-api/reference/#/operations/search) pero en general la URL de la peticion tiene la siguiente forma:
```
curl --solicitud OBTENER \
  --url 'https://api.spotify.com/v1/search?type=album&include_external=audio' \ 
  --header 'Autorización: ' \ 
  --header 'Tipo de contenido: aplicación/json'
  
```

In [21]:
# en vez de ingresar los parametros en la URL los definimos en un dict para ingresarlos en la request
url_busqueda = "https://api.spotify.com/v1/search"
search_params = {"q":"MUSE", 
                "type": "artist", 
                "market": "MX"}
busqueda = requests.get(url_busqueda, headers=header_auth, params= search_params)
print(busqueda.status_code)
# busqueda.json()

200

In [25]:
import pandas as pd
# si vemos la estructura del json es que es un diccionario con un llave artists que dentro tiene 
# otra llave items donde se encuentran todos los artistas encontrados
df = pd.DataFrame(busqueda.json()["artists"]["items"]) 
df.head(2)

Unnamed: 0,external_urls,followers,genres,href,id,images,name,popularity,type,uri
0,{'spotify': 'https://open.spotify.com/artist/1...,"{'href': None, 'total': 7325033}","[modern rock, permanent wave, rock]",https://api.spotify.com/v1/artists/12Chz98pHFM...,12Chz98pHFMPJEknJQMWvI,"[{'height': 640, 'url': 'https://i.scdn.co/ima...",Muse,78,artist,spotify:artist:12Chz98pHFMPJEknJQMWvI
1,{'spotify': 'https://open.spotify.com/artist/0...,"{'href': None, 'total': 524}",[],https://api.spotify.com/v1/artists/0QovvDQo3fH...,0QovvDQo3fHxXJTIXbXd0G,"[{'height': 640, 'url': 'https://i.scdn.co/ima...",Muser,17,artist,spotify:artist:0QovvDQo3fHxXJTIXbXd0G


### analizando la data recolectada de spotify con pandas 
ahora con los resultados de la busqueda podemos usar pandas para hacer analisis mas complejos como 

In [34]:
df.sort_values(by="popularity",ascending=False)[0:2]

Unnamed: 0,external_urls,followers,genres,href,id,images,name,popularity,type,uri
3,{'spotify': 'https://open.spotify.com/artist/1...,"{'href': None, 'total': 15411225}","[puerto rican pop, trap latino, urbano latino]",https://api.spotify.com/v1/artists/1mcTU81TzQh...,1mcTU81TzQhprhouKaTkpq,"[{'height': 640, 'url': 'https://i.scdn.co/ima...",Rauw Alejandro,91,artist,spotify:artist:1mcTU81TzQhprhouKaTkpq
0,{'spotify': 'https://open.spotify.com/artist/1...,"{'href': None, 'total': 7325033}","[modern rock, permanent wave, rock]",https://api.spotify.com/v1/artists/12Chz98pHFM...,12Chz98pHFMPJEknJQMWvI,"[{'height': 640, 'url': 'https://i.scdn.co/ima...",Muse,78,artist,spotify:artist:12Chz98pHFMPJEknJQMWvI


In [32]:
# acceder a la imagen de la verdadera banda muse 
df[df["name"]== "Muse"].images[0][0]

{'height': 640,
 'url': 'https://i.scdn.co/image/ab6761610000e5eb0accbbe13e1aa147dd27671c',
 'width': 640}

## proyecto final obtener discografia
nos dirigimos a la documentacion de [endpoints](https://developer.spotify.com/documentation/web-api/reference/#/)
vemos que hay un endpoint para: 
- obtener un id de artista apartir de una busqueda por texto: https://api.spotify.com/v1/search?q=Muse&type=artist&market=MX
- obtener los titulos de todos los albumes de un artista: https://api.spotify.com/v1/artists/id/albums
- obtener la info de un album: https://api.spotify.com/v1/albums/id 

pues bien nuestro objetivo sera crear un dataset con todos los discos y canciones de una banda especifica. para esto crearemos funciones. 
**ten en consideracion que de aqui en adelante nuestra mayor herramienta e la liga de [endpoints](https://developer.spotify.com/documentation/web-api/reference/#/) ya que nos indicara todo lo que pdoemos hacer y como hacerlo**

In [268]:
def get_id_artist(name, header_auth):
    print("buscando artista ....")
    url_busqueda = "https://api.spotify.com/v1/search"
    search_params = {"q":name, 
                    "type": "artist", 
                    "market": "MX"}
    busqueda = requests.get(url_busqueda, headers=header_auth, params= search_params)
    print(busqueda.status_code)
    df = pd.DataFrame(busqueda.json()["artists"]["items"]) 
    name = df.iloc[0,:]["name"] 
    id =  df.iloc[0,:]["id"] 
    print({name:id})
    return {name:id}

def clean_albums(df, id):
    print("limpieza de album....")
    df = df.reset_index(drop = True)
    s = []
    print(len(df))
    for a in df["artists"].values:  # eliminamos duplicados x id
        if a[0]["id"] == id:
            s.append(True)
        else:
            s.append(False)
    df = df[pd.Series(s)]
    print(len(df))
    df = df.drop_duplicates(subset=['name']).reset_index(drop = True) # eliminamos duplicados x nombre
    print(len(df))
    return df

def get_albums(id, header_auth):
    print("obteniendo album.....")
    params= {"limit": 50, # indica el numero maximo de items que puede mostrar por request
            "offset": 0, # indica desde que pagina de items iniciar
            "market": "MX"}
    alb = requests.get(f"https://api.spotify.com/v1/artists/{id}/albums", 
                        headers=header_auth,
                        params=params )
    dfa = pd.DataFrame(alb.json()["items"])   
    # en la documentacion indica que la repsuesta solo puede mostrar un limite de 50 items asi que 
    while alb.json()['next'] != None:
        print(f"{alb.json()['offset']} albumes analizados de {alb.json()['total']}")

        alb = requests.get(alb.json()['next'], # en la URL ya va incluido los params
                        headers=header_auth) 
        dfa = pd.concat([dfa,pd.DataFrame(alb.json()["items"])], ignore_index= False, axis=0)
    dfa = clean_albums(dfa, id)
    return dfa[["name", "id"]]

In [269]:
def get_discografy(df_albums, header_auth):
    print("obteniedo tracks .....")
    df_discografy = pd.DataFrame(columns=["id_album", "album", "id_song", "song_name"])
    id_album = []
    album = []
    id_song = []
    song_name = []

    for i, a in enumerate(df_albums.iterrows()):
        # obtenemos la info de cada cancion
        if i%20 == 0:
            print(f"numero de album{i}")
        album_info = requests.get(f"https://api.spotify.com/v1/albums/{a[1][1]}", headers=header_auth)
        df_songs = pd.DataFrame(album_info.json()["tracks"]["items"])[["name","id"]]
        for s in df_songs.iterrows():
            id_album.append(a[1][1])
            album.append(a[1][0])
            id_song.append(s[1][1])
            song_name.append(s[1][0])
    df_discografy["id_album"]= id_album
    df_discografy["album"]= album
    df_discografy["id_song"]= id_song
    df_discografy["song_name"]= song_name

    return df_discografy

def get_disco_from_artist(artist_name, header_auth):
    id_dict = get_id_artist(artist_name, header_auth)
    id = list(id_dict.values())[0]
    df_albums = get_albums(id, header_auth)
    return get_discografy(df_albums,header_auth)


In [270]:
header_auth = generacion_de_token()
artist_name = "coldplay"
discografia_coldplay = get_disco_from_artist(artist_name, header_auth)

generacion de token de acceso exitoso, output: header_auth 
tu token es: BQDqmWrXvDnT5ohn4KODJIiErMD_yTRqLWm651LIkR7d6e99YEHMy1t-Wjat3Xsm5aZw0e4oEiEr86p_B37rrNA9GdrtgC5rjSzDuJ1UoYm5m3FiE6L0
tiempo de expiracion: 60.0 minutos
buscando artista ....
200
{'Coldplay': '4gzpq5DPGxSnKTe4SA8HAU'}
obteniendo album.....
0 albumes analizados de 1589
50 albumes analizados de 1589
100 albumes analizados de 1589
150 albumes analizados de 1589
200 albumes analizados de 1589
250 albumes analizados de 1589
300 albumes analizados de 1589
350 albumes analizados de 1589
400 albumes analizados de 1589
450 albumes analizados de 1589
500 albumes analizados de 1589
550 albumes analizados de 1589
600 albumes analizados de 1589
650 albumes analizados de 1589
700 albumes analizados de 1589
750 albumes analizados de 1589
800 albumes analizados de 1589
850 albumes analizados de 1589
900 albumes analizados de 1589
950 albumes analizados de 1589
1000 albumes analizados de 1589
1050 albumes analizados de 1589
1100 al

In [271]:
print("numero de albumes: " ,len(discografia_coldplay["id_album"].unique()))
print("numero de canciones: " ,len(discografia_coldplay["id_song"].unique()))
discografia_coldplay

numero de albumes:  90
numero de canciones:  342


Unnamed: 0,id_album,album,id_song,song_name
0,06mXfvDsRZNfnsGZvX2zpb,Music Of The Spheres,1a3G9SNslcKsPAOuIikaxd,🪐
1,06mXfvDsRZNfnsGZvX2zpb,Music Of The Spheres,65OR4ywy8Cgs3FDHK82Idl,Higher Power
2,06mXfvDsRZNfnsGZvX2zpb,Music Of The Spheres,23BO6YozrAXUta1buxFZ80,Humankind
3,06mXfvDsRZNfnsGZvX2zpb,Music Of The Spheres,1danObd53GynoY83wRz3Ua,✨
4,06mXfvDsRZNfnsGZvX2zpb,Music Of The Spheres,4cGqn0E8JCSY9gQllQj4Mf,Let Somebody Go
...,...,...,...,...
337,3MVb2CWB36x7VwYo5sZmf2,The Blue Room,2nhjxNFCXbnYBpCbrmT1Ol,High Speed
338,3MVb2CWB36x7VwYo5sZmf2,The Blue Room,3c1NaLIIBoFof2nrDeUlc1,Such a Rush
339,1As5m9qcOZtuFzdlzCkrzI,Brothers & Sisters,6BMIgTmZAihjW5MKEo7gvV,Brothers & Sisters
340,1As5m9qcOZtuFzdlzCkrzI,Brothers & Sisters,6KHZ9SElsSmjQI7B9D0e4P,Easy To Please


In [272]:
discografia_coldplay.to_csv('discografia_de_colplay.csv')

In [282]:
id_track = discografia_coldplay[discografia_coldplay["song_name"]== "Shiver"].iloc[0,2]

In [293]:
track_info = requests.get(f"https://api.spotify.com/v1/tracks/{id_track}", headers=header_auth,
                            params={"market":"MX"})
print(track_info.json().keys())
preview_url = track_info.json()["preview_url"]

dict_keys(['album', 'artists', 'disc_number', 'duration_ms', 'explicit', 'external_ids', 'external_urls', 'href', 'id', 'is_local', 'is_playable', 'name', 'popularity', 'preview_url', 'track_number', 'type', 'uri'])


In [301]:
musica = requests.get(preview_url)
print(musica.status_code)
#musica.content # notice that algorythm ID3 es usado para añadir metadatos a formatos mp3

200


In [299]:
import IPython.display as ipd 
ipd.Audio(musica.content)
# ipd.Image(img_request.content) # para audiover nb #1

In [304]:
#guardar la cancion en formato mp3 (supuse que seria ese formato ya que es el mas usado)
with open("preview_of_song.mp3", "wb") as mp3:
    mp3.write(musica.content)

In [313]:
type(musica.content)

bytes

## crear pupurrils de un artista 
como ultimo proyecto creare una funcion para crear un pupurril a partir de un album especifico

In [345]:
album_id = "0f7R0jf0pcTb6K6IVVPcMD" 
header_auth = generacion_de_token()
def get_pupurril(album_id, header_auth, save=False):
    album_info = requests.get(f"https://api.spotify.com/v1/albums/{album_id}", headers=header_auth)
    songs_id = pd.DataFrame(album_info.json()["tracks"]["items"])[["id"]]
    popurri = bytes()
    c=0
    for id_track in songs_id.values:
        try:
            track_info = requests.get(f"https://api.spotify.com/v1/tracks/{id_track[0]}", headers=header_auth,
                                    params={"market":"MX"})
            preview_url = track_info.json()["preview_url"]
            if preview_url == None:
                print("no se encontro URL de preview")
            musica = requests.get(preview_url)
            popurri += musica.content
            c += 1
        except Exception as e:
            print("error::: ", e)
    print(f"se creo un popurri con {c} canciones ")
    print(f'del album: {album_info.json()["name"]}, de la banda: {album_info.json()["artists"][0]["name"]}')
    if save==True:
        with open("popurri.mp3", "wb") as mp3:
            mp3.write(popurri)
    return popurri

popurri = get_pupurril(album_id, header_auth)
ipd.Audio(popurri)

generacion de token de acceso exitoso, output: header_auth 
tu token es: BQCjqQtZv2QahyovP4Upq8ZIE8N5c5la7xewPFeokuE3RV6IeGaDLfTd3gR1a-qH53wtlq7mLEJ2dURqdgL4GJsruUR0HhpKt2oTynUdTPBd4ICjgXNa
tiempo de expiracion: 60.0 minutos
se creo un popurri con 16 canciones 
del album: Meteora (Bonus Edition), de la banda: Linkin Park


## proximos retos 
- crear un recomendador de canciones basado en contenido de las letras
- crear una playlist con una interseccion entre lo mas sonado y tus preferencias.  