<h1><center>Spotify API</center></h1>
<h2><center>Connexion à l'API & collecte des données</center></h2>

### Objectifs : 
    * Récupérer les annonces des données via l'API Spotify des playlists dont les identifiants sont communiqués via un csv  qu'on prend en entrée

    * Modéliser et créer la BDD avec deux tables :  
           
           * Evolution de l'indice de popularité d'un artiste  
           
           * Liste des artistes arrivées avec la date d'entrée en sortie par playlist

    * Preprocessing et formattage des données et insertion dans la DB :
            
            * Prendre en compte le format timestamp pour les dates  
            
            * Prendre en compte le besoin d'historisation pour les entrées soties
    
    * Orchestration pour lancer un script l'un après l'autre 
    
    * Ordonnanceur pour lancer automtiquement le workflow d'ochestration


### Tâches
    1 - Collecte journalière de la date via l'api

    2 - Connexion à la base ou sa création 

    3 - Append la table 2 de la popularité car nous n'avons pas besoin de faire une gestion d'historique

    4 - Gestion de l'historique de la table entrées - sorties et maj des données dans la BDD


### Librables :

In [1]:
###
import pandas as pd
from operator import itemgetter
from datetime import datetime

### Connexion à l'API Spotify

In [3]:
### Librairies pour la connexion avec 
import requests
from urllib.parse import urlparse
import json
import os
import time


client_id = ""
client_secret = ""

class SpotifyApi(object):

    client_id = None
    client_secret = None
    
    
    def __init__(self, client_id, client_secret, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.client_id = client_id
        self.client_secret = client_secret
    
    
    def authorize(self,auth_code=None):
        
        payload = {'redirect_uri':'http://localhost', 'client_id': self.client_id, 'client_secret': self.client_secret}

        if auth_code is None:
            #CHANGE SCOPES HERE
            scopes = ["user-modify-playback-state", "user-read-playback-state", "playlist-read-private", "playlist-read-collaborative", "streaming"]

            print("\n\nGo to the following url, and after clicking ok, copy and paste the link you are redirected to from your browser starting with 'localhost'\n")
            print("https://accounts.spotify.com/authorize/?client_id=" + self.client_id + "&response_type=code&redirect_uri=http://localhost&scope=" + "%20".join(scopes))

            url = input("\nPaste localhost url: ")
            parsed_url = urlparse(url)
            payload['grant_type'] = 'authorization_code'
            payload['code'] = parsed_url.query.split('=')[1]
            auth_code = {}

        else:
            payload['grant_type'] = 'refresh_token'
            payload['refresh_token'] = auth_code["refresh_token"]


        result = requests.post("https://accounts.spotify.com/api/token", data=payload)

        response_json = result.json()
        cur_seconds = time.time()
        auth_code['expires_at'] = cur_seconds + response_json["expires_in"] - 60
        auth_code['access_token'] = response_json["access_token"]

        if "refresh_token" in response_json:
            auth_code['refresh_token'] = response_json["refresh_token"]

        with open('auth.json', 'w') as outfile:
            json.dump(auth_code, outfile)

        return auth_code

    def get_valid_auth_header(self):
        with open('auth.json', 'r') as infile:
            auth = json.load(infile)
        if time.time() > auth["expires_at"]:
            auth = self.authorize(auth)
        return {"Authorization": "Bearer " + auth["access_token"]}


    ## fonction qui renvoie en format json les informations de l'api
    def get_url(self,url):
        return requests.get(url, headers=self.get_valid_auth_header()).json()

spotifyapi = SpotifyApi(client_id,client_secret)

if not os.path.isfile('auth.json'):
    spotifyapi.authorize()

### Collecte des données des playlists
On collecte les données souhaitées de l'api sur les playlists communiquées par le métier

In [7]:
## Lecture du fichier métier contenant les identifiants des playlists
id_playlists = pd.read_csv("../../data/playlists.csv").id_playlist.values.tolist()

## Utiliser les identifiants pour requêter l'api & récupérer les informations sur les tracks/artistes dans chaque playlists
playlists = [spotifyapi.get_url("https://api.spotify.com/v1/playlists/"+i+"/tracks")["items"] for i in id_playlists]

### Récupération des données spécifiques de la collecte et structuration des tables de sorties

Dans cette partie, on va sélectionner les informations spécifiques dont nous avons besoin de la collecte et les structurer pour avoir la forme finale modélisée pour insertion directe dans la BDD.

**Avantges :**

* Dans le cas où, on lance pour la 1ère fois. Nos tables seront prêtes pour une inseriton directe
* Dans le cas où il faut gérer l'historique, on aura la table d'historique & la nouvelle avec la même forme & même colonne donc le rapprochement sera plus simple à faire 
* Dans le cas où on veut juste append, le format correspondera & donc l'insertion se fera facilement

In [8]:
## Mapping des data collectées & récupération des informations qui nous intéressent + structuration des observations

table1=[]
table2=[]

for i in range(0,len(playlists)):
    
    print("********************************")
    print("playlist number : ",i+1)
    
    playlist=playlists[i]
    id_playlist=id_playlists[i]
    
    counter=1
    
    for t in playlist :
        
        print("at the track : ", counter)

        ## date_entree = t["added_at"] --> les playlist sont en écrasé-remplacé donc on prend la date du jour à chaque fois
        ## pour gérer l'historisation

        for artiste in t["track"]["artists"]:
            
            idartiste = artiste["id"]
            name = artiste["name"]
            
            ## la 1ère table
            table1.append([id_playlist,idartiste,datetime.now(),'2099-12-31 00:00:00'])
            
            ## La 2ème table
            table2.append([idartiste,name,spotifyapi.get_url(artiste["href"])["popularity"],datetime.now()])

        counter+=1

df_table1 = pd.DataFrame(table1,columns=["id_playlist", "id_artiste","date_entree", "date_sortie"]).drop_duplicates(
    subset=["id_playlist", "id_artiste"])

df_table2 = pd.DataFrame(table2,columns=["id_artiste", "nom_artiste", "popularite", "date_effet"]).drop_duplicates()

********************************
playlist number :  1
at the track :  1
at the track :  2
at the track :  3
at the track :  4
at the track :  5
at the track :  6
at the track :  7
at the track :  8
at the track :  9
at the track :  10
at the track :  11
at the track :  12
at the track :  13
at the track :  14
at the track :  15
at the track :  16
at the track :  17
at the track :  18
at the track :  19
at the track :  20
at the track :  21
at the track :  22
at the track :  23
at the track :  24
at the track :  25
at the track :  26
at the track :  27
at the track :  28
at the track :  29
at the track :  30
at the track :  31
at the track :  32
at the track :  33
at the track :  34
at the track :  35
at the track :  36
at the track :  37
at the track :  38
at the track :  39
at the track :  40
at the track :  41
at the track :  42
at the track :  43
at the track :  44
at the track :  45
at the track :  46
at the track :  47
at the track :  48
at the track :  49
at the track :  50
*****

### Preprocessing - formattage des données collectées et sauvegarde locale
Dans cette partie, on va formatter les colonnes des dataframes constitués suite à la collecte et récupération des data de l'API.
On sauvegarde les tables au cas où il y a un crash

In [9]:
## table 1 - entrées sorties des artistes dans la playlist

for c in ['id_playlist', 'id_artiste']:
    df_table1[c]=df_table1[c].astype(str)
    
for c in ['date_entree', 'date_sortie']:
    df_table1[c]=pd.to_datetime(df_table1[c])

In [10]:
## table 2 - évolution de la popularité des artistes

for c in ['id_artiste', 'nom_artiste', 'popularite']:
    df_table2[c]=df_table2[c].astype(str)
    
df_table2["date_effet"]=pd.to_datetime(df_table2["date_effet"])

In [13]:
## la table historique entrées sorties
df_table1.to_csv("../../data/histo_entrees_sorties.csv", index=False, encoding='utf-8')

## table evolution popularité
df_table2.to_csv("../../data/evolution_popularite.csv", index=False, encoding='utf-8')

In [12]:
print(df_table1.shape)
print(df_table2.shape)

(138, 4)
(164, 4)


### Connexion à la BDD et création / alimentation des tables 

Nous avons créé la BDD directement via le client pgAdmin. On va donc procéder à la création des tables et l'insertion des données

In [17]:
## Pour établir la connexion à la DB
import psycopg2
from sqlalchemy import create_engine

## pandas/numpy
import pandas as pd, numpy as np

dbConnection =  create_engine('postgresql+psycopg2://postgres:root@localhost:5433/spotify_db')
dbConnection.connect()

<sqlalchemy.engine.base.Connection at 0x2334d96d348>

In [18]:
try :
    
    ## Récupéraiton de l'historique des entrées sorties d'artistes des playlists du métier et seulement ceux toujours dispo
    histo_playlist=pd.read_sql("select * from histo_playlist where date_sortie ='2099-12-31'", dbConnection)
    
    print("histo shape" , histo_playlist.shape)
    
    ## Append new data to old data
    df_table2.to_sql("artistes_popularity", dbConnection, if_exists='append', index=False)
    
                        #####################################################################
    try :
        ## Récupéraiton de l'historique des entrées sorties d'artistes des playlists du métier et seulement ceux toujours dispo
        histo_playlist=pd.read_sql("select * from histo_playlist where date_sortie ='2099-12-31'", dbConnection)

        ## on crée une clé sur la playlist artistes dans la table histo
        histo_playlist["artiste_histo"]=histo_playlist[["id_playlist","id_artiste"]].apply(lambda x:
                                                                                          x.id_playlist+x.id_artiste,
                                                                                          axis=1)

        ## on crée une clé sur la playlist-artiste des nouvelles détections
        df_table1["new_artistes"]=df_table1[["id_playlist","id_artiste"]].apply(lambda x:(x.id_playlist+x.id_artiste),axis=1)

        ## on prend les artistes détectés aujourd'hui & qui ne sont pas dans l'historique
        artistes_to_append=df_table1[~df_table1.new_artistes.isin(
            histo_playlist["artiste_histo"].values.tolist())].drop("new_artistes",axis=1)

        ## on prend les artistes dans l'histo & non dans la nouvelle collecte
        artistes_to_update=histo_playlist[~histo_playlist["artiste_histo"].isin(
            df_table1["new_artistes"].values.tolist())].artiste_histo.values.tolist()

        if len(artistes_to_update)>0:
            histo_playlist["date_sortie"]=histo_playlist[["artiste_histo","date_sortie"]].apply(
                lambda x:datetime.now() if (x.artiste_histo in artistes_to_update) 
                else x.date_sortie, axis=1)

        histo_playlist=histo_playlist.drop("artiste_histo",axis=1)
        
        ## si on a bien des nouveaux artistes on les ajoute à l'historique
        if artistes_to_append.shape[0]>0:
            dffinal=pd.concat([artistes_to_append,])
            
        else:
            dffinal=histo_playlist
            
            
        dffinal.to_sql("histo_playlist", dbConnection, if_exists='replace', index=False)
        
        print("new data added ")
        
        print("New shape for histo ", dffinal.shape)
        
    except Exception as e:
        print("no new insert in the table due to : ", e)

except :
    print(" First insertion of data in DB ")
    
    df_table1.to_sql("histo_playlist", dbConnection, if_exists='replace', index=False)
    df_table2.to_sql("artistes_popularity", dbConnection, if_exists='replace', index=False)

histo shape (161, 4)
new data added 
New shape for histo  (161, 4)


## Bloc de test des bouts de code

In [None]:
## get my playlists with links to the tracks

playlists=get_url("https://api.spotify.com/v1/me/playlists")

items=playlists["items"]

keys = 'name', 'tracks'
playlists_names,playlists_links = [list(map(itemgetter(k), items)) for k in keys]

playlists_links=[i["href"] for i in playlists_links]

df=pd.DataFrame({"playlist_name":playlists_names, 'playlist_link':playlists_links})

df

[i for i,j in get_playlists().items()]