# 🎶 Objectif 3 : Comparaison entre le nombre de playlists Spotify et le nombre de streams par année de sortie

#### Rappel

Scatter plot pour comparer les chansons ajoutées dans les playlists avec celles qui n'y figurent pas, en analysant si l'intégration dans les playlists garantit une augmentation significative des streams.

In [1]:
# Import
import pandas as pd
from dash import Dash, dcc, html
from dash.dependencies import Input, Output
import plotly.express as px
import statsmodels.api as sm

In [2]:
# Chargement
data = pd.read_csv("./dataset/dataset_filtered.csv")

In [3]:
# Filtrage des données
data_filtered = data[['track', 'spotify_playlists', 'streams', 'artistname', 'releasedyear']].dropna()
data_filtered = data_filtered[data_filtered['streams'].apply(lambda x: str(x).isdigit())]
data_filtered = data_filtered[data_filtered['spotify_playlists'].apply(lambda x: str(x).isdigit())]
data_filtered = data_filtered[data_filtered['releasedyear'].apply(lambda x: str(x).isdigit())]

In [4]:
# Convertir les colonnes en entiers
data_filtered['spotify_playlists'] = data_filtered['spotify_playlists'].astype(int)
data_filtered['streams'] = data_filtered['streams'].astype('int64')
data_filtered['releasedyear'] = data_filtered['releasedyear'].astype(int)

In [5]:
# Ligne de régression
X = sm.add_constant(data_filtered['spotify_playlists'])
model = sm.OLS(data_filtered['streams'], X).fit()
data_filtered['regression_line'] = model.predict(X)

In [6]:
# Initialisation de l'application Dash
app = Dash(__name__)

app.layout = html.Div([
    html.H1("Playlists Spotify VS Streams par Année de Sortie"),
    dcc.Graph(id='scatter-plot')
])

In [7]:
# Callback pour mettre à jour le graphique en fonction de la période sélectionnée
@app.callback(
    Output('scatter-plot', 'figure'),
    Input('scatter-plot', 'id')
)
def update_graph(_):
    fig = px.scatter(
        data_filtered,
        x='spotify_playlists',
        y='streams',
        color='releasedyear',
        color_continuous_scale=["yellow", "orange", "purple"],
        hover_data={
            'track': True,
            'artistname': True,
            'spotify_playlists': True,
            'streams': True,
            'releasedyear': True
        },
        labels={
            'releasedyear': 'Released Year',
            'spotify_playlists': 'Number of Playlists',
            'streams': 'Number of Streams'
        },
        title="Relation entre le nombre de playlists Spotify et le nombre de streams par année de sortie"
    )

    # Ajout de la droite de régression
    fig.add_scatter(
        x=data_filtered['spotify_playlists'],
        y=data_filtered['regression_line'],
        mode='lines',
        name='Regression Line',
        line=dict(color='red', dash='dash')
    )

    fig.update_layout(
        xaxis_title="Nombre de Playlists",
        yaxis_title="Nombre de Streams",
        hovermode="closest",
        plot_bgcolor='white',  
        paper_bgcolor='white', 
        font=dict(color='black')
    )

    return fig

In [8]:
# Exécution du serveur (http://127.0.0.1:8050/)
if __name__ == '__main__':
    app.run_server(debug=True,port=8052)