# Analyse de la Popularité des Titres Spotify

## Introduction

Ce Notebook a pour objectif de prédire la popularité des titres musicaux à partir du dataset Spotify. Nous allons utiliser des techniques de régression pour modéliser les relations entre les différentes caractéristiques des morceaux et leur score de popularité.

### Objectifs

- **Explorer** les données pour comprendre leur structure et leur contenu.
- **Prétraiter** les données pour préparer l'ensemble d'entraînement et de test.
- **Construire** un modèle de régression pour prédire la popularité des titres.
- **Évaluer** les performances du modèle et visualiser les résultats.

### Dataset

Le dataset utilisé dans cette analyse contient des informations sur divers titres musicaux, y compris des attributs tels que le nom de l'artiste, le genre, et d'autres caractéristiques pertinentes. Les données sont stockées au format CSV et seront chargées dans ce Notebook pour l'analyse.

---



## 1) Justification du Choix des Paramètres

Dans cette section, nous justifions le choix des paramètres utilisés pour prédire la popularité des titres musicaux dans notre dataset Spotify. Chaque paramètre sélectionné a été choisi en fonction de son potentiel impact sur la popularité d'une chanson.

### 1. **Caractéristiques Audio**
- **Valence** : Ce paramètre mesure si la musique est joyeuse ou triste. Des études ont montré que les chansons avec une valence élevée sont souvent plus populaires.
  
- **Énergie** : Ce paramètre indique l'intensité et l'activité d'une chanson. Les morceaux avec une énergie élevée peuvent inciter à danser, ce qui peut augmenter leur popularité.

- **Loudness** : Le volume perçu d'une chanson peut influencer la façon dont elle est reçue par le public. En général, les chansons plus fortes peuvent capter l'attention plus facilement.

- **Tempo** : La vitesse d'une chanson peut affecter son attrait. Des tempos plus rapides peuvent être associés à des genres musicaux plus populaires, comme la musique dance.

- **Danceability** : Ce paramètre indique dans quelle mesure une chanson est adaptée à la danse. Les morceaux avec une bonne danseabilité sont souvent plus populaires dans les clubs et les fêtes.

### 2. **Informations Contextuelles**
- **Année de sortie** : L'année de sortie d'une chanson peut influencer sa popularité. Les tendances musicales changent avec le temps, et les morceaux récents peuvent bénéficier de la visibilité sur les plateformes de streaming.

- **Genre** : Le genre musical peut également jouer un rôle crucial dans la popularité d'une chanson. Certains genres peuvent être plus en vogue à différents moments, influençant ainsi les préférences des auditeurs.

### 3. **Colonne Cible**
- **Popularité** : La popularité est notre variable cible, représentant la mesure dans laquelle une chanson est appréciée par le public. Elle est essentielle pour évaluer l'efficacité de notre modèle de régression.

---

En résumé, les paramètres sélectionnés sont basés sur des recherches antérieures et des observations sur les tendances musicales. En utilisant ces caractéristiques, nous visons à construire un modèle prédictif robuste pour évaluer la popularité des titres Spotify.


## 2) Importation des bibliothèques

In [1]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, KFold, cross_val_score
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
import joblib

## 3) Importation du dataset

In [2]:
# Chemin vers le fichier CSV
csv_path = r'C:\Users\GAUTHIER\IA\IA\archive\dataset.csv'  # Utilisez le préfixe 'r' pour indiquer une chaîne brute

# Charger le dataset dans un DataFrame
data = pd.read_csv(csv_path)

# Afficher les premières lignes du dataset
print(data.head())

   Unnamed: 0                track_id                 artists  \
0           0  5SuOikwiRyPMVoIQDJUgSV             Gen Hoshino   
1           1  4qPNDBW1i3p13qLCt0Ki3A            Ben Woodward   
2           2  1iJBSr7s7jYXzM8EGcbK5b  Ingrid Michaelson;ZAYN   
3           3  6lfxq3CG4xtTiEg7opyCyx            Kina Grannis   
4           4  5vjLSffimiIP26QG5WcN2K        Chord Overstreet   

                                          album_name  \
0                                             Comedy   
1                                   Ghost (Acoustic)   
2                                     To Begin Again   
3  Crazy Rich Asians (Original Motion Picture Sou...   
4                                            Hold On   

                   track_name  popularity  duration_ms  explicit  \
0                      Comedy          73       230666     False   
1            Ghost - Acoustic          55       149610     False   
2              To Begin Again          57       210826     False   


## 4) Trie du Dataset