In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_absolute_error
from sklearn.preprocessing import LabelEncoder


file_path = "data1/cleaned_spotify_data.csv"
data = pd.read_csv(file_path)

# Vérification des colonnes nécessaires
print("Colonnes disponibles :", data.columns)

# Sélection des colonnes pertinentes
data = data[['Genre musical', 'Année de sortie', 'Nombre d\'écoutes']]

# Encodage des variables catégorielles
encoder = LabelEncoder()
data['Genre_encoded'] = encoder.fit_transform(data['Genre musical'])

X = data[['Genre_encoded', 'Année de sortie']]
y = data['Nombre d\'écoutes']

print("Aperçu des données :")
print(data.head())

# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("\nTaille des ensembles :")
print(f"Entraînement : {len(X_train)} exemples, Test : {len(X_test)} exemples")

Colonnes disponibles : Index(['Titre de la chanson', 'Nom de l'artiste', 'Genre musical',
       'Année de sortie', 'Nombre d'écoutes'],
      dtype='object')
Aperçu des données :
         Genre musical  Année de sortie  Nombre d'écoutes  Genre_encoded
0      adult standards             2004                71              2
1           album rock             2000                39              5
2  alternative hip hop             2001                69              8
3    alternative metal             2007                76              9
4         classic rock             2002                59             61

Taille des ensembles :
Entraînement : 1595 exemples, Test : 399 exemples


In [4]:
from sklearn.model_selection import train_test_split

file_path = "data1/cleaned_spotify_data.csv"
data = pd.read_csv(file_path)

print("Colonnes disponibles :", data.columns)

# Sélection des colonnes pertinentes
data = data[['Genre musical', 'Année de sortie', 'Nombre d\'écoutes']]

# Encodage des variables catégoriques (si ce n'est pas déjà fait)
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
data['Genre_encoded'] = encoder.fit_transform(data['Genre musical'])

X = data[['Genre_encoded', 'Année de sortie']]
y = data['Nombre d\'écoutes']

# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Nombre d'exemples dans l'ensemble d'entraînement : {len(X_train)}")
print(f"Nombre d'exemples dans l'ensemble de test : {len(X_test)}")

Colonnes disponibles : Index(['Titre de la chanson', 'Nom de l'artiste', 'Genre musical',
       'Année de sortie', 'Nombre d'écoutes'],
      dtype='object')
Nombre d'exemples dans l'ensemble d'entraînement : 1595
Nombre d'exemples dans l'ensemble de test : 399


In [2]:
# Entraînement du modèle
model = LinearRegression()
model.fit(X_train, y_train)

print("\nModèle entraîné avec succès.")


Modèle entraîné avec succès.


In [3]:
# Prédiction sur l'ensemble de test
y_pred = model.predict(X_test)

# Calcul des métriques
r2 = r2_score(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

print("\nPerformances du modèle :")
print(f"Coefficient de détermination (R²) : {r2:.2f}")
print(f"Erreur absolue moyenne (MAE) : {mae:.2f}")


Performances du modèle :
Coefficient de détermination (R²) : 0.03
Erreur absolue moyenne (MAE) : 11.57
