

### üßº Nettoyage et pr√©paration du dataset Spotify

Dans ce bloc de code, nous pr√©parons les donn√©es afin de les rendre exploitables pour l‚Äôanalyse et la mod√©lisation.

1. **S√©lection des colonnes pertinentes**
   On conserve uniquement les colonnes utiles pour la pr√©diction de la popularit√© d‚Äôune chanson. Cela inclut des caract√©ristiques audio (`Tempo`, `Loudness`, `Danceability`, etc.), des m√©tadonn√©es (`Genre`, `emotion`) ainsi que la variable cible `Popularity`.

2. **Conversion de la dur√©e en secondes**
   La colonne `"Length"` est au format `"minutes:secondes"` (ex: `"3:45"`). On la convertit en une nouvelle colonne `"Length_sec"` exprim√©e en secondes. L‚Äôancienne colonne `"Length"` est ensuite supprim√©e.

3. **Normalisation des colonnes en pourcentage**
   Certaines colonnes repr√©sentent des pourcentages compris entre 0 et 100 (par exemple : `Energy`, `Danceability`). On les divise par 100 pour ramener leurs valeurs dans l‚Äôintervalle `[0, 1]`, ce qui facilite l'apprentissage des mod√®les.

4. **Suppression des valeurs manquantes**
   Toutes les lignes contenant des donn√©es manquantes (`NaN`) sont supprim√©es afin d‚Äô√©viter des erreurs lors de l'entra√Ænement des mod√®les.

5. **Aper√ßu des donn√©es**
   On affiche les 20 premi√®res lignes du dataset nettoy√© pour v√©rifier que tout est correct.



In [249]:
import pandas as pd

df = pd.read_csv("Dataset/spotify_dataset_popularity_balanced.csv")  # Remplace par le bon chemin si besoin
# # Chargement du dataset
# df = pd.read_csv("Dataset/spotify_dataset.csv")  # Remplace par le bon chemin si besoin


# def length_to_seconds(length):
#     if pd.notna(length):
#         parts = str(length).split(":")
#         if len(parts) == 2:
#             minutes = int(parts[0])
#             seconds = int(parts[1])
#             return minutes * 60 + seconds
#     return 0

# df['text'] = df['text'].apply(lambda x: len(str(x).split()) if pd.notna(x) else 0) #A R√©√©crire
# df['Length'] = df['Length'].apply(length_to_seconds) #Conversion du Length en secondes

In [250]:
# # S√©parer les morceaux populaires et non populaires
# popular = df[df["Popularity"] > 70]
# non_popular = df[df["Popularity"] <= 70]

# # Objectif : 40% de morceaux populaires, 60% de non populaires
# nb_popular = 8000
# nb_non_popular = int((0.6 * nb_popular) / 0.4)  # soit 15000

# # √âchantillonnage al√©atoire
# popular_sampled = popular.sample(n=nb_popular, random_state=42)
# non_popular_sampled = non_popular.sample(n=nb_non_popular, random_state=42)

# # Fusionner et m√©langer
# balanced_df = pd.concat([popular_sampled, non_popular_sampled]).sample(frac=1, random_state=42).reset_index(drop=True)

# # V√©rification
# l1 = len(balanced_df[balanced_df["Popularity"] > 70])
# l2 = len(balanced_df[balanced_df["Popularity"] <= 70])
# print("Total :", len(balanced_df))
# print("Popularit√© > 70 :", l1)
# print("Popularit√© ‚â§ 70 :", l2)
# print("Proportions :", round(l1 / (l1 + l2), 2), "/", round(l2 / (l1 + l2), 2))

# df.to_csv("Dataset/spotify_dataset_popularity_balanced.csv", index=False)

# df = balanced_df

In [251]:

colonnes_utiles = [
    "emotion", "Genre", "Tempo", "Loudness (db)", "Energy", "Danceability",
    "Positiveness", "Speechiness", "Liveness", "Acousticness", "Instrumentalness",
    "Length", "Popularity"
]
df = df[colonnes_utiles]



#df.drop(columns=["Length"], inplace=True)

pourcentages = ["Energy", "Danceability", "Positiveness", "Speechiness", "Liveness", "Acousticness", "Instrumentalness"]
for col in pourcentages:
    df[col] = df[col] / 100.0

df.dropna(inplace=True)

print("Jeu de donn√©es nettoy√© :")
print(df.head(20))


Jeu de donn√©es nettoy√© :
     emotion    Genre     Tempo  Loudness (db)  Energy  Danceability  \
0    sadness  hip hop  0.437870       0.785065    0.83          0.71   
1    sadness  hip hop  0.508876       0.805051    0.85          0.70   
2        joy  hip hop  0.532544       0.799419    0.89          0.71   
3        joy  hip hop  0.538462       0.811047    0.84          0.78   
4        joy  hip hop  0.544379       0.808321    0.71          0.77   
5       love  hip hop  0.538462       0.782340    0.81          0.87   
6    sadness  hip hop  0.431953       0.784884    0.89          0.68   
7        joy  hip hop  0.526627       0.818677    0.88          0.77   
8   surprise  hip hop  0.526627       0.750908    0.72          0.86   
9    sadness  hip hop  0.550296       0.759811    0.68          0.77   
10   sadness  hip hop  0.390533       0.766897    0.76          0.76   
11  surprise  hip hop  0.520710       0.790153    0.93          0.63   
12       joy  hip hop  0.562130      

### üîç Entra√Ænement et √©valuation de plusieurs mod√®les de r√©gression

Dans cette section, nous pr√©parons les donn√©es et √©valuons plusieurs mod√®les de r√©gression afin de pr√©dire la popularit√© d'une chanson.

1. **Pr√©paration des donn√©es**

   * La variable cat√©gorielle `"emotion"` est encod√©e avec un **OneHotEncoder** afin de la transformer en variables num√©riques.
   * La variable cible est `Popularity`, que l‚Äôon cherche √† pr√©dire.
   * Les donn√©es sont divis√©es en un **ensemble d‚Äôentra√Ænement (80%)** et un **ensemble de test (20%)**.

2. **Mod√®les test√©s**

   * **R√©gression lin√©aire** simple.
   * **R√©gression Ridge** (lin√©aire r√©gularis√©e).
   * **R√©gression polynomiale** (de degr√© 2 √† 3), qui permet de mod√©liser des relations non lin√©aires entre les variables.
   * **Random Forest Regressor**, un mod√®le bas√© sur des arbres de d√©cision.
   * **R√©gression logistique**, utilis√©e ici non pas pour la r√©gression mais pour la **classification binaire** : une chanson est consid√©r√©e comme *populaire* si sa popularit√© est sup√©rieure ou √©gale √† 50.

3. **√âvaluation**

   * Pour les mod√®les de **r√©gression**, on √©value les performances avec :

     * **RMSE** (Root Mean Squared Error) : plus elle est faible, mieux c‚Äôest.
     * **R¬≤** (coefficient de d√©termination) : mesure la qualit√© de l‚Äôajustement (proche de 1 = bon mod√®le).
   * Pour la **r√©gression logistique**, on √©value l‚Äô**accuracy** (taux de bonnes classifications).

Ce processus permet de comparer diff√©rentes approches et d‚Äôidentifier les mod√®les les plus adapt√©s pour pr√©dire ou classifier la popularit√© musicale √† partir des caract√©ristiques audio et √©motionnelles.


In [None]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, PolynomialFeatures
from sklearn.linear_model import LinearRegression, Ridge, LogisticRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.pipeline import make_pipeline
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score
from sklearn.neighbors import KNeighborsRegressor

# 1. S√©parer les variables
emotion = df[["emotion"]]
X_rest = df.drop(columns=["emotion", "Genre", "Popularity"])
y = df["Popularity"]

# 2. Encoder "emotion"
encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')
emotion_encoded = encoder.fit_transform(emotion)
emotion_df = pd.DataFrame(
    emotion_encoded,
    columns=encoder.get_feature_names_out(["emotion"]),
    index=emotion.index
)

# 3. Concat√©ner les features num√©riques et encod√©es
X = pd.concat([X_rest, emotion_df], axis=1)

# 4. S√©parer les donn√©es en train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Fonction de pond√©ration gaussienne
def gaussian_weights(distances):
    sigma = np.std(distances)
    return np.exp(- (distances ** 2) / (2 * sigma ** 2))

# 5. D√©finir les mod√®les
models = {
    "R√©gression Lin√©aire": LinearRegression(),
    "R√©gression Ridge": Ridge(alpha=1.0, solver='sag'),  # ‚úÖ non modifi√©
    "Random Forest": RandomForestRegressor(n_estimators=100, random_state=42),
    "R√©gression Logistique": LogisticRegression(max_iter=1000),
    "R√©gression KNN": KNeighborsRegressor(n_neighbors=5),
}

# Ajouter automatiquement des mod√®les polynomiaux (degr√©s 2 √† 5)
for deg in range(2, 4):
    models[f"R√©gression Polynomiale (deg={deg})"] = make_pipeline(
        PolynomialFeatures(degree=deg),
        LinearRegression()
    )

# 6. Binariser la target pour la classification
y_class = (y >= 50).astype(int)

# 7. Entra√Æner et √©valuer
for name, model in models.items():
    print(f"\nüîπ {name}")
    if "Logistique" in name:
        model.fit(X_train, y_class.loc[X_train.index])
        y_pred = model.predict(X_test)
        
        acc = accuracy_score(y_class.loc[X_test.index], y_pred)
        print("Accuracy (classification binaire) :", round(acc, 3))
    else:
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
        rmse = np.sqrt(mean_squared_error(y_test, y_pred))
        r2 = r2_score(y_test, y_pred)
        print("RMSE :", round(rmse, 2))
        print("R¬≤ :", round(r2, 3))


üîπ R√©gression Lin√©aire
RMSE : 16.89
R¬≤ : 0.032

üîπ R√©gression Ridge



### üìä Analyse des erreurs des mod√®les de r√©gression

Ce bloc de code permet de visualiser les **erreurs absolues** commises par chaque mod√®le de r√©gression sur les pr√©dictions de popularit√©.

1. **Calcul des erreurs absolues**
   Pour chaque mod√®le (sauf la r√©gression logistique), on calcule l'erreur absolue entre la valeur r√©elle (`y_test`) et la valeur pr√©dite (`y_pred`) :

   $$
   \text{erreur absolue} = |y_{\text{r√©el}} - y_{\text{pr√©dit}}|
   $$

2. **Pr√©vention d'erreur sur `abs()`**
   On utilise `del abs` au cas o√π la fonction int√©gr√©e `abs()` aurait √©t√© accidentellement √©cras√©e par une variable appel√©e `abs` dans une cellule pr√©c√©dente.

3. **Affichage des histogrammes**
   Pour chaque mod√®le, on affiche un histogramme repr√©sentant la distribution des erreurs absolues :

   * Un histogramme centr√© vers **0** indique un bon mod√®le.
   * Une distribution √©tal√©e ou d√©cal√©e vers la droite indique des erreurs plus fr√©quentes et importantes.

Cette visualisation permet de comparer visuellement la **pr√©cision** des mod√®les et d‚Äôidentifier ceux qui font les pr√©dictions les plus proches des vraies valeurs.


In [None]:
import matplotlib.pyplot as plt
import numpy as np

# S'assurer que abs() est bien une fonction
try:
    del abs
except:
    pass

# Liste pour stocker les erreurs de chaque mod√®le
hist_data = []

for name, model in models.items():
    if "Logistique" not in name:
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
        errors = abs(y_test - y_pred)
        hist_data.append((name, errors))

# Tracer un histogramme pour chaque mod√®le
for name, errors in hist_data:
    plt.figure(figsize=(7, 4))
    plt.hist(errors, bins=30, color='cornflowerblue', alpha=0.7)
    plt.title(f"Histogramme des erreurs absolues ‚Äî {name}")
    plt.xlabel("Erreur absolue")
    plt.xlim(0,100)
    plt.ylabel("Fr√©quence")
    plt.grid(True)
    plt.show()




### Analyse des histogrammes des erreurs absolues

Les graphiques pr√©sent√©s illustrent la distribution des **erreurs absolues** entre les pr√©dictions des mod√®les et les vraies valeurs de popularit√©. Une erreur absolue faible signifie que le mod√®le a pr√©dit une valeur proche de la r√©alit√©. L‚Äôobjectif est donc d‚Äôavoir une courbe concentr√©e vers z√©ro.

---

#### R√©gression Lin√©aire

* La plupart des erreurs sont **inf√©rieures √† 15**, ce qui indique une bonne approximation globale.
* On observe cependant une **queue √©tal√©e** allant jusqu‚Äô√† 50‚Äì60, montrant que certaines pr√©dictions peuvent s‚Äô√©loigner fortement des valeurs r√©elles.
* Cela sugg√®re un mod√®le stable mais sensible aux cas extr√™mes.

#### R√©gression Ridge

* Comportement tr√®s proche de la r√©gression lin√©aire.
* L√©g√®re r√©duction des grandes erreurs gr√¢ce √† la r√©gularisation, mais peu de diff√©rence visuelle.
* Les erreurs restent mod√©r√©es, sans valeurs aberrantes.

#### Random Forest

* L‚Äôerreur est **tr√®s concentr√©e autour de z√©ro**, ce qui est un bon signe.
* Peu d‚Äôerreurs au-del√† de 30, ce qui traduit une **robustesse** du mod√®le face aux variations des donn√©es.
* Ce mod√®le offre clairement les **meilleures performances pr√©dictives globales** en termes de pr√©cision.

#### R√©gression Polynomiale (degr√© 2)

* Distribution similaire aux mod√®les lin√©aires.
* Courbe plus irr√©guli√®re, montrant une **sensibilit√© accrue √† certaines zones du domaine**.
* Le mod√®le est plus flexible, mais n'apporte pas d‚Äôam√©lioration nette.

#### R√©gression Polynomiale (degr√© 3)

* La distribution est d‚Äôabord correcte, mais on commence √† voir **quelques erreurs tr√®s √©lev√©es**.
* La pr√©sence de valeurs extr√™mes (> 100) est le signe d‚Äôun **surajustement** sur certaines donn√©es.
* Le mod√®le devient instable.

#### R√©gression Polynomiale (degr√© 4 et plus)

* Apparition d‚Äô**erreurs massives** : certaines d√©passent 400, voire 1200.
* Cela montre clairement un **effondrement du mod√®le** d√ª √† la complexit√© excessive.
* Le mod√®le ne g√©n√©ralise plus du tout : c‚Äôest un exemple typique de **surapprentissage**.




### üìâ R√©gression logistique ‚Äî classification binaire avec seuil 70

Ce bloc de code utilise la **r√©gression logistique** pour transformer le probl√®me de pr√©diction de la popularit√© en une **t√¢che de classification binaire**.

#### 1. **Binarisation de la cible `Popularity`**

La variable `y` est transform√©e selon un **seuil de 70** :

* `1` si la popularit√© est **sup√©rieure ou √©gale √† 70** (chanson tr√®s populaire)
* `0` sinon

#### 2. **Split des donn√©es**

Les ensembles `X_train` et `X_test` sont conserv√©s. La cible binaire (`y_class_70`) est s√©par√©e en `train/test` selon les m√™mes index.

#### 3. **Entra√Ænement du mod√®le**

Un mod√®le de **r√©gression logistique** est entra√Æn√© sur les donn√©es binaris√©es.

#### 4. **√âvaluation**

On affiche :

* La **matrice de confusion**, qui montre les vrais positifs/n√©gatifs et les erreurs de classification
* Le **taux de pr√©cision globale (accuracy)** du mod√®le

Cette analyse permet d‚Äô√©valuer si le mod√®le peut efficacement **pr√©dire si une chanson atteindra une forte popularit√©** (‚â•70) √† partir de ses caract√©ristiques audio et √©motionnelles.


In [None]:
n = len(models)
acc_train = [0] * n
acc_test = [0] * n
acc_cv = [0] * n

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, accuracy_score
import matplotlib.pyplot as plt

# 1. Cr√©er une version binaire de y avec seuil 70
y_class_70 = (y >= 70).astype(int)

# 2. Split train/test sur cette version
y_train_class70 = y_class_70.loc[X_train.index]
y_test_class70 = y_class_70.loc[X_test.index]

# 3. Entra√Æner le mod√®le logistique
log_model = LogisticRegression(max_iter=1000)
log_model.fit(X_train, y_train_class70)
y_pred_class70 = log_model.predict(X_test)
y_pred_class70_train = log_model.predict(X_train)


# 4. Matrice de confusion
cm = confusion_matrix(y_test_class70, y_pred_class70)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=["< 70", "‚â• 70"])
disp.plot(cmap="Blues")
plt.title("Matrice de confusion ‚Äî R√©gression logistique (seuil 70)")
plt.xlabel("Pr√©dit")
plt.ylabel("R√©el")
plt.grid(False)
plt.show()

# 5. Accuracy
acc = accuracy_score(y_test_class70, y_pred_class70)
acc_train[0] = accuracy_score(y_train_class70, y_pred_class70_train)
acc_test[0] = accuracy_score(y_test_class70, y_pred_class70)

print(f"‚úÖ Accuracy (seuil 70) : {acc:.4f}")


### Matrices de confusion ‚Äî mod√®les de r√©gression binaris√©s (seuil 70)

Ce bloc de code permet d‚Äô√©valuer les mod√®les de r√©gression (autres que la r√©gression logistique) comme des classifieurs binaires, en transformant leur sortie continue en classes √† l‚Äôaide d‚Äôun seuil.

#### √âtapes d√©taill√©es :

1. **Binarisation de la v√©rit√© terrain (`y_test`)**
   La variable cible `Popularity` est transform√©e en variable binaire :

   * Valeur 1 si la popularit√© r√©elle est sup√©rieure ou √©gale √† 70
   * Valeur 0 sinon

2. **Transformation des pr√©dictions**
   Chaque mod√®le pr√©dit une valeur num√©rique (`y_pred`).
   Ces valeurs sont converties en classes binaires en appliquant un seuil de 70 :

   * Classe 1 si `y_pred ‚â• 70`
   * Classe 0 sinon

3. **√âvaluation via une matrice de confusion**
   Pour chaque mod√®le, on compare les pr√©dictions binaris√©es √† la v√©rit√© terrain, sous forme de matrice de confusion.
   Celle-ci permet de visualiser :

   * Les vrais positifs (bonne d√©tection des chansons populaires)
   * Les faux positifs (chansons pr√©dites populaires √† tort)
   * Les faux n√©gatifs (chansons populaires non d√©tect√©es)
   * Les vrais n√©gatifs


In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

# Binarisation de la v√©rit√© terrain
y_test_class70 = (y_test >= 70).astype(int)
y_train_class70 = (y_train >= 70).astype(int)
i = 1
# G√©n√©rer et afficher une matrice de confusion pour chaque mod√®le
for name, model in models.items():
    if "Logistique" not in name:
        model.fit(X_train, y_train)
        y_pred_continu = model.predict(X_test)
        y_pred_continu_train = model.predict(X_train)
        print(f"{name} ‚Äî Pr√©dictions ‚â• 70 : {(y_pred_continu >= 70).sum()}")
        print(f"Min pr√©diction : {y_pred_continu.min():.2f} | Max : {y_pred_continu.max():.2f} | Moyenne : {y_pred_continu.mean():.2f}")
        y_pred_class70 = (y_pred_continu >= 70).astype(int)
        y_pred_class70_train = (y_pred_continu_train >= 70).astype(int)

        acc_train[i] = accuracy_score(y_train_class70, y_pred_class70_train)
        acc_test[i] = accuracy_score(y_test_class70, y_pred_class70)

        # Matrice de confusion
        cm = confusion_matrix(y_test_class70, y_pred_class70)
        disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=["< 70", "‚â• 70"])
        disp.plot(cmap="Blues")
        plt.title(f"Matrice de confusion ‚Äî {name} (seuil 70)")
        plt.xlabel("Pr√©dit")
        plt.ylabel("R√©el")
        plt.grid(False)
        plt.show()

        i+=1

print("Taille y_test_class70 :", len(y_test_class70))
print("Taille y_pred_class70 :", len(y_pred_class70))
print("Somme matrice :", cm.sum())
print("Taille test :", len(y_test))





### Analyse des matrices de confusion (seuil = 30)

Nous √©valuons ici plusieurs mod√®les de r√©gression en les transformant en classifieurs binaires, en consid√©rant qu'une chanson est *populaire* si sa popularit√© pr√©dite est sup√©rieure ou √©gale √† 30. Les r√©sultats sont exprim√©s sous forme de **matrices de confusion**, accompagn√©es de statistiques descriptives (minimum, maximum et moyenne des pr√©dictions).

#### R√©gression Lin√©aire

* Le mod√®le a tendance √† pr√©dire beaucoup de valeurs sup√©rieures √† 30 (1248 cas), mais il produit un grand nombre de **faux positifs**.
* Il d√©tecte tout de m√™me correctement 55 chansons r√©ellement populaires sur 68, ce qui montre un bon **rappel**, mais au prix d‚Äôune faible **pr√©cision**.

#### R√©gression Ridge

* Ce mod√®le affiche un comportement extr√™me : il pr√©dit quasiment toutes les valeurs au-dessus du seuil (1743 sur 2000), ce qui lui permet de capturer presque toutes les vraies chansons populaires (63 sur 68).
* En contrepartie, le nombre de **faux positifs** est tr√®s √©lev√©, rendant les pr√©dictions peu fiables pour discriminer correctement.

#### Random Forest

* Ce mod√®le offre un bon **√©quilibre** entre rappel et pr√©cision.
* Il parvient √† d√©tecter 54 vraies chansons populaires tout en limitant mieux les faux positifs que les mod√®les lin√©aires.
* Sa capacit√© √† mod√©liser des relations non lin√©aires semble lui permettre de mieux s√©parer les classes.

#### R√©gression Polynomiale (degr√© 2)

* Le comportement est similaire √† celui du Random Forest, mais l√©g√®rement moins √©quilibr√©.
* Elle capte 51 chansons populaires avec un peu plus de faux positifs, ce qui refl√®te un compromis correct entre complexit√© et performance.

#### R√©gression Polynomiale (degr√© 3)

* Ce mod√®le montre des pr√©dictions tr√®s instables, avec des valeurs extr√™mes allant de ‚Äì400 √† plus de 200.
* Malgr√© cela, il d√©tecte 48 chansons populaires, mais reste moins performant que le degr√© 2 ou le Random Forest.
* Cela sugg√®re un d√©but de **surapprentissage**, typique des mod√®les polynomiaux trop complexes.

---

### Conclusion

Au seuil de 30, **le mod√®le Random Forest est celui qui montre le meilleur compromis** entre d√©tection correcte des chansons populaires et limitation des erreurs. Les mod√®les lin√©aires, bien qu‚Äôefficaces en rappel, souffrent d‚Äôun trop grand nombre de faux positifs, tandis que les mod√®les polynomiaux deviennent instables au-del√† du degr√© 2.



In [None]:
print(acc_test,acc_train)
model_names = ["R√©gression Logistique","R√©gression Lin√©aire","R√©gression Ridge","Random Forest","R√©gression KNN","R√©gression Polynomiale (deg=2)","R√©gression Polynomiale (deg=3)"]

In [None]:
# Position des barres
x = np.arange(len(model_names))
width = 0.35

# Cr√©ation du graphique
fig, ax = plt.subplots(figsize=(12, 6))

# Barres
ax.bar(x - width/2, acc_train, width, label='Train', color='lightgreen')
ax.bar(x + width/2, acc_test, width, label='Test', color='skyblue')

# Mise en forme
ax.set_ylabel('Accuracy')
ax.set_title('Comparaison Accuracy - Train vs Cross-Val vs Test')
ax.set_xticks(x)
ax.set_xticklabels(model_names, rotation=45, ha='right')
ax.set_ylim(0, 1)
ax.legend()

plt.tight_layout()
plt.show()

In [None]:
print(acc_test)