# TP : Système de recommandation musicale avec K-means et PCA

Dans ce TP, vous allez découvrir comment combiner deux techniques fondamentales du machine learning :
- **K-means** : algorithme de clustering pour regrouper des morceaux similaires
- **PCA (Analyse en Composantes Principales)** : technique de réduction de dimensionnalité pour visualiser et améliorer le clustering

Vous allez construire un système de recommandation musicale en analysant des caractéristiques audio de morceaux Spotify.

## Plan du TP

1. Exploration des données
2. Première visualisation 3D de features sélectionnées
3. Premier clustering K-means sur données brutes
4. Amélioration avec mise à l'échelle des données
5. Application de la PCA pour réduction de dimensionnalité
6. Clustering optimisé avec K-means sur les composantes principales
7. Détermination du nombre optimal de clusters
8. Création de playlists personnalisées

## 0. Import des bibliothèques

In [None]:
#!pip install seaborn==0.13.2
#!pip install plotly==6.5.0

In [None]:
import os

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns

from sklearn.preprocessing import RobustScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans

# Configuration pour de meilleurs graphiques
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

## 1. Chargement et exploration des données

### 1.1 Chargement du dataset

[Lien pour télécharger le dataset sur Kaggle](https://www.kaggle.com/datasets/maharshipandya/-spotify-tracks-dataset/data)

In [None]:
# Charger le dataset
df = pd.read_csv(os.path.join('data','SpotifyTracksDataset','dataset.csv'))

print(f"Dimensions du dataset : {df.shape}")
print(f"Nombre de morceaux : {df.shape[0]}")
print(f"Nombre de colonnes : {df.shape[1]}")

### 1.2 Aperçu des premières lignes

In [None]:
df.head()

On a une colonne `unnamed` qui correspond à l’index visiblement.

In [None]:
df.set_index('Unnamed: 0',drop=True, inplace=True)
df.index.name = None

### 1.3 Informations sur le dataset

In [None]:
df.info()

### 1.4 Vérification des valeurs manquantes et doublons

In [None]:
missing_values = df.isnull().sum()
if missing_values.sum() > 0:
    print("Valeurs manquantes par colonne :")
    print(missing_values[missing_values > 0])
else:
    print("Aucune valeur manquante dans le dataset")

# Vérification des doublons
n_duplicates = df.duplicated().sum()
if n_duplicates > 0:
    print(f"\n{n_duplicates} ligne(s) en doublon détectée(s)")
    print(f"Pourcentage de doublons : {n_duplicates/len(df)*100:.2f}%")
    
    # Vérifier les doublons sur track_id uniquement
    n_duplicates_track = df.duplicated(subset=['track_id']).sum()
    if n_duplicates_track > 0:
        print(f"\nEt {n_duplicates_track} morceau(x) avec le même track_id")
        print("Supprimer les doublons avec df.drop_duplicates()")
else:
    print("\nAucun doublon détecté dans le dataset")

In [None]:
df_cleaned = df.drop_duplicates().dropna()

### 1.5 Création d'un DataFrame avec uniquement les données numériques

Pour notre analyse, nous allons nous concentrer sur les features audio quantitatives.

In [None]:
# Sélection des colonnes numériques pertinentes pour l'analyse audio
#numeric_features = ['popularity', 'duration_ms', 'danceability', 'energy', 'key', 
#                   'loudness', 'mode', 'speechiness', 'acousticness', 
#                   'instrumentalness', 'liveness', 'valence', 'tempo', 'time_signature']
#
#data_num = df[numeric_features].copy()
# ou
data_num = df_cleaned.select_dtypes(exclude = ['object'])
numeric_features = data_num.columns # on en aura besoin à la fin

print(f"Dimensions des données numériques : {data_num.shape}")
print(f"\nFeatures disponibles :")
for i, col in enumerate(data_num.columns, 1):
    print(f"{i}. {col}")

### 1.6 Statistiques descriptives

In [None]:
data_num.describe()

### 1.7 Matrice de corrélation

Analysons les corrélations entre les différentes features audio pour comprendre leurs relations.

In [None]:
# Calcul de la matrice de corrélation
correlation_matrix = data_num.corr()

# Visualisation avec une heatmap
plt.figure(figsize=(12, 10))
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
            center=0, square=True, linewidths=1, cbar_kws={"shrink": 0.8})
plt.title('Matrice de corrélation des features audio Spotify', fontsize=14, pad=20)
plt.tight_layout()
plt.show()

print("\nObservations à noter :")
print("- Quelles variables sont fortement corrélées ?")
print("- Y a-t-il des corrélations négatives intéressantes ?")

Lisez bien la description de chaque feature sur la page Kaggle pour d’une part comprendre ces corrélations, et d’autre part sélectionnez trois features (pas forcément corrélées) qu’il vous semble intéressant d’analyser de plus près afin de voir si elles permettraient de regrouper des morceaux ressemblant. Faisons-en une visualisation 3D pour voir comment ces features sont partagées.

Par exemple danceability, energy, valence ou acousticness, instrumentalness, speechiness ou tout autre combinaison qui vous inspire/interpelle.

## 2. Première visualisation 3D avec trois features

Commençons par visualiser les données en sélectionnant trois features intéressantes. Nous choisissons :
- **danceability** : mesure de la facilité à danser sur un morceau (0.0 à 1.0)
- **energy** : mesure de l'intensité et de l'activité (0.0 à 1.0)
- **valence** : positivité musicale transmise, du triste (0.0) au joyeux (1.0)

In [None]:
# Visualisation 3D des données brutes
fig = px.scatter_3d(data_num, 
                    x='danceability', 
                    y='energy', 
                    z='valence',
                    opacity=0.7,
                    width=800,
                    height=700,
                    title='Visualisation 3D : Danceability, Energy et Valence (données brutes)')

fig.update_traces(marker=dict(size=3, color='steelblue'))
fig.show()

print("\nObservation : Les points semblent distribués de manière relativement uniforme.")
print("Aucune structure claire n'émerge visuellement de ces trois dimensions.")
print("En clair : on a affaire à un gros pâté.")

## 3. Premier clustering K-means sur données brutes

### 3.1 Choix du nombre de clusters

Utilisons une règle empirique simple : pour N observations, on peut estimer le nombre de clusters optimal à environ √(N/2). Mais on va éviter d’avoir à considérer plus de 10 clusters (on se pose une limite dans notre exercice, pour se simplifier la vie, on pourrait aussi limiter le nombre d’observations).

In [None]:
# Calcul du nombre de clusters selon la règle empirique
n_samples = len(data_num)
k_empirical = int(np.sqrt(n_samples / 2))
k_empirical = max(5, min(k_empirical, 10))  # Contraindre entre 5 et 10

print(f"Nombre d'échantillons : {n_samples}")
print(f"Nombre de clusters suggéré (règle empirique) : {k_empirical}")

### 3.2 Application de K-means sur les données brutes

In [None]:
# K-means sur les données brutes
kmeans_raw = KMeans(n_clusters=k_empirical, random_state=42, n_init=10)
labels_raw = kmeans_raw.fit_predict(data_num)

print(f"Clustering effectué avec {k_empirical} clusters")
print(f"Inertie (somme des distances au carré aux centroïdes) : {kmeans_raw.inertia_:.2f}")
print(f"\nRépartition des morceaux par cluster :")
unique, counts = np.unique(labels_raw, return_counts=True)
for cluster_id, count in zip(unique, counts):
    print(f"  Cluster {cluster_id} : {count} morceaux ({count/len(labels_raw)*100:.1f}%)")

### 3.3 Visualisation du clustering sur données brutes

In [None]:
# Création d'un DataFrame temporaire pour la visualisation
df_viz_raw = data_num[['danceability', 'energy', 'valence']].copy()
df_viz_raw['cluster'] = labels_raw.astype(str)

# Visualisation 3D avec les clusters
fig = px.scatter_3d(df_viz_raw,
                    x='danceability',
                    y='energy',
                    z='valence',
                    color='cluster',
                    opacity=0.7,
                    width=800,
                    height=700,
                    title=f'K-means sur données brutes ({k_empirical} clusters)')

fig.update_traces(marker=dict(size=3))
fig.show()

print("\nConstat : Les clusters se chevauchent significativement.")
print("La séparation n'est pas claire sur ces trois dimensions.")
print("Solution : normaliser les données pour que toutes les features contribuent équitablement.")

## 4. Amélioration avec mise à l'échelle des données

### 4.1 Pourquoi scaler les données ?

Les features ont des échelles différentes (ex: duration_ms en millisecondes vs danceability entre 0 et 1). 
Le K-means utilise la distance euclidienne, donc les features avec de grandes valeurs dominent le calcul.

Nous utilisons **RobustScaler** qui est résistant aux outliers (utilise la médiane et l'IQR plutôt que la moyenne).

In [None]:
# Mise à l'échelle avec RobustScaler
scaler = RobustScaler()
data_scaled = scaler.fit_transform(data_num)

# Création d'un DataFrame pour faciliter l'analyse
data_scaled_df = pd.DataFrame(data_scaled, columns=data_num.columns)

print("Données mises à l'échelle avec RobustScaler")
print(f"\nAperçu des données scalées :")
print(data_scaled_df.describe())

### 4.2 K-means sur les données scalées

In [None]:
# K-means sur les données scalées
kmeans_scaled = KMeans(n_clusters=k_empirical, random_state=42, n_init=10)
labels_scaled = kmeans_scaled.fit_predict(data_scaled)

print(f"Clustering effectué avec {k_empirical} clusters sur données scalées")
print(f"Inertie : {kmeans_scaled.inertia_:.2f}")
print(f"\nRépartition des morceaux par cluster :")
unique, counts = np.unique(labels_scaled, return_counts=True)
for cluster_id, count in zip(unique, counts):
    print(f"  Cluster {cluster_id} : {count} morceaux ({count/len(labels_scaled)*100:.1f}%)")

On constate un gros déséquilibre dans la taille (nombre de morceaux) des clusters

### 4.3 Visualisation avec données scalées

In [None]:
# Visualisation 3D avec les données scalées
df_viz_scaled = data_scaled_df[['danceability', 'energy', 'valence']].copy()
df_viz_scaled['cluster'] = labels_scaled.astype(str)

fig = px.scatter_3d(df_viz_scaled,
                    x='danceability',
                    y='energy',
                    z='valence',
                    color='cluster',
                    opacity=0.7,
                    width=800,
                    height=700,
                    title=f'K-means sur données scalées ({k_empirical} clusters) - 3 features')

fig.update_traces(marker=dict(size=3))
fig.show()

print("\nObservation : L'amélioration est légère, mais visible.")
print("\nElle tient surtout à ce qu’un gros cluster constitue >40% des données.")
print("Le problème principal : nous n'observons que 3 des 14 dimensions disponibles !")
print("\nSolution : utiliser la PCA pour réduire toutes les dimensions en composantes")
print("principales qui capturent la variance maximale, tout en restant visualisables.")

## 5. Analyse en Composantes Principales (PCA)

### 5.1 PCA complète pour analyser la variance expliquée

Commençons par faire une PCA sur toutes les composantes possibles pour voir combien de variance est capturée par chacune.

In [None]:
# PCA complète
pca_full = PCA()
pca_full.fit(data_scaled)

# Variance expliquée par chaque composante
variance_explained = pca_full.explained_variance_ratio_
cumulative_variance = np.cumsum(variance_explained)

print("Variance expliquée par les premières composantes :")
for i in range(min(10, len(variance_explained))):
    print(f"  PC{i+1} : {variance_explained[i]*100:.2f}% (cumulé : {cumulative_variance[i]*100:.2f}%)")

### 5.2 Graphique de la variance cumulée

In [None]:
# Visualisation de la variance expliquée
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))

# Variance par composante
ax1.bar(range(1, len(variance_explained)+1), variance_explained, alpha=0.7, color='steelblue')
ax1.set_xlabel('Composante Principale', fontsize=12)
ax1.set_ylabel('Variance expliquée', fontsize=12)
ax1.set_title('Variance expliquée par composante', fontsize=14)
ax1.grid(True, alpha=0.3)

# Variance cumulée
ax2.plot(range(1, len(cumulative_variance)+1), cumulative_variance, 'o-', color='steelblue', linewidth=2)
ax2.axhline(y=0.8, color='red', linestyle='--', label='80% de variance')
ax2.axhline(y=0.9, color='orange', linestyle='--', label='90% de variance')
ax2.set_xlabel('Nombre de composantes', fontsize=12)
ax2.set_ylabel('Variance cumulée', fontsize=12)
ax2.set_title('Variance cumulée expliquée', fontsize=14)
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Trouver le nombre de composantes pour 80% et 90% de variance
n_components_80 = np.argmax(cumulative_variance >= 0.8) + 1
n_components_90 = np.argmax(cumulative_variance >= 0.9) + 1

print(f"\nRésultats :")
print(f"  • Les 3 premières composantes expliquent {cumulative_variance[2]*100:.2f}% de la variance")
print(f"  • Il faut {n_components_80} composantes pour expliquer >80% de la variance")
print(f"  • Il faut {n_components_90} composantes pour expliquer >90% de la variance")

### 5.3 PCA à 3 composantes pour visualisation

Nous allons projeter nos données sur 3 composantes principales pour pouvoir les visualiser en 3D, de plus elles expliquent quasiment 90% de la variance.

In [None]:
# PCA à 3 composantes
pca_3d = PCA(n_components=3)
data_proj = pca_3d.fit_transform(data_scaled)

print(f"PCA effectuée : {data_scaled.shape[1]} dimensions → 3 composantes principales")
print(f"\nVariance expliquée par les 3 composantes :")
for i, var in enumerate(pca_3d.explained_variance_ratio_, 1):
    print(f"  PC{i} : {var*100:.2f}%")
print(f"\nVariance totale expliquée : {pca_3d.explained_variance_ratio_.sum()*100:.2f}%")

# Création d'un DataFrame pour faciliter l'analyse
df_pca = pd.DataFrame(data_proj, columns=['PC1', 'PC2', 'PC3'])
print(f"\nDimensions des données projetées : {df_pca.shape}")

### 5.4 Visualisation des données dans l'espace PCA

In [None]:
# Visualisation 3D dans l'espace PCA
fig = px.scatter_3d(df_pca,
                    x='PC1',
                    y='PC2',
                    z='PC3',
                    opacity=0.7,
                    width=800,
                    height=700,
                    title='Données projetées dans l\'espace PCA (3 composantes)',
                    labels={'PC1': f'PC1 ({pca_3d.explained_variance_ratio_[0]*100:.1f}%)',
                           'PC2': f'PC2 ({pca_3d.explained_variance_ratio_[1]*100:.1f}%)',
                           'PC3': f'PC3 ({pca_3d.explained_variance_ratio_[2]*100:.1f}%)'})

fig.update_traces(marker=dict(size=3, color='steelblue'))
fig.show()

print("\nObservation : La projection PCA révèle une structure plus étalée des données.")
print("Les composantes principales capturent les directions de variance maximale.")

### 5.5 Analyse des composantes principales

Voyons quelles features originales contribuent le plus à chaque composante principale.

In [None]:
# Création d'un DataFrame des composantes
components_df = pd.DataFrame(
    pca_3d.components_.T,
    columns=['PC1', 'PC2', 'PC3'],
    index=data_num.columns
)

# Visualisation des contributions
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

for i, pc in enumerate(['PC1', 'PC2', 'PC3']):
    # Trier par valeur absolue pour voir les contributions importantes
    sorted_features = components_df[pc].abs().sort_values(ascending=True)
    colors = ['red' if x < 0 else 'steelblue' for x in components_df.loc[sorted_features.index, pc]]
    
    axes[i].barh(range(len(sorted_features)), 
                 components_df.loc[sorted_features.index, pc],
                 color=colors, alpha=0.7)
    axes[i].set_yticks(range(len(sorted_features)))
    axes[i].set_yticklabels(sorted_features.index)
    axes[i].set_xlabel('Contribution', fontsize=11)
    axes[i].set_title(f'{pc}\n({pca_3d.explained_variance_ratio_[i]*100:.1f}% variance)', 
                     fontsize=12, fontweight='bold')
    axes[i].axvline(x=0, color='black', linestyle='-', linewidth=0.8)
    axes[i].grid(True, alpha=0.3, axis='x')

plt.tight_layout()
plt.show()

print("\nInterprétation des composantes principales :")
print("\nPC1 - Principales contributions :")
top_pc1 = components_df['PC1'].abs().sort_values(ascending=False).head(3)
for feat, val in top_pc1.items():
    print(f"  • {feat}: {components_df.loc[feat, 'PC1']:.3f}")

print("\nPC2 - Principales contributions :")
top_pc2 = components_df['PC2'].abs().sort_values(ascending=False).head(3)
for feat, val in top_pc2.items():
    print(f"  • {feat}: {components_df.loc[feat, 'PC2']:.3f}")

print("\nPC3 - Principales contributions :")
top_pc3 = components_df['PC3'].abs().sort_values(ascending=False).head(3)
for feat, val in top_pc3.items():
    print(f"  • {feat}: {components_df.loc[feat, 'PC3']:.3f}")

## 6. K-means optimisé sur les composantes principales

### 6.1 Clustering dans l'espace PCA

In [None]:
# K-means sur les données projetées PCA
kmeans_pca = KMeans(n_clusters=k_empirical, random_state=42, n_init=10)
labels_pca = kmeans_pca.fit_predict(data_proj)

print(f"K-means effectué sur l'espace PCA avec {k_empirical} clusters")
print(f"Inertie : {kmeans_pca.inertia_:.2f}")
print(f"\nRépartition des morceaux par cluster :")
unique, counts = np.unique(labels_pca, return_counts=True)
for cluster_id, count in zip(unique, counts):
    print(f"  Cluster {cluster_id} : {count} morceaux ({count/len(labels_pca)*100:.1f}%)")

### 6.2 Visualisation du clustering dans l'espace PCA

In [None]:
# Visualisation avec les clusters dans l'espace PCA
df_pca_clustered = df_pca.copy()
df_pca_clustered['cluster'] = labels_pca.astype(str)

fig = px.scatter_3d(df_pca_clustered,
                    x='PC1',
                    y='PC2',
                    z='PC3',
                    color='cluster',
                    opacity=0.7,
                    width=900,
                    height=700,
                    title=f'K-means dans l\'espace PCA ({k_empirical} clusters)',
                    labels={'PC1': f'PC1 ({pca_3d.explained_variance_ratio_[0]*100:.1f}%)',
                           'PC2': f'PC2 ({pca_3d.explained_variance_ratio_[1]*100:.1f}%)',
                           'PC3': f'PC3 ({pca_3d.explained_variance_ratio_[2]*100:.1f}%)'})

fig.update_traces(marker=dict(size=3))
fig.show()

print("\nObservation : Les clusters sont bien plus distincts dans l'espace PCA !")
print("La PCA a permis de révéler la structure sous-jacente des données.")

### 6.3 Retour aux features originales

Visualisons maintenant ces clusters dans l'espace des features originales (danceability, energy, valence).

In [None]:
# Visualisation des clusters PCA dans l'espace original
df_original_clustered = data_num[['danceability', 'energy', 'valence']].copy()
df_original_clustered['cluster'] = labels_pca.astype(str)

fig = px.scatter_3d(df_original_clustered,
                    x='danceability',
                    y='energy',
                    z='valence',
                    color='cluster',
                    opacity=0.7,
                    width=900,
                    height=700,
                    title=f'Clusters PCA visualisés dans l\'espace original (danceability, energy, valence)')

fig.update_traces(marker=dict(size=3))
fig.show()

print("\nInsight important :")
print("Même dans l'espace original 3D, on voit maintenant une structure émergente (si on dézoome un peu).")
print("Les clusters basés sur TOUTES les features (via PCA) révèlent des patterns")
print("qui n'étaient pas visibles en ne considérant que 3 dimensions arbitraires.")

## 7. Détermination du nombre optimal de clusters

### 7.1 Méthode du coude (Elbow method)

Testons différents nombres de clusters et analysons l'inertie (somme des distances au carré aux centroïdes).

In [None]:
# Test de différents nombres de clusters
K_range = range(1, 21)
inertias = []

print("Calcul de l'inertie pour différents nombres de clusters...")
for k in K_range:
    kmeans_temp = KMeans(n_clusters=k, random_state=42, n_init=10)
    kmeans_temp.fit(data_proj)
    inertias.append(kmeans_temp.inertia_)
    if k % 5 == 0:
        print(f"  k={k}: inertie={kmeans_temp.inertia_:.2f}")

print("\nCalculs terminés")

### 7.2 Visualisation de la courbe du coude

In [None]:
# Graphique de l'inertie
plt.figure(figsize=(12, 6))
plt.plot(K_range, inertias, 'o-', linewidth=2, markersize=8, color='steelblue')
plt.xlabel('Nombre de clusters (k)', fontsize=12)
plt.ylabel('Inertie (somme des distances²)', fontsize=12)
plt.title('Méthode du coude pour déterminer le nombre optimal de clusters', fontsize=14, pad=20)
plt.grid(True, alpha=0.3)
plt.xticks(K_range)

# Marquer la position que nous avions choisie arbitrairement
plt.axvline(x=k_empirical, color='red', linestyle='--', alpha=0.7, 
            label=f'Suggestion arbitraire (k={k_empirical})')
plt.legend()

plt.tight_layout()
plt.show()

print("\nAnalyse de la courbe du coude :")
print("Le 'coude' représente le point où ajouter des clusters supplémentaires")
print("n'apporte plus d'amélioration significative.")
print("\nQuestion : Quel nombre de clusters vous semble optimal ?")

### 7.3 Calcul du taux de décroissance de l'inertie

In [None]:
# Calculer la dérivée seconde pour identifier le coude automatiquement
# Plus le taux de décroissance change, plus c'est un bon candidat
differences = np.diff(inertias)
differences_2nd = np.diff(differences)

# Le point optimal est là où la seconde dérivée est maximale (coude le plus prononcé)
optimal_k = np.argmax(differences_2nd) + 2  # +2 car on a fait 2 diff

print(f"\nAnalyse automatique :")
print(f"Nombre optimal de clusters suggéré : {optimal_k}")
print(f"\nDécroissance de l'inertie entre clusters :")
for i in range(min(10, len(differences))):
    k = i + 2
    pct_decrease = -differences[i] / inertias[i] * 100
    print(f"  k={k-1}→{k} : {-differences[i]:.2f} (-{pct_decrease:.1f}%)")

print("\nOn se rend compte que la méthode automatique n’est pas très satisfaisante,")
print("c’est à partir de 7 clusters qu’à vu de nez l’inertie ne décroît plus vraiment.")

### 7.4 Clustering final avec le nombre optimal de clusters

In [None]:
# Choisir le nombre final de clusters (vous pouvez modifier cette valeur)
k_final = 7

print(f"Nombre final de clusters choisi : {k_final}")
print("\nEntraînement du modèle K-means final...")

# K-means final
kmeans_final = KMeans(n_clusters=k_final, random_state=42, n_init=10)
labels_final = kmeans_final.fit_predict(data_proj)

print(f"\nClustering final effectué avec {k_final} clusters")
print(f"Inertie finale : {kmeans_final.inertia_:.2f}")
print(f"\nRépartition finale des morceaux par cluster :")
unique, counts = np.unique(labels_final, return_counts=True)
for cluster_id, count in zip(unique, counts):
    print(f"  Cluster {cluster_id} : {count} morceaux ({count/len(labels_final)*100:.1f}%)")

### 7.5 Visualisation finale du clustering optimisé

In [None]:
# Visualisation dans l'espace PCA avec le clustering final
df_pca_final = df_pca.copy()
df_pca_final['cluster'] = labels_final.astype(str)

fig = px.scatter_3d(df_pca_final,
                    x='PC1',
                    y='PC2',
                    z='PC3',
                    color='cluster',
                    opacity=0.7,
                    width=900,
                    height=700,
                    title=f'Clustering final optimisé ({k_final} clusters) - Espace PCA',
                    labels={'PC1': f'PC1 ({pca_3d.explained_variance_ratio_[0]*100:.1f}%)',
                           'PC2': f'PC2 ({pca_3d.explained_variance_ratio_[1]*100:.1f}%)',
                           'PC3': f'PC3 ({pca_3d.explained_variance_ratio_[2]*100:.1f}%)'})

fig.update_traces(marker=dict(size=3))
fig.show()

## 8. Création de playlists personnalisées

### 8.1 Analyse des caractéristiques de chaque cluster

In [None]:
# Ajouter les labels de cluster au DataFrame original
df_with_clusters = df_cleaned.copy()
df_with_clusters['cluster'] = labels_final

# Calculer les moyennes des features pour chaque cluster
cluster_profiles = df_with_clusters.groupby('cluster')[numeric_features].mean()

print("Profil moyen de chaque cluster :")
print("="*80)
print(cluster_profiles.round(3))
print("="*80)

### 8.2 Visualisation des profils de clusters

In [None]:
# Sélection de features clés pour la visualisation
key_features = ['danceability', 'energy', 'valence', 'acousticness', 'instrumentalness', 'tempo']

# Normalisation pour la visualisation en radar
cluster_profiles_norm = cluster_profiles[key_features].copy()
for col in key_features:
    if col == 'tempo':
        # Normaliser tempo sur [0, 1]
        cluster_profiles_norm[col] = (cluster_profiles_norm[col] - cluster_profiles_norm[col].min()) / \
                                      (cluster_profiles_norm[col].max() - cluster_profiles_norm[col].min())

# Heatmap des profils de clusters
plt.figure(figsize=(12, 8))
sns.heatmap(cluster_profiles_norm.T, annot=True, fmt='.2f', cmap='YlOrRd', 
            cbar_kws={'label': 'Valeur normalisée'}, linewidths=0.5)
plt.title(f'Profils des {k_final} clusters musicaux', fontsize=14, pad=20)
plt.xlabel('Cluster', fontsize=12)
plt.ylabel('Features audio', fontsize=12)
plt.tight_layout()
plt.show()

print("\nInterprétation : Chaque cluster a un profil musical distinct.")

### 8.3 Caractérisation automatique des clusters

In [None]:
# Fonction pour caractériser un cluster
def characterize_cluster(cluster_id, profile):
    """Génère une description textuelle d'un cluster basée sur ses caractéristiques."""
    characteristics = []
    
    # Danceability
    if profile['danceability'] > 0.7:
        characteristics.append("très dansant")
    elif profile['danceability'] > 0.5:
        characteristics.append("dansant")
    else:
        characteristics.append("peu dansant")
    
    # Energy
    if profile['energy'] > 0.7:
        characteristics.append("énergique")
    elif profile['energy'] > 0.5:
        characteristics.append("modérément énergique")
    else:
        characteristics.append("calme")
    
    # Valence
    if profile['valence'] > 0.6:
        characteristics.append("joyeux")
    elif profile['valence'] > 0.4:
        characteristics.append("neutre")
    else:
        characteristics.append("mélancolique")
    
    # Acousticness
    if profile['acousticness'] > 0.6:
        characteristics.append("acoustique")
    elif profile['acousticness'] < 0.3:
        characteristics.append("électronique")
    
    # Instrumentalness
    if profile['instrumentalness'] > 0.5:
        characteristics.append("instrumental")
    
    # Tempo
    if profile['tempo'] > 140:
        characteristics.append("rapide")
    elif profile['tempo'] < 90:
        characteristics.append("lent")
    
    return ", ".join(characteristics)

# Générer les descriptions pour chaque cluster
print("\nCaractérisation des clusters musicaux :\n")
print("="*80)
for cluster_id in range(k_final):
    profile = cluster_profiles.loc[cluster_id]
    description = characterize_cluster(cluster_id, profile)
    n_songs = (labels_final == cluster_id).sum()
    
    print(f"\nCluster {cluster_id} ({n_songs} morceaux)")
    print(f"   Style : {description.capitalize()}")
    print(f"   Caractéristiques :")
    print(f"     • Danceability : {profile['danceability']:.2f}")
    print(f"     • Energy       : {profile['energy']:.2f}")
    print(f"     • Valence      : {profile['valence']:.2f}")
    print(f"     • Tempo        : {profile['tempo']:.0f} BPM")

print("\n" + "="*80)

### 8.4 Génération de playlists thématiques

In [None]:
# Fonction pour créer une playlist à partir d'un cluster
def create_playlist(cluster_id, n_songs=10, seed=None):
    """Crée une playlist de n_songs morceaux du cluster spécifié."""
    cluster_songs = df_with_clusters[df_with_clusters['cluster'] == cluster_id]
    
    if seed is not None:
        np.random.seed(seed)
    
    n_songs = min(n_songs, len(cluster_songs))
    playlist = cluster_songs.sample(n=n_songs)
    
    return playlist[['track_name', 'artists', 'danceability', 'energy', 'valence', 'tempo']]

# Créer des playlists pour quelques clusters
print("\nExemples de playlists générées :\n")
print("="*80)

for cluster_id in range(min(3, k_final)):  # Afficher les 3 premiers clusters
    print(f"\nPlaylist du Cluster {cluster_id}")
    playlist = create_playlist(cluster_id, n_songs=5, seed=42)
    print(playlist.to_string(index=False))
    print("\n" + "-"*80)

print("\n" + "="*80)

### 8.5 Système de recommandation basé sur un morceau

Créons une fonction qui recommande des morceaux similaires à un morceau donné.

In [None]:
def recommend_similar_songs(track_name, n_recommendations=10):
    """Recommande des morceaux similaires basés sur le même cluster."""
    # Trouver le morceau
    track_matches = df_with_clusters[df_with_clusters['track_name'].str.contains(track_name, case=False, na=False)]
    
    if len(track_matches) == 0:
        print(f"Aucun morceau trouvé contenant '{track_name}'")
        return None
    
    # Prendre le premier match
    track = track_matches.iloc[0]
    cluster_id = track['cluster']
    
    print(f"\nMorceau de référence : {track['track_name']} - {track['artists']}")
    print(f"   Cluster : {cluster_id}")
    print(f"   Danceability: {track['danceability']:.2f} | Energy: {track['energy']:.2f} | Valence: {track['valence']:.2f}")
    
    # Trouver d'autres morceaux du même cluster
    similar_songs = df_with_clusters[
        (df_with_clusters['cluster'] == cluster_id) & 
        (df_with_clusters['track_id'] != track['track_id'])
    ]
    
    # Calculer la distance dans l'espace PCA pour affiner
    track_idx = track.name
    track_pca = data_proj[track_idx].reshape(1, -1)
    
    similar_indices = similar_songs.index
    if len(similar_indices) > 0:
        distances = np.linalg.norm(data_proj[similar_indices] - track_pca, axis=1)
        similar_songs = similar_songs.copy()
        similar_songs['distance'] = distances
        similar_songs = similar_songs.sort_values('distance')
    
    # Retourner les n recommandations
    n_recommendations = min(n_recommendations, len(similar_songs))
    recommendations = similar_songs.head(n_recommendations)
    
    print(f"\nTop {n_recommendations} recommandations similaires :\n")
    print(recommendations[['track_name', 'artists', 'danceability', 'energy', 'valence']].to_string(index=False))
    
    return recommendations

# Exemple d'utilisation
print("\n" + "="*80)
print("Exemple de recommandations")
print("="*80)

# Choisir un morceau aléatoire pour la démonstration
random_track = df['track_name'].sample(1, random_state=42).values[0]
recommendations = recommend_similar_songs(random_track, n_recommendations=8)

### 8.6 Export des playlists

Exportons les playlists pour chaque cluster dans des fichiers CSV séparés.

In [None]:
# Créer un répertoire pour les playlists
import os
os.makedirs('playlists', exist_ok=True)

# Exporter chaque cluster dans un fichier CSV
for cluster_id in range(k_final):
    cluster_songs = df_with_clusters[df_with_clusters['cluster'] == cluster_id]
    profile = cluster_profiles.loc[cluster_id]
    description = characterize_cluster(cluster_id, profile)
    
    filename = f'playlists/cluster_{cluster_id}_{description.replace(",", "").replace(" ", "_")}.csv'
    cluster_songs.to_csv(filename, index=False)
    print(f"Playlist du Cluster {cluster_id} exportée : {filename}")

print(f"\n{k_final} playlists exportées dans le dossier 'playlists/'")

## 9. Conclusion et perspectives

### Ce que nous avons appris

1. **K-means sur données brutes** : Performance limitée car les features ont des échelles différentes

2. **Mise à l'échelle** : Amélioration modeste mais importante pour égaliser l'influence des features

3. **PCA + K-means** : Combinaison puissante qui :
   - Réduit la dimensionnalité tout en conservant l'information essentielle
   - Révèle la structure sous-jacente des données
   - Améliore significativement la qualité du clustering

4. **Méthode du coude** : Permet de déterminer objectivement le nombre optimal de clusters

### Applications pratiques

Ce système de recommandation peut être utilisé pour :
- Générer des playlists automatiques cohérentes
- Suggérer de nouveaux morceaux similaires aux goûts d'un utilisateur
- Organiser une bibliothèque musicale par style/ambiance
- Créer des transitions fluides dans des DJ sets

### Pistes d'amélioration

1. **Tester d'autres algorithmes** : DBSCAN, Hierarchical Clustering, GMM
2. **Incorporer des données supplémentaires** : genre musical, année de sortie, paroles
3. **Utiliser des métriques d'évaluation** : Silhouette Score, Davies-Bouldin Index
4. **Créer un système hybride** : combiner clustering et collaborative filtering
5. **Interface utilisateur** : développer une application web interactive

### Exercices complémentaires

1. Comparez les résultats avec différents scalers (StandardScaler, MinMaxScaler)
2. Testez la PCA avec un nombre différent de composantes
3. Analysez les morceaux mal classés (outliers)
4. Créez des playlists thématiques (sport, détente, fête, travail)
5. Implémentez une fonction de "découverte" qui suggère des morceaux de clusters adjacents
6. Cherchez une base de données et créez un système de recommandation pour les films.

## 10. À vous de jouer !

Utilisez les cellules ci-dessous pour expérimenter et créer vos propres playlists personnalisées.

In [None]:
# Cellule d'expérimentation libre
# Testez vos propres recommandations ici !

# Exemple : recommander_similar_songs("votre_morceau_préféré", n_recommendations=10)

In [None]:
# Créez votre propre playlist personnalisée en mélangeant plusieurs clusters
# Exemple : combiner des morceaux énergiques et joyeux

# custom_playlist = pd.concat([
#     create_playlist(cluster_1, n_songs=5),
#     create_playlist(cluster_2, n_songs=5)
# ])
# print(custom_playlist)