# TP : Syst√®me de recommandation musicale avec K-means et PCA

Dans ce TP, vous allez d√©couvrir comment combiner deux techniques fondamentales du machine learning :
- **K-means** : algorithme de clustering pour regrouper des morceaux similaires
- **PCA (Analyse en Composantes Principales)** : technique de r√©duction de dimensionnalit√© pour visualiser et am√©liorer le clustering

Vous allez construire un syst√®me de recommandation musicale en analysant des caract√©ristiques audio de morceaux Spotify.

## Plan du TP

1. Exploration des donn√©es
2. Premi√®re visualisation 3D de features s√©lectionn√©es
3. Premier clustering K-means sur donn√©es brutes
4. Am√©lioration avec mise √† l'√©chelle des donn√©es
5. Application de la PCA pour r√©duction de dimensionnalit√©
6. Clustering optimis√© avec K-means sur les composantes principales
7. D√©termination du nombre optimal de clusters
8. Cr√©ation de playlists personnalis√©es

## 0. Import des biblioth√®ques

In [None]:
#!pip install seaborn==0.13.2
#!pip install plotly==6.5.0

In [None]:
import os

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns

from sklearn.preprocessing import RobustScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans

# Configuration pour de meilleurs graphiques
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

## 1. Chargement et exploration des donn√©es

### 1.1 Chargement du dataset

In [None]:
# Charger le dataset - adapter en fonction du dossier o√π vous avez t√©l√©charg√© les donn√©es
df = pd.read_csv(os.path.join('data','SpotifyTracksDataset','dataset.csv'))

print(f"Dimensions du dataset : {df.shape}")
print(f"Nombre de morceaux : {df.shape[0]}")
print(f"Nombre de colonnes : {df.shape[1]}")

Proc√©dez dans un premier temps √† une exploration minimal classique des donn√©es (EDA).
Il faudra certainement faire un peu de nettoyage, comme beaucoup de donn√©es t√©l√©charg√©es sur Kaggle, etc.

### 1.2 Aper√ßu des premi√®res lignes

In [None]:
# VOTRE CODE

On a une colonne `unnamed` qui correspond √† l‚Äôindex visiblement.

In [None]:
df.set_index('Unnamed: 0',drop=True, inplace=True)
df.index.name = None

### 1.3 Informations sur le dataset

In [None]:
# VOTRE CODE

### 1.4 V√©rification des valeurs manquantes et doublons

In [None]:
# VOTRE CODE

In [None]:
# VOTRE CODE

### 1.5 Cr√©ation d'un DataFrame avec uniquement les donn√©es num√©riques

Pour notre analyse, nous allons nous concentrer sur les features audio quantitatives.

In [None]:
# S√©lection des colonnes num√©riques pertinentes pour l'analyse audio

data_num = # VOTRE CODE

print(f"Dimensions des donn√©es num√©riques : {data_num.shape}")
print(f"\nFeatures disponibles :")
for i, col in enumerate(data_num.columns, 1):
    print(f"{i}. {col}")

### 1.6 Statistiques descriptives

In [None]:
# VOTRE CODE

### 1.7 Matrice de corr√©lation

Analysons les corr√©lations entre les diff√©rentes features audio pour comprendre leurs relations.

In [None]:
# Calcul de la matrice de corr√©lation
correlation_matrix = # VOTRE CODE

# Visualisation avec une heatmap
plt.figure(figsize=(12, 10))
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
            center=0, square=True, linewidths=1, cbar_kws={"shrink": 0.8})
plt.title('Matrice de corr√©lation des features audio Spotify', fontsize=14, pad=20)
plt.tight_layout()
plt.show()

print("\nüìä Observations √† noter :")
print("- Quelles variables sont fortement corr√©l√©es ?")
print("- Y a-t-il des corr√©lations n√©gatives int√©ressantes ?")

Lisez bien la description de chaque feature sur la page Kaggle pour d‚Äôune part comprendre ces corr√©lations, et d‚Äôautre part s√©lectionnez trois features (pas forc√©ment corr√©l√©es) qu‚Äôil vous semble int√©ressant d‚Äôanalyser de plus pr√®s afin de voir si elles permettraient de regrouper des morceaux ressemblant. Faisons-en une visualisation 3D pour voir comment ces features sont partag√©es.

Par exemple danceability, energy, valence ou acousticness, instrumentalness, speechiness ou tout autre combinaison qui vous inspire/interpelle.

## 2. Premi√®re visualisation 3D avec trois features

D√©crivez les 3 features que vous avez choisies :

In [None]:
# Visualisation 3D des donn√©es brutes
fig = px.scatter_3d(data_num, 
                    x= # VOTRE CODE 
                    y=# VOTRE CODE
                    z=# VOTRE CODE
                    opacity=0.7,
                    width=800,
                    height=700,
                    title='Visualisation 3D : Danceability, Energy et Valence (donn√©es brutes)')

fig.update_traces(marker=dict(size=3, color='steelblue'))
fig.show()

print("\nObservation : .")


## 3. Premier clustering K-means sur donn√©es brutes

### 3.1 Choix du nombre de clusters

Utilisons une r√®gle empirique simple : pour N observations, on peut estimer le nombre de clusters optimal √† environ ‚àö(N/2). Mais on va √©viter d‚Äôavoir √† consid√©rer plus de 10 clusters (on se pose une limite dans notre exercice, pour se simplifier la vie, on pourrait aussi limiter le nombre d‚Äôobservations).

In [None]:
# Calcul du nombre de clusters selon la r√®gle empirique
n_samples = len(data_num)
k_empirical = int(np.sqrt(n_samples / 2))
k_empirical = max(5, min(k_empirical, 10))  # Contraindre entre 5 et 10

print(f"Nombre d'√©chantillons : {n_samples}")
print(f"Nombre de clusters sugg√©r√© (r√®gle empirique) : {k_empirical}")

### 3.2 Application de K-means sur les donn√©es brutes

In [None]:
# K-means sur les donn√©es brutes
# VOTRE CODE

### 3.3 Visualisation du clustering sur donn√©es brutes

In [None]:
# Cr√©ation d'un DataFrame temporaire pour la visualisation
df_viz_raw = # VOTRE CODE

# Visualisation 3D avec les clusters
fig = px.scatter_3d(df_viz_raw,
                    x=# VOTRE CODE
                    y=# VOTRE CODE
                    z=# VOTRE CODE
                    color='cluster',
                    opacity=0.7,
                    width=800,
                    height=700,
                    title=f'K-means sur donn√©es brutes ({k_empirical} clusters)')

fig.update_traces(marker=dict(size=3))
fig.show()

print("\nConstat : .")

## 4. Am√©lioration avec mise √† l'√©chelle des donn√©es

### 4.1 Pourquoi scaler les donn√©es ?

Les features ont des √©chelles diff√©rentes (ex: duration_ms en millisecondes vs danceability entre 0 et 1). 
Le K-means utilise la distance euclidienne, donc les features avec de grandes valeurs dominent le calcul.

Nous utilisons **RobustScaler** qui est r√©sistant aux outliers (utilise la m√©diane et l'IQR plut√¥t que la moyenne).

In [None]:
# Mise √† l'√©chelle avec RobustScaler
scaler = # VOTRE CODE
data_scaled = # VOTRE CODE

# Cr√©ation d'un DataFrame pour faciliter l'analyse
data_scaled_df = pd.DataFrame(data_scaled, columns=data_num.columns)

print("Donn√©es mises √† l'√©chelle avec RobustScaler")
print(f"\nAper√ßu des donn√©es scal√©es :")
print(data_scaled_df.describe())

### 4.2 K-means sur les donn√©es scal√©es

In [None]:
# K-means sur les donn√©es scal√©es
kmeans_scaled = # VOTRE CODE
labels_scaled = # VOTRE CODE

print(f"Clustering effectu√© avec {k_empirical} clusters sur donn√©es scal√©es")
print(f"Inertie : {kmeans_scaled.inertia_:.2f}")
print(f"\nR√©partition des morceaux par cluster :")
unique, counts = np.unique(labels_scaled, return_counts=True)
for cluster_id, count in zip(unique, counts):
    print(f"  Cluster {cluster_id} : {count} morceaux ({count/len(labels_scaled)*100:.1f}%)")

On constate un gros d√©s√©quilibre dans la taille (nombre de morceaux) des clusters

### 4.3 Visualisation avec donn√©es scal√©es

In [None]:
# Visualisation 3D avec les donn√©es scal√©es

# VOTRE CODE

print("\nObservation : ")

## 5. Analyse en Composantes Principales (PCA)

### 5.1 PCA compl√®te pour analyser la variance expliqu√©e

Commen√ßons par faire une PCA sur toutes les composantes possibles pour voir combien de variance est captur√©e par chacune.

In [None]:
# PCA compl√®te
pca_full = # VOTRE CODE
# Variance expliqu√©e par chaque composante
variance_explained = # VOTRE CODE
cumulative_variance = # VOTRE CODE

print("Variance expliqu√©e par les premi√®res composantes :")
for i in range(min(10, len(variance_explained))):
    print(f"  PC{i+1} : {variance_explained[i]*100:.2f}% (cumul√© : {cumulative_variance[i]*100:.2f}%)")

### 5.2 Graphique de la variance cumul√©e

In [None]:
# Visualisation de la variance expliqu√©e
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))

# Variance par composante (fig ax1)
# VOTRE CODE

# Variance cumul√©e (fig ax2)
# VOTRE CODE

plt.tight_layout()
plt.show()

# Trouver le nombre de composantes pour 80% et 90% de variance
n_components_80 = # VOTRE CODE
n_components_90 = # VOTRE CODE

print(f"\nR√©sultats :")
print(f"  ‚Ä¢ Les 3 premi√®res composantes expliquent {cumulative_variance[2]*100:.2f}% de la variance")
print(f"  ‚Ä¢ Il faut {n_components_80} composantes pour expliquer >80% de la variance")
print(f"  ‚Ä¢ Il faut {n_components_90} composantes pour expliquer >90% de la variance")

### 5.3 PCA √† 3 composantes pour visualisation

Nous allons projeter nos donn√©es sur 3 composantes principales pour pouvoir les visualiser en 3D, de plus elles expliquent quasiment 90% de la variance.

In [None]:
# PCA √† 3 composantes
pca_3d = # VOTRE CODE
data_proj = # VOTRE CODE

print(f"PCA effectu√©e : {data_scaled.shape[1]} dimensions ‚Üí 3 composantes principales")
print(f"\nVariance expliqu√©e par les 3 composantes :")
for i, var in enumerate(pca_3d.explained_variance_ratio_, 1):
    print(f"  PC{i} : {var*100:.2f}%")
print(f"\nVariance totale expliqu√©e : {pca_3d.explained_variance_ratio_.sum()*100:.2f}%")

# Cr√©ation d'un DataFrame pour faciliter l'analyse
df_pca = pd.DataFrame(data_proj, columns=['PC1', 'PC2', 'PC3'])
print(f"\nDimensions des donn√©es projet√©es : {df_pca.shape}")

### 5.4 Visualisation des donn√©es dans l'espace PCA

In [None]:
# Visualisation 3D dans l'espace PCA
fig = # VOTRE CODE
fig.update_traces(marker=dict(size=3, color='steelblue'))
fig.show()

print("\nObservation : La projection PCA r√©v√®le une structure plus √©tal√©e des donn√©es.")
print("Les composantes principales capturent les directions de variance maximale.")

### 5.5 Analyse des composantes principales

Voyons quelles features originales contribuent le plus √† chaque composante principale.

In [None]:
# Cr√©ation d'un DataFrame des composantes
components_df = pd.DataFrame(
    pca_3d.components_.T,
    columns=['PC1', 'PC2', 'PC3'],
    index=data_num.columns
)

# Visualisation des contributions
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

for i, pc in enumerate(['PC1', 'PC2', 'PC3']):
    # Trier par valeur absolue pour voir les contributions importantes
    sorted_features = components_df[pc].abs().sort_values(ascending=True)
    colors = ['red' if x < 0 else 'steelblue' for x in components_df.loc[sorted_features.index, pc]]
    
    axes[i].barh(range(len(sorted_features)), 
                 components_df.loc[sorted_features.index, pc],
                 color=colors, alpha=0.7)
    axes[i].set_yticks(range(len(sorted_features)))
    axes[i].set_yticklabels(sorted_features.index)
    axes[i].set_xlabel('Contribution', fontsize=11)
    axes[i].set_title(f'{pc}\n({pca_3d.explained_variance_ratio_[i]*100:.1f}% variance)', 
                     fontsize=12, fontweight='bold')
    axes[i].axvline(x=0, color='black', linestyle='-', linewidth=0.8)
    axes[i].grid(True, alpha=0.3, axis='x')

plt.tight_layout()
plt.show()

print("\nInterpr√©tation des composantes principales :")
print("\nPC1 - Principales contributions :")
top_pc1 = components_df['PC1'].abs().sort_values(ascending=False).head(3)
for feat, val in top_pc1.items():
    print(f"  ‚Ä¢ {feat}: {components_df.loc[feat, 'PC1']:.3f}")

print("\nPC2 - Principales contributions :")
top_pc2 = components_df['PC2'].abs().sort_values(ascending=False).head(3)
for feat, val in top_pc2.items():
    print(f"  ‚Ä¢ {feat}: {components_df.loc[feat, 'PC2']:.3f}")

print("\nPC3 - Principales contributions :")
top_pc3 = components_df['PC3'].abs().sort_values(ascending=False).head(3)
for feat, val in top_pc3.items():
    print(f"  ‚Ä¢ {feat}: {components_df.loc[feat, 'PC3']:.3f}")

## 6. K-means optimis√© sur les composantes principales

### 6.1 Clustering dans l'espace PCA

In [None]:
# K-means sur les donn√©es projet√©es PCA

# VOTRE CODE

### 6.2 Visualisation du clustering dans l'espace PCA

In [None]:
# Visualisation avec les clusters dans l'espace PCA

# VOTRE CODE

### 6.3 Retour aux features originales

Visualisons maintenant ces clusters dans l'espace des features originales que vous avez choisies

In [None]:
# Visualisation des clusters PCA dans l'espace original
df_original_clustered = data_num[# les features que vous avez choisies au d√©part ].copy()
df_original_clustered['cluster'] = labels_pca.astype(str)

# VOTRE CODE (visualisation)

## 7. D√©termination du nombre optimal de clusters

### 7.1 M√©thode du coude (Elbow method)

Testons diff√©rents nombres de clusters et analysons l'inertie (somme des distances au carr√© aux centro√Ødes).

In [None]:
# Test de diff√©rents nombres de clusters

# VOTRE CODE

### 7.2 Visualisation de la courbe du coude

In [None]:
# Graphique de l'inertie
plt.figure(figsize=(12, 6))
plt.plot(K_range, inertias, 'o-', linewidth=2, markersize=8, color='steelblue')
plt.xlabel('Nombre de clusters (k)', fontsize=12)
plt.ylabel('Inertie (somme des distances¬≤)', fontsize=12)
plt.title('M√©thode du coude pour d√©terminer le nombre optimal de clusters', fontsize=14, pad=20)
plt.grid(True, alpha=0.3)
plt.xticks(K_range)

# Marquer la position que nous avions choisie arbitrairement
plt.axvline(x=k_empirical, color='red', linestyle='--', alpha=0.7, 
            label=f'Suggestion arbitraire (k={k_empirical})')
plt.legend()

plt.tight_layout()
plt.show()

print("\nAnalyse de la courbe du coude :")
print("Le 'coude' repr√©sente le point o√π ajouter des clusters suppl√©mentaires")
print("n'apporte plus d'am√©lioration significative.")
print("\nQuestion : Quel nombre de clusters vous semble optimal ?")

### 7.3 Calcul du taux de d√©croissance de l'inertie

In [None]:
# VOTRE CODE

### 7.4 Clustering final avec le nombre optimal de clusters

In [None]:
# Choisir le nombre final de clusters (vous pouvez modifier cette valeur)
k_final = # VOTRE CHOIX

print(f"Nombre final de clusters choisi : {k_final}")
print("\nEntra√Ænement du mod√®le K-means final...")

# K-means final
kmeans_final = KMeans(n_clusters=k_final, random_state=42, n_init=10)
labels_final = kmeans_final.fit_predict(data_proj)

print(f"\nClustering final effectu√© avec {k_final} clusters")
print(f"Inertie finale : {kmeans_final.inertia_:.2f}")
print(f"\nR√©partition finale des morceaux par cluster :")
unique, counts = np.unique(labels_final, return_counts=True)
for cluster_id, count in zip(unique, counts):
    print(f"  Cluster {cluster_id} : {count} morceaux ({count/len(labels_final)*100:.1f}%)")

### 7.5 Visualisation finale du clustering optimis√©

In [None]:
# Visualisation dans l'espace PCA avec le clustering final

# VOTRE CODE

## 8. Cr√©ation de playlists personnalis√©es

### 8.1 Analyse des caract√©ristiques de chaque cluster

In [None]:
# Ajouter les labels de cluster au DataFrame original (nettoy√©)

# VOTRE CODE

# Calculer les moyennes des features pour chaque cluster (faire un groupby)
# VOTRE CODE

### 8.2 Visualisation des profils de clusters

In [None]:
# S√©lection de features cl√©s pour la visualisation
key_features = ['danceability', 'energy', 'valence', 'acousticness', 'instrumentalness', 'tempo']

# Normalisation pour la visualisation en radar
cluster_profiles_norm = cluster_profiles[key_features].copy()
for col in key_features:
    if col == 'tempo':
        # Normaliser tempo sur [0, 1]
        cluster_profiles_norm[col] = (cluster_profiles_norm[col] - cluster_profiles_norm[col].min()) / \
                                      (cluster_profiles_norm[col].max() - cluster_profiles_norm[col].min())

# Heatmap des profils de clusters
plt.figure(figsize=(12, 8))
sns.heatmap(cluster_profiles_norm.T, annot=True, fmt='.2f', cmap='YlOrRd', 
            cbar_kws={'label': 'Valeur normalis√©e'}, linewidths=0.5)
plt.title(f'Profils des {k_final} clusters musicaux', fontsize=14, pad=20)
plt.xlabel('Cluster', fontsize=12)
plt.ylabel('Features audio', fontsize=12)
plt.tight_layout()
plt.show()

print("\nInterpr√©tation : Chaque cluster a un profil musical distinct.")

### 8.3 Caract√©risation automatique des clusters

In [None]:
# Fonction pour caract√©riser un cluster
def characterize_cluster(cluster_id, profile):
    """G√©n√®re une description textuelle d'un cluster bas√©e sur ses caract√©ristiques."""
    characteristics = []
    
    # Danceability
    if profile['danceability'] > 0.7:
        characteristics.append("tr√®s dansant")
    elif profile['danceability'] > 0.5:
        characteristics.append("dansant")
    else:
        characteristics.append("peu dansant")
    
    # Energy
    if profile['energy'] > 0.7:
        characteristics.append("√©nergique")
    elif profile['energy'] > 0.5:
        characteristics.append("mod√©r√©ment √©nergique")
    else:
        characteristics.append("calme")
    
    # Valence
    if profile['valence'] > 0.6:
        characteristics.append("joyeux")
    elif profile['valence'] > 0.4:
        characteristics.append("neutre")
    else:
        characteristics.append("m√©lancolique")
    
    # Acousticness
    if profile['acousticness'] > 0.6:
        characteristics.append("acoustique")
    elif profile['acousticness'] < 0.3:
        characteristics.append("√©lectronique")
    
    # Instrumentalness
    if profile['instrumentalness'] > 0.5:
        characteristics.append("instrumental")
    
    # Tempo
    if profile['tempo'] > 140:
        characteristics.append("rapide")
    elif profile['tempo'] < 90:
        characteristics.append("lent")
    
    return ", ".join(characteristics)

# G√©n√©rer les descriptions pour chaque cluster
print("\nüéº Caract√©risation des clusters musicaux :\n")
print("="*80)
for cluster_id in range(k_final):
    profile = cluster_profiles.loc[cluster_id]
    description = characterize_cluster(cluster_id, profile)
    n_songs = (labels_final == cluster_id).sum()
    
    print(f"\nCluster {cluster_id} ({n_songs} morceaux)")
    print(f"   Style : {description.capitalize()}")
    print(f"   Caract√©ristiques :")
    print(f"     ‚Ä¢ Danceability : {profile['danceability']:.2f}")
    print(f"     ‚Ä¢ Energy       : {profile['energy']:.2f}")
    print(f"     ‚Ä¢ Valence      : {profile['valence']:.2f}")
    print(f"     ‚Ä¢ Tempo        : {profile['tempo']:.0f} BPM")

print("\n" + "="*80)

### 8.4 G√©n√©ration de playlists th√©matiques

In [None]:
# Fonction pour cr√©er une playlist √† partir d'un cluster
def create_playlist(cluster_id, n_songs=10, seed=None):
    """Cr√©e une playlist de n_songs morceaux du cluster sp√©cifi√©."""
    cluster_songs = df_with_clusters[df_with_clusters['cluster'] == cluster_id]
    
    if seed is not None:
        np.random.seed(seed)
    
    n_songs = min(n_songs, len(cluster_songs))
    playlist = # VOTRE CODE
    
    return playlist[['track_name', 'artists', 'danceability', 'energy', 'valence', 'tempo']]

# Cr√©er des playlists pour quelques clusters
print("\nExemples de playlists g√©n√©r√©es :\n")
print("="*80)

for cluster_id in range(min(3, k_final)):  # Afficher les 3 premiers clusters
    print(f"\nPlaylist du Cluster {cluster_id}")
    playlist = create_playlist(cluster_id, n_songs=5, seed=42)
    print(playlist.to_string(index=False))
    print("\n" + "-"*80)

print("\n" + "="*80)

### 8.5 Syst√®me de recommandation bas√© sur un morceau

Cr√©ons une fonction qui recommande des morceaux similaires √† un morceau donn√©.

In [None]:
def recommend_similar_songs(track_name, n_recommendations=10):
    """Recommande des morceaux similaires bas√©s sur le m√™me cluster."""
    # Trouver le morceau
    # VOTRE CODE
    
    # Prendre le premier match
    # VOTRE CODE
    
    # Trouver d'autres morceaux du m√™me cluster
    # VOTRE CODE
    
    # Calculer la distance dans l'espace PCA et les ordonner pour affiner
    # VOTRE CODE
    
    # Retourner les n recommandations
    # VOTRE CODE
    
    return recommendations

# Exemple d'utilisation
print("\n" + "="*80)
print("Exemple de recommandations")
print("="*80)

# Choisir un morceau al√©atoire pour la d√©monstration
random_track = df['track_name'].sample(1, random_state=42).values[0]
recommendations = recommend_similar_songs(random_track, n_recommendations=8)

### 8.6 Export des playlists

Exportons les playlists pour chaque cluster dans des fichiers CSV s√©par√©s.

In [None]:
# Cr√©er un r√©pertoire pour les playlists
import os
os.makedirs('playlists', exist_ok=True)

# Exporter chaque cluster dans un fichier CSV
for cluster_id in range(k_final):
    cluster_songs = df_with_clusters[df_with_clusters['cluster'] == cluster_id]
    profile = cluster_profiles.loc[cluster_id]
    description = characterize_cluster(cluster_id, profile)
    
    filename = f'playlists/cluster_{cluster_id}_{description.replace(",", "").replace(" ", "_")}.csv'
    cluster_songs.to_csv(filename, index=False)
    print(f"‚úì Playlist du Cluster {cluster_id} export√©e : {filename}")

print(f"\n‚úì {k_final} playlists export√©es dans le dossier 'playlists/'")

## 9. Conclusion et perspectives

Bien s√ªr nous ne sommes pas au niveau des √©quipes qui ont con√ßu le syst√®me de recommandation de Spotify, Deezer ou de Youtube. Notre √©chantillon √©tait r√©duit et nous nous sommes volontairement limit√© dans notre clustering etc. mais la logique √©tait l√†.

### Ce que vous avez appris

1. **K-means sur donn√©es brutes** : Performance limit√©e car les features ont des √©chelles diff√©rentes

2. **Mise √† l'√©chelle** : Am√©lioration modeste mais importante pour √©galiser l'influence des features

3. **PCA + K-means** : Combinaison puissante qui :
   - R√©duit la dimensionnalit√© tout en conservant l'information essentielle
   - R√©v√®le la structure sous-jacente des donn√©es
   - Am√©liore significativement la qualit√© du clustering

4. **M√©thode du coude** : Permet de d√©terminer (plus ou moins) objectivement le nombre optimal de clusters. Notre tentative d‚Äôautomatiser compl√®tement le processus de s√©lection via le taux d‚Äôaccroissement et le calcul de la d√©riv√© seconde ne fonctionnait pas totalement dans ce contexte limit√©, mais elle est √† conna√Ætre.

### Applications pratiques

Ce syst√®me de recommandation peut √™tre utilis√© pour :
- G√©n√©rer des playlists automatiques coh√©rentes
- Sugg√©rer de nouveaux morceaux similaires aux go√ªts d'un utilisateur
- Organiser une biblioth√®que musicale par style/ambiance
- Cr√©er des transitions fluides dans des DJ sets

### Pour aller plus loin

1. **Tester d'autres algorithmes** : DBSCAN, Hierarchical Clustering, GMM
2. **Incorporer des donn√©es suppl√©mentaires** : genre musical, ann√©e de sortie, paroles
3. **Utiliser des m√©triques d'√©valuation** : Silhouette Score, Davies-Bouldin Index
4. **Cr√©er un syst√®me hybride** : combiner clustering et collaborative filtering
5. **Interface utilisateur** : d√©velopper une application web interactive

### Exercices compl√©mentaires

1. Comparez les r√©sultats avec diff√©rents scalers (StandardScaler, MinMaxScaler)
2. Testez la PCA avec un nombre diff√©rent de composantes
3. Analysez les morceaux mal class√©s (outliers)
4. Cr√©ez des playlists th√©matiques (sport, d√©tente, f√™te, travail)
5. Impl√©mentez une fonction de "d√©couverte" qui sugg√®re des morceaux de clusters adjacents

## 10. √Ä vous de jouer !

Utilisez les cellules ci-dessous pour exp√©rimenter et cr√©er vos propres playlists personnalis√©es.

In [None]:
# Cellule d'exp√©rimentation libre
# Testez vos propres recommandations ici !

# Exemple : recommander_similar_songs("votre_morceau_pr√©f√©r√©", n_recommendations=10)

In [None]:
# Cr√©ez votre propre playlist personnalis√©e en m√©langeant plusieurs clusters
# Exemple : combiner des morceaux √©nergiques et joyeux

# custom_playlist = pd.concat([
#     create_playlist(cluster_1, n_songs=5),
#     create_playlist(cluster_2, n_songs=5)
# ])
# print(custom_playlist)