# Pre-processing

In [None]:
import pandas as pd

In [None]:
data = pd.read_csv('data/spotify_songs.csv')

In [None]:
display(data)
display(data.describe().T.style.background_gradient(cmap='YlGnBu'))

In [None]:
# check for missing values
missing_values = data.isnull().sum()
display(missing_values)

# display the lines with missing values
missing_data = data[data.isnull().any(axis=1)]
display(missing_data)

In [None]:
# Remove id columns
data = data.drop(columns=['track_id', 'track_album_id', "playlist_id"], axis=1)
# drop the missing values
data = data.dropna()
display(data)


In [None]:
# transform track_album_release_date into datetime
data['track_album_release_date'] = pd.to_datetime(data['track_album_release_date'], format='mixed')

# transform categorical columns into categorical data type
categorical_cols = ['playlist_genre', 'playlist_subgenre', 'track_artist', 'playlist_name', 'track_album_name']
for col in categorical_cols:
    data[col] = data[col].astype('category')

# transform the duration_ms into minutes
data['duration_s'] = data['duration_ms'] / 1000
data.drop(columns=['duration_ms'], inplace=True)

# For numeric columns that represent discrete values (like key and mode), convert to categorical
key_mapping = {
    0: 'C', 1: 'C♯/D♭', 2: 'D', 3: 'D♯/E♭', 4: 'E', 5: 'F',
    6: 'F♯/G♭', 7: 'G', 8: 'G♯/A♭', 9: 'A', 10: 'A♯/B♭', 11: 'B'
}
data['key'] = data['key'].map(key_mapping).astype('category')

data['mode'] = data['mode'].map({0: 'Minor', 1: 'Major'}).astype('category')



In [None]:
# check for duplicates
duplicates = data.duplicated().sum()
display(duplicates)

In [None]:
data.info()

In [None]:
num = data.select_dtypes(include='number')
cat = data.select_dtypes(include='category')
print('Data quantitative :', round(100*num.shape[1]/data.shape[1], 2), '%')
print('Data qualitative :', round(100*cat.shape[1]/data.shape[1], 2), '%')

In [None]:
# copier data dans data_songs
data_songs = data.copy()

# observer les données dupliquées sur toutes les colonnes
duplicates = data_songs.duplicated().sum()
print(f'Number of duplicates: {duplicates}')

# Nombre de valeurs dupliquées avant suppression
initial_duplicates = data_songs.duplicated(subset=['track_artist', 'track_name']).sum()
print(f'Initial number of duplicates: {initial_duplicates}')

# Supprimer les colonnes 'playlist'
data_songs = data_songs.drop(columns=['playlist_genre', 'playlist_subgenre', 'playlist_name'])

# Regarder le nombre de doublons après suppression
duplicates = data_songs.duplicated().sum()
print(f'Number of duplicates - après suppression des playlists : {duplicates}')

# Supprimer les doublons
data_songs = data_songs.drop_duplicates()

# regarder le nombre de doublons en fonction de 'track_artist' et 'track_name'
duplicates = data_songs.duplicated(subset=['track_artist', 'track_name']).sum()
print(f'Number of duplicates - en se basant sur le nom d artiste de la track et : {duplicates}')

# garder dans data_songs les lignes dupliquées ayant la popularité la plus élevée
data_songs = data_songs.sort_values('track_popularity', ascending=False).drop_duplicates(subset=['track_artist', 'track_name'])
# regarder le nombre de doublons en fonction de 'track_artist' et 'track_name'
duplicates = data_songs.duplicated().sum()
print(f'Number of duplicates - après suppression des supposés doublons : {duplicates}')

In [None]:
# Trier data_songs par l'index 'idx'
data_songs.sort_index(inplace=True)

display(data_songs[-5:-1])

# Descriptive Analysis

# 2. Réduction de dimension par ACP (Analyse en Composantes Principales)
Dans cette partie, nous allons effectuer une analyse en composantes principales (ACP) sur les données prétraitées. L'ACP est une technique de réduction de dimension qui permet de projeter les données d'origine dans un espace de dimension inférieure.
Nous avons gardé 20 variables et nous allons étudier s'il est possible de réduire la dimensionnalité de ces données tout en préservant un maximum d'information.

In [None]:
import numpy as np 

import matplotlib.pyplot as plt
import seaborn as sns

### 2.1 Format des données
Ici on ne sélectionne que les variables quantitatives, en y ajoutant une variable qualitative (`playlist_genre`) pour voir si elle a un impact sur la projection des données. On garde au final 11 variables quantitatives et 1 variable qualitative.

On décide de normaliser les données pour que chaque variable ait une moyenne de 0 et un écart-type de 1. Cela est important car l'ACP est sensible à l'échelle des variables. On utilise la méthode `StandardScaler` de `sklearn` pour normaliser les données.

In [None]:
# Select only the quantitative columns

qualisup = 'playlist_genre'

data_quanti = data.select_dtypes(include=['int64', 'float64'])
data_quanti[qualisup] = data[qualisup]
data_quanti = data_quanti.set_index(qualisup)

data_quanti.info()

In [None]:
data_quanti.head()

### 2.2 Application de l'ACP

In [None]:
from sklearn.decomposition import PCA
import prince 
from sklearn.preprocessing import StandardScaler

normalize_bool = True

if normalize_bool:
    scaler = StandardScaler()
    data_scaled = scaler.fit_transform(data_quanti)
else:
    data_scaled = data_quanti.values

pca = PCA(
    n_components=10,  # Number of components to keep
    random_state=1  # For reproducibility
)

projected = pca.fit_transform(data_scaled)

explained_variance = pca.explained_variance_ratio_

eig = pd.DataFrame(
    {
        "Dimension" : [f"PC{i+1}" for i in range(len(explained_variance))],
        "Variance" : np.round(pca.explained_variance_, 2),
        "% explained variance" : np.round(explained_variance*100, 1),
        "% cumulative variance" : np.round(np.cumsum(explained_variance)*100, 1)
    }
)
eig

In [None]:
fig = plt.figure(figsize=(15,8))
ax = fig.add_subplot(1,2,1)
ax.bar(range(10), pca.explained_variance_ratio_[:10]*100, align='center',
        color='coral', ecolor='black')
ax.set_xticks(range(10))
ax.set_ylabel("Variance")
ax.set_title("", fontsize=35)
ax.set_title(u"Pourcentage de variance expliqué", fontsize=20)

ax = fig.add_subplot(1,2,2)
ax.plot(np.cumsum(pca.explained_variance_ratio_), color='coral', marker='o')
ax.hlines(0.80, 0, 10, colors='grey', linestyles='dashed', alpha=0.5)
ax.set_title(u'Pourcentage de variance expliqué cumulé', fontsize=20)

fig.suptitle(u"Résultat ACP", fontsize=25)
plt.show()

**Interprétation :** 

L’analyse de la variance expliquée montre que les **7 premières composantes principales** permettent de **représenter 80,1 % de la variance totale** du jeu de données. Cela signifie que l’essentiel de l’information contenue dans les **11 variables numériques initiales** (comme *danceability*, *energy*, *speechiness*, *tempo*, etc.) peut être résumé avec seulement 7 dimensions, ce qui représente une **réduction significative de la complexité** du dataset tout en conservant une bonne qualité descriptive.

Dans cette optique de réduction de dimension, il serait **pertinent de conserver ces 7 composantes principales** pour la suite des analyses (clustering, visualisation, classification), car elles capturent la structure principale des données tout en éliminant le "bruit".

Dans l’analyse factorielle, nous avons choisi d’**interpréter les trois premières composantes principales**, qui à elles seules expliquent 45 % de la variance totale. Elles offrent un bon compromis entre lisibilité et pertinence pour une visualisation ou une première analyse des relations entre les variables et les genres musicaux (*playlist_genre*).

In [None]:
fig = plt.figure(figsize=(12,6))
box=plt.boxplot(projected[:,0:3],whis=100)
plt.title(u"Distribution des premières composantes", fontsize=20)
plt.show()

**Interprétation :**
- Le graphique ci-dessus montre la distribution des premières composantes principales. 

In [None]:
pca_prince = prince.PCA(
    n_components=3,
    n_iter=3,
    rescale_with_mean=normalize_bool,
    rescale_with_std=normalize_bool,
    copy=True,
    check_input=True,
    engine='sklearn',
    random_state=1
)
pca_prince = pca_prince.fit(
    data_quanti,
    sample_weight=None,
    column_weight=None,
    supplementary_columns=None
)

# Create a correlation matrix of the PCA compnenets
correlations = pca_prince.column_correlations
plt.figure(figsize=(10, 8))
sns.heatmap(correlations, annot=True, cmap='RdBu', center=0)
plt.title('Corrélations entre les variables et les composantes principales')
plt.show()


In [None]:
# Récupération des coordonnées des variables (correlations avec les composantes principales)
coords = pca_prince.column_correlations

# Création de la figure et des sous-graphiques
fig, axes = plt.subplots(1, 3, figsize=(24, 8))

# Boucle pour créer les trois graphiques
for idx, (ax, (x_comp, y_comp)) in enumerate(zip(axes, [(0, 1), (1, 2), (0, 2)])):
    ax.grid(False)
    for i in range(coords.shape[0]):
        ax.arrow(0, 0, coords.iloc[i, x_comp], coords.iloc[i, y_comp], 
                 color='black', alpha=0.7, head_width=0.02, head_length=0.03)
        ax.text(coords.iloc[i, x_comp] * 1.1, coords.iloc[i, y_comp] * 1.1, 
                coords.index[i], color='black', ha='center', va='center')

    # Ajout du cercle de rayon 1
    ax.add_artist(plt.Circle((0, 0), radius=1, color='cornflowerblue', fill=False))

    # Ajout des axes
    ax.axhline(0, color='gray', linestyle='--', linewidth=0.5)
    ax.axvline(0, color='gray', linestyle='--', linewidth=0.5)

    # Paramètres du graphique
    ax.set_xlim(-1.1, 1.1)
    ax.set_ylim(-1.1, 1.1)
    ax.set_xlabel(f'Composante principale {x_comp + 1}')
    ax.set_ylabel(f'Composante principale {y_comp + 1}')
    ax.set_title(f'Projection des variables: CP{x_comp + 1} vs CP{y_comp + 1}')

plt.tight_layout()
plt.show()

La table des correlations et les trois graphiques ci-dessus représentent les projections des features sur les trois premières composantes principales nous donne des informations sur la structure des données réduites.

- **Composante principale 1** : 
    - Les variables `energy (-0.91)`, `loudness (-0.80)` et `acousticness (+0.72)` sont linéairement corrélées avec la première composante principale, en soulignant que `energy` et `loudness` sont inversément corrélées avec `acousticness`. Cela indique que la CP1 oppose les morceaux **énergiques, forts en volume et peu acoustiques** (ex : rock, électro) aux morceaux **calmes, acoustiques et peu énergétiques** (ex : folk, classique).
- **Composante principale 2** : Sur le graphique de gauche, on remarque une opposition des variables `instrumentalness (+0.45)`, `duration_s (+0.38)` contre `danceability (-0.68)`, `valence (-0.62)`, `track_popularity (-0.37)`, `speechiness (-0.39)`. Cette composante principale oppose deux profils de morceaux :
    - D’un côté, les morceaux **instrumentaux, longs et peu populaires** (forte contribution de `instrumentalness` et `duration_s`), souvent associés à des genres comme le classique ou le jazz.
    - De l’autre, les chansons **courtes, dansantes, joyeuses et populaires** (forte contribution de `danceability`, `valence` et `track_popularity`), typiques de la pop ou de la musique de club. 
    - Enfin, cette opposition suggère que les morceaux avec des paroles marquées (`speechiness`) et une structure rythmique engageante (`danceability`) sont plus susceptibles de générer de la popularité.
- **Composantes principales 2 et 3** : Sur le graphique au centre, on peut extraire plusieurs informations :
    - Les morceaux dansants et joyeux (haute valence) s'opposent dans une moindre mesure aux morceaux de faible tempo. De plus, ces morceaux semblent avoir peu de versions live.
    - On observe aussi que les morceaux instrumentaux et longs ont généralement une faible popularité, tandis que les morceaux courts et peu instrumentaux sont souvent plus populaires, ce qui est typique de la musique pop, qui est souvent plus accessible et commerciale.
- **Composante principale 3** : La troisième composante (CP3) révèle un paradoxe : elle regroupe des morceaux à fort potentiel dansant (`danceability`) et mood positif (`valence`), mais qui restent peu populaires (`track_popularity`). Ces morceaux sont souvent instrumentaux (`instrumentalness`), longs (`duration_s`) et à tempo faible (`tempo`), ce qui les éloigne des standards des charts. Cette composante pourrait représenter des créations artistiques équilibrant danse et complexité, mais peinant à atteindre un large public.

Pour mieux comprendre à quoi correspond les type morceaux extraits par ces composantes principales, nous allons regarder les morceaux (individus) contribuant le plus à chacune des composantes principales.

In [None]:
# display la mediane de notre dataset quantitatif à fins de comparaison
median_values = data_quanti.median()
median_values = median_values.to_frame(name='median')
median_values = median_values.reset_index()
median_values.columns = ['feature', 'median']
median_values['feature'] = median_values['feature'].astype('category')
median_values = median_values.set_index('feature')
median_values = median_values.sort_index()
median_values = median_values.T
median_values

#### Composante principale 1

Afin de mieux comprendre les profils musicaux mis en évidence par la première composante principale, nous allons examiner les morceaux qui y contribuent le plus fortement, positivement et négativement.

In [None]:
# Calculate the contributions of individuals to the first principal component
contributions = projected[:, 0]

# Get the indices of the top 5 positive contributors
top_5_positive_indices = np.argsort(contributions)[-5:]

# Get the indices of the top 5 negative contributors
top_5_negative_indices = np.argsort(contributions)[:5]

# Extract the corresponding rows from the original dataset for positive contributions
top_5_positive_tracks = data_quanti.iloc[top_5_positive_indices].copy()
top_5_positive_tracks['track_name'] = data.iloc[top_5_positive_indices]['track_name'].values
top_5_positive_tracks['track_artist'] = data.iloc[top_5_positive_indices]['track_artist'].values
top_5_positive_tracks['contribution'] = contributions[top_5_positive_indices]
top_5_positive_tracks['playlist_subgenre'] = data.iloc[top_5_positive_indices]['playlist_subgenre'].values
# sort by contribution
top_5_positive_tracks = top_5_positive_tracks.sort_values(by='contribution', ascending=False)

# Extract the corresponding rows from the original dataset for negative contributions
top_5_negative_tracks = data_quanti.iloc[top_5_negative_indices].copy()
top_5_negative_tracks['track_name'] = data.iloc[top_5_negative_indices]['track_name'].values
top_5_negative_tracks['track_artist'] = data.iloc[top_5_negative_indices]['track_artist'].values
top_5_negative_tracks['contribution'] = contributions[top_5_negative_indices]
top_5_negative_tracks['playlist_subgenre'] = data.iloc[top_5_negative_indices]['playlist_subgenre'].values

# Display the top 5 positive and negative tracks with additional information
print("Top 5 Positive Contributions (PC1):")
display(top_5_positive_tracks)

print("Top 5 Negative Contributions (PC1) :")
display(top_5_negative_tracks)

Pour mieux cerner les types de morceaux représentés aux extrémités de la **première composante principale (PC1)**, nous avons identifié les individus (chansons) ayant les **contributions les plus élevées**, positives comme négatives.

- **Du côté des contributions positives**, on retrouve majoritairement des morceaux **rock, hard rock ou pop rock** très énergiques et puissants tels que *American Idiot* (Green Day), *Beauty Queen* (BLVK SWVN) ou *ATTENTION ATTENTION* (Shinedown). Ces morceaux sont caractérisés par une **énergie élevée**, une **forte intensité sonore (loudness)** et une **faible acoustique**, ce qui confirme bien la structure mise en évidence par la CP1. Notons aussi *This Is How We Do It* (Montell Jordan), un morceau R&B énergique, qui se distingue des autres par son genre mais partage les mêmes caractéristiques acoustiques.

- **À l’opposé**, les morceaux à contribution très négative sur PC1 sont des titres à **forte acoustique**, **peu énergiques** et **très faibles en loudness**. Il s'agit notamment de sons **ambiants, relaxants ou naturels**, comme *Peaceful Forest* ou *Tropical Rainforest at Dawn*, mais aussi de titres R&B ou indie très doux (*Small* de chloe moriondo). Ces morceaux incarnent l'autre extrémité de la CP1 : **des chansons calmes, acoustiques et à faible énergie**, souvent issues de sous-genres comme *tropical*, *indie poptimism* ou *new jack swing*.

Cette opposition renforce l’interprétation de la **CP1 comme un axe énergie / intensité sonore vs. calme / acoustique**, pertinent pour distinguer deux grandes familles de styles musicaux dans le dataset.

#### Composante principale 2

Pour approfondir l’interprétation de la **deuxième composante principale**, nous allons analyser les morceaux qui y contribuent le plus fortement — positivement comme négativement.

In [None]:
# Calculate the contributions of individuals to the second principal component
contributions_pc2 = projected[:, 1]

# Get the indices of the top 5 positive contributors for PC2
top_5_positive_indices_pc2 = np.argsort(contributions_pc2)[-5:]

# Get the indices of the top 5 negative contributors for PC2
top_5_negative_indices_pc2 = np.argsort(contributions_pc2)[:5]

# Extract the corresponding rows from the original dataset for positive contributions (PC2)
top_5_positive_tracks_pc2 = data_quanti.iloc[top_5_positive_indices_pc2].copy()
top_5_positive_tracks_pc2['track_name'] = data.iloc[top_5_positive_indices_pc2]['track_name'].values
top_5_positive_tracks_pc2['track_artist'] = data.iloc[top_5_positive_indices_pc2]['track_artist'].values
top_5_positive_tracks_pc2['contribution'] = contributions_pc2[top_5_positive_indices_pc2]
top_5_positive_tracks_pc2['playlist_subgenre'] = data.iloc[top_5_positive_indices_pc2]['playlist_subgenre'].values
# Sort by contribution
top_5_positive_tracks_pc2 = top_5_positive_tracks_pc2.sort_values(by='contribution', ascending=False)

# Extract the corresponding rows from the original dataset for negative contributions (PC2)
top_5_negative_tracks_pc2 = data_quanti.iloc[top_5_negative_indices_pc2].copy()
top_5_negative_tracks_pc2['track_name'] = data.iloc[top_5_negative_indices_pc2]['track_name'].values
top_5_negative_tracks_pc2['track_artist'] = data.iloc[top_5_negative_indices_pc2]['track_artist'].values
top_5_negative_tracks_pc2['contribution'] = contributions_pc2[top_5_negative_indices_pc2]
top_5_negative_tracks_pc2['playlist_subgenre'] = data.iloc[top_5_negative_indices_pc2]['playlist_subgenre'].values

# Display the top 5 positive and negative tracks with additional information for PC2
print("Top 5 Positive Contributions (PC2):")
display(top_5_positive_tracks_pc2)

print("Top 5 Negative Contributions (PC2):")
display(top_5_negative_tracks_pc2)

**Côté contributions positives**, on retrouve des titres principalement **rap et latino**, tels que *Suge* de DaBaby ou *LAX* de B0nds. Ces morceaux sont :
- **courts**,
- **dansants** (haute `danceability`),
- avec une **valence élevée** (émotion positive),
- mais également avec un certain niveau de **speechiness**, notamment pour les titres rap.

Ces morceaux partagent donc des caractéristiques propres aux chansons **énergétiques, rythmées et populaires**, souvent taillées pour le streaming, avec des formats courts, accrocheurs et directs.

**À l’opposé**, les morceaux ayant une **forte contribution négative à PC2** sont très différents : on retrouve des **paysages sonores naturels, ambiants ou instrumentaux** comme *Rain Forest and Tropical Beach Sound*, *Caribbean Thunderstorm*, ou encore *Battlement*. Ces titres sont :
- **longs**,
- **instrumentaux** (forte `instrumentalness`),
- avec une **faible valence** et **peu de parole**,
- et souvent issus de sous-genres comme *tropical*, *album rock*, ou *ambient*.

Cela confirme l’interprétation initiale de la PC2 comme un **axe opposant la musique instrumentale, longue et contemplative** à une musique **populaire, dansante et rythmée**.


#### Composante principale 3

In [None]:
# Calculate the contributions of individuals to the third principal component
contributions_pc3 = projected[:, 2]

# Get the indices of the top 5 positive contributors for PC3
top_5_positive_indices_pc3 = np.argsort(contributions_pc3)[-5:]

# Get the indices of the top 5 negative contributors for PC3
top_5_negative_indices_pc3 = np.argsort(contributions_pc3)[:5]

# Extract the corresponding rows from the original dataset for positive contributions (PC3)
top_5_positive_tracks_pc3 = data_quanti.iloc[top_5_positive_indices_pc3].copy()
top_5_positive_tracks_pc3['track_name'] = data.iloc[top_5_positive_indices_pc3]['track_name'].values
top_5_positive_tracks_pc3['track_artist'] = data.iloc[top_5_positive_indices_pc3]['track_artist'].values
top_5_positive_tracks_pc3['contribution'] = contributions_pc3[top_5_positive_indices_pc3]
top_5_positive_tracks_pc3['playlist_subgenre'] = data.iloc[top_5_positive_indices_pc3]['playlist_subgenre'].values
# Sort by contribution
top_5_positive_tracks_pc3 = top_5_positive_tracks_pc3.sort_values(by='contribution', ascending=False)

# Extract the corresponding rows from the original dataset for negative contributions (PC3)
top_5_negative_tracks_pc3 = data_quanti.iloc[top_5_negative_indices_pc3].copy()
top_5_negative_tracks_pc3['track_name'] = data.iloc[top_5_negative_indices_pc3]['track_name'].values
top_5_negative_tracks_pc3['track_artist'] = data.iloc[top_5_negative_indices_pc3]['track_artist'].values
top_5_negative_tracks_pc3['contribution'] = contributions_pc3[top_5_negative_indices_pc3]
top_5_negative_tracks_pc3['playlist_subgenre'] = data.iloc[top_5_negative_indices_pc3]['playlist_subgenre'].values

# Display the top 5 positive and negative tracks with additional information for PC3
print("Top 5 Positive Contributions (PC3):")
display(top_5_positive_tracks_pc3)

print("Top 5 Negative Contributions (PC3):")
display(top_5_negative_tracks_pc3)

La **troisième composante principale** met en lumière une tension plus subtile entre deux types de morceaux aux caractéristiques inattendues.

**Du côté des contributions positives**, on retrouve des titres de **pop et R&B calmes et acoustiques** comme *raindrops (an angel cried)* (Ariana Grande) ou *You Are The Reason* (Calum Scott). Ces chansons ont :
- une **acousticness élevée** (acapela, guitare acoustique, piano),
- un **tempo légèrement plus rapide que la médiane des morceaux**,
- une **faible énergie**, mais un **potentiel émotionnel fort** (`valence` variable).

Comme suggéré par la PC3, ces morceaux rencontrent un certain succès, illustrant un profil de chansons émotionnelles, accessibles et bien produites, souvent interprétées par des artistes grand public au style sobre et expressif.

**Les contributions négatives**, quant à elles, sont largement dominées par des morceaux **EDM ou latino instrumentaux**, comme *I Feel Love* ou *Chase*. Ces morceaux sont :
- **longs**,
- très **instrumentaux**,
- **énergiques** mais souvent **moins "accessibles" émotionnellement** (valence très élevée mais peu de paroles, structure répétitive).

Ils présentent également une popularité extrêmement faible, allant de 0 à 8. Ces productions s’adressent probablement à un public averti ou sont conçues pour des usages spécifiques (DJ sets, ambiances electro), ce qui les éloigne des standards de la musique grand public.

Ces observations confirment que la **PC3 oppose des créations acoustiques à forte charge émotionnelle** à des morceaux **instrumentaux, électroniques, longs**, aux dynamiques parfois complexes ou répétitives.

On remarque que le signe des contribution est inversé par rapport à la PCA réalisé en R uniquement pour cette dimension.

# MDS

In [None]:
from sklearn.manifold import MDS
from sklearn.metrics.pairwise import manhattan_distances, euclidean_distances

df_data_scaled = pd.DataFrame(data_scaled, columns=data_quanti.columns)
# set the same index as data_quanti
df_data_scaled.index = data_quanti.index

# Limit to 500 songs randomly selected to avoid memory crash
data_scaled_sample = df_data_scaled.sample(n=500, random_state=1)

# Calculate the Manhattan distance matrix
manhattan_dist_matrix = manhattan_distances(data_scaled_sample)
# Calculate the Euclidean distance matrix
euclidean_dist_matrix = euclidean_distances(data_scaled_sample)

# Perform MDS using Manhattan distance
mds_manhattan = MDS(n_components=2, dissimilarity='precomputed', random_state=1)
mds_manhattan_results = mds_manhattan.fit_transform(manhattan_dist_matrix)
# Perform MDS using Euclidean distance
mds_euclidean = MDS(n_components=2, dissimilarity='precomputed', random_state=1)
mds_euclidean_results = mds_euclidean.fit_transform(euclidean_dist_matrix)


In [None]:
# plot the MDS results for Manhattan distance with sns
# put playlist_genre in the color palette

plt.figure(figsize=(8, 4))
sns.scatterplot(
    x=mds_manhattan_results[:, 0],
    y=mds_manhattan_results[:, 1],
    hue=data_scaled_sample.index,
    palette='Set2',
    alpha=0.7
)
plt.title('MDS with Manhattan Distance', fontsize=20)
plt.xlabel('MDS Dimension 1', fontsize=16)
plt.ylabel('MDS Dimension 2', fontsize=16)
plt.legend(title=qualisup, bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid()
plt.show()

# plot the MDS results for Euclidean distance with sns
plt.figure(figsize=(8, 4))
sns.scatterplot(
    x=mds_euclidean_results[:, 0],
    y=mds_euclidean_results[:, 1],
    hue=data_scaled_sample.index,
    palette='Set2',
    alpha=0.7
)
plt.title('MDS with Euclidean Distance', fontsize=20)
plt.xlabel('MDS Dimension 1', fontsize=16)
plt.ylabel('MDS Dimension 2', fontsize=16)
plt.legend(title=qualisup, bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid()
plt.show()

In [None]:
# perform several MDS sns.scatterplot with different hues, for the 11 quantitative variables in data_scaled
quantitative_vars = data_scaled_sample.columns

# Create a list of colors for the scatterplots
colors = sns.color_palette("Set2", len(quantitative_vars), as_cmap=True)
# Create a figure with subplots
fig, axes = plt.subplots(4, 3, figsize=(20, 20))
axes = axes.flatten()  # Flatten the 2D array of axes for easy iteration
# Loop through each quantitative variable and create a scatterplot
for i, var in enumerate(quantitative_vars):
    sns.scatterplot(
        x=mds_euclidean_results[:, 0],
        y=mds_euclidean_results[:, 1],
        hue=data_scaled_sample[var],
        ax=axes[i]
    )
    axes[i].set_title(f'MDS with {var}', fontsize=16)
    axes[i].set_xlabel('MDS Dimension 1', fontsize=14)
    axes[i].set_ylabel('MDS Dimension 2', fontsize=14)
    axes[i].legend(title=var, bbox_to_anchor=(1.05, 1), loc='upper left')
    axes[i].grid()

plt.tight_layout()
plt.show()


**Interprétation :**

L’analyse en **MDS (Multidimensional Scaling)** appliquée aux données quantitatives donne des résultats contrastés.

* Lorsqu’on projette les points selon une **distance euclidienne ou manhattan**, et qu’on colore les morceaux selon le **genre de playlist**, **aucune structure claire n’émerge** : les genres sont **entièrement mélangés**. Cela montre que, globalement, **les variables quantitatives ne permettent pas de séparer les genres musicaux** dans une représentation MDS. La MDS **ne capture donc pas d'information utile liée au genre musical global** dans cet espace.

* Cependant, certaines **variables quantitatives spécifiques sont bien séparées** dans l’espace MDS :

  * C’est le cas de **`energy`**, **`loudness`**, **`speechiness`**, **`acousticness`**, **`instrumentalness`**, et dans une moindre mesure **`valence`**.

    * Pour **`valence`**, bien que l’on observe deux groupes principaux (valence haute vs. basse), **certains morceaux très joyeux se retrouvent mélangés avec des morceaux tristes**, ce qui rend la séparation moins nette que pour les autres variables.
  * On observe des **relations fortes et interprétables** entre certaines variables :

    * Sur la **dimension 1 de la MDS**, **`energy` et `loudness` sont corrélées positivement**, et **`acousticness` leur est exactement opposée**. Cela signifie que **les morceaux énergétiques et forts sont peu acoustiques**, ce qui est **parfaitement cohérent avec l’intuition musicale**.
    * Sur la **dimension 2**, on retrouve une opposition logique entre **`instrumentalness` et `speechiness`** : **les morceaux très instrumentaux sont peu parlés**, ce qui reflète bien la réalité musicale (ex : classique vs. rap).

* En revanche, pour **`track_popularity`**, **`danceability`**, **`tempo`** et **`duration_s`**, **aucune séparation nette n’apparaît** dans l’espace MDS. Ces variables semblent **ne pas être linéairement séparables** par la MDS. On peut donc conclure que **la MDS ne permet pas d’identifier de structure claire** pour ces dimensions — possiblement en raison de leur **relation non linéaire** ou d’un **bruit trop important**.

---

**Lien avec l’analyse PCA** :

On retrouve ici des observations **cohérentes avec l’analyse des composantes principales**. Par exemple :

* La **CP1** opposait déjà **`energy` et `loudness`** à **`acousticness`**, exactement comme la **dimension 1 de la MDS**.
* La **CP2** révélait une tension entre **`instrumentalness`** et **`speechiness`**, que la **MDS dimension 2** reflète également.
* Enfin, comme en PCA, **`track_popularity`**, **`tempo`** et **`duration_s`** ne permettent pas de bien structurer l’espace : ces variables n’étaient déjà que faiblement corrélées avec les premières composantes principales, et la MDS confirme leur faible capacité à structurer les données dans un espace réduit.

---

Nous allons desormais réaliser un **t-SNE** (t-distributed Stochastic Neighbor Embedding) pour visualiser en 2D la proximité (ou la similarité) entre les chansons Spotify selon leurs caractéristiques audio (danceability, energy, loudness, etc.), pour voir **si des genres musicaux distincts émergent sous forme de groupes**. A l'inverse de la PCA et de la MDS, le **t-SNE est une méthode non linéaire** qui pourrait capturer des relations différentes entre les données que celles révélées par les méthodes linéaires.

# t-SNE


In [None]:
from sklearn.manifold import TSNE

# Perform t-SNE
tsne = TSNE(n_components=2, random_state=1)
tsne_results = tsne.fit_transform(data_scaled_sample)

# plot the t-SNE results with sns
plt.figure(figsize=(6, 6))
sns.scatterplot(
    x=tsne_results[:, 0],
    y=tsne_results[:, 1],
    hue=data_scaled_sample.index,
    palette='Set2',
    alpha=0.7
)
plt.title('t-SNE', fontsize=20)
plt.xlabel('t-SNE Dimension 1', fontsize=16)
plt.ylabel('t-SNE Dimension 2', fontsize=16)
plt.legend(title=qualisup, bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid()
plt.show()

In [None]:
# perform t-SNE with different hues, for the 11 quantitative variables in data_scaled
# Create a list of colors for the scatterplots
colors = sns.color_palette("Set2", len(quantitative_vars), as_cmap=True)
# Create a figure with subplots
fig, axes = plt.subplots(4, 3, figsize=(20, 20))
axes = axes.flatten()  # Flatten the 2D array of axes for easy iteration
# Loop through each quantitative variable and create a scatterplot
for i, var in enumerate(quantitative_vars):
    sns.scatterplot(
        x=tsne_results[:, 0],
        y=tsne_results[:, 1],
        hue=data_scaled_sample[var],
        ax=axes[i]
    )
    axes[i].set_title(f't-SNE with {var}', fontsize=16)
    axes[i].set_xlabel('t-SNE Dimension 1', fontsize=14)
    axes[i].set_ylabel('t-SNE Dimension 2', fontsize=14)
    axes[i].legend(title=var, bbox_to_anchor=(1.05, 1), loc='upper left')
    axes[i].grid()

plt.tight_layout()
plt.show()

Voici une version mise en forme dans le même style, avec les éléments importants mis en gras et les liens logiques préservés :

---

**Interprétation :**

Malgré l’application du **t-SNE**, on observe **toujours aussi peu de séparation nette entre les genres musicaux** : les morceaux restent largement **mélangés indépendamment de leur genre**, ce qui confirme les limites des caractéristiques audio pour discriminer les styles musicaux au sens large.

Cependant, le **t-SNE révèle une structure beaucoup plus claire que la MDS**, avec l’émergence de **groupes de morceaux** qui semblent s’organiser selon leurs **propriétés audio internes**.

* Les variables **`energy`** et **`loudness`** sont **clairement séparées**, avec une **distribution similaire**, ce qui rejoint parfaitement les résultats observés en **PCA (CP1)** et en **MDS (dim 1)**. De même, **`acousticness`** est **opposée** à ces deux variables, avec un groupe bien distinct de **musiques très acoustiques**, caractérisées par **une faible énergie et un faible volume sonore**.

* Concernant **`instrumentalness`**, le t-SNE apporte une **information nouvelle importante** : on distingue **deux groupes de morceaux instrumentaux** très différents :

  * Un groupe de morceaux **instrumentaux, calmes, acoustiques et peu louds**.
  * Un autre groupe **instrumental mais très énergétique, fort en loudness**, donc probablement plus proche de l’expérimental, du post-rock ou de l’électro instrumental.
    Cette séparation fine n’apparaissait **ni en PCA, ni en MDS**, et montre que le **t-SNE capture mieux les structures non linéaires** des données.

* Pour **`valence`**, on observe **plusieurs sous-groupes assez distincts**, mais **difficiles à interpréter directement**. Toutefois, en croisant avec **`acousticness`**, on remarque que **les morceaux acoustiques et calmes ont généralement une valence très faible**, ce qui correspond à des ambiances tristes ou introspectives.

* En revanche, pour des variables comme **`track_popularity`**, **`danceability`**, **`tempo`** ou **`duration_s`**, la séparation reste **floue et peu informative**, ce qui suggère que ces caractéristiques sont **moins déterminantes** pour structurer l’espace audio selon t-SNE.

---

**Bilan sur les méthodes de réduction de dimension quantitatives :**

* La **PCA** fournit une **lecture linéaire et interprétable** des relations entre variables, et met en évidence des axes clairs comme l’opposition **énergie vs. acoustique** ou **instrumental vs. populaire**.
* La **MDS**, malgré son approche plus flexible sur les distances, **n’apporte pas d’information supplémentaire significative** par rapport à la PCA, sauf sur des dimensions très spécifiques.
* Le **t-SNE**, quant à lui, **révèle des regroupements non linéaires** que les autres méthodes ne captent pas, et permet de **mieux explorer des structures complexes**, notamment pour des variables comme **`instrumentalness`**, **`energy`**, et **`acousticness`**.

En conclusion, chaque méthode a ses forces : **la PCA pour l’interprétation globale des variables**, **le t-SNE pour l'exploration fine des regroupements**, et **la MDS reste plus limitée** dans ce cas d’étude.


# Multiple Factorial Analysis (MCA)

**1. Variables catégorielles à utiliser dans la MCA**
Voici les variables qualitatives que l'on pourrait envisager d'utiliser pour la MCA sur le dataset Spotify :  
- `track_artist`  
- `track_album_name` (attention à trop de modalités rares, peut-être garder que les plus fréquentes ou ne pas inclure à cause du grand nombre d’artistes)  
- `playlist_name`  
- `playlist_genre`  
- `playlist_subgenre`  
- `key`  
- `mode`  

---

**2. Questions que la MCA peut aider à explorer**

**a) Quels sont les groupes/cluster de modalités similaires ?**
- Est-ce que certains genres et sous-genres de playlists s’associent fréquemment ?  
- Certains "modes" (majeur/minor) sont-ils plus fréquents dans certains genres ?  
- Y a-t-il des clés (`key`) musicales qui sont typiques de certains genres ou playlists ?  

La MCA permettra de représenter graphiquement (biplot) ces modalités et d’identifier des associations fortes.

**b) Est-ce que certains artistes ou playlists ont un profil qualitatif particulier ?**
- Par exemple, certains artistes seraient-ils associés à un genre et sous-genre spécifiques, ou à un mode particulier ?  
- Y a-t-il des clusters d’artistes / playlists qui partagent des caractéristiques particulières (clé, mode, genre) ?

**3. Comment interpréter la MCA ici**

- **Axes factoriels** : Chaque axe correspond à une dimension qui résume des associations fortes entre modalités. Par exemple, un axe peut opposer les genres "Rock" à "Pop", ou des clés majeures à mineures.
- **Modalités proches dans l’espace** : Modalités proches signifient qu’elles co-apparaissent souvent dans les observations (ex. certains genres + mode majeur).
- **Observation** : Si tu represents les observations (chansons) dans l’espace MCA, celles proches partagent des profils catégoriels similaires.

---

**4. Utilisations concrètes/academic use cases**

- **Profil des genres musicaux** : Comprendre quels modes/clés/sous-genres caractérisent les genres populaires sur Spotify.  
- **Segmentation qualitative des playlists** : Y a-t-il des types de playlists/musiques qui partagent des caractéristiques qualitatives communes ?  
- **Analyse de diversité** : Mesurer dans quelle mesure certains artistes/genres sont hétérogènes ou homogènes quant à leurs caractéristiques catégorielles.  
- **Préparation à une classification** : Par exemple, combiner le résultat de la PCA (variables numériques) avec la MCA (variables qualitatives) dans une analyse factorielle mixte ou pour enrichir un modèle prédictif.

---

**5. Exemple de questions précises à poser**

- Les genres musicaux sont-ils liés à certaines tonalités ou modes ?  
- Les sous-genres présents dans la même playlist sont-ils proches ou éloignés dans l’espace MCA ?  
- Y a-t-il des clés rares ou des modes minoritaires associés à certains genres uniquement ?  
- Peut-on détecter des groupes de playlists ou artistes avec des profils qualitatifs similaires ?  

---

**En conclusion**
La MCA t’aide surtout à **explorer et visualiser les relations entre variables qualitatives** et leurs modalités sur ton dataset Spotify, ce qui complète bien la PCA sur les variables numériques. C’est une étape utile pour comprendre la structure qualitative de tes données avant d’envisager une modélisation supervisée ou une analyse plus approfondie.

---

Si tu veux, je peux aussi te fournir un exemple de code Python pour réaliser une MCA avec `prince` ou en R avec `FactoMineR` sur ton dataset.

In [None]:
from sklearn.decomposition import PCA
import prince 
from sklearn.preprocessing import StandardScaler
import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Subset for MCA
df_cat = data[['playlist_genre', 'mode', 'key']].copy()

# Run MCA
mca = prince.MCA(n_components=2, n_iter=100, copy=True, check_input=True, engine='sklearn', random_state=1)
mca = mca.fit(df_cat)

# Get coordinates for the plot
coords = mca.column_coordinates(df_cat)

# Calculate cosine similarities for sizing
cosine_similarities = mca.column_cosine_similarities(df_cat)
# Use the sum of cosine similarities as size parameter (for clearer visualization)
sizes = cosine_similarities[0]**2 + cosine_similarities[1]**2

# Prepare data for plotting
plot_data = pd.DataFrame({
    'x': coords[0],
    'y': coords[1],
    'variable': [x.split('__')[0] for x in coords.index],
    'value': [x.split('__')[1] for x in coords.index],
    'size': sizes * 500  # Scale sizes for better visualization
})

# Create a color mapping for variables
colors = {'playlist_genre': 'blue', 'mode': 'red', 'key': 'green'}
plot_data['color'] = plot_data['variable'].map(colors)

# Create the plot
plt.figure(figsize=(10, 8))
scatter = sns.scatterplot(
    data=plot_data,
    x='x', 
    y='y',
    hue='variable',
    size='size',
    sizes=(50, 500),
    palette=colors,
    alpha=0.7
)

# Add annotations
for i, row in plot_data.iterrows():
    plt.text(
        row['x'] + 0.02, 
        row['y'] + 0.02, 
        row['value'], 
        fontsize=9,
        color='black'
    )

# Add styling
plt.title('MCA: Relationship between Genre, Mode and Key', fontsize=16)
plt.xlabel(f'Dimension 1 ({mca.eigenvalues_summary.iloc[0, 1]})', fontsize=12)
plt.ylabel(f'Dimension 2 ({mca.eigenvalues_summary.iloc[1, 1]})', fontsize=12)
plt.grid(True, linestyle='--', alpha=0.7)
plt.axhline(y=0, color='gray', linestyle='-', alpha=0.3)
plt.axvline(x=0, color='gray', linestyle='-', alpha=0.3)
plt.legend(title='Variable Type')

# Show plot
plt.tight_layout()
plt.show()

# Print quick interpretation of coordinates
print("\nCoordinates Summary by Variable Type:")
for var in ['playlist_genre', 'mode', 'key']:
    var_coords = coords.filter(like=var)
    print(f"\n{var.upper()} coordinates:")
    print(var_coords)

### Variables utilisées
Les variables qualitatives sélectionnées pour cette analyse sont :
- `playlist_genre` : Genre de la playlist (ex. rock, pop, rap, etc.).
- `key` : Tonalité musicale (ex. C, D, E♭, etc.).
- `mode` : Mode musical (majeur ou mineur).

### Résultats

#### 1. Axes factoriels
- **Dim1 (8%)** : Cet axe semble opposer des genres musicaux et des tonalités spécifiques :
  - À gauche, des genres comme `rap` et des tonalités comme `A♯/B♭` sont associés à des morceaux modernes ou spécifiques.
  - À droite, des tonalités comme `C` et `G` sont associées à des genres comme `rock`, suggérant une relation avec des styles plus classiques.
- **Dim2 (6.6%)** : Cet axe reflète une distinction entre les modes (`major` et `minor`) et leur association avec certains genres :
  - En bas, le mode `major` est associé à des genres comme `rock`.
  - En haut, le mode `minor` est plus proche de genres comme `rap` et `edm`.

On remarque ici que nous avons les même resultats qu'en R à l'exception de la projection des individus qui est inversée.

#### 2. Proximité des modalités
- Les modalités proches sur le graphique sont souvent associées dans les données :
  - `pop`, `latin`, `r&b` et `edm` sont centrés par rapport aux modes `minor`et `major`, indiquant qu'ils n'appartiennent pas clairement à un mode spécifique, mais partagent des caractéristiques communes.
  - `rap` est également centré par rapport à ces modes, ce qui suggère que l'utilisation des modes majeurs et mineurs est assez équilibrée dans la composition des morceaux de rap. Toutefois, il reste distinct des groupes `pop`, `latin`, `r&b` et `edm`.
  - `rock` est plus proche de `major`, ce qui suggère que les musiques de ce genre sont souvent associées à des tonalités majeures.
  - Les tonalités comme `B`,`D♯/E♭`,`A♯/B♭`,`F♯/G♭`et `F` sont proches de `minor`, indiquant qu'elles sont souvent utilisées dans des morceaux en mode mineur.
  - Les tonalités comme `C`, `G`,`D` sont proches de `major`, ce qui suggère qu'elles sont souvent utilisées dans des morceaux en mode majeur.

#### 3. Cos² (Qualité de représentation)
- La taille des bulles indiquent la qualité de représentation des modalités sur les deux premières dimensions :
  - Les modalités avec des grosses bulles comme `major`, `minor`, `C♯/D♭` ou `rock` sont bien représentées sur ces axes.
  - Les modalités avec des bulles plus petites comme certaines tonalités, ou certains genres (`pop`, `latin`, `r&b` et `edm`) sont moins bien représentées, ce qui signifie qu'elles pourraient être mieux expliquées par d'autres dimensions.

### Conclusion
Cette MCA met en évidence des associations claires entre les genres musicaux, les tonalités (`key`), et les modes (`major`/`minor`). Elle permet de visualiser les relations qualitatives dans les données et d'identifier des clusters ou des oppositions significatives. Par exemple :
- `rock` est distinct des autres genres, avec des tonalités et un mode spécifiques.
- `pop`, `latin`, `r&b` et `edm` partagent des caractéristiques similaires, mais ne sont pas clairement associés à un mode particulier.
- `rap` est centré par rapport aux modes, mais reste distinct des autres genres.

Ces résultats offrent une meilleure compréhension des structures qualitatives des données et peuvent être utilisés pour des analyses complémentaires, comme la segmentation ou la classification.

In [None]:
# Choisir 4 artistes fréquents
top_artists = ['David Guetta', 'Ed Sheeran', 'Green Day', 'Billie Eilish', 'Eminem']

# Remplacer les autres artistes par 'Autre'
data['artist_subset'] = data['track_artist'].apply(lambda x: x if x in top_artists else 'Autre')

# Refaire le sous-ensemble avec artiste
df_cat = data[['playlist_genre', 'mode', 'key', 'artist_subset']].copy()

# Run MCA
mca = prince.MCA(n_components=2, n_iter=100, copy=True, check_input=True, engine='sklearn', random_state=1)
mca = mca.fit(df_cat)

# Get coordinates for the plot
coords = mca.column_coordinates(df_cat)

# Calculate cosine similarities for sizing
cosine_similarities = mca.column_cosine_similarities(df_cat)
# Use the sum of cosine similarities as size parameter (for clearer visualization)
sizes = cosine_similarities[0]**2 + cosine_similarities[1]**2

# Prepare data for plotting
plot_data = pd.DataFrame({
    'x': coords[0],
    'y': coords[1],
    'variable': [x.split('__')[0] for x in coords.index],
    'value': [x.split('__')[1] for x in coords.index],
    'size': sizes * 500  # Scale sizes for better visualization
})

# Create a color mapping for variables
colors = {'playlist_genre': 'blue', 'mode': 'red', 'key': 'green', 'artist_subset': 'purple'}
plot_data['color'] = plot_data['variable'].map(colors)

# Create the plot
plt.figure(figsize=(10, 8))
scatter = sns.scatterplot(
    data=plot_data,
    x='x', 
    y='y',
    hue='variable',
    size='size',
    sizes=(50, 500),
    palette=colors,
    alpha=0.7
)

# Add annotations
for i, row in plot_data.iterrows():
    plt.text(
        row['x'] + 0.02, 
        row['y'] + 0.02, 
        row['value'], 
        fontsize=9,
        color='black'
    )

# Add styling
plt.title('MCA: Relationship between Genre, Mode and Key', fontsize=16)
plt.xlabel(f'Dimension 1 ({mca.eigenvalues_summary.iloc[0, 1]})', fontsize=12)
plt.ylabel(f'Dimension 2 ({mca.eigenvalues_summary.iloc[1, 1]})', fontsize=12)
plt.grid(True, linestyle='--', alpha=0.7)
plt.axhline(y=0, color='gray', linestyle='-', alpha=0.3)
plt.axvline(x=0, color='gray', linestyle='-', alpha=0.3)
plt.legend(title='Variable Type')

# Show plot
plt.tight_layout()
plt.show()

# Print quick interpretation of coordinates
print("\nCoordinates Summary by Variable Type:")
for var in ['playlist_genre', 'mode', 'key', 'artist_subset']:
    var_coords = coords.filter(like=var)
    print(f"\n{var.upper()} coordinates:")
    print(var_coords)

In [None]:
# Séparer les genres et les artistes
genres = [i for i in coords.index if i.startswith("playlist_genre__")]
artists = [i for i in coords.index if i.startswith("artist_subset__")]

# Initialiser un nouveau DataFrame pour stocker les distances
distances = pd.DataFrame(index=artists, columns=genres)

# Calculer les distances euclidiennes au carré
for artist in artists:
    for genre in genres:
        vec_artist = coords.loc[artist].values
        vec_genre = coords.loc[genre].values
        dist_sq = np.sum((vec_artist - vec_genre) ** 2)
        distances.loc[artist, genre] = dist_sq

# Convertir les distances en float (au cas où)
distances = distances.astype(float)

# Afficher les résultats
distances.T

### Distances artistes-genres (MCA)
Nous avons décidé d'affiner notre MCA en y intégrant certains artistes pour mieux comprendre leurs relations avec les genres musicaux. Nous avons sélectionné 6 artistes : **David Guetta**, **Ed Sheeran**, **Green Day**, **Billie Eilish**, **Eminem** et un groupe d'artistes diversifié nommé **Autre**. Afin d'analyser la proximité entre ces artistes et les genres musicaux, nous avons calculé les distances euclidiennes au carré entre chaque artiste et les genres issus de l'Analyse des Correspondances Multiples (MCA).

#### Interprétations individuelles

- **David Guetta** est très proche du genre **EDM**, ce qui est cohérent avec son positionnement d’artiste électro. Il est aussi relativement proche du genre `pop` et `rock`, ce qui peut s’expliquer par ses nombreuses collaborations avec des chanteurs populaires.

- **Ed Sheeran** est modérément proche des genres **pop** et **edm**, ce qui reflète sa diversité musicale et ses morceaux mêlant acoustique et sons plus produits.

- **Green Day** est relativement proche du genre **rock**, ce qui confirme son ancrage dans ce style. Il est plus éloigné des autres genres, ce qui le distingue nettement stylistiquement dans cette analyse.

- **Billie Eilish** est située à mi-distance de plusieurs genres (`pop`, `edm`, `rock`), ce qui traduit une position hybride. Elle n’est pas fortement associée à un genre unique, ce qui est cohérent avec son style singulier et difficile à catégoriser.

- **Eminem** montre une **affinité forte avec le genre Rap**, avec une distance minimale comparée aux autres genres. Il est largement séparé des genres comme rock ou pop, ce qui reflète bien son style musical distinct.

- **Autre** est, comme attendu, proche du centre, ce qui traduit une position moyenne, résultant de l’agrégation d’artistes divers aux profils variés.

### Conclusion

L’analyse des distances artistes-genres via la MCA confirme plusieurs intuitions sur les positionnements stylistiques des artistes. Elle permet également de détecter des cas hybrides (comme Billie Eilish)
Elle enrichit l’interprétation visuelle de l’ACM en objectivant la notion de "proximité" par une mesure quantitative.

# NMF

In [None]:
audio_features = [
    'danceability', 'energy', 'loudness', 'speechiness',
    'acousticness', 'instrumentalness', 'liveness',
    'valence', 'tempo', 'duration_s'
]

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import NMF
from sklearn.preprocessing import MinMaxScaler

# 1. Sélection des features audio
X = data_songs[audio_features].copy()

# 2. Normalisation min-max (important pour la NMF)
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# 3. Tester plusieurs valeurs de r (nombre de composants)
errors = []
r_values = range(2,11, 2)

for r in r_values:
    model = NMF(n_components=int(r), init='nndsvda', random_state=42, max_iter=500)
    W = model.fit_transform(X_scaled)
    H = model.components_
    reconstruction = np.dot(W, H)
    error = np.linalg.norm(X_scaled - reconstruction, 'fro')  # norme de Frobenius
    errors.append(error)

# 4. Tracer la courbe de l’erreur de reconstruction
plt.figure(figsize=(10, 6))
plt.plot(r_values, errors, marker='o')
plt.title("Erreur de reconstruction vs nombre de composants (r)")
plt.xlabel("Nombre de composants (r)")
plt.ylabel("Erreur de reconstruction (norme de Frobenius)")
plt.grid(True)
plt.show()


On garde 6 profils.

In [None]:
# 3. Application de la NMF
nmf_model = NMF(n_components=6, init='nndsvda', random_state=42, max_iter=500)
W = nmf_model.fit_transform(X_scaled)
H = nmf_model.components_

# 4. Créer un DataFrame pour la matrice H
H_df = pd.DataFrame(H, columns=audio_features)
H_df.index = [f'Profil {i+1}' for i in range(H.shape[0])]

# 5. Affichage de la matrice H
print("Matrice H (profils latents définis par les variables audio) :")
display(H_df)

# 6. Visualisation : contribution des variables à chaque profil
plt.figure(figsize=(12, 6))
sns.heatmap(H_df, annot=True, cmap='YlGnBu', fmt=".2f")
plt.title("Profils latents musicaux détectés par NMF (matrice H)")
plt.xlabel("Caractéristiques audio")
plt.ylabel("Profils NMF")
plt.tight_layout()
plt.show()

### Dataset utilisé
Nous avons décidé d'utiliser le dataframe `data_songs` ne contenant que les morceaux une seule fois dans le dataset, pour éviter de biaiser les résultats. 

### Variables utilisées

Les variables sélectionnées pour cette NMF sont les caractéristiques audio continues suivantes :

* `danceability`, `energy`, `loudness`, `speechiness`, `acousticness`, `instrumentalness`, `liveness`, `valence`, `tempo`, `duration_s`.

Nous avons exclu la variable `track_popularity` car la NMF est très sensible aux valeurs extrêmes et cette variable a une distribution très héterogène. De plus, nous avons exclu les variables catégorielles et les variables de texte, car la NMF est conçue pour fonctionner sur des données numériques continues.

### Résultats

#### 1. Profils latents détectés

L’analyse a révélé **6 profils musicaux latents** à partir des données. Chaque profil est défini par une combinaison unique de caractéristiques audio. Voici leur interprétation :

* **Profil 1 : Profil Énergique-Intense**

  * Caractérisé par de **très fortes valeurs en `energy`, `loudness` et `tempo` et `duration`**.
  * Faible en composantes émotionnelles (`valence`), vocales et instrumentales.
  * Ce profil pourrait correspondre à des morceaux **très dynamiques et bruyants**, typiques de l’**EDM** (house, electro, techno) ou du **hard-rock**/**metal**.

* **Profil 2 : Profil Acoustique-Chant**

  * Dominé par une forte **`acousticness`**.
  * Ce profil, presente **`instrumentalness`=0**, et un faible **`speechiness`** mais différent de zero.
  * Ce profil regroupe possiblement des morceaux **acoustiques et chantés**.

* **Profil 3 : Profil Instrumental**

  * Très forte **`instrumentalness`** avec très peu d'autres caractéristiques.
  * Correspond clairement à des morceaux **purement instrumentaux**, probablement **ambient**, **classique** ou **bande-son**.

* **Profil 4 : Profil Émotionnel-Valence**

  * Faible en toutes dimensions sauf une très forte **`valence`**.
  * Ce profil regroupe des morceaux **émotionnellement très positifs**, avec une ambiance **joyeuse ou euphorique**, indépendamment du tempo ou de l’énergie.

* **Profil 5 : Profil Vocal-Live**

  * Faibles valeurs générales sauf une **forte `liveness`** et une **`speechiness`** marquée.
  * Peut représenter des morceaux **live**, **rap**, ou des chansons **parlées/spoken word**.

* **Profil 6 : Profil Rap-Rythmé**

  * Forte `danceability`, `speechiness` et modérée `energy`.
  * Ce profil semble capturer des morceaux **rythmés et très vocaux**, typiques du **rap**, **hip-hop**, voire certains morceaux **R\&B urbains**. Ils pourraient aussi correspondre à des morceaux **pop** et **latino** dans une certaine mesure.

---

Pour chaque profil, nous allons desormais regarder les morceaux qui y contribuent le plus fortement, pour confirmer ces resultats.

In [None]:
# Get the top 2 tracks for each NMF profile
n_profiles = 6  # Number of profiles from our NMF model
top_n = 2      # Number of top tracks to display per profile

# Create a dataframe with track information and profile weights
profile_weights = pd.DataFrame(W, index=data_songs.index)
profile_weights.columns = [f'Profile_{i+1}' for i in range(n_profiles)]

# For each profile, find the tracks with the highest weights
results = []

for profile_idx in range(n_profiles):
    profile_name = f'Profile_{profile_idx+1}'
    
    # Get top tracks for this profile
    top_indices = profile_weights[profile_name].nlargest(top_n).index
    
    # Extract relevant information for these tracks
    for idx in top_indices:
        track_info = {
            'Profile': profile_name,
            'Track Name': data.loc[idx, 'track_name'],
            'Artist': data.loc[idx, 'track_artist'],
            'Genre': data.loc[idx, 'playlist_genre'],
            'Subgenre': data.loc[idx, 'playlist_subgenre'],
            'Weight': profile_weights.loc[idx, profile_name]
        }
        
        # Add audio features for context
        for feature in audio_features:
            track_info[feature] = data.loc[idx, feature]
            
        results.append(track_info)

# Create a dataframe with the results and display it
top_tracks_df = pd.DataFrame(results)

# Sort by profile and weight
top_tracks_df = top_tracks_df.sort_values(['Profile', 'Weight'], ascending=[True, False])
display(top_tracks_df)

**Interprétation :**

On retrouve des resultats cohérents avec les profils identifiés précédemment. Seul `Sandstorm` de Darude qui est censé être un morceau EDM est classé dans le profil 2, ce qui est surprenant. Mais en regardant la caractéristique `instrumentalness`, on remarque qu'il est très proche de 1, ce qui signifie que le morceau est classé comme très intrumental. Il est donc normal qu'il soit classé dans le profil 2.

---

On peut desormais regarder pour certains artistes quels sont les profils musicaux qui leur correspondent le mieux. On va regarder les tracks des artistes suivants : **David Guetta**, **Ed Sheeran**, **Green Day**, **Billie Eilish** et **Eminem**.

In [None]:
# Create a dataframe with profile weights for each track
profile_weights = pd.DataFrame(W, index=data_songs.index)
profile_weights.columns = [f'Profile_{i+1}' for i in range(n_profiles)]

# Merge with original data to get artist info
artist_profiles = pd.concat([data_songs[['track_artist', 'track_name']], profile_weights], axis=1)

# Initialize a dictionary to store results
artist_distribution = {}

# For each artist, analyze their tracks
for artist in top_artists:
    # Filter tracks by this artist
    artist_tracks = artist_profiles[artist_profiles['track_artist'] == artist]
    
    if len(artist_tracks) == 0:
        print(f"No tracks found for {artist}")
        continue
    
    # Calculate average profile weight for this artist
    avg_profile_weights = artist_tracks[[f'Profile_{i+1}' for i in range(n_profiles)]].mean()
    
    # Find dominant profile for each track
    dominant_profiles = artist_tracks[[f'Profile_{i+1}' for i in range(n_profiles)]].idxmax(axis=1).value_counts()
    
    # Store results
    artist_distribution[artist] = {
        'track_count': len(artist_tracks),
        'avg_weights': avg_profile_weights,
        'dominant_profiles': dominant_profiles
    }

# Visualize the results
fig, axes = plt.subplots(len(top_artists), 2, figsize=(18, 4*len(top_artists)))

for i, artist in enumerate(top_artists):
    if artist not in artist_distribution:
        continue
    
    # Average profile weights
    artist_distribution[artist]['avg_weights'].plot(
        kind='bar', 
        ax=axes[i, 0], 
        color='skyblue',
        title=f"{artist}: Average Profile Weights (n={artist_distribution[artist]['track_count']} tracks)"
    )
    axes[i, 0].set_ylabel("Weight")
    axes[i, 0].set_xlabel("NMF Profile")
    
    # Distribution of dominant profiles
    if len(artist_distribution[artist]['dominant_profiles']) > 0:
        artist_distribution[artist]['dominant_profiles'].plot(
            kind='bar', 
            ax=axes[i, 1], 
            color='coral',
            title=f"{artist}: Dominant Profile Distribution"
        )
        axes[i, 1].set_ylabel("Number of Tracks")
        axes[i, 1].set_xlabel("Dominant NMF Profile")

plt.tight_layout()
plt.show()

# Print a summary
print("\nArtist Profile Summary:")
print("=" * 50)
for artist in top_artists:
    if artist not in artist_distribution:
        continue
    
    print(f"\n{artist} ({artist_distribution[artist]['track_count']} tracks)")
    print("-" * 30)
    
    # Get the dominant profile(s)
    if len(artist_distribution[artist]['dominant_profiles']) > 0:
        top_profile = artist_distribution[artist]['dominant_profiles'].index[0]
        top_count = artist_distribution[artist]['dominant_profiles'].iloc[0]
        top_percent = (top_count / artist_distribution[artist]['track_count']) * 100
        
        print(f"Primary Profile: {top_profile} ({top_percent:.1f}% of tracks)")
    
    # Get the highest weight profile on average
    top_avg_profile = artist_distribution[artist]['avg_weights'].idxmax()
    top_avg_weight = artist_distribution[artist]['avg_weights'].max()
    
    print(f"Highest Average Weight: {top_avg_profile} (weight: {top_avg_weight:.3f})")

In [None]:
# Get all tracks by Green Day
green_day_tracks = data_songs[data_songs['track_artist'] == 'Green Day']

# Create a dataframe with profile weights for each Green Day track
profile_weights = pd.DataFrame(W, index=data_songs.index)
profile_weights.columns = [f'Profile_{i+1}' for i in range(n_profiles)]

# Merge track information with profile weights
green_day_profiles = pd.concat([green_day_tracks[['track_name']], 
                               profile_weights.loc[green_day_tracks.index]], axis=1)

# Add the dominant profile column
green_day_profiles['Dominant_Profile'] = green_day_profiles[[f'Profile_{i+1}' for i in range(n_profiles)]].idxmax(axis=1)

# Sort by dominant profile and then by the weight of that profile (descending)
green_day_profiles = green_day_profiles.sort_values(['Dominant_Profile', 'track_name'])

# Display the tracks with their profile information
display(green_day_profiles[['track_name', 'Dominant_Profile'] + 
                          [f'Profile_{i+1}' for i in range(n_profiles)]])


### Artistes et profils musicaux

En dehors de **Green Day**, ayant des morceaux partagés entre les profiles 4, 5 et 6, **les autres artistes appartiennent tous au profil 6**. Pour ce qui est de **Green Day**, les morceaux qui lui sont attribués dans le profil 4 sont en effet des morceaux joyeux et gais comme *American Idiot* ou *Basket Case* du moins dans la direction artistique.

Les morceaux qui lui sont attribués dans le **profil 5** sont des morceaux **qui a priori ne sont pas des versions live** mais l'algorithme de Spotify en charge de detecter les versions live **a du se tromper**. Si cette variable présente des valeurs non représentatives, il serait intéressante de répéter l'analyse sans cette variable.

Pour ce qui est des morceaux qui lui sont attribués dans le **profil 6**, ce sont des morceaux pop-rock **plutot équilibrés** comme *Boulevard of Broken Dreams* ou *Wake Me Up When September Ends*.

---

On peut conclure sur le fait que ce profil 6 regroupe plus de styles musicaux que les autres profils. Il semble être **le profil le plus généraliste**, et regroupe des morceaux de plusieurs genres musicaux.

Il serait utile de faire un clustering sur les profils musicaux pour voir si on peut regrouper les morceaux en fonction de leurs caractéristiques audio, particulièrement sur le profil 6.

In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from matplotlib import colors
from yellowbrick.cluster import SilhouetteVisualizer, KElbowVisualizer

In [None]:
kmeans = KMeans(init='k-means++', n_init='auto', random_state=42)
visualizer = KElbowVisualizer(kmeans, k=(2, 12))
visualizer.fit(W)
visualizer.show()

In [None]:
# Perform K-Means clustering on W with 3 clusters
kmeans_w = KMeans(n_clusters=4, random_state=42, n_init='auto')
cluster_labels = kmeans_w.fit_predict(W)

# Add cluster labels to a DataFrame for easier handling
clustered_data = data_songs.copy()
clustered_data['kmeans_cluster'] = cluster_labels

# 1. Confusion Matrix: K-Means clusters vs. NMF profiles

# Determine the dominant NMF profile for each track
# profile_weights was calculated in CELL INDEX 50 and has data_songs.index
dominant_nmf_profile = profile_weights.idxmax(axis=1)
clustered_data['dominant_nmf_profile'] = dominant_nmf_profile

# Create confusion matrix
# Ensure the labels match the unique values in dominant_nmf_profile and kmeans_cluster
nmf_labels = clustered_data['dominant_nmf_profile'].unique()
kmeans_labels = sorted(clustered_data['kmeans_cluster'].unique())

# Create a contingency matrix instead of a confusion matrix
contingency_matrix = pd.crosstab(clustered_data['dominant_nmf_profile'], clustered_data['kmeans_cluster'])

# Convert the contingency matrix to a DataFrame for visualization
cm_nmf_df = contingency_matrix

plt.figure(figsize=(10, 7))
sns.heatmap(cm_nmf_df, annot=True, fmt='d', cmap='Blues')
plt.title('Confusion Matrix: K-Means Clusters vs. Dominant NMF Profiles')
plt.ylabel('Dominant NMF Profile')
plt.xlabel('K-Means Cluster')
plt.show()

# 2. Confusion Matrix: K-Means clusters vs. Playlist Genres

# Get playlist genres for tracks in data_songs from the original 'data' DataFrame
# The 'data' DataFrame (CELL INDEX 2, 5, 6, 40) has 'playlist_genre' and is indexed appropriately
# to be used with data_songs.index if data_songs was derived from data.
# data_songs was created from data (CELL INDEX 10), so their indices might not align directly if data_songs was re-indexed.
# However, W is indexed by data_songs.index (CELL INDEX 48, 50).
# We need playlist_genre for data_songs.index
playlist_genres_for_W = data.loc[data_songs.index, 'playlist_genre'] # Usage of data.loc to ensure correct indexing
clustered_data['playlist_genre'] = playlist_genres_for_W

# # Create confusion matrix
# # Get unique sorted genre names for consistent label ordering
# genre_labels = sorted(clustered_data['playlist_genre'].unique())
# cm_genre_df = pd.crosstab(clustered_data['playlist_genre'], clustered_data['kmeans_cluster'])

# plt.figure(figsize=(12, 8))
# sns.heatmap(cm_genre_df, annot=True, fmt='d', cmap='Greens')
# plt.title('Confusion Matrix: K-Means Clusters vs. Playlist Genres')
# plt.ylabel('Actual Playlist Genre')
# plt.xlabel('K-Means Cluster')
# plt.show()


**Interprétation :**

L’analyse des clusters obtenus à partir de la **matrice W de la NMF** révèle des profils très contrastés :

* Les **profils 1 à 4 sont clairement définis et homogènes** : ils se retrouvent **presque exclusivement dans un seul cluster (le cluster 3)**, ce qui indique une **cohérence interne forte** et une bonne séparation de ces profils par la NMF.

* Le **profil 5** montre une **certaine diversité**, mais reste **partiellement concentré dans le cluster 1**, suggérant une structure intermédiaire : ni totalement homogène, ni complètement dispersé.

* Le **profil 6** est **largement hétérogène**, avec des morceaux **répartis sur l’ensemble des 5 clusters**, ce qui confirme plusieurs points importants :

  * Ce profil capture **un groupe de morceaux très variés**, sans dominante claire.
  * Il reflète probablement **plusieurs sous-genres ou styles musicaux imbriqués**.
  * Sa **taille très supérieure** à celle des autres profils suggère que la **NMF n’a pas réussi à découper efficacement cet ensemble**, ce qui peut être dû à une **grande diversité sonore** ou à une **structure non linéaire difficile à factoriser**.

---

**Bilan :**

L’analyse met en évidence que **seul le profil 6 mérite une exploration plus approfondie**. On peut maintenant **zoomer sur ce profil**, et **interpréter les clusters qui le composent** en examinant :

* La répartition des **genres** et **sous-genres musicaux**.
* La structure des **caractéristiques audio** propres à chaque cluster.

Cela permettra d’identifier si des **sous-groupes cohérents** émergent au sein de ce profil complexe.


In [None]:
# Identifier le profil dominant pour chaque morceau
dominant_profile = W.argmax(axis=1)  # Renvoie l'indice du profil dominant (0 à 5)

# Filtrer uniquement ceux dont le profil dominant est le profil 6 (index 5)
profile_6_indices = np.where(dominant_profile == 5)[0]
W_profile_6 = W[profile_6_indices]

kmeans = KMeans(init='k-means++', n_init='auto', random_state=42)
visualizer = KElbowVisualizer(kmeans, k=(2, 12))
visualizer.fit(W_profile_6)
visualizer.show()

In [None]:
# Filtrer uniquement les données correspondant au profil 6
profile_6_indices = np.where(dominant_profile == 5)[0]  # Indices des morceaux avec profil dominant 6
W_profile_6 = W[profile_6_indices]  # Matrice W pour le profil 6
data_songs_profile_6 = data_songs.iloc[profile_6_indices]  # Filtrer les morceaux correspondants

# Effectuer le clustering K-Means sur W profil 6
kmeans_profile_6 = KMeans(n_clusters=6, random_state=42, n_init='auto')
cluster_labels_profile_6 = kmeans_profile_6.fit_predict(W_profile_6)

# Ajouter les étiquettes de cluster au DataFrame filtré
data_songs_profile_6['kmeans_cluster'] = cluster_labels_profile_6

# Créer une matrice de contingence pour les genres de playlist
playlist_genres_for_W_profile_6 = data.loc[data_songs_profile_6.index, 'playlist_genre']
data_songs_profile_6['playlist_genre'] = playlist_genres_for_W_profile_6

# Matrice de contingence : clusters K-Means vs genres de playlist
cm_genre_df_profile_6 = pd.crosstab(data_songs_profile_6['playlist_genre'], data_songs_profile_6['kmeans_cluster'])

# Visualisation de la matrice de contingence
plt.figure(figsize=(12, 8))
sns.heatmap(cm_genre_df_profile_6, annot=True, fmt='d', cmap='Greens')
plt.title('Confusion Matrix: K-Means Clusters vs. Playlist Genres (Profile 6)')
plt.ylabel('Actual Playlist Genre')
plt.xlabel('K-Means Cluster')
plt.show()


In [None]:
# Créer une matrice de contingence pour les sous-genres de playlist
playlist_subgenres_for_W_profile_6 = data.loc[data_songs_profile_6.index, 'playlist_subgenre']
data_songs_profile_6['playlist_subgenre'] = playlist_subgenres_for_W_profile_6

# Matrice de contingence : clusters K-Means vs sous-genres de playlist
cm_subgenre_df_profile_6 = pd.crosstab(data_songs_profile_6['playlist_subgenre'], data_songs_profile_6['kmeans_cluster'])

# Visualisation de la matrice de contingence
plt.figure(figsize=(12, 8))
sns.heatmap(cm_subgenre_df_profile_6, annot=True, fmt='d', cmap='Blues')
plt.title('Confusion Matrix: K-Means Clusters vs. Playlist Subgenres (Profile 6)')
plt.ylabel('Actual Playlist Subgenre')
plt.xlabel('K-Means Cluster')
plt.show()

#### **Interprétation :**

L’analyse des **clusters extraits du profil 6** (via NMF + k-means) révèle des résultats **globalement hétérogènes**, notamment lorsqu’on les compare aux **genres de playlists** : les morceaux sont **fortement dispersés entre les clusters**, ce qui rend l’interprétation difficile.

Cependant, en se concentrant sur les **sous-genres musicaux**, **certains motifs apparaissent** et permettent de mieux comprendre la structure interne des clusters. Voici les principales observations :

---

##### 🎧 1. **Une dispersion marquée des morceaux Electro-House**

Les morceaux d'**electro-house** (et dérivés) sont **présents dans presque tous les clusters**, **à l’exception du cluster 5**. Cela indique que :

* Ces morceaux présentent **un large spectre de sonorités**, les rendant difficiles à regrouper de manière cohérente.
* Cela suggère que la **NMF + k-means n’a pas réussi à isoler une structure claire** pour ce style, à la différence d’autres genres plus homogènes comme le hard-rock.

---

##### 🎤 2. **Clusters 0 et 3 : Des profils Rap différenciés**

Ces deux clusters sont dominés par des **sous-genres du rap**, mais selon des nuances distinctes :

* Le **cluster 0** contient principalement du **gangster rap** et du **southern hip-hop**, qui y sont **deux fois plus représentés** que les autres styles de rap.
* Le **cluster 3**, quant à lui, est **plus équilibré** : on y trouve des parts similaires de **trap**, **hip-hop**, **southern hip-hop** et **gangster rap**, avec aussi une présence notable de **latin hip-hop**.

Ces différences montrent que **le modèle distingue finement certaines nuances à l’intérieur même du spectre rap**.

---

##### 🎶 3. **Cluster 1 : Une dominante Pop sous un voile d’hétérogénéité**

À première vue, le **cluster 1** semble très hétérogène. Toutefois, en examinant les sous-genres les plus fréquents, une tendance claire émerge :

* On y retrouve majoritairement des styles tels que **pop**, **pop-rock**, **post-teen pop**, **dance pop**, **latin pop**, **pop-edm**, et **indie poptimism**.

Cela s’explique par la **polyvalence intrinsèque des morceaux pop**, souvent présents dans des playlists de styles variés — une **caractéristique reflétée dans leur regroupement** ici.

---

##### 🎸 4. **Cluster 2 : Le noyau dur du Rock**

Ce cluster est le **plus homogène** de tous :

* Il regroupe en majorité des morceaux de **hard-rock**, ainsi que des variantes comme le **pop-rock**, **rock alternatif**, **indie poptimism**, ou encore **permanent wave**.

Ce regroupement suggère que **les morceaux de rock (notamment hard) présentent des caractéristiques audio distinctes**, bien captées par la factorisation NMF et le groupement en clusters.

---

##### 🌙 5. **Cluster 5 : Des morceaux hybrides et alternatifs**

Ce dernier cluster contient principalement des morceaux de type :

* **indie poptimism**
* **neo soul**
* **urban contemporary**

Il semble regrouper des morceaux **plus hybrides, subtils ou alternatifs**, peut-être à la **frontière entre plusieurs styles** — ce qui pourrait expliquer leur isolement dans ce cluster spécifique.

---

##### **Bilan** :

Malgré une **forte hétérogénéité globale du profil 6 de la NMF**, l’analyse fine des **sous-genres** permet d’**extraire des structures locales** intéressantes. En particulier :

* Les **morceaux de hard-rock** sont **clairement isolés**.
* Les **raps** sont répartis mais **organisés selon des affinités fines**.
* Les **morceaux pop**, bien que omniprésents, montrent une **cohérence interne dans leur dispersion**.
* Enfin, la **présence massive de l’electro-house dans presque tous les clusters** met en lumière **les limites du k-means à capturer les spécificités de ce style à travers la projection de la NMF**, ou bien la **diversité sonore intrinsèque** de ce genre.



### **Algorithme de recommendation**
Nous allons utiliser les resultats de la NMF pour créer un algorithme de recommandation basé sur le contenu. Cet algorithme va recommander des morceaux similaires à un morceau donné en se basant sur les profils musicaux identifiés par la NMF. Nous ferons de même avec une playlist donnée.

#### Algorithme de recommandation de morceaux


In [None]:
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

def recommend_similar_tracks(track_name, track_artist, num_recommendation=3):
    # Trouver l'index de la chanson dans data_songs
    song_idx = data_songs[
        (data_songs['track_name'] == track_name) & 
        (data_songs['track_artist'] == track_artist)
    ].index
    
    if len(song_idx) == 0:
        return f"Track '{track_name}' by '{track_artist}' not found in the dataset."
    
    song_idx = song_idx[0]
    
    # Récupérer le profil de la chanson dans profile_weights
    song_profile = profile_weights.loc[song_idx].values.reshape(1, -1)
    
    # Calculer les similarités cosinus avec toutes les autres chansons
    similarities = cosine_similarity(song_profile, profile_weights).flatten()
    
    # Trier les indices des chansons par similarité décroissante
    similar_indices = similarities.argsort()[::-1]
    
    # Exclure la chanson elle-même et prendre les num_recommendation plus proches
    similar_indices = [idx for idx in similar_indices if idx != song_idx][1:num_recommendation+1]
    
    # Récupérer les informations des chansons similaires
    similar_tracks = data_songs.iloc[similar_indices][['track_name', 'track_artist']]
    similar_tracks['similarity'] = similarities[similar_indices]
    
    return similar_tracks.reset_index(drop=True)

# Exemple d'utilisation
recommend_similar_tracks("Thunderstruck", "AC/DC", num_recommendation=3)

In [None]:
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

def recommend_similar_tracks_playlist(playlist_name, num_recommendation=3):
    # Trouver l'index de la chanson dans data_songs
    song_idx = data_songs[
        (data_songs['track_name'] == track_name) & 
        (data_songs['track_artist'] == track_artist)
    ].index
    
    if len(song_idx) == 0:
        return f"Track '{track_name}' by '{track_artist}' not found in the dataset."
    
    song_idx = song_idx[0]
    
    # Récupérer le profil de la chanson dans profile_weights
    song_profile = profile_weights.loc[song_idx].values.reshape(1, -1)
    
    # Calculer les similarités cosinus avec toutes les autres chansons
    similarities = cosine_similarity(song_profile, profile_weights).flatten()
    
    # Trier les indices des chansons par similarité décroissante
    similar_indices = similarities.argsort()[::-1]
    
    # Exclure la chanson elle-même et prendre les num_recommendation plus proches
    similar_indices = [idx for idx in similar_indices if idx != song_idx][:num_recommendation]
    
    # Récupérer les informations des chansons similaires
    similar_tracks = data_songs.iloc[similar_indices][['track_name', 'track_artist']]
    similar_tracks['similarity'] = similarities[similar_indices]
    
    return similar_tracks.reset_index(drop=True)

# Exemple d'utilisation
recommend_similar_tracks("Thunderstruck", "AC/DC", num_recommendation=3)