# Pre-processing

In [None]:
import pandas as pd

In [None]:
data = pd.read_csv('data/spotify_songs.csv')

In [None]:
display(data)
display(data.describe().T.style.background_gradient(cmap='YlGnBu'))

In [None]:
# check for missing values
missing_values = data.isnull().sum()
display(missing_values)

# display the lines with missing values
missing_data = data[data.isnull().any(axis=1)]
display(missing_data)

In [None]:
# Remove id columns
data = data.drop(columns=['track_id', 'track_album_id', "playlist_id"], axis=1)
# drop the missing values
data = data.dropna()
display(data)


In [None]:
# transform track_album_release_date into datetime
data['track_album_release_date'] = pd.to_datetime(data['track_album_release_date'], format='mixed')

# transform categorical columns into categorical data type
categorical_cols = ['playlist_genre', 'playlist_subgenre', 'track_artist', 'playlist_name', 'track_album_name']
for col in categorical_cols:
    data[col] = data[col].astype('category')

# transform the duration_ms into minutes
data['duration_s'] = data['duration_ms'] / 1000
data.drop(columns=['duration_ms'], inplace=True)

# For numeric columns that represent discrete values (like key and mode), convert to categorical
key_mapping = {
    0: 'C', 1: 'C‚ôØ/D‚ô≠', 2: 'D', 3: 'D‚ôØ/E‚ô≠', 4: 'E', 5: 'F',
    6: 'F‚ôØ/G‚ô≠', 7: 'G', 8: 'G‚ôØ/A‚ô≠', 9: 'A', 10: 'A‚ôØ/B‚ô≠', 11: 'B'
}
data['key'] = data['key'].map(key_mapping).astype('category')

data['mode'] = data['mode'].map({0: 'Minor', 1: 'Major'}).astype('category')



In [None]:
# check for duplicates
duplicates = data.duplicated().sum()
display(duplicates)

In [None]:
data.info()

In [None]:
num = data.select_dtypes(include='number')
cat = data.select_dtypes(include='category')
print('Data quantitative :', round(100*num.shape[1]/data.shape[1], 2), '%')
print('Data qualitative :', round(100*cat.shape[1]/data.shape[1], 2), '%')

In [None]:
# copier data dans data_songs
data_songs = data.copy()

# observer les donn√©es dupliqu√©es sur toutes les colonnes
duplicates = data_songs.duplicated().sum()
print(f'Number of duplicates: {duplicates}')

# Nombre de valeurs dupliqu√©es avant suppression
initial_duplicates = data_songs.duplicated(subset=['track_artist', 'track_name']).sum()
print(f'Initial number of duplicates: {initial_duplicates}')

# Supprimer les colonnes 'playlist'
data_songs = data_songs.drop(columns=['playlist_genre', 'playlist_subgenre', 'playlist_name'])

# Regarder le nombre de doublons apr√®s suppression
duplicates = data_songs.duplicated().sum()
print(f'Number of duplicates - apr√®s suppression des playlists : {duplicates}')

# Supprimer les doublons
data_songs = data_songs.drop_duplicates()

# regarder le nombre de doublons en fonction de 'track_artist' et 'track_name'
duplicates = data_songs.duplicated(subset=['track_artist', 'track_name']).sum()
print(f'Number of duplicates - en se basant sur le nom d artiste de la track et : {duplicates}')

# garder dans data_songs les lignes dupliqu√©es ayant la popularit√© la plus √©lev√©e
data_songs = data_songs.sort_values('track_popularity', ascending=False).drop_duplicates(subset=['track_artist', 'track_name'])
# regarder le nombre de doublons en fonction de 'track_artist' et 'track_name'
duplicates = data_songs.duplicated().sum()
print(f'Number of duplicates - apr√®s suppression des suppos√©s doublons : {duplicates}')

In [None]:
# Trier data_songs par l'index 'idx'
data_songs.sort_index(inplace=True)

display(data_songs[-5:-1])

# Descriptive Analysis

# 2. R√©duction de dimension par ACP (Analyse en Composantes Principales)
Dans cette partie, nous allons effectuer une analyse en composantes principales (ACP) sur les donn√©es pr√©trait√©es. L'ACP est une technique de r√©duction de dimension qui permet de projeter les donn√©es d'origine dans un espace de dimension inf√©rieure.
Nous avons gard√© 20 variables et nous allons √©tudier s'il est possible de r√©duire la dimensionnalit√© de ces donn√©es tout en pr√©servant un maximum d'information.

In [None]:
import numpy as np 

import matplotlib.pyplot as plt
import seaborn as sns

### 2.1 Format des donn√©es
Ici on ne s√©lectionne que les variables quantitatives, en y ajoutant une variable qualitative (`playlist_genre`) pour voir si elle a un impact sur la projection des donn√©es. On garde au final 11 variables quantitatives et 1 variable qualitative.

On d√©cide de normaliser les donn√©es pour que chaque variable ait une moyenne de 0 et un √©cart-type de 1. Cela est important car l'ACP est sensible √† l'√©chelle des variables. On utilise la m√©thode `StandardScaler` de `sklearn` pour normaliser les donn√©es.

In [None]:
# Select only the quantitative columns

qualisup = 'playlist_genre'

data_quanti = data.select_dtypes(include=['int64', 'float64'])
data_quanti[qualisup] = data[qualisup]
data_quanti = data_quanti.set_index(qualisup)

data_quanti.info()

In [None]:
data_quanti.head()

### 2.2 Application de l'ACP

In [None]:
from sklearn.decomposition import PCA
import prince 
from sklearn.preprocessing import StandardScaler

normalize_bool = True

if normalize_bool:
    scaler = StandardScaler()
    data_scaled = scaler.fit_transform(data_quanti)
else:
    data_scaled = data_quanti.values

pca = PCA(
    n_components=10,  # Number of components to keep
    random_state=1  # For reproducibility
)

projected = pca.fit_transform(data_scaled)

explained_variance = pca.explained_variance_ratio_

eig = pd.DataFrame(
    {
        "Dimension" : [f"PC{i+1}" for i in range(len(explained_variance))],
        "Variance" : np.round(pca.explained_variance_, 2),
        "% explained variance" : np.round(explained_variance*100, 1),
        "% cumulative variance" : np.round(np.cumsum(explained_variance)*100, 1)
    }
)
eig

In [None]:
fig = plt.figure(figsize=(15,8))
ax = fig.add_subplot(1,2,1)
ax.bar(range(10), pca.explained_variance_ratio_[:10]*100, align='center',
        color='coral', ecolor='black')
ax.set_xticks(range(10))
ax.set_ylabel("Variance")
ax.set_title("", fontsize=35)
ax.set_title(u"Pourcentage de variance expliqu√©", fontsize=20)

ax = fig.add_subplot(1,2,2)
ax.plot(np.cumsum(pca.explained_variance_ratio_), color='coral', marker='o')
ax.hlines(0.80, 0, 10, colors='grey', linestyles='dashed', alpha=0.5)
ax.set_title(u'Pourcentage de variance expliqu√© cumul√©', fontsize=20)

fig.suptitle(u"R√©sultat ACP", fontsize=25)
plt.show()

**Interpr√©tation :** 

L‚Äôanalyse de la variance expliqu√©e montre que les **7 premi√®res composantes principales** permettent de **repr√©senter 80,1 % de la variance totale** du jeu de donn√©es. Cela signifie que l‚Äôessentiel de l‚Äôinformation contenue dans les **11 variables num√©riques initiales** (comme *danceability*, *energy*, *speechiness*, *tempo*, etc.) peut √™tre r√©sum√© avec seulement 7 dimensions, ce qui repr√©sente une **r√©duction significative de la complexit√©** du dataset tout en conservant une bonne qualit√© descriptive.

Dans cette optique de r√©duction de dimension, il serait **pertinent de conserver ces 7 composantes principales** pour la suite des analyses (clustering, visualisation, classification), car elles capturent la structure principale des donn√©es tout en √©liminant le "bruit".

Dans l‚Äôanalyse factorielle, nous avons choisi d‚Äô**interpr√©ter les trois premi√®res composantes principales**, qui √† elles seules expliquent 45 % de la variance totale. Elles offrent un bon compromis entre lisibilit√© et pertinence pour une visualisation ou une premi√®re analyse des relations entre les variables et les genres musicaux (*playlist_genre*).

In [None]:
fig = plt.figure(figsize=(12,6))
box=plt.boxplot(projected[:,0:3],whis=100)
plt.title(u"Distribution des premi√®res composantes", fontsize=20)
plt.show()

**Interpr√©tation :**
- Le graphique ci-dessus montre la distribution des premi√®res composantes principales. 

In [None]:
pca_prince = prince.PCA(
    n_components=3,
    n_iter=3,
    rescale_with_mean=normalize_bool,
    rescale_with_std=normalize_bool,
    copy=True,
    check_input=True,
    engine='sklearn',
    random_state=1
)
pca_prince = pca_prince.fit(
    data_quanti,
    sample_weight=None,
    column_weight=None,
    supplementary_columns=None
)

# Create a correlation matrix of the PCA compnenets
correlations = pca_prince.column_correlations
plt.figure(figsize=(10, 8))
sns.heatmap(correlations, annot=True, cmap='RdBu', center=0)
plt.title('Corr√©lations entre les variables et les composantes principales')
plt.show()


In [None]:
# R√©cup√©ration des coordonn√©es des variables (correlations avec les composantes principales)
coords = pca_prince.column_correlations

# Cr√©ation de la figure et des sous-graphiques
fig, axes = plt.subplots(1, 3, figsize=(24, 8))

# Boucle pour cr√©er les trois graphiques
for idx, (ax, (x_comp, y_comp)) in enumerate(zip(axes, [(0, 1), (1, 2), (0, 2)])):
    ax.grid(False)
    for i in range(coords.shape[0]):
        ax.arrow(0, 0, coords.iloc[i, x_comp], coords.iloc[i, y_comp], 
                 color='black', alpha=0.7, head_width=0.02, head_length=0.03)
        ax.text(coords.iloc[i, x_comp] * 1.1, coords.iloc[i, y_comp] * 1.1, 
                coords.index[i], color='black', ha='center', va='center')

    # Ajout du cercle de rayon 1
    ax.add_artist(plt.Circle((0, 0), radius=1, color='cornflowerblue', fill=False))

    # Ajout des axes
    ax.axhline(0, color='gray', linestyle='--', linewidth=0.5)
    ax.axvline(0, color='gray', linestyle='--', linewidth=0.5)

    # Param√®tres du graphique
    ax.set_xlim(-1.1, 1.1)
    ax.set_ylim(-1.1, 1.1)
    ax.set_xlabel(f'Composante principale {x_comp + 1}')
    ax.set_ylabel(f'Composante principale {y_comp + 1}')
    ax.set_title(f'Projection des variables: CP{x_comp + 1} vs CP{y_comp + 1}')

plt.tight_layout()
plt.show()

La table des correlations et les trois graphiques ci-dessus repr√©sentent les projections des features sur les trois premi√®res composantes principales nous donne des informations sur la structure des donn√©es r√©duites.

- **Composante principale 1** : 
    - Les variables `energy (-0.91)`, `loudness (-0.80)` et `acousticness (+0.72)` sont lin√©airement corr√©l√©es avec la premi√®re composante principale, en soulignant que `energy` et `loudness` sont invers√©ment corr√©l√©es avec `acousticness`. Cela indique que la CP1 oppose les morceaux **√©nergiques, forts en volume et peu acoustiques** (ex : rock, √©lectro) aux morceaux **calmes, acoustiques et peu √©nerg√©tiques** (ex : folk, classique).
- **Composante principale 2** : Sur le graphique de gauche, on remarque une opposition des variables `instrumentalness (+0.45)`, `duration_s (+0.38)` contre `danceability (-0.68)`, `valence (-0.62)`, `track_popularity (-0.37)`, `speechiness (-0.39)`. Cette composante principale oppose deux profils de morceaux :
    - D‚Äôun c√¥t√©, les morceaux **instrumentaux, longs et peu populaires** (forte contribution de `instrumentalness` et `duration_s`), souvent associ√©s √† des genres comme le classique ou le jazz.
    - De l‚Äôautre, les chansons **courtes, dansantes, joyeuses et populaires** (forte contribution de `danceability`, `valence` et `track_popularity`), typiques de la pop ou de la musique de club. 
    - Enfin, cette opposition sugg√®re que les morceaux avec des paroles marqu√©es (`speechiness`) et une structure rythmique engageante (`danceability`) sont plus susceptibles de g√©n√©rer de la popularit√©.
- **Composantes principales 2 et 3** : Sur le graphique au centre, on peut extraire plusieurs informations :
    - Les morceaux dansants et joyeux (haute valence) s'opposent dans une moindre mesure aux morceaux de faible tempo. De plus, ces morceaux semblent avoir peu de versions live.
    - On observe aussi que les morceaux instrumentaux et longs ont g√©n√©ralement une faible popularit√©, tandis que les morceaux courts et peu instrumentaux sont souvent plus populaires, ce qui est typique de la musique pop, qui est souvent plus accessible et commerciale.
- **Composante principale 3** : La troisi√®me composante (CP3) r√©v√®le un paradoxe : elle regroupe des morceaux √† fort potentiel dansant (`danceability`) et mood positif (`valence`), mais qui restent peu populaires (`track_popularity`). Ces morceaux sont souvent instrumentaux (`instrumentalness`), longs (`duration_s`) et √† tempo faible (`tempo`), ce qui les √©loigne des standards des charts. Cette composante pourrait repr√©senter des cr√©ations artistiques √©quilibrant danse et complexit√©, mais peinant √† atteindre un large public.

Pour mieux comprendre √† quoi correspond les type morceaux extraits par ces composantes principales, nous allons regarder les morceaux (individus) contribuant le plus √† chacune des composantes principales.

In [None]:
# display la mediane de notre dataset quantitatif √† fins de comparaison
median_values = data_quanti.median()
median_values = median_values.to_frame(name='median')
median_values = median_values.reset_index()
median_values.columns = ['feature', 'median']
median_values['feature'] = median_values['feature'].astype('category')
median_values = median_values.set_index('feature')
median_values = median_values.sort_index()
median_values = median_values.T
median_values

#### Composante principale 1

Afin de mieux comprendre les profils musicaux mis en √©vidence par la premi√®re composante principale, nous allons examiner les morceaux qui y contribuent le plus fortement, positivement et n√©gativement.

In [None]:
# Calculate the contributions of individuals to the first principal component
contributions = projected[:, 0]

# Get the indices of the top 5 positive contributors
top_5_positive_indices = np.argsort(contributions)[-5:]

# Get the indices of the top 5 negative contributors
top_5_negative_indices = np.argsort(contributions)[:5]

# Extract the corresponding rows from the original dataset for positive contributions
top_5_positive_tracks = data_quanti.iloc[top_5_positive_indices].copy()
top_5_positive_tracks['track_name'] = data.iloc[top_5_positive_indices]['track_name'].values
top_5_positive_tracks['track_artist'] = data.iloc[top_5_positive_indices]['track_artist'].values
top_5_positive_tracks['contribution'] = contributions[top_5_positive_indices]
top_5_positive_tracks['playlist_subgenre'] = data.iloc[top_5_positive_indices]['playlist_subgenre'].values
# sort by contribution
top_5_positive_tracks = top_5_positive_tracks.sort_values(by='contribution', ascending=False)

# Extract the corresponding rows from the original dataset for negative contributions
top_5_negative_tracks = data_quanti.iloc[top_5_negative_indices].copy()
top_5_negative_tracks['track_name'] = data.iloc[top_5_negative_indices]['track_name'].values
top_5_negative_tracks['track_artist'] = data.iloc[top_5_negative_indices]['track_artist'].values
top_5_negative_tracks['contribution'] = contributions[top_5_negative_indices]
top_5_negative_tracks['playlist_subgenre'] = data.iloc[top_5_negative_indices]['playlist_subgenre'].values

# Display the top 5 positive and negative tracks with additional information
print("Top 5 Positive Contributions (PC1):")
display(top_5_positive_tracks)

print("Top 5 Negative Contributions (PC1) :")
display(top_5_negative_tracks)

Pour mieux cerner les types de morceaux repr√©sent√©s aux extr√©mit√©s de la **premi√®re composante principale (PC1)**, nous avons identifi√© les individus (chansons) ayant les **contributions les plus √©lev√©es**, positives comme n√©gatives.

- **Du c√¥t√© des contributions positives**, on retrouve majoritairement des morceaux **rock, hard rock ou pop rock** tr√®s √©nergiques et puissants tels que *American Idiot* (Green Day), *Beauty Queen* (BLVK SWVN) ou *ATTENTION ATTENTION* (Shinedown). Ces morceaux sont caract√©ris√©s par une **√©nergie √©lev√©e**, une **forte intensit√© sonore (loudness)** et une **faible acoustique**, ce qui confirme bien la structure mise en √©vidence par la CP1. Notons aussi *This Is How We Do It* (Montell Jordan), un morceau R&B √©nergique, qui se distingue des autres par son genre mais partage les m√™mes caract√©ristiques acoustiques.

- **√Ä l‚Äôoppos√©**, les morceaux √† contribution tr√®s n√©gative sur PC1 sont des titres √† **forte acoustique**, **peu √©nergiques** et **tr√®s faibles en loudness**. Il s'agit notamment de sons **ambiants, relaxants ou naturels**, comme *Peaceful Forest* ou *Tropical Rainforest at Dawn*, mais aussi de titres R&B ou indie tr√®s doux (*Small* de chloe moriondo). Ces morceaux incarnent l'autre extr√©mit√© de la CP1 : **des chansons calmes, acoustiques et √† faible √©nergie**, souvent issues de sous-genres comme *tropical*, *indie poptimism* ou *new jack swing*.

Cette opposition renforce l‚Äôinterpr√©tation de la **CP1 comme un axe √©nergie / intensit√© sonore vs. calme / acoustique**, pertinent pour distinguer deux grandes familles de styles musicaux dans le dataset.

#### Composante principale 2

Pour approfondir l‚Äôinterpr√©tation de la **deuxi√®me composante principale**, nous allons analyser les morceaux qui y contribuent le plus fortement ‚Äî positivement comme n√©gativement.

In [None]:
# Calculate the contributions of individuals to the second principal component
contributions_pc2 = projected[:, 1]

# Get the indices of the top 5 positive contributors for PC2
top_5_positive_indices_pc2 = np.argsort(contributions_pc2)[-5:]

# Get the indices of the top 5 negative contributors for PC2
top_5_negative_indices_pc2 = np.argsort(contributions_pc2)[:5]

# Extract the corresponding rows from the original dataset for positive contributions (PC2)
top_5_positive_tracks_pc2 = data_quanti.iloc[top_5_positive_indices_pc2].copy()
top_5_positive_tracks_pc2['track_name'] = data.iloc[top_5_positive_indices_pc2]['track_name'].values
top_5_positive_tracks_pc2['track_artist'] = data.iloc[top_5_positive_indices_pc2]['track_artist'].values
top_5_positive_tracks_pc2['contribution'] = contributions_pc2[top_5_positive_indices_pc2]
top_5_positive_tracks_pc2['playlist_subgenre'] = data.iloc[top_5_positive_indices_pc2]['playlist_subgenre'].values
# Sort by contribution
top_5_positive_tracks_pc2 = top_5_positive_tracks_pc2.sort_values(by='contribution', ascending=False)

# Extract the corresponding rows from the original dataset for negative contributions (PC2)
top_5_negative_tracks_pc2 = data_quanti.iloc[top_5_negative_indices_pc2].copy()
top_5_negative_tracks_pc2['track_name'] = data.iloc[top_5_negative_indices_pc2]['track_name'].values
top_5_negative_tracks_pc2['track_artist'] = data.iloc[top_5_negative_indices_pc2]['track_artist'].values
top_5_negative_tracks_pc2['contribution'] = contributions_pc2[top_5_negative_indices_pc2]
top_5_negative_tracks_pc2['playlist_subgenre'] = data.iloc[top_5_negative_indices_pc2]['playlist_subgenre'].values

# Display the top 5 positive and negative tracks with additional information for PC2
print("Top 5 Positive Contributions (PC2):")
display(top_5_positive_tracks_pc2)

print("Top 5 Negative Contributions (PC2):")
display(top_5_negative_tracks_pc2)

**C√¥t√© contributions positives**, on retrouve des titres principalement **rap et latino**, tels que *Suge* de DaBaby ou *LAX* de B0nds. Ces morceaux sont :
- **courts**,
- **dansants** (haute `danceability`),
- avec une **valence √©lev√©e** (√©motion positive),
- mais √©galement avec un certain niveau de **speechiness**, notamment pour les titres rap.

Ces morceaux partagent donc des caract√©ristiques propres aux chansons **√©nerg√©tiques, rythm√©es et populaires**, souvent taill√©es pour le streaming, avec des formats courts, accrocheurs et directs.

**√Ä l‚Äôoppos√©**, les morceaux ayant une **forte contribution n√©gative √† PC2** sont tr√®s diff√©rents : on retrouve des **paysages sonores naturels, ambiants ou instrumentaux** comme *Rain Forest and Tropical Beach Sound*, *Caribbean Thunderstorm*, ou encore *Battlement*. Ces titres sont :
- **longs**,
- **instrumentaux** (forte `instrumentalness`),
- avec une **faible valence** et **peu de parole**,
- et souvent issus de sous-genres comme *tropical*, *album rock*, ou *ambient*.

Cela confirme l‚Äôinterpr√©tation initiale de la PC2 comme un **axe opposant la musique instrumentale, longue et contemplative** √† une musique **populaire, dansante et rythm√©e**.


#### Composante principale 3

In [None]:
# Calculate the contributions of individuals to the third principal component
contributions_pc3 = projected[:, 2]

# Get the indices of the top 5 positive contributors for PC3
top_5_positive_indices_pc3 = np.argsort(contributions_pc3)[-5:]

# Get the indices of the top 5 negative contributors for PC3
top_5_negative_indices_pc3 = np.argsort(contributions_pc3)[:5]

# Extract the corresponding rows from the original dataset for positive contributions (PC3)
top_5_positive_tracks_pc3 = data_quanti.iloc[top_5_positive_indices_pc3].copy()
top_5_positive_tracks_pc3['track_name'] = data.iloc[top_5_positive_indices_pc3]['track_name'].values
top_5_positive_tracks_pc3['track_artist'] = data.iloc[top_5_positive_indices_pc3]['track_artist'].values
top_5_positive_tracks_pc3['contribution'] = contributions_pc3[top_5_positive_indices_pc3]
top_5_positive_tracks_pc3['playlist_subgenre'] = data.iloc[top_5_positive_indices_pc3]['playlist_subgenre'].values
# Sort by contribution
top_5_positive_tracks_pc3 = top_5_positive_tracks_pc3.sort_values(by='contribution', ascending=False)

# Extract the corresponding rows from the original dataset for negative contributions (PC3)
top_5_negative_tracks_pc3 = data_quanti.iloc[top_5_negative_indices_pc3].copy()
top_5_negative_tracks_pc3['track_name'] = data.iloc[top_5_negative_indices_pc3]['track_name'].values
top_5_negative_tracks_pc3['track_artist'] = data.iloc[top_5_negative_indices_pc3]['track_artist'].values
top_5_negative_tracks_pc3['contribution'] = contributions_pc3[top_5_negative_indices_pc3]
top_5_negative_tracks_pc3['playlist_subgenre'] = data.iloc[top_5_negative_indices_pc3]['playlist_subgenre'].values

# Display the top 5 positive and negative tracks with additional information for PC3
print("Top 5 Positive Contributions (PC3):")
display(top_5_positive_tracks_pc3)

print("Top 5 Negative Contributions (PC3):")
display(top_5_negative_tracks_pc3)

La **troisi√®me composante principale** met en lumi√®re une tension plus subtile entre deux types de morceaux aux caract√©ristiques inattendues.

**Du c√¥t√© des contributions positives**, on retrouve des titres de **pop et R&B calmes et acoustiques** comme *raindrops (an angel cried)* (Ariana Grande) ou *You Are The Reason* (Calum Scott). Ces chansons ont :
- une **acousticness √©lev√©e** (acapela, guitare acoustique, piano),
- un **tempo l√©g√®rement plus rapide que la m√©diane des morceaux**,
- une **faible √©nergie**, mais un **potentiel √©motionnel fort** (`valence` variable).

Comme sugg√©r√© par la PC3, ces morceaux rencontrent un certain succ√®s, illustrant un profil de chansons √©motionnelles, accessibles et bien produites, souvent interpr√©t√©es par des artistes grand public au style sobre et expressif.

**Les contributions n√©gatives**, quant √† elles, sont largement domin√©es par des morceaux **EDM ou latino instrumentaux**, comme *I Feel Love* ou *Chase*. Ces morceaux sont :
- **longs**,
- tr√®s **instrumentaux**,
- **√©nergiques** mais souvent **moins "accessibles" √©motionnellement** (valence tr√®s √©lev√©e mais peu de paroles, structure r√©p√©titive).

Ils pr√©sentent √©galement une popularit√© extr√™mement faible, allant de 0 √† 8. Ces productions s‚Äôadressent probablement √† un public averti ou sont con√ßues pour des usages sp√©cifiques (DJ sets, ambiances electro), ce qui les √©loigne des standards de la musique grand public.

Ces observations confirment que la **PC3 oppose des cr√©ations acoustiques √† forte charge √©motionnelle** √† des morceaux **instrumentaux, √©lectroniques, longs**, aux dynamiques parfois complexes ou r√©p√©titives.

On remarque que le signe des contribution est invers√© par rapport √† la PCA r√©alis√© en R uniquement pour cette dimension.

# MDS

In [None]:
from sklearn.manifold import MDS
from sklearn.metrics.pairwise import manhattan_distances, euclidean_distances

df_data_scaled = pd.DataFrame(data_scaled, columns=data_quanti.columns)
# set the same index as data_quanti
df_data_scaled.index = data_quanti.index

# Limit to 500 songs randomly selected to avoid memory crash
data_scaled_sample = df_data_scaled.sample(n=500, random_state=1)

# Calculate the Manhattan distance matrix
manhattan_dist_matrix = manhattan_distances(data_scaled_sample)
# Calculate the Euclidean distance matrix
euclidean_dist_matrix = euclidean_distances(data_scaled_sample)

# Perform MDS using Manhattan distance
mds_manhattan = MDS(n_components=2, dissimilarity='precomputed', random_state=1)
mds_manhattan_results = mds_manhattan.fit_transform(manhattan_dist_matrix)
# Perform MDS using Euclidean distance
mds_euclidean = MDS(n_components=2, dissimilarity='precomputed', random_state=1)
mds_euclidean_results = mds_euclidean.fit_transform(euclidean_dist_matrix)


In [None]:
# plot the MDS results for Manhattan distance with sns
# put playlist_genre in the color palette

plt.figure(figsize=(8, 4))
sns.scatterplot(
    x=mds_manhattan_results[:, 0],
    y=mds_manhattan_results[:, 1],
    hue=data_scaled_sample.index,
    palette='Set2',
    alpha=0.7
)
plt.title('MDS with Manhattan Distance', fontsize=20)
plt.xlabel('MDS Dimension 1', fontsize=16)
plt.ylabel('MDS Dimension 2', fontsize=16)
plt.legend(title=qualisup, bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid()
plt.show()

# plot the MDS results for Euclidean distance with sns
plt.figure(figsize=(8, 4))
sns.scatterplot(
    x=mds_euclidean_results[:, 0],
    y=mds_euclidean_results[:, 1],
    hue=data_scaled_sample.index,
    palette='Set2',
    alpha=0.7
)
plt.title('MDS with Euclidean Distance', fontsize=20)
plt.xlabel('MDS Dimension 1', fontsize=16)
plt.ylabel('MDS Dimension 2', fontsize=16)
plt.legend(title=qualisup, bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid()
plt.show()

In [None]:
# perform several MDS sns.scatterplot with different hues, for the 11 quantitative variables in data_scaled
quantitative_vars = data_scaled_sample.columns

# Create a list of colors for the scatterplots
colors = sns.color_palette("Set2", len(quantitative_vars), as_cmap=True)
# Create a figure with subplots
fig, axes = plt.subplots(4, 3, figsize=(20, 20))
axes = axes.flatten()  # Flatten the 2D array of axes for easy iteration
# Loop through each quantitative variable and create a scatterplot
for i, var in enumerate(quantitative_vars):
    sns.scatterplot(
        x=mds_euclidean_results[:, 0],
        y=mds_euclidean_results[:, 1],
        hue=data_scaled_sample[var],
        ax=axes[i]
    )
    axes[i].set_title(f'MDS with {var}', fontsize=16)
    axes[i].set_xlabel('MDS Dimension 1', fontsize=14)
    axes[i].set_ylabel('MDS Dimension 2', fontsize=14)
    axes[i].legend(title=var, bbox_to_anchor=(1.05, 1), loc='upper left')
    axes[i].grid()

plt.tight_layout()
plt.show()


**Interpr√©tation :**

L‚Äôanalyse en **MDS (Multidimensional Scaling)** appliqu√©e aux donn√©es quantitatives donne des r√©sultats contrast√©s.

* Lorsqu‚Äôon projette les points selon une **distance euclidienne ou manhattan**, et qu‚Äôon colore les morceaux selon le **genre de playlist**, **aucune structure claire n‚Äô√©merge** : les genres sont **enti√®rement m√©lang√©s**. Cela montre que, globalement, **les variables quantitatives ne permettent pas de s√©parer les genres musicaux** dans une repr√©sentation MDS. La MDS **ne capture donc pas d'information utile li√©e au genre musical global** dans cet espace.

* Cependant, certaines **variables quantitatives sp√©cifiques sont bien s√©par√©es** dans l‚Äôespace MDS :

  * C‚Äôest le cas de **`energy`**, **`loudness`**, **`speechiness`**, **`acousticness`**, **`instrumentalness`**, et dans une moindre mesure **`valence`**.

    * Pour **`valence`**, bien que l‚Äôon observe deux groupes principaux (valence haute vs. basse), **certains morceaux tr√®s joyeux se retrouvent m√©lang√©s avec des morceaux tristes**, ce qui rend la s√©paration moins nette que pour les autres variables.
  * On observe des **relations fortes et interpr√©tables** entre certaines variables :

    * Sur la **dimension 1 de la MDS**, **`energy` et `loudness` sont corr√©l√©es positivement**, et **`acousticness` leur est exactement oppos√©e**. Cela signifie que **les morceaux √©nerg√©tiques et forts sont peu acoustiques**, ce qui est **parfaitement coh√©rent avec l‚Äôintuition musicale**.
    * Sur la **dimension 2**, on retrouve une opposition logique entre **`instrumentalness` et `speechiness`** : **les morceaux tr√®s instrumentaux sont peu parl√©s**, ce qui refl√®te bien la r√©alit√© musicale (ex : classique vs. rap).

* En revanche, pour **`track_popularity`**, **`danceability`**, **`tempo`** et **`duration_s`**, **aucune s√©paration nette n‚Äôappara√Æt** dans l‚Äôespace MDS. Ces variables semblent **ne pas √™tre lin√©airement s√©parables** par la MDS. On peut donc conclure que **la MDS ne permet pas d‚Äôidentifier de structure claire** pour ces dimensions ‚Äî possiblement en raison de leur **relation non lin√©aire** ou d‚Äôun **bruit trop important**.

---

**Lien avec l‚Äôanalyse PCA** :

On retrouve ici des observations **coh√©rentes avec l‚Äôanalyse des composantes principales**. Par exemple :

* La **CP1** opposait d√©j√† **`energy` et `loudness`** √† **`acousticness`**, exactement comme la **dimension 1 de la MDS**.
* La **CP2** r√©v√©lait une tension entre **`instrumentalness`** et **`speechiness`**, que la **MDS dimension 2** refl√®te √©galement.
* Enfin, comme en PCA, **`track_popularity`**, **`tempo`** et **`duration_s`** ne permettent pas de bien structurer l‚Äôespace : ces variables n‚Äô√©taient d√©j√† que faiblement corr√©l√©es avec les premi√®res composantes principales, et la MDS confirme leur faible capacit√© √† structurer les donn√©es dans un espace r√©duit.

---

Nous allons desormais r√©aliser un **t-SNE** (t-distributed Stochastic Neighbor Embedding) pour visualiser en 2D la proximit√© (ou la similarit√©) entre les chansons Spotify selon leurs caract√©ristiques audio (danceability, energy, loudness, etc.), pour voir **si des genres musicaux distincts √©mergent sous forme de groupes**. A l'inverse de la PCA et de la MDS, le **t-SNE est une m√©thode non lin√©aire** qui pourrait capturer des relations diff√©rentes entre les donn√©es que celles r√©v√©l√©es par les m√©thodes lin√©aires.

# t-SNE


In [None]:
from sklearn.manifold import TSNE

# Perform t-SNE
tsne = TSNE(n_components=2, random_state=1)
tsne_results = tsne.fit_transform(data_scaled_sample)

# plot the t-SNE results with sns
plt.figure(figsize=(6, 6))
sns.scatterplot(
    x=tsne_results[:, 0],
    y=tsne_results[:, 1],
    hue=data_scaled_sample.index,
    palette='Set2',
    alpha=0.7
)
plt.title('t-SNE', fontsize=20)
plt.xlabel('t-SNE Dimension 1', fontsize=16)
plt.ylabel('t-SNE Dimension 2', fontsize=16)
plt.legend(title=qualisup, bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid()
plt.show()

In [None]:
# perform t-SNE with different hues, for the 11 quantitative variables in data_scaled
# Create a list of colors for the scatterplots
colors = sns.color_palette("Set2", len(quantitative_vars), as_cmap=True)
# Create a figure with subplots
fig, axes = plt.subplots(4, 3, figsize=(20, 20))
axes = axes.flatten()  # Flatten the 2D array of axes for easy iteration
# Loop through each quantitative variable and create a scatterplot
for i, var in enumerate(quantitative_vars):
    sns.scatterplot(
        x=tsne_results[:, 0],
        y=tsne_results[:, 1],
        hue=data_scaled_sample[var],
        ax=axes[i]
    )
    axes[i].set_title(f't-SNE with {var}', fontsize=16)
    axes[i].set_xlabel('t-SNE Dimension 1', fontsize=14)
    axes[i].set_ylabel('t-SNE Dimension 2', fontsize=14)
    axes[i].legend(title=var, bbox_to_anchor=(1.05, 1), loc='upper left')
    axes[i].grid()

plt.tight_layout()
plt.show()

Voici une version mise en forme dans le m√™me style, avec les √©l√©ments importants mis en gras et les liens logiques pr√©serv√©s :

---

**Interpr√©tation :**

Malgr√© l‚Äôapplication du **t-SNE**, on observe **toujours aussi peu de s√©paration nette entre les genres musicaux** : les morceaux restent largement **m√©lang√©s ind√©pendamment de leur genre**, ce qui confirme les limites des caract√©ristiques audio pour discriminer les styles musicaux au sens large.

Cependant, le **t-SNE r√©v√®le une structure beaucoup plus claire que la MDS**, avec l‚Äô√©mergence de **groupes de morceaux** qui semblent s‚Äôorganiser selon leurs **propri√©t√©s audio internes**.

* Les variables **`energy`** et **`loudness`** sont **clairement s√©par√©es**, avec une **distribution similaire**, ce qui rejoint parfaitement les r√©sultats observ√©s en **PCA (CP1)** et en **MDS (dim 1)**. De m√™me, **`acousticness`** est **oppos√©e** √† ces deux variables, avec un groupe bien distinct de **musiques tr√®s acoustiques**, caract√©ris√©es par **une faible √©nergie et un faible volume sonore**.

* Concernant **`instrumentalness`**, le t-SNE apporte une **information nouvelle importante** : on distingue **deux groupes de morceaux instrumentaux** tr√®s diff√©rents :

  * Un groupe de morceaux **instrumentaux, calmes, acoustiques et peu louds**.
  * Un autre groupe **instrumental mais tr√®s √©nerg√©tique, fort en loudness**, donc probablement plus proche de l‚Äôexp√©rimental, du post-rock ou de l‚Äô√©lectro instrumental.
    Cette s√©paration fine n‚Äôapparaissait **ni en PCA, ni en MDS**, et montre que le **t-SNE capture mieux les structures non lin√©aires** des donn√©es.

* Pour **`valence`**, on observe **plusieurs sous-groupes assez distincts**, mais **difficiles √† interpr√©ter directement**. Toutefois, en croisant avec **`acousticness`**, on remarque que **les morceaux acoustiques et calmes ont g√©n√©ralement une valence tr√®s faible**, ce qui correspond √† des ambiances tristes ou introspectives.

* En revanche, pour des variables comme **`track_popularity`**, **`danceability`**, **`tempo`** ou **`duration_s`**, la s√©paration reste **floue et peu informative**, ce qui sugg√®re que ces caract√©ristiques sont **moins d√©terminantes** pour structurer l‚Äôespace audio selon t-SNE.

---

**Bilan sur les m√©thodes de r√©duction de dimension quantitatives :**

* La **PCA** fournit une **lecture lin√©aire et interpr√©table** des relations entre variables, et met en √©vidence des axes clairs comme l‚Äôopposition **√©nergie vs. acoustique** ou **instrumental vs. populaire**.
* La **MDS**, malgr√© son approche plus flexible sur les distances, **n‚Äôapporte pas d‚Äôinformation suppl√©mentaire significative** par rapport √† la PCA, sauf sur des dimensions tr√®s sp√©cifiques.
* Le **t-SNE**, quant √† lui, **r√©v√®le des regroupements non lin√©aires** que les autres m√©thodes ne captent pas, et permet de **mieux explorer des structures complexes**, notamment pour des variables comme **`instrumentalness`**, **`energy`**, et **`acousticness`**.

En conclusion, chaque m√©thode a ses forces : **la PCA pour l‚Äôinterpr√©tation globale des variables**, **le t-SNE pour l'exploration fine des regroupements**, et **la MDS reste plus limit√©e** dans ce cas d‚Äô√©tude.


# Multiple Factorial Analysis (MCA)

**1. Variables cat√©gorielles √† utiliser dans la MCA**
Voici les variables qualitatives que l'on pourrait envisager d'utiliser pour la MCA sur le dataset Spotify :  
- `track_artist`  
- `track_album_name` (attention √† trop de modalit√©s rares, peut-√™tre garder que les plus fr√©quentes ou ne pas inclure √† cause du grand nombre d‚Äôartistes)  
- `playlist_name`  
- `playlist_genre`  
- `playlist_subgenre`  
- `key`  
- `mode`  

---

**2. Questions que la MCA peut aider √† explorer**

**a) Quels sont les groupes/cluster de modalit√©s similaires ?**
- Est-ce que certains genres et sous-genres de playlists s‚Äôassocient fr√©quemment ?  
- Certains "modes" (majeur/minor) sont-ils plus fr√©quents dans certains genres ?  
- Y a-t-il des cl√©s (`key`) musicales qui sont typiques de certains genres ou playlists ?  

La MCA permettra de repr√©senter graphiquement (biplot) ces modalit√©s et d‚Äôidentifier des associations fortes.

**b) Est-ce que certains artistes ou playlists ont un profil qualitatif particulier ?**
- Par exemple, certains artistes seraient-ils associ√©s √† un genre et sous-genre sp√©cifiques, ou √† un mode particulier ?  
- Y a-t-il des clusters d‚Äôartistes / playlists qui partagent des caract√©ristiques particuli√®res (cl√©, mode, genre) ?

**3. Comment interpr√©ter la MCA ici**

- **Axes factoriels** : Chaque axe correspond √† une dimension qui r√©sume des associations fortes entre modalit√©s. Par exemple, un axe peut opposer les genres "Rock" √† "Pop", ou des cl√©s majeures √† mineures.
- **Modalit√©s proches dans l‚Äôespace** : Modalit√©s proches signifient qu‚Äôelles co-apparaissent souvent dans les observations (ex. certains genres + mode majeur).
- **Observation** : Si tu represents les observations (chansons) dans l‚Äôespace MCA, celles proches partagent des profils cat√©goriels similaires.

---

**4. Utilisations concr√®tes/academic use cases**

- **Profil des genres musicaux** : Comprendre quels modes/cl√©s/sous-genres caract√©risent les genres populaires sur Spotify.  
- **Segmentation qualitative des playlists** : Y a-t-il des types de playlists/musiques qui partagent des caract√©ristiques qualitatives communes ?  
- **Analyse de diversit√©** : Mesurer dans quelle mesure certains artistes/genres sont h√©t√©rog√®nes ou homog√®nes quant √† leurs caract√©ristiques cat√©gorielles.  
- **Pr√©paration √† une classification** : Par exemple, combiner le r√©sultat de la PCA (variables num√©riques) avec la MCA (variables qualitatives) dans une analyse factorielle mixte ou pour enrichir un mod√®le pr√©dictif.

---

**5. Exemple de questions pr√©cises √† poser**

- Les genres musicaux sont-ils li√©s √† certaines tonalit√©s ou modes ?  
- Les sous-genres pr√©sents dans la m√™me playlist sont-ils proches ou √©loign√©s dans l‚Äôespace MCA ?  
- Y a-t-il des cl√©s rares ou des modes minoritaires associ√©s √† certains genres uniquement ?  
- Peut-on d√©tecter des groupes de playlists ou artistes avec des profils qualitatifs similaires ?  

---

**En conclusion**
La MCA t‚Äôaide surtout √† **explorer et visualiser les relations entre variables qualitatives** et leurs modalit√©s sur ton dataset Spotify, ce qui compl√®te bien la PCA sur les variables num√©riques. C‚Äôest une √©tape utile pour comprendre la structure qualitative de tes donn√©es avant d‚Äôenvisager une mod√©lisation supervis√©e ou une analyse plus approfondie.

---

Si tu veux, je peux aussi te fournir un exemple de code Python pour r√©aliser une MCA avec `prince` ou en R avec `FactoMineR` sur ton dataset.

In [None]:
from sklearn.decomposition import PCA
import prince 
from sklearn.preprocessing import StandardScaler
import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Subset for MCA
df_cat = data[['playlist_genre', 'mode', 'key']].copy()

# Run MCA
mca = prince.MCA(n_components=2, n_iter=100, copy=True, check_input=True, engine='sklearn', random_state=1)
mca = mca.fit(df_cat)

# Get coordinates for the plot
coords = mca.column_coordinates(df_cat)

# Calculate cosine similarities for sizing
cosine_similarities = mca.column_cosine_similarities(df_cat)
# Use the sum of cosine similarities as size parameter (for clearer visualization)
sizes = cosine_similarities[0]**2 + cosine_similarities[1]**2

# Prepare data for plotting
plot_data = pd.DataFrame({
    'x': coords[0],
    'y': coords[1],
    'variable': [x.split('__')[0] for x in coords.index],
    'value': [x.split('__')[1] for x in coords.index],
    'size': sizes * 500  # Scale sizes for better visualization
})

# Create a color mapping for variables
colors = {'playlist_genre': 'blue', 'mode': 'red', 'key': 'green'}
plot_data['color'] = plot_data['variable'].map(colors)

# Create the plot
plt.figure(figsize=(10, 8))
scatter = sns.scatterplot(
    data=plot_data,
    x='x', 
    y='y',
    hue='variable',
    size='size',
    sizes=(50, 500),
    palette=colors,
    alpha=0.7
)

# Add annotations
for i, row in plot_data.iterrows():
    plt.text(
        row['x'] + 0.02, 
        row['y'] + 0.02, 
        row['value'], 
        fontsize=9,
        color='black'
    )

# Add styling
plt.title('MCA: Relationship between Genre, Mode and Key', fontsize=16)
plt.xlabel(f'Dimension 1 ({mca.eigenvalues_summary.iloc[0, 1]})', fontsize=12)
plt.ylabel(f'Dimension 2 ({mca.eigenvalues_summary.iloc[1, 1]})', fontsize=12)
plt.grid(True, linestyle='--', alpha=0.7)
plt.axhline(y=0, color='gray', linestyle='-', alpha=0.3)
plt.axvline(x=0, color='gray', linestyle='-', alpha=0.3)
plt.legend(title='Variable Type')

# Show plot
plt.tight_layout()
plt.show()

# Print quick interpretation of coordinates
print("\nCoordinates Summary by Variable Type:")
for var in ['playlist_genre', 'mode', 'key']:
    var_coords = coords.filter(like=var)
    print(f"\n{var.upper()} coordinates:")
    print(var_coords)

### Variables utilis√©es
Les variables qualitatives s√©lectionn√©es pour cette analyse sont :
- `playlist_genre` : Genre de la playlist (ex. rock, pop, rap, etc.).
- `key` : Tonalit√© musicale (ex. C, D, E‚ô≠, etc.).
- `mode` : Mode musical (majeur ou mineur).

### R√©sultats

#### 1. Axes factoriels
- **Dim1 (8%)** : Cet axe semble opposer des genres musicaux et des tonalit√©s sp√©cifiques :
  - √Ä gauche, des genres comme `rap` et des tonalit√©s comme `A‚ôØ/B‚ô≠` sont associ√©s √† des morceaux modernes ou sp√©cifiques.
  - √Ä droite, des tonalit√©s comme `C` et `G` sont associ√©es √† des genres comme `rock`, sugg√©rant une relation avec des styles plus classiques.
- **Dim2 (6.6%)** : Cet axe refl√®te une distinction entre les modes (`major` et `minor`) et leur association avec certains genres :
  - En bas, le mode `major` est associ√© √† des genres comme `rock`.
  - En haut, le mode `minor` est plus proche de genres comme `rap` et `edm`.

On remarque ici que nous avons les m√™me resultats qu'en R √† l'exception de la projection des individus qui est invers√©e.

#### 2. Proximit√© des modalit√©s
- Les modalit√©s proches sur le graphique sont souvent associ√©es dans les donn√©es :
  - `pop`, `latin`, `r&b` et `edm` sont centr√©s par rapport aux modes `minor`et `major`, indiquant qu'ils n'appartiennent pas clairement √† un mode sp√©cifique, mais partagent des caract√©ristiques communes.
  - `rap` est √©galement centr√© par rapport √† ces modes, ce qui sugg√®re que l'utilisation des modes majeurs et mineurs est assez √©quilibr√©e dans la composition des morceaux de rap. Toutefois, il reste distinct des groupes `pop`, `latin`, `r&b` et `edm`.
  - `rock` est plus proche de `major`, ce qui sugg√®re que les musiques de ce genre sont souvent associ√©es √† des tonalit√©s majeures.
  - Les tonalit√©s comme `B`,`D‚ôØ/E‚ô≠`,`A‚ôØ/B‚ô≠`,`F‚ôØ/G‚ô≠`et `F` sont proches de `minor`, indiquant qu'elles sont souvent utilis√©es dans des morceaux en mode mineur.
  - Les tonalit√©s comme `C`, `G`,`D` sont proches de `major`, ce qui sugg√®re qu'elles sont souvent utilis√©es dans des morceaux en mode majeur.

#### 3. Cos¬≤ (Qualit√© de repr√©sentation)
- La taille des bulles indiquent la qualit√© de repr√©sentation des modalit√©s sur les deux premi√®res dimensions :
  - Les modalit√©s avec des grosses bulles comme `major`, `minor`, `C‚ôØ/D‚ô≠` ou `rock` sont bien repr√©sent√©es sur ces axes.
  - Les modalit√©s avec des bulles plus petites comme certaines tonalit√©s, ou certains genres (`pop`, `latin`, `r&b` et `edm`) sont moins bien repr√©sent√©es, ce qui signifie qu'elles pourraient √™tre mieux expliqu√©es par d'autres dimensions.

### Conclusion
Cette MCA met en √©vidence des associations claires entre les genres musicaux, les tonalit√©s (`key`), et les modes (`major`/`minor`). Elle permet de visualiser les relations qualitatives dans les donn√©es et d'identifier des clusters ou des oppositions significatives. Par exemple :
- `rock` est distinct des autres genres, avec des tonalit√©s et un mode sp√©cifiques.
- `pop`, `latin`, `r&b` et `edm` partagent des caract√©ristiques similaires, mais ne sont pas clairement associ√©s √† un mode particulier.
- `rap` est centr√© par rapport aux modes, mais reste distinct des autres genres.

Ces r√©sultats offrent une meilleure compr√©hension des structures qualitatives des donn√©es et peuvent √™tre utilis√©s pour des analyses compl√©mentaires, comme la segmentation ou la classification.

In [None]:
# Choisir 4 artistes fr√©quents
top_artists = ['David Guetta', 'Ed Sheeran', 'Green Day', 'Billie Eilish', 'Eminem']

# Remplacer les autres artistes par 'Autre'
data['artist_subset'] = data['track_artist'].apply(lambda x: x if x in top_artists else 'Autre')

# Refaire le sous-ensemble avec artiste
df_cat = data[['playlist_genre', 'mode', 'key', 'artist_subset']].copy()

# Run MCA
mca = prince.MCA(n_components=2, n_iter=100, copy=True, check_input=True, engine='sklearn', random_state=1)
mca = mca.fit(df_cat)

# Get coordinates for the plot
coords = mca.column_coordinates(df_cat)

# Calculate cosine similarities for sizing
cosine_similarities = mca.column_cosine_similarities(df_cat)
# Use the sum of cosine similarities as size parameter (for clearer visualization)
sizes = cosine_similarities[0]**2 + cosine_similarities[1]**2

# Prepare data for plotting
plot_data = pd.DataFrame({
    'x': coords[0],
    'y': coords[1],
    'variable': [x.split('__')[0] for x in coords.index],
    'value': [x.split('__')[1] for x in coords.index],
    'size': sizes * 500  # Scale sizes for better visualization
})

# Create a color mapping for variables
colors = {'playlist_genre': 'blue', 'mode': 'red', 'key': 'green', 'artist_subset': 'purple'}
plot_data['color'] = plot_data['variable'].map(colors)

# Create the plot
plt.figure(figsize=(10, 8))
scatter = sns.scatterplot(
    data=plot_data,
    x='x', 
    y='y',
    hue='variable',
    size='size',
    sizes=(50, 500),
    palette=colors,
    alpha=0.7
)

# Add annotations
for i, row in plot_data.iterrows():
    plt.text(
        row['x'] + 0.02, 
        row['y'] + 0.02, 
        row['value'], 
        fontsize=9,
        color='black'
    )

# Add styling
plt.title('MCA: Relationship between Genre, Mode and Key', fontsize=16)
plt.xlabel(f'Dimension 1 ({mca.eigenvalues_summary.iloc[0, 1]})', fontsize=12)
plt.ylabel(f'Dimension 2 ({mca.eigenvalues_summary.iloc[1, 1]})', fontsize=12)
plt.grid(True, linestyle='--', alpha=0.7)
plt.axhline(y=0, color='gray', linestyle='-', alpha=0.3)
plt.axvline(x=0, color='gray', linestyle='-', alpha=0.3)
plt.legend(title='Variable Type')

# Show plot
plt.tight_layout()
plt.show()

# Print quick interpretation of coordinates
print("\nCoordinates Summary by Variable Type:")
for var in ['playlist_genre', 'mode', 'key', 'artist_subset']:
    var_coords = coords.filter(like=var)
    print(f"\n{var.upper()} coordinates:")
    print(var_coords)

In [None]:
# S√©parer les genres et les artistes
genres = [i for i in coords.index if i.startswith("playlist_genre__")]
artists = [i for i in coords.index if i.startswith("artist_subset__")]

# Initialiser un nouveau DataFrame pour stocker les distances
distances = pd.DataFrame(index=artists, columns=genres)

# Calculer les distances euclidiennes au carr√©
for artist in artists:
    for genre in genres:
        vec_artist = coords.loc[artist].values
        vec_genre = coords.loc[genre].values
        dist_sq = np.sum((vec_artist - vec_genre) ** 2)
        distances.loc[artist, genre] = dist_sq

# Convertir les distances en float (au cas o√π)
distances = distances.astype(float)

# Afficher les r√©sultats
distances.T

### Distances artistes-genres (MCA)
Nous avons d√©cid√© d'affiner notre MCA en y int√©grant certains artistes pour mieux comprendre leurs relations avec les genres musicaux. Nous avons s√©lectionn√© 6 artistes : **David Guetta**, **Ed Sheeran**, **Green Day**, **Billie Eilish**, **Eminem** et un groupe d'artistes diversifi√© nomm√© **Autre**. Afin d'analyser la proximit√© entre ces artistes et les genres musicaux, nous avons calcul√© les distances euclidiennes au carr√© entre chaque artiste et les genres issus de l'Analyse des Correspondances Multiples (MCA).

#### Interpr√©tations individuelles

- **David Guetta** est tr√®s proche du genre **EDM**, ce qui est coh√©rent avec son positionnement d‚Äôartiste √©lectro. Il est aussi relativement proche du genre `pop` et `rock`, ce qui peut s‚Äôexpliquer par ses nombreuses collaborations avec des chanteurs populaires.

- **Ed Sheeran** est mod√©r√©ment proche des genres **pop** et **edm**, ce qui refl√®te sa diversit√© musicale et ses morceaux m√™lant acoustique et sons plus produits.

- **Green Day** est relativement proche du genre **rock**, ce qui confirme son ancrage dans ce style. Il est plus √©loign√© des autres genres, ce qui le distingue nettement stylistiquement dans cette analyse.

- **Billie Eilish** est situ√©e √† mi-distance de plusieurs genres (`pop`, `edm`, `rock`), ce qui traduit une position hybride. Elle n‚Äôest pas fortement associ√©e √† un genre unique, ce qui est coh√©rent avec son style singulier et difficile √† cat√©goriser.

- **Eminem** montre une **affinit√© forte avec le genre Rap**, avec une distance minimale compar√©e aux autres genres. Il est largement s√©par√© des genres comme rock ou pop, ce qui refl√®te bien son style musical distinct.

- **Autre** est, comme attendu, proche du centre, ce qui traduit une position moyenne, r√©sultant de l‚Äôagr√©gation d‚Äôartistes divers aux profils vari√©s.

### Conclusion

L‚Äôanalyse des distances artistes-genres via la MCA confirme plusieurs intuitions sur les positionnements stylistiques des artistes. Elle permet √©galement de d√©tecter des cas hybrides (comme Billie Eilish)
Elle enrichit l‚Äôinterpr√©tation visuelle de l‚ÄôACM en objectivant la notion de "proximit√©" par une mesure quantitative.

# NMF

In [None]:
audio_features = [
    'danceability', 'energy', 'loudness', 'speechiness',
    'acousticness', 'instrumentalness', 'liveness',
    'valence', 'tempo', 'duration_s'
]

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import NMF
from sklearn.preprocessing import MinMaxScaler

# 1. S√©lection des features audio
X = data_songs[audio_features].copy()

# 2. Normalisation min-max (important pour la NMF)
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# 3. Tester plusieurs valeurs de r (nombre de composants)
errors = []
r_values = range(2,11, 2)

for r in r_values:
    model = NMF(n_components=int(r), init='nndsvda', random_state=42, max_iter=500)
    W = model.fit_transform(X_scaled)
    H = model.components_
    reconstruction = np.dot(W, H)
    error = np.linalg.norm(X_scaled - reconstruction, 'fro')  # norme de Frobenius
    errors.append(error)

# 4. Tracer la courbe de l‚Äôerreur de reconstruction
plt.figure(figsize=(10, 6))
plt.plot(r_values, errors, marker='o')
plt.title("Erreur de reconstruction vs nombre de composants (r)")
plt.xlabel("Nombre de composants (r)")
plt.ylabel("Erreur de reconstruction (norme de Frobenius)")
plt.grid(True)
plt.show()


On garde 6 profils.

In [None]:
# 3. Application de la NMF
nmf_model = NMF(n_components=6, init='nndsvda', random_state=42, max_iter=500)
W = nmf_model.fit_transform(X_scaled)
H = nmf_model.components_

# 4. Cr√©er un DataFrame pour la matrice H
H_df = pd.DataFrame(H, columns=audio_features)
H_df.index = [f'Profil {i+1}' for i in range(H.shape[0])]

# 5. Affichage de la matrice H
print("Matrice H (profils latents d√©finis par les variables audio) :")
display(H_df)

# 6. Visualisation : contribution des variables √† chaque profil
plt.figure(figsize=(12, 6))
sns.heatmap(H_df, annot=True, cmap='YlGnBu', fmt=".2f")
plt.title("Profils latents musicaux d√©tect√©s par NMF (matrice H)")
plt.xlabel("Caract√©ristiques audio")
plt.ylabel("Profils NMF")
plt.tight_layout()
plt.show()

### Dataset utilis√©
Nous avons d√©cid√© d'utiliser le dataframe `data_songs` ne contenant que les morceaux une seule fois dans le dataset, pour √©viter de biaiser les r√©sultats. 

### Variables utilis√©es

Les variables s√©lectionn√©es pour cette NMF sont les caract√©ristiques audio continues suivantes :

* `danceability`, `energy`, `loudness`, `speechiness`, `acousticness`, `instrumentalness`, `liveness`, `valence`, `tempo`, `duration_s`.

Nous avons exclu la variable `track_popularity` car la NMF est tr√®s sensible aux valeurs extr√™mes et cette variable a une distribution tr√®s h√©terog√®ne. De plus, nous avons exclu les variables cat√©gorielles et les variables de texte, car la NMF est con√ßue pour fonctionner sur des donn√©es num√©riques continues.

### R√©sultats

#### 1. Profils latents d√©tect√©s

L‚Äôanalyse a r√©v√©l√© **6 profils musicaux latents** √† partir des donn√©es. Chaque profil est d√©fini par une combinaison unique de caract√©ristiques audio. Voici leur interpr√©tation :

* **Profil 1 : Profil √ânergique-Intense**

  * Caract√©ris√© par de **tr√®s fortes valeurs en `energy`, `loudness` et `tempo` et `duration`**.
  * Faible en composantes √©motionnelles (`valence`), vocales et instrumentales.
  * Ce profil pourrait correspondre √† des morceaux **tr√®s dynamiques et bruyants**, typiques de l‚Äô**EDM** (house, electro, techno) ou du **hard-rock**/**metal**.

* **Profil 2 : Profil Acoustique-Chant**

  * Domin√© par une forte **`acousticness`**.
  * Ce profil, presente **`instrumentalness`=0**, et un faible **`speechiness`** mais diff√©rent de zero.
  * Ce profil regroupe possiblement des morceaux **acoustiques et chant√©s**.

* **Profil 3 : Profil Instrumental**

  * Tr√®s forte **`instrumentalness`** avec tr√®s peu d'autres caract√©ristiques.
  * Correspond clairement √† des morceaux **purement instrumentaux**, probablement **ambient**, **classique** ou **bande-son**.

* **Profil 4 : Profil √âmotionnel-Valence**

  * Faible en toutes dimensions sauf une tr√®s forte **`valence`**.
  * Ce profil regroupe des morceaux **√©motionnellement tr√®s positifs**, avec une ambiance **joyeuse ou euphorique**, ind√©pendamment du tempo ou de l‚Äô√©nergie.

* **Profil 5 : Profil Vocal-Live**

  * Faibles valeurs g√©n√©rales sauf une **forte `liveness`** et une **`speechiness`** marqu√©e.
  * Peut repr√©senter des morceaux **live**, **rap**, ou des chansons **parl√©es/spoken word**.

* **Profil 6 : Profil Rap-Rythm√©**

  * Forte `danceability`, `speechiness` et mod√©r√©e `energy`.
  * Ce profil semble capturer des morceaux **rythm√©s et tr√®s vocaux**, typiques du **rap**, **hip-hop**, voire certains morceaux **R\&B urbains**. Ils pourraient aussi correspondre √† des morceaux **pop** et **latino** dans une certaine mesure.

---

Pour chaque profil, nous allons desormais regarder les morceaux qui y contribuent le plus fortement, pour confirmer ces resultats.

In [None]:
# Get the top 2 tracks for each NMF profile
n_profiles = 6  # Number of profiles from our NMF model
top_n = 2      # Number of top tracks to display per profile

# Create a dataframe with track information and profile weights
profile_weights = pd.DataFrame(W, index=data_songs.index)
profile_weights.columns = [f'Profile_{i+1}' for i in range(n_profiles)]

# For each profile, find the tracks with the highest weights
results = []

for profile_idx in range(n_profiles):
    profile_name = f'Profile_{profile_idx+1}'
    
    # Get top tracks for this profile
    top_indices = profile_weights[profile_name].nlargest(top_n).index
    
    # Extract relevant information for these tracks
    for idx in top_indices:
        track_info = {
            'Profile': profile_name,
            'Track Name': data.loc[idx, 'track_name'],
            'Artist': data.loc[idx, 'track_artist'],
            'Genre': data.loc[idx, 'playlist_genre'],
            'Subgenre': data.loc[idx, 'playlist_subgenre'],
            'Weight': profile_weights.loc[idx, profile_name]
        }
        
        # Add audio features for context
        for feature in audio_features:
            track_info[feature] = data.loc[idx, feature]
            
        results.append(track_info)

# Create a dataframe with the results and display it
top_tracks_df = pd.DataFrame(results)

# Sort by profile and weight
top_tracks_df = top_tracks_df.sort_values(['Profile', 'Weight'], ascending=[True, False])
display(top_tracks_df)

**Interpr√©tation :**

On retrouve des resultats coh√©rents avec les profils identifi√©s pr√©c√©demment. Seul `Sandstorm` de Darude qui est cens√© √™tre un morceau EDM est class√© dans le profil 2, ce qui est surprenant. Mais en regardant la caract√©ristique `instrumentalness`, on remarque qu'il est tr√®s proche de 1, ce qui signifie que le morceau est class√© comme tr√®s intrumental. Il est donc normal qu'il soit class√© dans le profil 2.

---

On peut desormais regarder pour certains artistes quels sont les profils musicaux qui leur correspondent le mieux. On va regarder les tracks des artistes suivants : **David Guetta**, **Ed Sheeran**, **Green Day**, **Billie Eilish** et **Eminem**.

In [None]:
# Create a dataframe with profile weights for each track
profile_weights = pd.DataFrame(W, index=data_songs.index)
profile_weights.columns = [f'Profile_{i+1}' for i in range(n_profiles)]

# Merge with original data to get artist info
artist_profiles = pd.concat([data_songs[['track_artist', 'track_name']], profile_weights], axis=1)

# Initialize a dictionary to store results
artist_distribution = {}

# For each artist, analyze their tracks
for artist in top_artists:
    # Filter tracks by this artist
    artist_tracks = artist_profiles[artist_profiles['track_artist'] == artist]
    
    if len(artist_tracks) == 0:
        print(f"No tracks found for {artist}")
        continue
    
    # Calculate average profile weight for this artist
    avg_profile_weights = artist_tracks[[f'Profile_{i+1}' for i in range(n_profiles)]].mean()
    
    # Find dominant profile for each track
    dominant_profiles = artist_tracks[[f'Profile_{i+1}' for i in range(n_profiles)]].idxmax(axis=1).value_counts()
    
    # Store results
    artist_distribution[artist] = {
        'track_count': len(artist_tracks),
        'avg_weights': avg_profile_weights,
        'dominant_profiles': dominant_profiles
    }

# Visualize the results
fig, axes = plt.subplots(len(top_artists), 2, figsize=(18, 4*len(top_artists)))

for i, artist in enumerate(top_artists):
    if artist not in artist_distribution:
        continue
    
    # Average profile weights
    artist_distribution[artist]['avg_weights'].plot(
        kind='bar', 
        ax=axes[i, 0], 
        color='skyblue',
        title=f"{artist}: Average Profile Weights (n={artist_distribution[artist]['track_count']} tracks)"
    )
    axes[i, 0].set_ylabel("Weight")
    axes[i, 0].set_xlabel("NMF Profile")
    
    # Distribution of dominant profiles
    if len(artist_distribution[artist]['dominant_profiles']) > 0:
        artist_distribution[artist]['dominant_profiles'].plot(
            kind='bar', 
            ax=axes[i, 1], 
            color='coral',
            title=f"{artist}: Dominant Profile Distribution"
        )
        axes[i, 1].set_ylabel("Number of Tracks")
        axes[i, 1].set_xlabel("Dominant NMF Profile")

plt.tight_layout()
plt.show()

# Print a summary
print("\nArtist Profile Summary:")
print("=" * 50)
for artist in top_artists:
    if artist not in artist_distribution:
        continue
    
    print(f"\n{artist} ({artist_distribution[artist]['track_count']} tracks)")
    print("-" * 30)
    
    # Get the dominant profile(s)
    if len(artist_distribution[artist]['dominant_profiles']) > 0:
        top_profile = artist_distribution[artist]['dominant_profiles'].index[0]
        top_count = artist_distribution[artist]['dominant_profiles'].iloc[0]
        top_percent = (top_count / artist_distribution[artist]['track_count']) * 100
        
        print(f"Primary Profile: {top_profile} ({top_percent:.1f}% of tracks)")
    
    # Get the highest weight profile on average
    top_avg_profile = artist_distribution[artist]['avg_weights'].idxmax()
    top_avg_weight = artist_distribution[artist]['avg_weights'].max()
    
    print(f"Highest Average Weight: {top_avg_profile} (weight: {top_avg_weight:.3f})")

In [None]:
# Get all tracks by Green Day
green_day_tracks = data_songs[data_songs['track_artist'] == 'Green Day']

# Create a dataframe with profile weights for each Green Day track
profile_weights = pd.DataFrame(W, index=data_songs.index)
profile_weights.columns = [f'Profile_{i+1}' for i in range(n_profiles)]

# Merge track information with profile weights
green_day_profiles = pd.concat([green_day_tracks[['track_name']], 
                               profile_weights.loc[green_day_tracks.index]], axis=1)

# Add the dominant profile column
green_day_profiles['Dominant_Profile'] = green_day_profiles[[f'Profile_{i+1}' for i in range(n_profiles)]].idxmax(axis=1)

# Sort by dominant profile and then by the weight of that profile (descending)
green_day_profiles = green_day_profiles.sort_values(['Dominant_Profile', 'track_name'])

# Display the tracks with their profile information
display(green_day_profiles[['track_name', 'Dominant_Profile'] + 
                          [f'Profile_{i+1}' for i in range(n_profiles)]])


### Artistes et profils musicaux

En dehors de **Green Day**, ayant des morceaux partag√©s entre les profiles 4, 5 et 6, **les autres artistes appartiennent tous au profil 6**. Pour ce qui est de **Green Day**, les morceaux qui lui sont attribu√©s dans le profil 4 sont en effet des morceaux joyeux et gais comme *American Idiot* ou *Basket Case* du moins dans la direction artistique.

Les morceaux qui lui sont attribu√©s dans le **profil 5** sont des morceaux **qui a priori ne sont pas des versions live** mais l'algorithme de Spotify en charge de detecter les versions live **a du se tromper**. Si cette variable pr√©sente des valeurs non repr√©sentatives, il serait int√©ressante de r√©p√©ter l'analyse sans cette variable.

Pour ce qui est des morceaux qui lui sont attribu√©s dans le **profil 6**, ce sont des morceaux pop-rock **plutot √©quilibr√©s** comme *Boulevard of Broken Dreams* ou *Wake Me Up When September Ends*.

---

On peut conclure sur le fait que ce profil 6 regroupe plus de styles musicaux que les autres profils. Il semble √™tre **le profil le plus g√©n√©raliste**, et regroupe des morceaux de plusieurs genres musicaux.

Il serait utile de faire un clustering sur les profils musicaux pour voir si on peut regrouper les morceaux en fonction de leurs caract√©ristiques audio, particuli√®rement sur le profil 6.

In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from matplotlib import colors
from yellowbrick.cluster import SilhouetteVisualizer, KElbowVisualizer

In [None]:
kmeans = KMeans(init='k-means++', n_init='auto', random_state=42)
visualizer = KElbowVisualizer(kmeans, k=(2, 12))
visualizer.fit(W)
visualizer.show()

In [None]:
# Perform K-Means clustering on W with 3 clusters
kmeans_w = KMeans(n_clusters=4, random_state=42, n_init='auto')
cluster_labels = kmeans_w.fit_predict(W)

# Add cluster labels to a DataFrame for easier handling
clustered_data = data_songs.copy()
clustered_data['kmeans_cluster'] = cluster_labels

# 1. Confusion Matrix: K-Means clusters vs. NMF profiles

# Determine the dominant NMF profile for each track
# profile_weights was calculated in CELL INDEX 50 and has data_songs.index
dominant_nmf_profile = profile_weights.idxmax(axis=1)
clustered_data['dominant_nmf_profile'] = dominant_nmf_profile

# Create confusion matrix
# Ensure the labels match the unique values in dominant_nmf_profile and kmeans_cluster
nmf_labels = clustered_data['dominant_nmf_profile'].unique()
kmeans_labels = sorted(clustered_data['kmeans_cluster'].unique())

# Create a contingency matrix instead of a confusion matrix
contingency_matrix = pd.crosstab(clustered_data['dominant_nmf_profile'], clustered_data['kmeans_cluster'])

# Convert the contingency matrix to a DataFrame for visualization
cm_nmf_df = contingency_matrix

plt.figure(figsize=(10, 7))
sns.heatmap(cm_nmf_df, annot=True, fmt='d', cmap='Blues')
plt.title('Confusion Matrix: K-Means Clusters vs. Dominant NMF Profiles')
plt.ylabel('Dominant NMF Profile')
plt.xlabel('K-Means Cluster')
plt.show()

# 2. Confusion Matrix: K-Means clusters vs. Playlist Genres

# Get playlist genres for tracks in data_songs from the original 'data' DataFrame
# The 'data' DataFrame (CELL INDEX 2, 5, 6, 40) has 'playlist_genre' and is indexed appropriately
# to be used with data_songs.index if data_songs was derived from data.
# data_songs was created from data (CELL INDEX 10), so their indices might not align directly if data_songs was re-indexed.
# However, W is indexed by data_songs.index (CELL INDEX 48, 50).
# We need playlist_genre for data_songs.index
playlist_genres_for_W = data.loc[data_songs.index, 'playlist_genre'] # Usage of data.loc to ensure correct indexing
clustered_data['playlist_genre'] = playlist_genres_for_W

# # Create confusion matrix
# # Get unique sorted genre names for consistent label ordering
# genre_labels = sorted(clustered_data['playlist_genre'].unique())
# cm_genre_df = pd.crosstab(clustered_data['playlist_genre'], clustered_data['kmeans_cluster'])

# plt.figure(figsize=(12, 8))
# sns.heatmap(cm_genre_df, annot=True, fmt='d', cmap='Greens')
# plt.title('Confusion Matrix: K-Means Clusters vs. Playlist Genres')
# plt.ylabel('Actual Playlist Genre')
# plt.xlabel('K-Means Cluster')
# plt.show()


**Interpr√©tation :**

L‚Äôanalyse des clusters obtenus √† partir de la **matrice W de la NMF** r√©v√®le des profils tr√®s contrast√©s :

* Les **profils 1 √† 4 sont clairement d√©finis et homog√®nes** : ils se retrouvent **presque exclusivement dans un seul cluster (le cluster 3)**, ce qui indique une **coh√©rence interne forte** et une bonne s√©paration de ces profils par la NMF.

* Le **profil 5** montre une **certaine diversit√©**, mais reste **partiellement concentr√© dans le cluster 1**, sugg√©rant une structure interm√©diaire : ni totalement homog√®ne, ni compl√®tement dispers√©.

* Le **profil 6** est **largement h√©t√©rog√®ne**, avec des morceaux **r√©partis sur l‚Äôensemble des 5 clusters**, ce qui confirme plusieurs points importants :

  * Ce profil capture **un groupe de morceaux tr√®s vari√©s**, sans dominante claire.
  * Il refl√®te probablement **plusieurs sous-genres ou styles musicaux imbriqu√©s**.
  * Sa **taille tr√®s sup√©rieure** √† celle des autres profils sugg√®re que la **NMF n‚Äôa pas r√©ussi √† d√©couper efficacement cet ensemble**, ce qui peut √™tre d√ª √† une **grande diversit√© sonore** ou √† une **structure non lin√©aire difficile √† factoriser**.

---

**Bilan :**

L‚Äôanalyse met en √©vidence que **seul le profil 6 m√©rite une exploration plus approfondie**. On peut maintenant **zoomer sur ce profil**, et **interpr√©ter les clusters qui le composent** en examinant :

* La r√©partition des **genres** et **sous-genres musicaux**.
* La structure des **caract√©ristiques audio** propres √† chaque cluster.

Cela permettra d‚Äôidentifier si des **sous-groupes coh√©rents** √©mergent au sein de ce profil complexe.


In [None]:
# Identifier le profil dominant pour chaque morceau
dominant_profile = W.argmax(axis=1)  # Renvoie l'indice du profil dominant (0 √† 5)

# Filtrer uniquement ceux dont le profil dominant est le profil 6 (index 5)
profile_6_indices = np.where(dominant_profile == 5)[0]
W_profile_6 = W[profile_6_indices]

kmeans = KMeans(init='k-means++', n_init='auto', random_state=42)
visualizer = KElbowVisualizer(kmeans, k=(2, 12))
visualizer.fit(W_profile_6)
visualizer.show()

In [None]:
# Filtrer uniquement les donn√©es correspondant au profil 6
profile_6_indices = np.where(dominant_profile == 5)[0]  # Indices des morceaux avec profil dominant 6
W_profile_6 = W[profile_6_indices]  # Matrice W pour le profil 6
data_songs_profile_6 = data_songs.iloc[profile_6_indices]  # Filtrer les morceaux correspondants

# Effectuer le clustering K-Means sur W profil 6
kmeans_profile_6 = KMeans(n_clusters=6, random_state=42, n_init='auto')
cluster_labels_profile_6 = kmeans_profile_6.fit_predict(W_profile_6)

# Ajouter les √©tiquettes de cluster au DataFrame filtr√©
data_songs_profile_6['kmeans_cluster'] = cluster_labels_profile_6

# Cr√©er une matrice de contingence pour les genres de playlist
playlist_genres_for_W_profile_6 = data.loc[data_songs_profile_6.index, 'playlist_genre']
data_songs_profile_6['playlist_genre'] = playlist_genres_for_W_profile_6

# Matrice de contingence : clusters K-Means vs genres de playlist
cm_genre_df_profile_6 = pd.crosstab(data_songs_profile_6['playlist_genre'], data_songs_profile_6['kmeans_cluster'])

# Visualisation de la matrice de contingence
plt.figure(figsize=(12, 8))
sns.heatmap(cm_genre_df_profile_6, annot=True, fmt='d', cmap='Greens')
plt.title('Confusion Matrix: K-Means Clusters vs. Playlist Genres (Profile 6)')
plt.ylabel('Actual Playlist Genre')
plt.xlabel('K-Means Cluster')
plt.show()


In [None]:
# Cr√©er une matrice de contingence pour les sous-genres de playlist
playlist_subgenres_for_W_profile_6 = data.loc[data_songs_profile_6.index, 'playlist_subgenre']
data_songs_profile_6['playlist_subgenre'] = playlist_subgenres_for_W_profile_6

# Matrice de contingence : clusters K-Means vs sous-genres de playlist
cm_subgenre_df_profile_6 = pd.crosstab(data_songs_profile_6['playlist_subgenre'], data_songs_profile_6['kmeans_cluster'])

# Visualisation de la matrice de contingence
plt.figure(figsize=(12, 8))
sns.heatmap(cm_subgenre_df_profile_6, annot=True, fmt='d', cmap='Blues')
plt.title('Confusion Matrix: K-Means Clusters vs. Playlist Subgenres (Profile 6)')
plt.ylabel('Actual Playlist Subgenre')
plt.xlabel('K-Means Cluster')
plt.show()

#### **Interpr√©tation :**

L‚Äôanalyse des **clusters extraits du profil 6** (via NMF + k-means) r√©v√®le des r√©sultats **globalement h√©t√©rog√®nes**, notamment lorsqu‚Äôon les compare aux **genres de playlists** : les morceaux sont **fortement dispers√©s entre les clusters**, ce qui rend l‚Äôinterpr√©tation difficile.

Cependant, en se concentrant sur les **sous-genres musicaux**, **certains motifs apparaissent** et permettent de mieux comprendre la structure interne des clusters. Voici les principales observations :

---

##### üéß 1. **Une dispersion marqu√©e des morceaux Electro-House**

Les morceaux d'**electro-house** (et d√©riv√©s) sont **pr√©sents dans presque tous les clusters**, **√† l‚Äôexception du cluster 5**. Cela indique que :

* Ces morceaux pr√©sentent **un large spectre de sonorit√©s**, les rendant difficiles √† regrouper de mani√®re coh√©rente.
* Cela sugg√®re que la **NMF + k-means n‚Äôa pas r√©ussi √† isoler une structure claire** pour ce style, √† la diff√©rence d‚Äôautres genres plus homog√®nes comme le hard-rock.

---

##### üé§ 2. **Clusters 0 et 3 : Des profils Rap diff√©renci√©s**

Ces deux clusters sont domin√©s par des **sous-genres du rap**, mais selon des nuances distinctes :

* Le **cluster 0** contient principalement du **gangster rap** et du **southern hip-hop**, qui y sont **deux fois plus repr√©sent√©s** que les autres styles de rap.
* Le **cluster 3**, quant √† lui, est **plus √©quilibr√©** : on y trouve des parts similaires de **trap**, **hip-hop**, **southern hip-hop** et **gangster rap**, avec aussi une pr√©sence notable de **latin hip-hop**.

Ces diff√©rences montrent que **le mod√®le distingue finement certaines nuances √† l‚Äôint√©rieur m√™me du spectre rap**.

---

##### üé∂ 3. **Cluster 1 : Une dominante Pop sous un voile d‚Äôh√©t√©rog√©n√©it√©**

√Ä premi√®re vue, le **cluster 1** semble tr√®s h√©t√©rog√®ne. Toutefois, en examinant les sous-genres les plus fr√©quents, une tendance claire √©merge :

* On y retrouve majoritairement des styles tels que **pop**, **pop-rock**, **post-teen pop**, **dance pop**, **latin pop**, **pop-edm**, et **indie poptimism**.

Cela s‚Äôexplique par la **polyvalence intrins√®que des morceaux pop**, souvent pr√©sents dans des playlists de styles vari√©s ‚Äî une **caract√©ristique refl√©t√©e dans leur regroupement** ici.

---

##### üé∏ 4. **Cluster 2 : Le noyau dur du Rock**

Ce cluster est le **plus homog√®ne** de tous :

* Il regroupe en majorit√© des morceaux de **hard-rock**, ainsi que des variantes comme le **pop-rock**, **rock alternatif**, **indie poptimism**, ou encore **permanent wave**.

Ce regroupement sugg√®re que **les morceaux de rock (notamment hard) pr√©sentent des caract√©ristiques audio distinctes**, bien capt√©es par la factorisation NMF et le groupement en clusters.

---

##### üåô 5. **Cluster 5 : Des morceaux hybrides et alternatifs**

Ce dernier cluster contient principalement des morceaux de type :

* **indie poptimism**
* **neo soul**
* **urban contemporary**

Il semble regrouper des morceaux **plus hybrides, subtils ou alternatifs**, peut-√™tre √† la **fronti√®re entre plusieurs styles** ‚Äî ce qui pourrait expliquer leur isolement dans ce cluster sp√©cifique.

---

##### **Bilan** :

Malgr√© une **forte h√©t√©rog√©n√©it√© globale du profil 6 de la NMF**, l‚Äôanalyse fine des **sous-genres** permet d‚Äô**extraire des structures locales** int√©ressantes. En particulier :

* Les **morceaux de hard-rock** sont **clairement isol√©s**.
* Les **raps** sont r√©partis mais **organis√©s selon des affinit√©s fines**.
* Les **morceaux pop**, bien que omnipr√©sents, montrent une **coh√©rence interne dans leur dispersion**.
* Enfin, la **pr√©sence massive de l‚Äôelectro-house dans presque tous les clusters** met en lumi√®re **les limites du k-means √† capturer les sp√©cificit√©s de ce style √† travers la projection de la NMF**, ou bien la **diversit√© sonore intrins√®que** de ce genre.



### **Algorithme de recommendation**
Nous allons utiliser les resultats de la NMF pour cr√©er un algorithme de recommandation bas√© sur le contenu. Cet algorithme va recommander des morceaux similaires √† un morceau donn√© en se basant sur les profils musicaux identifi√©s par la NMF. Nous ferons de m√™me avec une playlist donn√©e.

#### Algorithme de recommandation de morceaux


In [None]:
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

def recommend_similar_tracks(track_name, track_artist, num_recommendation=3):
    # Trouver l'index de la chanson dans data_songs
    song_idx = data_songs[
        (data_songs['track_name'] == track_name) & 
        (data_songs['track_artist'] == track_artist)
    ].index
    
    if len(song_idx) == 0:
        return f"Track '{track_name}' by '{track_artist}' not found in the dataset."
    
    song_idx = song_idx[0]
    
    # R√©cup√©rer le profil de la chanson dans profile_weights
    song_profile = profile_weights.loc[song_idx].values.reshape(1, -1)
    
    # Calculer les similarit√©s cosinus avec toutes les autres chansons
    similarities = cosine_similarity(song_profile, profile_weights).flatten()
    
    # Trier les indices des chansons par similarit√© d√©croissante
    similar_indices = similarities.argsort()[::-1]
    
    # Exclure la chanson elle-m√™me et prendre les num_recommendation plus proches
    similar_indices = [idx for idx in similar_indices if idx != song_idx][1:num_recommendation+1]
    
    # R√©cup√©rer les informations des chansons similaires
    similar_tracks = data_songs.iloc[similar_indices][['track_name', 'track_artist']]
    similar_tracks['similarity'] = similarities[similar_indices]
    
    return similar_tracks.reset_index(drop=True)

# Exemple d'utilisation
recommend_similar_tracks("Thunderstruck", "AC/DC", num_recommendation=3)

In [None]:
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

def recommend_similar_tracks_playlist(playlist_name, num_recommendation=3):
    # Trouver l'index de la chanson dans data_songs
    song_idx = data_songs[
        (data_songs['track_name'] == track_name) & 
        (data_songs['track_artist'] == track_artist)
    ].index
    
    if len(song_idx) == 0:
        return f"Track '{track_name}' by '{track_artist}' not found in the dataset."
    
    song_idx = song_idx[0]
    
    # R√©cup√©rer le profil de la chanson dans profile_weights
    song_profile = profile_weights.loc[song_idx].values.reshape(1, -1)
    
    # Calculer les similarit√©s cosinus avec toutes les autres chansons
    similarities = cosine_similarity(song_profile, profile_weights).flatten()
    
    # Trier les indices des chansons par similarit√© d√©croissante
    similar_indices = similarities.argsort()[::-1]
    
    # Exclure la chanson elle-m√™me et prendre les num_recommendation plus proches
    similar_indices = [idx for idx in similar_indices if idx != song_idx][:num_recommendation]
    
    # R√©cup√©rer les informations des chansons similaires
    similar_tracks = data_songs.iloc[similar_indices][['track_name', 'track_artist']]
    similar_tracks['similarity'] = similarities[similar_indices]
    
    return similar_tracks.reset_index(drop=True)

# Exemple d'utilisation
recommend_similar_tracks("Thunderstruck", "AC/DC", num_recommendation=3)