# INF8111 - Fouille de données

## TP2 Automne 2024 - Exploration de données musicales avec clustering

##### Date limite: 09/11

##### Membres de l'équipe:

    - Nom (Matricule) 1
    - Nom (Matricule) 2
    - Nom (Matricule) 3

##### Livrables :

Vous devez soumettre le fichier suivant sur Moodle. Les questions de ce TP totalisent 20 points.
1. (Obligatoire) Ce notebook avec votre code.
2. (Facultatif) Un rapport PDF comprenant les discussions écrites des questions.

##### Présentation

Les techniques de clustering peuvent être utilisées pour suivre l'évolution de la musique au fil du temps en regroupant les chansons sur la base de leurs caractéristiques audio, telles que le volume sonore, le tempo, le caractère dansant et l'énergie. En divisant un ensemble de données musicales en périodes spécifiques, des groupes peuvent être formés pour chaque période, révélant ainsi les tendances et les changements dans les styles musicaux. Cette approche permet aux chercheurs de saisir et de visualiser la progression des caractéristiques musicales, en découvrant des modèles qui pourraient ne pas être évidents dans le cadre d'une analyse traditionnelle.

Dans ce travail, vous utiliserez des techniques de clustering pour extraire des informations significatives sur la musique au cours des dernières décennies. Enfin, votre objectif est d'utiliser les techniques de regroupement pour construire un système de recommandation pour les utilisateurs qui cherchent des suggestions de nouvelles chansons à écouter. Il est prévu que vous utilisiez les méthodes de regroupement précédentes, mais ne vous y limitez pas. Un degré élevé de créativité dans cette partie sera également récompensé.

Toutes les questions seront évaluées sur la base du code écrit, ainsi que de l'explication écrite des résultats (le cas échéant). Lorsqu'elles ne sont pas explicitement interdites, toutes les bibliothèques Python de base (NumPy, Pandas, Scikit-Learn, etc.) peuvent être utilisées. La créativité du code, l'ajout de commentaires (expliquant chaque étape du code) et la vitesse d'exécution du code auront un impact important sur votre évaluation globale. Une question aura un maximum de points si elle s'exécute sous Windows ou Linux, en montrant le résultat attendu et sans lancer d'exceptions. Si la question n'est pas exécutable sous Windows ou Linux, vous perdrez des points. 

-----

## TP2 Autumn 2024 - Music data mining using clustering

##### Due date: 09/11

##### Team Members:

    - Name (Student ID) 1
    - Name (Student ID) 2
    - Name (Student ID) 3
    
##### Deliverables:

You must submit the following file to Moodle. The questions in this TP total 20 points.
1. (Mandatory) This notebook with code.
2. (Optional) PDF report including written discussions of the questions.

#####  Overview

Clustering techniques can be employed to track changes in music over time by grouping songs based on their audio features, such as loudness, tempo, danceability, and energy. By dividing a music dataset into specific time periods, clusters can be formed for each period, revealing trends and shifts in musical styles. This approach allows researchers to capture and visualize the progression of music characteristics, uncovering patterns that might not be evident through traditional analysis.

In this work, you will use clustering techniques to extract meaningful information about music over the last decades. Lastly, your goal is to use clustering techniques to build a recommendation system for users looking for suggestions of new songs to hear. You are expected to use the previous clustering methods, but do not feel limited to them. A high degree of creativity in this part will be equally rewarded.

All questions will be evaluated based on the written code, as well as the written explanation of the results (when applicable). When not explicitly prohibited, all basic Python libraries (NumPy, Pandas, Scikit-Learn, etc.) can be used. The creativity of the code, the addition of comments (explaining each step of the code), and the speed of code execution will greatly impact your overall evaluation. A question will have maximum points if it runs on Windows or Linux, showing the expected result, and without throwing exceptions. If the question is not executable on Windows or Linux, you will lose its points. 

## Partie 1 - Construction des méthodes de clustering/Building the Clustering Methods

### Q1 - Chargement des données/Loading Data **(0.5 pt)**

##### Dans ce travail, vous utiliserez l'ensemble de données musicales *TP2_hits*, qui contient diverses caractéristiques des chansons des dernières décennies, telles que les noms des chansons, les noms des artistes et les caractéristiques musicales.

##### Pour commencer votre travail, chargez l'ensemble de données musicales *TP2_hits.csv* et affichez ses 5 premiers résultats.

-----

##### In this work, you will use the *TP2_hits* music dataset, which contains various features of songs from the past decades, such as song names, artist names, and musical characteristics.

##### To begin your work, load the *TP2_hits.csv* music dataset and display its top 5 results.

In [None]:
import copy

import pandas as pd

from sklearn.preprocessing import LabelEncoder,StandardScaler,MinMaxScaler
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import DBSCAN
from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.metrics import silhouette_score
from sklearn.impute import KNNImputer
from sklearn.impute import SimpleImputer
from scipy.cluster.hierarchy import fcluster





In [None]:
hits = pd.read_csv('TP2_hits.csv', delimiter=';')
hits_copy  = hits

In [None]:
hits[:5]

Explication des données utilisées : 
- song_name : Le titre de la chanson (par exemple : thank u, next).
name_artists : Liste des artistes participant à la chanson, ici présentée sous forme de liste (par exemple : ['Ariana Grande']).
- popularity : Score de popularité de la chanson (sur une échelle de 0 à 100). Plus le score est élevé, plus la chanson est populaire.
- explicit : Indique si la chanson contient du contenu explicite (valeurs booléennes : True ou False).
- song_type : Type de chanson, indiquant si elle est solo ou une collaboration (exemple : Solo).
- num_artists : Nombre d'artistes impliqués dans la chanson (par exemple : 1 pour thank u, next).
- num_available_markets : Nombre de marchés dans lesquels la chanson est disponible (par exemple : 79).
- release_date : Date de sortie de la chanson, formatée en JJ/MM/AAAA.
- duration_ms : Durée de la chanson en millisecondes (exemple : 207320 ms correspond à environ 3 minutes et 27 secondes).
- key : La clé musicale de la chanson, représentée par un numéro (exemple : 1 correspond à la tonalité Do majeur).
- mode : Mode de la chanson (1 = majeur, 0 = mineur).
- time_signature : Nombre de temps par mesure, communément 4 pour les chansons populaires.
- acousticness : Indice de confiance indiquant si la chanson est acoustique (compris entre 0 et 1).
- danceability : Indicateur de la facilité à danser sur la chanson (plus proche de 1 signifie plus dansant).
- energy : Mesure de l’énergie et de l’intensité de la chanson (valeur entre 0 et 1).
- instrumentalness : Probabilité que la chanson soit instrumentale (valeur proche de 1 = peu de paroles).
- liveness : Indique si la chanson a été enregistrée en live (valeur proche de 1 = haute probabilité de live).
- loudness : Niveau de volume moyen de la chanson en décibels (dB).
- speechiness : Mesure de la présence de paroles parlées (valeurs élevées = plus proche de la parole que du chant).
- valence : Indice de positivité musicale (proche de 1 = musique joyeuse et positive).
- tempo : Vitesse du morceau en battements par minute (BPM).

### Q2 - Transformer et normaliser les données/Transforming and Normalizing Data **(1 pt)**

##### Lorsque les caractéristiques ont des échelles très différentes, il est important de ramener toutes les valeurs à une échelle commune. Dans cette question, vous devez appliquer les transformations et normalisations nécessaires à l'ensemble de données, en fonction de votre point de vue.

##### Conseil: vous devez supprimer les noms des chansons et des artistes et vous concentrer uniquement sur les caractéristiques numériques.

-----

##### When features have significantly different scales, it is important to bring all the values to a common scale. In this question, you should apply the necessary transformations and normalizations to the dataset, based on your perspective.

##### Tip: You should remove the song and artist names and focus only on the numerical features.

Tout d'abord on transforme les données non-numériques en données normalisées en utilisant Encoder pour Song_type et en créant 2 nouveaux attributs que sont le mois et l'année. En effet nous pensons que ces 2 nouveaux pourraient être pertinent pour notre clustering ( On peut par exemple clusteriser des chansons d'été , ou aussi avoir un cluster pour les chansons des années 80 d'où la pertinence de l'ajout de ces 2 attributs). On normalise par la suite nos données en utilisant Standard_Scaler. 

In [None]:
scaler = StandardScaler()
encoder = LabelEncoder()


numerical_data = hits.drop(columns=['song_name', 'name_artists'])
numerical_data['explicit'] = numerical_data['explicit'].astype(int)
numerical_data['release_date'] = pd.to_datetime(numerical_data['release_date'])
#numerical_data['year'] = numerical_data['release_date'].dt.year
#numerical_data['month'] = numerical_data['release_date'].dt.month
#numerical_data['day'] = numerical_data['release_date'].dt.day
numerical_data['song_type'] = encoder.fit_transform(numerical_data['song_type'])
numerical_data['release_date_unix'] = numerical_data['release_date'].astype('int64') // 10**9


numerical_data.drop(columns='release_date' , inplace=True)
hits = pd.DataFrame(scaler.fit_transform(numerical_data) , columns=numerical_data.columns)






On considère par la suite la corrélation des attributs entre eux.

In [None]:
"""
corr_matrix = hits.corr()
to_drop = set()
print(f'Les attributs qui sont fortement corrélées entre eux sont :')
for i in range(len(corr_matrix.columns)):
    for j in range(i):
        if np.abs(corr_matrix.iloc[i, j]) > 0.7:
            print(f'{corr_matrix.columns[i]} ,{corr_matrix.columns[j]}, corrélation {corr_matrix.iloc[i , j]}')
            to_drop.add(corr_matrix.columns[i])
            
hits.drop(columns = to_drop , inplace=True)
"""





In [None]:
hits

On remarque que num_artists et song_type sont fortement corrélées entre eux. On élimine donc un des 2 attributs (ici num_artists).

### Q3 - Clustering avec K-Means/Clustering with K-Means **(3 pt)**

##### Une technique de clustering largement utilisée est **K-Means**. K-Means est un algorithme qui répartit les données en un nombre prédéfini de clusters (K). Il assigne chaque point de données au groupe le plus proche en fonction de la distance au centroïde du groupe, qui représente la position moyenne des points au sein de ce groupe.

##### Dans cette question, vous devez regrouper l'ensemble de données à l'aide de K-Means et fournir une analyse textuelle des résultats. Votre méthode est-elle efficace pour regrouper les chansons présentant des caractéristiques similaires?

##### Les résultats du regroupement par K-Means dépendent fortement des centroïdes initiaux sélectionnés. Que pouvez-vous faire, dans votre code, pour réduire ces effets?

##### Enfin, comment sélectionner, dans votre code, le nombre optimal de clusters? Existe-t-il des mesures qui peuvent vous aider?

-----

##### A widely used clustering technique is **K-Means**. K-Means is an algorithm that partitions data into a predefined number of clusters (K). It works by assigning each data point to the nearest cluster based on the distance to the cluster's centroid, which represents the average position of the points within that cluster.

##### In this question, you must cluster the dataset using K-Means and provide a textual analysis of the results. Is your method effective in grouping songs with similar characteristics?

##### The results of K-Means clustering are highly dependent on the initial centroids selected. What can you do to reduce these effects?

##### Finally, how do you select the optimal number of clusters? Are there any metrics that can help with this?

In [None]:
### CODE

K = range(1,10)
inertia_1 = []
silhouette_scores = []

for k in K : 
    kmeans = KMeans(n_clusters=k, init='k-means++', n_init=10).fit(hits)
    inertia_1.append(kmeans.inertia_)
    if k > 1 : 
        score = silhouette_score(hits, kmeans.labels_)
        silhouette_scores.append(score)

# Tracé de l'inertie pour différents k







In [None]:
plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 1)
plt.plot(K, inertia_1, 'bo-')
plt.xlabel('Number of clusters (k)')
plt.ylabel('Inertia')
plt.title('Elbow Method for Optimal k')

# Tracé du Silhouette Score pour différents k
plt.subplot(1, 2, 2)
plt.plot(K[1:], silhouette_scores, 'go-')
plt.xlabel('Number of clusters (k)')
plt.ylabel('Silhouette Score')
plt.title('Silhouette Score for Different k')

In [None]:
inertia_4_clusters  = inertia_1[3]
#Sauvegarde d'un paramamètre qui nous servira pour la comparaison 

K-means++ choisit les centroîdes d'une manière plus optimale en indexant la probabilité qu'un point soit un centroîde à sa distance avec les autres centroîdes. Autrement dit plus un point est loin des centroîdes plus il aura de d'être choisi comme centroîde. 

n_init choisit 10 configurations de centroides et détermine laquelle présente le moins d'inertie. 
On observe une diminution globale de l'inertie globale à mesure que l'on augmente le nombre de clusters. On peut estimer grâce à la méthode du coude le point d'inflexion à 4 clusters.  

### Q4 - Réduction de la dimensionnalité et sélection des caractéristiques/Reducing dimension and selecting features **(2.5 pt)**

##### Lors d'un clustering avec de nombreuses caractéristiques, comme c'est le cas dans ce TP, deux techniques peuvent être utilisées : la **réduction de la dimensionnalité** et/ou la **sélection des caractéristiques**. Ces techniques améliorent les résultats du clustering en réduisant le bruit et en se concentrant sur les données les plus pertinentes, ce qui conduit à des regroupements plus clairs et plus significatifs.

##### Dans cette question, vous devez créer une méthode pour réduire les dimensions ou sélectionner les meilleures caractéristiques de l'ensemble de données. Vous êtes libre d'utiliser l'une ou l'autre de ces techniques, ou les deux. Vos résultats seront évalués sur la base de vos métriques, et non sur l'utilisation des deux techniques.

##### Après, regroupez les données en utilisant à nouveau K-Means, en employant les mêmes métriques que celles de la Q3. Enfin, rédigez une évaluation textuelle des différences trouvées.

-----

##### When clustering with many features, as is the case in this TP, two techniques that we can use are **dimensionality reduction** and/or **feature selection**. These techniques enhance clustering results by reducing noise and focusing on the most relevant data, leading to clearer, more meaningful groupings.

##### In this question, you must create a method to reduce the dimensions or select the best features from the dataset. It is up to you to use one or both techniques. Your results will be evaluated based on your metrics, not on the use of both techniques.

##### Then, cluster the data using K-Means again, employing the same metrics from Q3. Finally, write a textual evaluation of the differences found.

In [None]:
### CODE
from sklearn.decomposition import PCA
pca = PCA(n_components=0.8)  # retain 90% of variance
data_reduced = pca.fit_transform(hits)


silhouette_scores_reduced = []
    
inertia_PCA = []
for k in K : 
    kmeans = KMeans(n_clusters=k, init='k-means++', n_init=10).fit(data_reduced)
    inertia_PCA.append(kmeans.inertia_)
    
    if k > 1:
        score = silhouette_score(hits, kmeans.labels_)
        silhouette_scores_reduced.append(score)





In [None]:
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.plot(K, inertia_1, label = "inertia without PCA")
plt.plot(K, inertia_PCA, 'bo--' , label = "inertia with PCA")
plt.xlabel('Number of clusters (k)')
plt.ylabel('Inertia')
plt.legend()
plt.title('Elbow Method for Optimal k')

plt.subplot(1, 2, 2)
plt.plot(K[1:], silhouette_scores, 'go-', label='Silhouette scores without PCA')
plt.plot(K[1:], silhouette_scores_reduced, 'bo-', label='silouhette scores with PCA')
plt.xlabel('Number of clusters (k)')
plt.ylabel('Silhouette Score')
plt.title('Silhouette Score after Dimensionality Reduction (PCA)')
plt.legend()

plt.tight_layout()
plt.show()



Ces résultats ne démontrent pas rééllement l'influence de la PCA  car on calcule l'inertie avec les données nouvellement introduites (les nouvelles colonnes) et non l'inertie des données pré-existantes. Pour pouvoir comparer  efficacement le clustering avec la PCA il faudrait calculer les clusters après avoir calculé la PCA et comparer l'inertie avec les données normalisées.


Notons que ici le clustering sans PCA avec n_clusters = 4 nous donne une inertie de : 191848 

In [None]:
inertia = {}
n_clusters = 4
n_components = range(1 , len(hits.columns)+1 , 2)
for k in  n_components: 
    pca = PCA(n_components= k)  # retain 95% of variance  
    data_reduced = pca.fit_transform(hits)
    
    #print(data_reduced.shape)
    kmeans = KMeans(n_clusters= n_clusters, init='k-means++', n_init=10).fit(data_reduced)
    hits['cluster'] = kmeans.labels_
    hits_dropped = hits.drop('cluster', axis=1)
    #print(hits_dropped)
    centroids = np.array([hits_dropped[hits['cluster'] == i].mean(axis=0) for i in range(n_clusters)])
    iner = sum(np.sum((hits_dropped[hits['cluster'] == i].values - centroids[i])**2) for i in range(n_clusters))
    #print(iner.shape)
    inertia[k] = iner
    
hits.drop('cluster', axis=1 , inplace=True)

    
    

In [None]:

plt.plot(n_components , inertia.values(), label = "inertia with PCA")
plt.xlabel('Number of components for the PCA')
plt.ylabel('Inertia calculated with the normalized values')
plt.axhline(y=inertia_4_clusters, color='green', linestyle='--', linewidth=2, label='Inertia without PCA ')
plt.legend()
plt.title('Inertia calculated with PCA')


Les résultats ne sont pas concluants. En effet, l'inertie totale ne diminue pas moins  que l'inertie d'origine.  

## Partie 2 - Analyse de clustering/Clustering analysis

### Q5 - Évaluer les changements dans la musique avec l'analyse des centroïdes/Evaluating the Changes in Music Using Centroid Analysis **(4 pt)**

##### Une autre technique largement utilisée en matière de clustering est l'**analyse centroïde**. L'analyse centroïde est utile pour interpréter les résultats des clusters, car elle révèle les tendances centrales des regroupements et met en évidence les principales caractéristiques et différences entre les groupes.

##### Vous allez maintenant travailler en tant que scientifique des données, en utilisant l'analyse centroïde pour examiner l'ensemble de données musicales. Vous devez diviser l'ensemble de données sur les hits en fonction des valeurs *release_date* suivantes:

1) De 1995 à 2000  
2) De 2001 à 2010  
3) De 2011 à 2019  

##### Rédigez ensuite une évaluation de l'évolution de la musique sur ces trois tranches temporelles. Vous devriez utiliser l'analyse des centroïdes pour suivre le mouvement des centroïdes des clusters K-Means au fil du temps, ce qui peut indiquer des changements dans les tendances musicales.

##### Conseil (non obligatoire): Sélectionnez deux caractéristiques et suivez leurs centroïdes pour observer leur évolution. Toutefois, les approches créatives sont vivement encouragées.

-----

##### Another widely used technique in clustering is **centroid analysis**. Centroid analysis is useful for interpreting clustering results, as it reveals the central tendencies of clusters and highlights key characteristics and differences between groups.

##### Now, you will work as a data scientist, using centroid analysis to examine the music dataset. You must split the hits dataset based on the following *release_date* values:

1) From 1995 to 2000  
2) From 2001 to 2010  
3) From 2011 to 2019  

##### Then, write an evaluation of the changes in music across these three time slices. You should use centroid analysis to track the movement of K-Means cluster centroids over time, which can indicate shifts in musical trends.

##### Tip (not mandatory): Select two features and track their centroids to observe how they change. However, creative approaches are highly encouraged.

In [498]:

hits_copy['release_date'] = pd.to_datetime(hits_copy['release_date'])
hits_copy['year'] = hits_copy['release_date'].dt.year

old = hits_copy[(hits_copy['year'] >= 1995) & (hits_copy['year'] <= 2000)].select_dtypes(include=['number'])
medium =  hits_copy[(hits_copy['year'] >= 2001) & (hits_copy['year'] <= 2010)].select_dtypes(include=['number'])
new=  hits_copy[(hits_copy['year'] >= 2011) & (hits_copy['year'] <= 2019)].select_dtypes(include=['number'])



In [499]:
old_centroid = old.mean(axis=0)
medium_centroid = medium.mean(axis=0)
new_centroid = new.mean(axis=0)

In [500]:
old_centroid

popularity                   35.562058
num_artists                   1.069844
num_available_markets        75.144408
duration_ms              235985.710241
key                           5.361963
mode                          0.694195
time_signature                3.944785
acousticness                  0.248472
danceability                  0.623155
energy                        0.630348
instrumentalness              0.032704
liveness                      0.190580
loudness                     -8.454187
speechiness                   0.070197
valence                       0.606586
tempo                       117.398495
year                       1997.571024
dtype: float64

In [501]:
medium_centroid

popularity                   36.736013
num_artists                   1.100276
num_available_markets        73.185382
duration_ms              226267.851852
key                           5.261623
mode                          0.728526
time_signature                3.939716
acousticness                  0.234339
danceability                  0.596593
energy                        0.669898
instrumentalness              0.036763
liveness                      0.197661
loudness                     -7.172347
speechiness                   0.077856
valence                       0.589318
tempo                       120.793379
year                       2006.158392
dtype: float64

In [502]:
new_centroid

popularity                   34.314652
num_artists                   1.052897
num_available_markets        75.188707
duration_ms              217436.875315
key                           5.216835
mode                          0.713686
time_signature                3.946893
acousticness                  0.270591
danceability                  0.604572
energy                        0.623664
instrumentalness              0.057420
liveness                      0.196524
loudness                     -8.067531
speechiness                   0.076547
valence                       0.561838
tempo                       121.636294
year                       2014.731948
dtype: float64

In [None]:
print(f' old centroid (between 1995 and 2000) :\n {old_centroid} \n medium centroids (between 2001 and 2010) : \n {medium_centroid} \n new centroids (between 2011 and 2019)  : \n {new_centroid}')

In [None]:
X = [old_centroid['duration_ms'], medium_centroid['duration_ms'], new_centroid['duration_ms']]  # Duration (in ms) for old, medium, and new centroids
Y = [old_centroid['valence'], medium_centroid['valence'], new_centroid['valence']]  # Valence for old, medium, and new centroids

# Labels for each point
labels = ['1995-2000', '2001-2010', '2011-2019']

# Colors for each point
colors = ['red', 'green', 'blue']

plt.figure()

# Plot each point with a unique color and label
for i, label in enumerate(labels):
    plt.scatter(X[i], Y[i], color=colors[i], s=100, label=label)  # s=100 sets the size of the points

# Set axis labels and title

plt.ylabel('Valence')
plt.title('Duration and Valence for Old, Medium, and New Centroids')


plt.legend(title='Time Periods')


plt.grid(True)
plt.show()

Parmi les deux caractéristiques pertinentes à analyser, on peut sélectionner la durée et la valence. On remarque notamment que la durée des chansons est devenue beaucoup plus courte à mesure que la période a avancé. Ceci est dû à l’accélération du mode de vie général de la population (un mode de vie plus stressant et moins de temps libre). De plus, on observe que la valence (c'est-à-dire le taux de positivité) a également diminué au fil du temps, ce qui pourrait indiquer une tendance plus générale à une population moins joyeuse et plus triste.


Parmi les autres caractéristiques intéressantes, on note que le volume sonore a augmenté dans les années 2000 avant de diminuer récemment, probablement en raison de la fin de la "loudness war" et de la normalisation du volume sur les plateformes de streaming. L'énergie a suivi un schéma similaire : hausse dans les années 2000 avec des morceaux plus dynamiques, puis une baisse récente en lien avec une préférence croissante pour des musiques plus calmes et introspectives, reflétant une adaptation aux modes de vie plus stressants et à la recherche de détente des auditeurs.



### Q6 - Analyse des valeurs aberrantes avec DBSCAN/Analyzing outliers using DBSCAN **(2.5 pts)**

##### **DBSCAN** (Density-Based Spatial Clustering of Applications with Noise) est un algorithme de clustering qui regroupe les points en fonction de leur densité dans l'espace. Il identifie les points centraux, c'est-à-dire ceux qui ont un nombre minimum de points voisins à une certaine distance (*epsilon*). Ces points centraux forment le centre d'un cluster, et tous les points voisins situés à moins de *epsilon* sont affectés à ce cluster.

##### Une caractéristique importante de DBSCAN est sa capacité à identifier les valeurs aberrantes potentielles. Cette analyse est cruciale pour identifier les chansons qui diffèrent significativement des autres.

##### Dans cette question, vous allez regrouper les données à l'aide de DBSCAN. Tracez les données résultantes à l'aide d'une technique de réduction de la dimensionnalité. Ensuite, sélectionnez trois points aberrants et rédigez une analyse expliquant pourquoi ils sont considérés comme aberrants. La valeur *epsilon* est-elle importante pour identifier ces valeurs aberrantes?

-----

##### **DBSCAN** (Density-Based Spatial Clustering of Applications with Noise) is a clustering algorithm that groups points based on their density in space. It works by identifying core points—those that have a minimum number of neighboring points within a certain distance (*epsilon*). These core points form the center of a cluster, and all nearby points within *epsilon* are assigned to that cluster.

##### One important characteristic of DBSCAN is its ability to identify potential outliers. This analysis is crucial for identifying songs that differ significantly from others.

##### In this question, you will cluster the data using DBSCAN. Plot the resulting data using a dimensionality reduction technique. Then, select three outlier points and write an analysis of why they are considered outliers. Is the *epsilon* value important for identifying these outliers?

In [None]:
data_reduced

In [None]:
from matplotlib.colors import ListedColormap

dbscan = DBSCAN(eps=0.5, min_samples=5)
pca = PCA(n_components= 2)
data_reduced = pca.fit_transform(hits)
clusters = dbscan.fit_predict(data_reduced)

plt.figure(figsize=(8, 6))

# Tracé des clusters
for i in range(max(clusters) + 1):  # Pour chaque cluster
    plt.scatter(data_reduced[clusters == i, 0], data_reduced[clusters == i, 1], color=colors[i], edgecolor='w', s=100, alpha=0.7, label=f'Cluster {i}')

# Tracé des outliers (cluster -1)
outliers = data_reduced[clusters == -1]
plt.scatter(outliers[:, 0], outliers[:, 1], s=100, c='blue', edgecolor='w', label='Outliers' , alpha=0.7)

# Sélection de trois points aberrants à entourer
selected_outliers = outliers[:3]  # Sélection des trois premiers outliers
colors_outliers = ['yellow' , 'pink' , 'purple']


for i,point in enumerate(selected_outliers):
    plt.scatter(point[0], point[1], s = 250,  edgecolors=colors_outliers[i] , facecolors='none' ,  linewidths=2 , label= f'outlier {i+1}')

# Ajouter une légende et afficher le graphique
plt.legend(title="Clusters")
plt.title('DBSCAN Clustering Visualized with PCA (Outliers Highlighted)')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.show()

# Afficher les trois points sélectionnés
print("Selected outliers (PCA-transformed):")
for i, point in enumerate(selected_outliers):
    print(f"Outlier {i+1}: {point}")

# Analyser pourquoi ils sont aberrants
for i, point in enumerate(selected_outliers):
    distances = np.linalg.norm(data_reduced - point, axis=1)
    neighbors_within_eps = np.sum(distances < dbscan.eps)
    print(f"Outlier {i+1} has {neighbors_within_eps} neighbors within eps ({dbscan.eps}).")



Les 3 points sélectionnés ont moins de 5 voisins à une distance epsilon, et tous ces voisins sont soit des border points (des points ayant moins de 5 voisins, mais dont au moins un est un core point), soit des outliers (des points ayant moins de 5 voisins et dont aucun n'est un core point).

### Q7 - Analyser les groupes avec le clustering hiérarchique/Analyzing groups with hierarchial clustering **(2.5 pts)**

##### **Le clustering hiérarchique** est une méthode de clustering sur la base d'une hiérarchie ou d'une structure arborescente. Elle construit des clusters imbriquées en fusionnant des clusters plus petits (approche agglomérative) ou en divisant des clusters plus grands (approche divisive). Le processus se poursuit jusqu'à ce que tous les points de données se trouvent dans un seul cluster ou que chaque point de données constitue son propre cluster.

##### Ce type de regroupement est très utile pour analyser les hiérarchies qui en résultent. Vous pouvez utiliser cette méthode pour examiner les relations entre les clusters et les modèles à plusieurs niveaux qui peuvent ne pas être facilement visibles avec d'autres méthodes.

##### Dans cette question, vous allez regrouper les données en utilisant le clustering hiérarchique avec la méthode de Ward. Toutes les caractéristiques sont-elles utiles dans ce regroupement? Représentez les données obtenues dans un dendrogramme. Rédigez ensuite une analyse des résultats obtenus.

-----

##### **Hierarchical clustering** is a method of grouping data points into clusters based on a hierarchy or tree-like structure. It builds nested clusters by either merging smaller clusters (agglomerative approach) or splitting larger ones (divisive approach). The process continues until all data points are in a single cluster or each data point is its own cluster.

##### This type of clustering is very useful for analyzing the resulting hierarchies. You can use this method to examine cluster relationships and multi-level patterns that may not be easily visible with other methods.

##### In this question, you will cluster the data using hierarchical clustering with Ward's linkage method. Are all the features useful in this clustering? Plot the resulting data in a dendrogram. Afterward, write an analysis of the results you find.

In [None]:
### CODE

Z = linkage(hits, method='ward')  # Ward's method
print(Z)


# Création du dendrogramme pour les 10 musiques sélectionnées
plt.figure(figsize=(10, 8))
dendrogram(
    Z,
    truncate_mode='lastp',  # Tronquer les autres branches
    p=10,  # Afficher seulement les 10 derniers noeuds formés
    show_leaf_counts=True
)
plt.title("Hierarchical Clustering Dendrogram - Sample of 10")
plt.xlabel("Sample index or (cluster size)")
plt.ylabel("Distance")


In [None]:
plt.figure(figsize=(10, 8))
dendrogram(
    Z,
    truncate_mode='lastp',  # Tronquer les autres branches
    p=10,  # Afficher seulement les 10 derniers noeuds formés
    show_leaf_counts=True
)
plt.title("Hierarchical Clustering Dendrogram ")
plt.xlabel("cluster size")
plt.ylabel("Distance")


In [None]:
import copy
k = 4 
cluster_labels = fcluster(Z, k, criterion='maxclust')

hits_analysis = copy.copy(hits) 
hits_analysis['cluster'] = cluster_labels



In [None]:
cluster_means = hits_analysis.groupby('cluster').mean()

# Afficher les moyennes de chaque cluster
print(cluster_means)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

num_columns = len(cluster_means.columns)
ncols = 5
nrows = (num_columns + ncols - 1) // ncols  # Arrondi à l'entier supérieur pour inclure tous les subplots

# Créer la figure et les axes
fig, axes = plt.subplots(nrows=nrows, ncols=ncols, figsize=(15, 6 * nrows), sharex='col', sharey='row')

# Parcourir toutes les variables et créer un graphe pour chaque
for i, column in enumerate(cluster_means.columns):
    ax = axes[i // ncols, i % ncols]  # Calculer la position correcte de l'axe dans la grille
    sns.barplot(x=cluster_means.index, y=cluster_means[column], ax=ax, palette='viridis')
    ax.set_title(f'Mean {column} by cluster')
    ax.set_xlabel('Cluster Label')
    ax.set_ylabel(f'Mean {column}')

# Cacher les axes qui ne sont pas utilisés (si le nombre de variables n'est pas un multiple de 5)
for j in range(i + 1, nrows * ncols):
    axes[j // ncols, j % ncols].set_visible(False)

# Ajuster l'espacement entre les subplots et afficher la figure
plt.tight_layout()
plt.show()

## Partie 3 - Systèmes de recommandation avec clustering/Recommendation systems using clustering

### Q8 - Recommander des chansons/Recommending Songs **(4 pt)**

#### **Les systèmes de recommandation** sont des algorithmes conçus pour suggérer des éléments pertinents aux utilisateurs en fonction de leurs préférences, de leur comportement ou de leurs interactions passées. Ils jouent un rôle crucial dans le filtrage de grandes quantités de données, en fournissant des recommandations personnalisées pour chaque utilisateur.

#### Dans cette question, vous devez construire un système de recommandation en utilisant le clustering. En utilisant la technique de votre choix, trouvez les meilleures suggestions musicales pour les chansons suivantes. Cependant, utilisez l'ensemble de données complet, *TP2_nonhits.csv*, pour cette tâche.  Vous pouvez télécharger le jeu de données ici: https://1drv.ms/f/s!AokVPhU6GPPQkv4NipxQg8IFaeRN6w. 

1) Id 3 - Ariana Grande, *Fake Smile*
2) Id 13252 - Kanye West, *All of the Lights* 
3) Id 284228 - Metallica, *Nothing Else Matters*
4) Id 386296 - Céline Dion, *Pour que tu m'aimes encore*  
5) Id 511119 - Aerosmith, *Dream On*  

#### Comme d'habitude, fournissez une analyse écrite de vos résultats. Toutes les caractéristiques sont-elles utiles? Existe-t-il une technique de clustering plus efficace pour construire un système de recommandation? Est-ce qu'il y a des caractéristiques mieux adaptées pour indiquer différents styles, différents artistes?

-----

#### **Recommendation systems** are algorithms designed to suggest relevant items to users based on their preferences, behavior, or past interactions. They play a crucial role in filtering vast amounts of data, providing personalized recommendations for each user.

#### In this question, you must build a recommendation system using clustering. Using the technique of your choice, find the best music suggestions for the following songs. However, use the full dataset, *TP2_nonhits.csv*, for this task. You can download the dataset here: https://1drv.ms/f/s!AokVPhU6GPPQkv4NipxQg8IFaeRN6w. 

1) Id 3 - Ariana Grande, *Fake Smile*  
2) Id 13252 - Kanye West, *All of the Lights*  
3) Id 284228 - Metallica, *Nothing Else Matters*  
4) Id 386296 - Celine Dion, *Pour que tu m'aimes encore*  
5) Id 511119 - Aerosmith, *Dream On*  

#### As usual, provide a written analysis of your results. Are all the features useful? Is there any clustering technique that is more effective for building a recommendation system? Are there features better suited to indicate different styles, different artists?

In [None]:
### CODE
non_hits = pd.read_csv('TP2_nonhits.csv', delimiter=';')


In [None]:
scaler = StandardScaler()
encoder = LabelEncoder()

numerical_data = non_hits.drop(columns=['song_name', 'name_artists'])
numerical_data['explicit'] = numerical_data['explicit'].astype(int)
numerical_data['release_date'] = pd.to_datetime(numerical_data['release_date'])
numerical_data['year'] = numerical_data['release_date'].dt.year
numerical_data['month'] = numerical_data['release_date'].dt.month
numerical_data['day'] = numerical_data['release_date'].dt.day
numerical_data['song_type'] = encoder.fit_transform(numerical_data['song_type'])
numerical_data.drop(columns='release_date' , inplace=True)
numerical_data.replace('-', np.nan, inplace=True)

imputer = SimpleImputer(strategy='mean')
numerical_data_imputed= imputer.fit_transform(numerical_data)

non_hits = pd.DataFrame( scaler.fit_transform(numerical_data_imputed) , columns=numerical_data.columns)

In [None]:
numerical_data

On remarque ici des valeurs manquantes pour certaines valeurs de notre dataset.On remplace donc les données de notre dataset manquantes en utilisant la moyenne (on aurait pu aussi utiliser la médiane). 

In [None]:
rows_with_nan = numerical_data[numerical_data.isna().any(axis=0)]
print(rows_with_nan)

In [None]:
non_hits[numerical_data.isna().any(axis=1)]