## **Musique nigériane extraite de Spotify - une analyse**

Le clustering est un type d'[apprentissage non supervisé](https://wikipedia.org/wiki/Apprentissage_non_supervis%C3%A9) qui suppose qu'un ensemble de données n'est pas étiqueté ou que ses entrées ne sont pas associées à des sorties prédéfinies. Il utilise divers algorithmes pour trier les données non étiquetées et fournir des regroupements en fonction des motifs qu'il discerne dans les données.

[**Quiz avant le cours**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)

### **Introduction**

[Le clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) est très utile pour explorer les données. Voyons s'il peut aider à découvrir des tendances et des motifs dans la manière dont les audiences nigérianes consomment de la musique.

> ✅ Prenez une minute pour réfléchir aux utilisations du clustering. Dans la vie quotidienne, le clustering se produit chaque fois que vous avez une pile de linge à trier pour séparer les vêtements des membres de votre famille 🧦👕👖🩲. En science des données, le clustering intervient lorsqu'il s'agit d'analyser les préférences d'un utilisateur ou de déterminer les caractéristiques d'un ensemble de données non étiqueté. Le clustering, d'une certaine manière, aide à donner du sens au chaos, comme un tiroir à chaussettes.

Dans un cadre professionnel, le clustering peut être utilisé pour déterminer des segments de marché, comme identifier quels groupes d'âge achètent quels articles, par exemple. Une autre utilisation serait la détection d'anomalies, peut-être pour repérer des fraudes dans un ensemble de données de transactions par carte de crédit. Ou encore, vous pourriez utiliser le clustering pour identifier des tumeurs dans un lot de scans médicaux.

✅ Prenez une minute pour réfléchir à la manière dont vous avez pu rencontrer le clustering 'dans la nature', dans un contexte bancaire, e-commerce ou commercial.

> 🎓 Fait intéressant, l'analyse de clusters a vu le jour dans les domaines de l'anthropologie et de la psychologie dans les années 1930. Pouvez-vous imaginer comment elle aurait pu être utilisée ?

Alternativement, vous pourriez l'utiliser pour regrouper des résultats de recherche - par liens d'achat, images ou avis, par exemple. Le clustering est utile lorsque vous avez un grand ensemble de données que vous souhaitez réduire et sur lequel vous voulez effectuer une analyse plus détaillée. Cette technique peut donc être utilisée pour mieux comprendre les données avant de construire d'autres modèles.

✅ Une fois vos données organisées en clusters, vous leur attribuez un identifiant de cluster. Cette technique peut être utile pour préserver la confidentialité d'un ensemble de données ; vous pouvez alors vous référer à un point de données par son identifiant de cluster, plutôt que par des données identifiables plus révélatrices. Pouvez-vous penser à d'autres raisons pour lesquelles vous préféreriez utiliser un identifiant de cluster plutôt que d'autres éléments du cluster pour l'identifier ?

### Premiers pas avec le clustering

> 🎓 La manière dont nous créons des clusters dépend beaucoup de la façon dont nous regroupons les points de données en groupes. Décomposons un peu le vocabulaire :
>
> 🎓 ['Transductif' vs. 'inductif'](https://wikipedia.org/wiki/Transduction_(machine_learning))
>
> L'inférence transductive est dérivée des cas d'entraînement observés qui correspondent à des cas de test spécifiques. L'inférence inductive est dérivée des cas d'entraînement qui mènent à des règles générales, lesquelles sont ensuite appliquées aux cas de test.
>
> Un exemple : Imaginez que vous avez un ensemble de données partiellement étiqueté. Certains éléments sont des 'disques', d'autres des 'CD', et certains sont vides. Votre tâche est de fournir des étiquettes pour les éléments vides. Si vous choisissez une approche inductive, vous entraîneriez un modèle à rechercher des 'disques' et des 'CD', et appliqueriez ces étiquettes aux données non étiquetées. Cette approche aurait du mal à classer des éléments qui sont en réalité des 'cassettes'. Une approche transductive, en revanche, gère ces données inconnues plus efficacement en regroupant des éléments similaires et en appliquant ensuite une étiquette à un groupe. Dans ce cas, les clusters pourraient refléter 'objets musicaux ronds' et 'objets musicaux carrés'.
>
> 🎓 ['Géométrie non plate' vs. 'plate'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)
>
> Tirée de la terminologie mathématique, la géométrie non plate vs. plate fait référence à la mesure des distances entre les points par des méthodes géométriques 'plates' ([Euclidiennes](https://wikipedia.org/wiki/G%C3%A9om%C3%A9trie_euclidienne)) ou 'non plates' (non Euclidiennes).
>
> 'Plate' dans ce contexte fait référence à la géométrie Euclidienne (dont certaines parties sont enseignées comme la géométrie 'plane'), et 'non plate' fait référence à la géométrie non Euclidienne. Quel rapport avec l'apprentissage automatique ? Eh bien, en tant que deux domaines enracinés dans les mathématiques, il doit y avoir une manière commune de mesurer les distances entre les points dans les clusters, et cela peut être fait de manière 'plate' ou 'non plate', selon la nature des données. Les [distances Euclidiennes](https://wikipedia.org/wiki/Distance_euclidienne) sont mesurées comme la longueur d'un segment de ligne entre deux points. Les [distances non Euclidiennes](https://wikipedia.org/wiki/G%C3%A9om%C3%A9trie_non_euclidienne) sont mesurées le long d'une courbe. Si vos données, visualisées, semblent ne pas exister sur un plan, vous pourriez avoir besoin d'utiliser un algorithme spécialisé pour les traiter.

<p >
   <img src="../../images/flat-nonflat.png"
   width="600"/>
   <figcaption>Infographie par Dasani Madipalli</figcaption>



> 🎓 ['Distances'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf)
>
> Les clusters sont définis par leur matrice de distances, c'est-à-dire les distances entre les points. Cette distance peut être mesurée de plusieurs façons. Les clusters Euclidiens sont définis par la moyenne des valeurs des points et contiennent un 'centroïde' ou point central. Les distances sont donc mesurées par rapport à ce centroïde. Les distances non Euclidiennes font référence aux 'clustroïdes', le point le plus proche des autres points. Les clustroïdes peuvent à leur tour être définis de différentes manières.
>
> 🎓 ['Contraint'](https://wikipedia.org/wiki/Constrained_clustering)
>
> Le [clustering contraint](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) introduit l'apprentissage 'semi-supervisé' dans cette méthode non supervisée. Les relations entre les points sont marquées comme 'ne peut pas lier' ou 'doit lier', ce qui impose certaines règles à l'ensemble de données.
>
> Un exemple : Si un algorithme est laissé libre sur un lot de données non étiquetées ou semi-étiquetées, les clusters qu'il produit peuvent être de mauvaise qualité. Dans l'exemple ci-dessus, les clusters pourraient regrouper 'objets musicaux ronds', 'objets musicaux carrés', 'objets triangulaires' et 'biscuits'. Si on lui donne des contraintes ou des règles à suivre ("l'objet doit être en plastique", "l'objet doit pouvoir produire de la musique"), cela peut aider à 'contraindre' l'algorithme à faire de meilleurs choix.
>
> 🎓 'Densité'
>
> Les données 'bruyantes' sont considérées comme 'denses'. Les distances entre les points dans chacun de ses clusters peuvent s'avérer, après examen, plus ou moins denses, ou 'concentrées', et ces données doivent donc être analysées avec la méthode de clustering appropriée. [Cet article](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) montre la différence entre l'utilisation des algorithmes de clustering K-Means et HDBSCAN pour explorer un ensemble de données bruyant avec une densité de clusters inégale.

Approfondissez votre compréhension des techniques de clustering dans ce [module d'apprentissage](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott)

### **Algorithmes de clustering**

Il existe plus de 100 algorithmes de clustering, et leur utilisation dépend de la nature des données à traiter. Discutons de quelques-uns des principaux :

-   **Clustering hiérarchique**. Si un objet est classé par sa proximité avec un objet voisin, plutôt qu'avec un objet plus éloigné, les clusters sont formés en fonction de la distance entre leurs membres. Le clustering hiérarchique se caractérise par la combinaison répétée de deux clusters.

<p >
   <img src="../../images/hierarchical.png"
   width="600"/>
   <figcaption>Infographie par Dasani Madipalli</figcaption>



-   **Clustering par centroïde**. Cet algorithme populaire nécessite de choisir 'k', ou le nombre de clusters à former, après quoi l'algorithme détermine le point central d'un cluster et regroupe les données autour de ce point. Le [clustering K-means](https://wikipedia.org/wiki/K-means_clustering) est une version populaire du clustering par centroïde qui divise un ensemble de données en K groupes prédéfinis. Le centre est déterminé par la moyenne la plus proche, d'où son nom. La distance au carré par rapport au cluster est minimisée.

<p >
   <img src="../../images/centroid.png"
   width="600"/>
   <figcaption>Infographie par Dasani Madipalli</figcaption>



-   **Clustering basé sur la distribution**. Basé sur la modélisation statistique, le clustering basé sur la distribution se concentre sur la détermination de la probabilité qu'un point de données appartienne à un cluster, et l'y attribue en conséquence. Les méthodes de mélange gaussien appartiennent à ce type.

-   **Clustering basé sur la densité**. Les points de données sont attribués à des clusters en fonction de leur densité, ou de leur regroupement autour les uns des autres. Les points de données éloignés du groupe sont considérés comme des anomalies ou du bruit. DBSCAN, Mean-shift et OPTICS appartiennent à ce type de clustering.

-   **Clustering basé sur une grille**. Pour les ensembles de données multidimensionnels, une grille est créée et les données sont réparties entre les cellules de la grille, créant ainsi des clusters.

La meilleure façon d'apprendre le clustering est de l'essayer vous-même, et c'est ce que vous ferez dans cet exercice.

Nous aurons besoin de quelques packages pour compléter ce module. Vous pouvez les installer avec : `install.packages(c('tidyverse', 'tidymodels', 'DataExplorer', 'summarytools', 'plotly', 'paletteer', 'corrplot', 'patchwork'))`

Alternativement, le script ci-dessous vérifie si vous avez les packages nécessaires pour compléter ce module et les installe pour vous si certains sont manquants.


In [None]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))

pacman::p_load('tidyverse', 'tidymodels', 'DataExplorer', 'summarytools', 'plotly', 'paletteer', 'corrplot', 'patchwork')


## Exercice - Regroupez vos données

Le clustering, en tant que technique, est grandement facilité par une bonne visualisation. Commençons donc par visualiser nos données musicales. Cet exercice nous aidera à déterminer quelle méthode de clustering utiliser le plus efficacement en fonction de la nature de ces données.

Allons-y directement en important les données.


In [None]:
# Load the core tidyverse and make it available in your current R session
library(tidyverse)

# Import the data into a tibble
df <- read_csv(file = "https://raw.githubusercontent.com/microsoft/ML-For-Beginners/main/5-Clustering/data/nigerian-songs.csv")

# View the first 5 rows of the data set
df %>% 
  slice_head(n = 5)


Parfois, nous pouvons vouloir obtenir un peu plus d'informations sur nos données. Nous pouvons examiner les `données` et `leur structure` en utilisant la fonction [*glimpse()*](https://pillar.r-lib.org/reference/glimpse.html) :


In [None]:
# Glimpse into the data set
df %>% 
  glimpse()


Bon travail ! 💪

On peut observer que `glimpse()` vous donne le nombre total de lignes (observations) et de colonnes (variables), puis les premières entrées de chaque variable dans une ligne après le nom de la variable. De plus, le *type de données* de la variable est indiqué immédiatement après le nom de chaque variable entre `< >`.

`DataExplorer::introduce()` peut résumer ces informations de manière concise :


In [None]:
# Describe basic information for our data
df %>% 
  introduce()

# A visual display of the same
df %>% 
  plot_intro()


Super ! Nous venons d'apprendre que nos données ne contiennent aucune valeur manquante.

Pendant que nous y sommes, nous pouvons explorer les statistiques courantes de tendance centrale (par exemple, [moyenne](https://en.wikipedia.org/wiki/Arithmetic_mean) et [médiane](https://en.wikipedia.org/wiki/Median)) ainsi que les mesures de dispersion (par exemple, [écart-type](https://en.wikipedia.org/wiki/Standard_deviation)) en utilisant `summarytools::descr()`.


In [None]:
# Describe common statistics
df %>% 
  descr(stats = "common")


Examinons les valeurs générales des données. Notez que la popularité peut être `0`, ce qui indique des chansons qui n'ont pas de classement. Nous les supprimerons bientôt.

> 🤔 Si nous travaillons avec le clustering, une méthode non supervisée qui ne nécessite pas de données étiquetées, pourquoi montrons-nous ces données avec des étiquettes ? Lors de la phase d'exploration des données, elles sont utiles, mais elles ne sont pas nécessaires pour que les algorithmes de clustering fonctionnent.

### 1. Explorer les genres populaires

Allons-y et découvrons les genres les plus populaires 🎶 en comptant le nombre d'occurrences.


In [None]:
# Popular genres
top_genres <- df %>% 
  count(artist_top_genre, sort = TRUE) %>% 
# Encode to categorical and reorder the according to count
  mutate(artist_top_genre = factor(artist_top_genre) %>% fct_inorder())

# Print the top genres
top_genres


Ça s'est bien passé ! On dit qu'une image vaut mille lignes d'un tableau de données (en fait, personne ne dit jamais ça 😅). Mais vous voyez l'idée, n'est-ce pas ?

Une façon de visualiser des données catégoriques (variables de type caractère ou facteur) est d'utiliser des diagrammes en barres. Créons un diagramme en barres des 10 genres les plus populaires :


In [None]:
# Change the default gray theme
theme_set(theme_light())

# Visualize popular genres
top_genres %>%
  slice(1:10) %>% 
  ggplot(mapping = aes(x = artist_top_genre, y = n,
                       fill = artist_top_genre)) +
  geom_col(alpha = 0.8) +
  paletteer::scale_fill_paletteer_d("rcartocolor::Vivid") +
  ggtitle("Top genres") +
  theme(plot.title = element_text(hjust = 0.5),
        # Rotates the X markers (so we can read them)
    axis.text.x = element_text(angle = 90))


Maintenant, c'est beaucoup plus facile d'identifier que nous avons des genres `manquants` 🧐 !

> Une bonne visualisation vous montrera des choses auxquelles vous ne vous attendiez pas, ou soulèvera de nouvelles questions sur les données - Hadley Wickham et Garrett Grolemund, [R For Data Science](https://r4ds.had.co.nz/introduction.html)

Notez que lorsque le genre principal est décrit comme `Manquant`, cela signifie que Spotify ne l'a pas classifié, alors débarrassons-nous-en.


In [None]:
# Visualize popular genres
top_genres %>%
  filter(artist_top_genre != "Missing") %>% 
  slice(1:10) %>% 
  ggplot(mapping = aes(x = artist_top_genre, y = n,
                       fill = artist_top_genre)) +
  geom_col(alpha = 0.8) +
  paletteer::scale_fill_paletteer_d("rcartocolor::Vivid") +
  ggtitle("Top genres") +
  theme(plot.title = element_text(hjust = 0.5),
        # Rotates the X markers (so we can read them)
    axis.text.x = element_text(angle = 90))


À partir de cette petite exploration des données, nous apprenons que les trois genres principaux dominent ce jeu de données. Concentrons-nous sur `afro dancehall`, `afropop` et `nigerian pop`, et filtrons également le jeu de données pour supprimer tout ce qui a une valeur de popularité égale à 0 (ce qui signifie qu'il n'a pas été classé avec une popularité dans le jeu de données et peut être considéré comme du bruit pour nos objectifs) :


In [None]:
nigerian_songs <- df %>% 
  # Concentrate on top 3 genres
  filter(artist_top_genre %in% c("afro dancehall", "afropop","nigerian pop")) %>% 
  # Remove unclassified observations
  filter(popularity != 0)



# Visualize popular genres
nigerian_songs %>%
  count(artist_top_genre) %>%
  ggplot(mapping = aes(x = artist_top_genre, y = n,
                       fill = artist_top_genre)) +
  geom_col(alpha = 0.8) +
  paletteer::scale_fill_paletteer_d("ggsci::category10_d3") +
  ggtitle("Top genres") +
  theme(plot.title = element_text(hjust = 0.5))


Voyons s'il existe une relation linéaire apparente entre les variables numériques de notre ensemble de données. Cette relation est quantifiée mathématiquement par la [statistique de corrélation](https://en.wikipedia.org/wiki/Correlation).

La statistique de corrélation est une valeur comprise entre -1 et 1 qui indique la force d'une relation. Des valeurs supérieures à 0 indiquent une corrélation *positive* (des valeurs élevées d'une variable tendent à coïncider avec des valeurs élevées de l'autre), tandis que des valeurs inférieures à 0 indiquent une corrélation *négative* (des valeurs élevées d'une variable tendent à coïncider avec des valeurs faibles de l'autre).


In [None]:
# Narrow down to numeric variables and fid correlation
corr_mat <- nigerian_songs %>% 
  select(where(is.numeric)) %>% 
  cor()

# Visualize correlation matrix
corrplot(corr_mat, order = 'AOE', col = c('white', 'black'), bg = 'gold2')  


Les données ne sont pas fortement corrélées, sauf entre `energy` et `loudness`, ce qui est logique, étant donné que la musique forte est généralement assez énergique. `Popularity` a une correspondance avec `release date`, ce qui est également logique, car les chansons plus récentes sont probablement plus populaires. La longueur et l'énergie semblent également avoir une corrélation.

Il sera intéressant de voir ce qu'un algorithme de clustering peut tirer de ces données !

> 🎓 Notez que corrélation ne signifie pas causalité ! Nous avons une preuve de corrélation, mais aucune preuve de causalité. Un [site web amusant](https://tylervigen.com/spurious-correlations) propose des visuels qui soulignent ce point.

### 2. Explorer la distribution des données

Posons-nous des questions plus subtiles. Les genres sont-ils significativement différents dans la perception de leur danseabilité, en fonction de leur popularité ? Examinons la distribution des données de nos trois genres principaux pour la popularité et la danseabilité le long d'un axe x et y donné à l'aide de [courbes de densité](https://www.khanacademy.org/math/ap-statistics/density-curves-normal-distribution-ap/density-curves/v/density-curves).


In [None]:
# Perform 2D kernel density estimation
density_estimate_2d <- nigerian_songs %>% 
  ggplot(mapping = aes(x = popularity, y = danceability, color = artist_top_genre)) +
  geom_density_2d(bins = 5, size = 1) +
  paletteer::scale_color_paletteer_d("RSkittleBrewer::wildberry") +
  xlim(-20, 80) +
  ylim(0, 1.2)

# Density plot based on the popularity
density_estimate_pop <- nigerian_songs %>% 
  ggplot(mapping = aes(x = popularity, fill = artist_top_genre, color = artist_top_genre)) +
  geom_density(size = 1, alpha = 0.5) +
  paletteer::scale_fill_paletteer_d("RSkittleBrewer::wildberry") +
  paletteer::scale_color_paletteer_d("RSkittleBrewer::wildberry") +
  theme(legend.position = "none")

# Density plot based on the danceability
density_estimate_dance <- nigerian_songs %>% 
  ggplot(mapping = aes(x = danceability, fill = artist_top_genre, color = artist_top_genre)) +
  geom_density(size = 1, alpha = 0.5) +
  paletteer::scale_fill_paletteer_d("RSkittleBrewer::wildberry") +
  paletteer::scale_color_paletteer_d("RSkittleBrewer::wildberry")


# Patch everything together
library(patchwork)
density_estimate_2d / (density_estimate_pop + density_estimate_dance)


Nous observons que des cercles concentriques s'alignent, quel que soit le genre. Serait-il possible que les goûts nigérians convergent à un certain niveau de dansabilité pour ce genre ?

En général, les trois genres s'alignent en termes de popularité et de dansabilité. Identifier des regroupements dans ces données faiblement alignées sera un défi. Voyons si un diagramme de dispersion peut nous aider à confirmer cela.


In [None]:
# A scatter plot of popularity and danceability
scatter_plot <- nigerian_songs %>% 
  ggplot(mapping = aes(x = popularity, y = danceability, color = artist_top_genre, shape = artist_top_genre)) +
  geom_point(size = 2, alpha = 0.8) +
  paletteer::scale_color_paletteer_d("futurevisions::mars")

# Add a touch of interactivity
ggplotly(scatter_plot)


Un nuage de points des mêmes axes montre un schéma similaire de convergence.

En général, pour le regroupement, vous pouvez utiliser des nuages de points pour montrer des groupes de données, donc maîtriser ce type de visualisation est très utile. Dans la prochaine leçon, nous utiliserons ces données filtrées et appliquerons le regroupement par k-means pour découvrir des groupes dans ces données qui semblent se chevaucher de manière intéressante.

## **🚀 Défi**

En préparation de la prochaine leçon, créez un graphique sur les différents algorithmes de regroupement que vous pourriez découvrir et utiliser dans un environnement de production. Quels types de problèmes le regroupement cherche-t-il à résoudre ?

## [**Quiz après le cours**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/28/)

## **Révision & Auto-apprentissage**

Avant d'appliquer des algorithmes de regroupement, comme nous l'avons appris, il est important de comprendre la nature de votre jeu de données. Lisez davantage sur ce sujet [ici](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html)

Approfondissez votre compréhension des techniques de regroupement :

-   [Entraîner et évaluer des modèles de regroupement avec Tidymodels et ses outils](https://rpubs.com/eR_ic/clustering)

-   Bradley Boehmke & Brandon Greenwell, [*Hands-On Machine Learning with R*](https://bradleyboehmke.github.io/HOML/)*.*

## **Devoir**

[Explorez d'autres visualisations pour le regroupement](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/assignment.md)

## REMERCIEMENTS À :

[Jen Looper](https://www.twitter.com/jenlooper) pour avoir créé la version originale en Python de ce module ♥️

[`Dasani Madipalli`](https://twitter.com/dasani_decoded) pour avoir créé les illustrations incroyables qui rendent les concepts d'apprentissage automatique plus compréhensibles et faciles à assimiler.

Bon apprentissage,

[Eric](https://twitter.com/ericntay), Gold Microsoft Learn Student Ambassador.



---

**Avertissement** :  
Ce document a été traduit à l'aide du service de traduction automatique [Co-op Translator](https://github.com/Azure/co-op-translator). Bien que nous nous efforcions d'assurer l'exactitude, veuillez noter que les traductions automatisées peuvent contenir des erreurs ou des inexactitudes. Le document original dans sa langue d'origine doit être considéré comme la source faisant autorité. Pour des informations critiques, il est recommandé de faire appel à une traduction humaine professionnelle. Nous déclinons toute responsabilité en cas de malentendus ou d'interprétations erronées résultant de l'utilisation de cette traduction.
