<a href="https://colab.research.google.com/github/MaxVieiraSantiago/Machine-Learning-Projects-with-Python/blob/main/008_Clustering_Music_Genres_with_Machine_Learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Clustering Music Genres with Machine Learning**

**Clustering** é uma técnica de aprendizado de máquina para **agrupar** pontos de dados caracterizados por recursos específicos. Agrupar gêneros musicais é uma tarefa de agrupar músicas com base nas semelhanças em suas características de áudio.

Se você deseja aprender a realizar análises de agrupamento em gêneros musicais, este artigo é para você. Iremos agrupar gêneros musicais com aprendizado de máquina usando Python.

In [1]:
from google.colab import drive
drive.mount( '/content/drive' )

Mounted at /content/drive


In [6]:
import pandas as pd
import numpy as np
from sklearn import cluster

url = 'https://raw.githubusercontent.com/MaxVieiraSantiago/Machine-Learning-Projects-with-Python/main/dataset/Spotify-2000.csv'

dados = pd.read_csv( url )
display( dados.head() )

Unnamed: 0,Index,Title,Artist,Top Genre,Year,Beats Per Minute (BPM),Energy,Danceability,Loudness (dB),Liveness,Valence,Length (Duration),Acousticness,Speechiness,Popularity
0,1,Sunrise,Norah Jones,adult standards,2004,157,30,53,-14,11,68,201,94,3,71
1,2,Black Night,Deep Purple,album rock,2000,135,79,50,-11,17,81,207,17,7,39
2,3,Clint Eastwood,Gorillaz,alternative hip hop,2001,168,69,66,-9,7,52,341,2,17,69
3,4,The Pretender,Foo Fighters,alternative metal,2007,173,96,43,-4,3,37,269,0,4,76
4,5,Waitin' On A Sunny Day,Bruce Springsteen,classic rock,2002,106,82,58,-5,10,87,256,1,3,59


Você pode ver todas as colunas do conjunto de dados na saída acima. Ele contém todos os recursos de áudio da música que são suficientes para encontrar semelhanças. Antes de prosseguir, vamos descartar a coluna do índice (**Index**), pois não serve para nada:

In [9]:
# Eliminando o campo Index, axis=1 significa a coluna
dados = dados.drop( 'Index', axis = 1 )

Agora vamos dar uma olhada na correlação entre todos os recursos de áudio no conjunto de dados:

In [10]:
display( dados.corr() )

Unnamed: 0,Year,Beats Per Minute (BPM),Energy,Danceability,Loudness (dB),Liveness,Valence,Acousticness,Speechiness,Popularity
Year,1.0,0.01257,0.147235,0.077493,0.343764,0.019017,-0.166163,-0.132946,0.054097,-0.158962
Beats Per Minute (BPM),0.01257,1.0,0.156644,-0.140602,0.092927,0.016256,0.059653,-0.122472,0.085598,-0.003181
Energy,0.147235,0.156644,1.0,0.139616,0.735711,0.174118,0.405175,-0.665156,0.205865,0.103393
Danceability,0.077493,-0.140602,0.139616,1.0,0.044235,-0.103063,0.514564,-0.135769,0.125229,0.144344
Loudness (dB),0.343764,0.092927,0.735711,0.044235,1.0,0.098257,0.147041,-0.451635,0.12509,0.165527
Liveness,0.019017,0.016256,0.174118,-0.103063,0.098257,1.0,0.050667,-0.046206,0.092594,-0.111978
Valence,-0.166163,0.059653,0.405175,0.514564,0.147041,0.050667,1.0,-0.239729,0.107102,0.095911
Acousticness,-0.132946,-0.122472,-0.665156,-0.135769,-0.451635,-0.046206,-0.239729,1.0,-0.098256,-0.087604
Speechiness,0.054097,0.085598,0.205865,0.125229,0.12509,0.092594,0.107102,-0.098256,1.0,0.111689
Popularity,-0.158962,-0.003181,0.103393,0.144344,0.165527,-0.111978,0.095911,-0.087604,0.111689,1.0


# **Análise de agrupamento de recursos de áudio**

Agora usaremos o algoritmo de agrupamento **K-means** para encontrar as semelhanças entre todos os recursos de áudio. Em seguida, adicionaremos clusters no conjunto de dados com base nas semelhanças que encontramos. Então, vamos criar um novo conjunto de dados de todas as características de áudio e realizar a análise de agrupamento usando o algoritmo de agrupamento **K-means**:

In [32]:
dadosB = dados[ [ "Beats Per Minute (BPM)", 
                  "Loudness (dB)",
                  "Liveness", 
                  "Valence", 
                  "Acousticness", 
                  "Speechiness"] ]

from sklearn.preprocessing import MinMaxScaler
for i in dadosB.columns:
  MinMaxScaler(i)

from sklearn.cluster import KMeans
KMeans = KMeans(n_clusters=10)
clusters = KMeans.fit_predict(dadosB)

Agora adicionaremos os clusters conforme previsto pelo algoritmo de agrupamento **K-means** ao conjunto de dados original:

In [33]:
dados['Segmento_Musical'] = clusters
MinMaxScaler( dados['Segmento_Musical'] )

dados['Segmento_Musical'] = dados['Segmento_Musical'].map( {0: 'Cluster 1', 
                                                            1: 'Cluster 2',
                                                            2: 'Cluster 3',
                                                            3: 'Cluster 4',
                                                            4: 'Cluster 5',
                                                            5: 'Cluster 6',
                                                            6: 'Cluster 7',
                                                            7: 'Cluster 8',
                                                            8: 'Cluster 9',
                                                            9:'Cluster 10'} )

Agora vamos dar uma olhada no conjunto de dados com clusters:

In [34]:
display( dados.head() )

Unnamed: 0,Title,Artist,Top Genre,Year,Beats Per Minute (BPM),Energy,Danceability,Loudness (dB),Liveness,Valence,Length (Duration),Acousticness,Speechiness,Popularity,Segmento_Musical
0,Sunrise,Norah Jones,adult standards,2004,157,30,53,-14,11,68,201,94,3,71,Cluster 7
1,Black Night,Deep Purple,album rock,2000,135,79,50,-11,17,81,207,17,7,39,Cluster 6
2,Clint Eastwood,Gorillaz,alternative hip hop,2001,168,69,66,-9,7,52,341,2,17,69,Cluster 3
3,The Pretender,Foo Fighters,alternative metal,2007,173,96,43,-4,3,37,269,0,4,76,Cluster 3
4,Waitin' On A Sunny Day,Bruce Springsteen,classic rock,2002,106,82,58,-5,10,87,256,1,3,59,Cluster 8


Agora vamos visualizar os clusters com base em alguns dos recursos de áudio:

In [35]:
import plotly.graph_objects as go
PLOT = go.Figure()

for i in list( dados["Segmento_Musical"].unique() ):
    PLOT.add_trace(go.Scatter3d(x = dados[ dados["Segmento_Musical"] == i ]['Beats Per Minute (BPM)'],
                                y = dados[ dados["Segmento_Musical"] == i ]['Energy'],
                                z = dados[ dados["Segmento_Musical"] == i ]['Danceability'],                        
                                mode              = 'markers',
                                marker_size       = 6, 
                                marker_line_width = 1,
                                name              = str(i)))
    
PLOT.update_traces(hovertemplate='BPM: %{x} <br>Energia: %{y} <br>Dançabilidade: %{z}')
    
PLOT.update_layout(width = 1000, height = 800, autosize = True, showlegend = True,
                   scene = dict(xaxis=dict(title = 'BPM'           , titlefont_color = 'black'),
                                yaxis=dict(title = 'Energia'       , titlefont_color = 'black'),
                                zaxis=dict(title = 'Dançabilidade' , titlefont_color = 'black')),
                   font = dict(family = "Gilroy", color  = 'black', size = 12))

# **Resumo**

Então é assim que você pode realizar análise de cluster de gêneros musicais com aprendizado de máquina usando **Python**. Agrupar gêneros musicais é uma tarefa de agrupar músicas com base nas semelhanças em seus recursos de áudio. Este foi um exemplo de como agrupar gêneros musicais com aprendizado de máquina.