## Clustering aplicado: recomendando músicas com K-Means

## Aula 1: Etendendo o problema

Bases udadas:

* Dados gerais de músicas

* Dados relacionados à gêneros

* Dados relacionados aos anos

### `Meta data`

* `Acousticness/Acústica:` Variável numérica, medida de confiança de 0,0 a 1,0 se a faixa é acústica. 1.0 representa alta confiança de que a faixa é acústica.

* `Danceability/Dançabilidade:` Variável numérica, a dançabilidade descreve o quão adequada uma faixa é para dançar com base em uma combinação de elementos musicais, incluindo tempo, estabilidade do ritmo, força da batida e regularidade geral. Um valor de 0,0 é o menos dançável e 1,0 é o mais dançável.

* `Duration_ms:` Variável numérica, a duração da trilha em milissegundos.

* `Duration_min:` Variável numérica, a duração da faixa em minutos.

* `Energy/Energia:` Variável numérica, Energia é uma medida de 0,0 a 1,0 e representa uma medida perceptiva de intensidade e atividade. Normalmente, as faixas energéticas parecem rápidas, altas e barulhentas. Por exemplo, o death metal tem alta energia, enquanto um prelúdio de Bach tem uma pontuação baixa na escala. As características perceptivas que contribuem para este atributo incluem faixa dinâmica, intensidade percebida, timbre, taxa de início e entropia geral.

* `Explicit/Explícito:` Variável categórica, se a faixa tem ou não letras explícitas (verdadeiro = sim (1); falso = não(0), não OU desconhecido).

* `Id:` O ID do Spotify para a faixa.

* `Instrumentalness/Instrumentalidade:` Variável numérica, prevê se uma faixa não contém vocais. Os sons “Ooh” e “aah” são tratados como instrumentais neste contexto. Faixas de rap ou de palavras faladas são claramente “vocais”. Quanto mais próximo o valor de instrumentalidade estiver de 1,0, maior a probabilidade de a faixa não conter conteúdo vocal. Valores acima de 0,5 destinam-se a representar faixas instrumentais, mas a confiança é maior à medida que o valor se aproxima de 1,0.

* `Key/Chave:` Variável numérica, a chave geral estimada da faixa. Os inteiros são mapeados para pitchs usando a notação padrão de Pitch Class. Por exemplo. 0 = C, 1 = C#/Db, 2 = D, e assim por diante. Se nenhuma chave foi detectada, o valor é -1.

* `Liveness/ Ao vivo:` Variável numérica, detecta a presença de um público na gravação. Valores mais altos de vivacidade representam uma probabilidade maior de que a faixa tenha sido executada ao vivo. Um valor acima de 0,8 fornece uma forte probabilidade de que a faixa esteja ativa.

* `Loudness/ Volume em dB:` Variável numérica, volume geral de uma faixa em decibéis (dB). Os valores de volume são calculados em média em toda a faixa e são úteis para comparar o volume relativo das faixas. A sonoridade é a qualidade de um som que é o principal correlato psicológico da força física (amplitude). Os valores típicos variam entre -60 e 0 db.

* `Mode/ Modo:` Variável numérica, o modo indica a modalidade (maior ou menor) de uma faixa, o tipo de escala da qual seu conteúdo melódico é derivado. Maior é representado por 1 e menor é 0.

* `Popularity/Popularidade:` Variável numérica, a popularidade de uma faixa é um valor entre 0 e 100, sendo 100 o mais popular. A popularidade é calculada por algoritmo e é baseada, em grande parte, no número total de execuções que a faixa teve e quão recentes são essas execuções.

* `Speechiness/Fala:` Variável numérica, a fala detecta a presença de palavras faladas em uma faixa. Quanto mais exclusivamente falada a gravação (por exemplo, talk show, audiolivro, poesia), mais próximo de 1,0 o valor do atributo. Valores acima de 0,66 descrevem faixas que provavelmente são feitas inteiramente de palavras faladas. Valores entre 0,33 e 0,66 descrevem faixas que podem conter música e fala, seja em seções ou em camadas, incluindo casos como música rap. Os valores abaixo de 0,33 provavelmente representam músicas e outras faixas que não são de fala.

* `Tempo:` Variável numérica, Tempo estimado geral de uma faixa em batidas por minuto (BPM). Na terminologia musical, tempo é a velocidade ou ritmo de uma determinada peça e deriva diretamente da duração média da batida.

* `Valence/Valência:` Variável numérica, Medida de 0,0 a 1,0 descrevendo a positividade musical transmitida por uma faixa. Faixas com alta valência soam mais positivas (por exemplo, feliz, alegre, eufórica), enquanto faixas com baixa valência soam mais negativas (por exemplo, triste, deprimida, irritada).

* `Year/Ano:` Ano em que a música foi lançada.


### `Preparando ambiente`

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px
import matplotlib.pyplot as plt

  from pandas.core import (


### `Análise dos dados`

In [2]:
# Importando os dados
df = pd.read_csv('https://raw.githubusercontent.com/sthemonica/music-clustering/main/Dados/Dados_totais.csv')
df_generos = pd.read_csv('https://raw.githubusercontent.com/sthemonica/music-clustering/main/Dados/data_by_genres.csv')
df_anos = pd.read_csv('https://raw.githubusercontent.com/sthemonica/music-clustering/main/Dados/data_by_year.csv')

#### Dados gerais
---

In [3]:
df.head(2)

Unnamed: 0,valence,year,acousticness,artists,danceability,duration_ms,energy,explicit,id,instrumentalness,key,liveness,loudness,mode,name,popularity,speechiness,tempo,artists_song
0,0.285,2000,0.00239,Coldplay,0.429,266773,0.661,0,3AJwUDP919kvQ9QcozQPxg,0.000121,11,0.234,-7.227,1,Yellow,84,0.0281,173.372,Coldplay - Yellow
1,0.613,2000,0.143,OutKast,0.843,270507,0.806,1,0I3q5fE6wg7LIfHGngUTnV,0.0,4,0.0771,-5.946,0,Ms. Jackson,80,0.269,94.948,OutKast - Ms. Jackson


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20311 entries, 0 to 20310
Data columns (total 19 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   valence           20311 non-null  float64
 1   year              20311 non-null  int64  
 2   acousticness      20311 non-null  float64
 3   artists           20311 non-null  object 
 4   danceability      20311 non-null  float64
 5   duration_ms       20311 non-null  int64  
 6   energy            20311 non-null  float64
 7   explicit          20311 non-null  int64  
 8   id                20311 non-null  object 
 9   instrumentalness  20311 non-null  float64
 10  key               20311 non-null  int64  
 11  liveness          20311 non-null  float64
 12  loudness          20311 non-null  float64
 13  mode              20311 non-null  int64  
 14  name              20311 non-null  object 
 15  popularity        20311 non-null  int64  
 16  speechiness       20311 non-null  float6

In [5]:
# Checando os anos das musicas

df['year'].unique()

array([2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010,
       2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020])

In [6]:
# Verificando dimensções do df

df.shape

(20311, 19)

In [7]:
# Removendo 'explicit', 'key', 'mode' do conjunto de dados

df.drop(columns=['explicit', 'key', 'mode'], inplace=True)
print(df.shape)
df.head(2)

(20311, 16)


Unnamed: 0,valence,year,acousticness,artists,danceability,duration_ms,energy,id,instrumentalness,liveness,loudness,name,popularity,speechiness,tempo,artists_song
0,0.285,2000,0.00239,Coldplay,0.429,266773,0.661,3AJwUDP919kvQ9QcozQPxg,0.000121,0.234,-7.227,Yellow,84,0.0281,173.372,Coldplay - Yellow
1,0.613,2000,0.143,OutKast,0.843,270507,0.806,0I3q5fE6wg7LIfHGngUTnV,0.0,0.0771,-5.946,Ms. Jackson,80,0.269,94.948,OutKast - Ms. Jackson


In [8]:
# Checando valores nulos 

df.isna().sum()

valence             0
year                0
acousticness        0
artists             0
danceability        0
duration_ms         0
energy              0
id                  0
instrumentalness    0
liveness            0
loudness            0
name                0
popularity          0
speechiness         0
tempo               0
artists_song        0
dtype: int64

#### Dados_gereneros
---

In [9]:
df_generos.head(2)

Unnamed: 0,mode,genres,acousticness,danceability,duration_ms,energy,instrumentalness,liveness,loudness,speechiness,tempo,valence,popularity,key
0,1,21st century classical,0.979333,0.162883,160297.7,0.071317,0.606834,0.3616,-31.514333,0.040567,75.3365,0.103783,27.833333,6
1,1,432hz,0.49478,0.299333,1048887.0,0.450678,0.477762,0.131,-16.854,0.076817,120.285667,0.22175,52.5,5


In [10]:
# Removendo 'key' e 'mode' por não serem colunas de intesse
df_generos.drop(columns=['key', 'mode'], inplace=True)
print(df_generos.shape)
df_generos.head(2)

(2973, 12)


Unnamed: 0,genres,acousticness,danceability,duration_ms,energy,instrumentalness,liveness,loudness,speechiness,tempo,valence,popularity
0,21st century classical,0.979333,0.162883,160297.7,0.071317,0.606834,0.3616,-31.514333,0.040567,75.3365,0.103783,27.833333
1,432hz,0.49478,0.299333,1048887.0,0.450678,0.477762,0.131,-16.854,0.076817,120.285667,0.22175,52.5


In [11]:
df_generos.isna().sum()

genres              0
acousticness        0
danceability        0
duration_ms         0
energy              0
instrumentalness    0
liveness            0
loudness            0
speechiness         0
tempo               0
valence             0
popularity          0
dtype: int64

#### Dados_anos
---

In [12]:
df_anos.head(2)

Unnamed: 0,mode,year,acousticness,danceability,duration_ms,energy,instrumentalness,liveness,loudness,speechiness,tempo,valence,popularity,key
0,1,1921,0.886896,0.418597,260537.166667,0.231815,0.344878,0.20571,-17.048667,0.073662,101.531493,0.379327,0.653333,2
1,1,1922,0.938592,0.482042,165469.746479,0.237815,0.434195,0.24072,-19.275282,0.116655,100.884521,0.535549,0.140845,10


In [13]:
df_anos['year'].unique()

array([1921, 1922, 1923, 1924, 1925, 1926, 1927, 1928, 1929, 1930, 1931,
       1932, 1933, 1934, 1935, 1936, 1937, 1938, 1939, 1940, 1941, 1942,
       1943, 1944, 1945, 1946, 1947, 1948, 1949, 1950, 1951, 1952, 1953,
       1954, 1955, 1956, 1957, 1958, 1959, 1960, 1961, 1962, 1963, 1964,
       1965, 1966, 1967, 1968, 1969, 1970, 1971, 1972, 1973, 1974, 1975,
       1976, 1977, 1978, 1979, 1980, 1981, 1982, 1983, 1984, 1985, 1986,
       1987, 1988, 1989, 1990, 1991, 1992, 1993, 1994, 1995, 1996, 1997,
       1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008,
       2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019,
       2020])

In [14]:
# Fazendo o recorte de musicas ate anos 2000

df_anos = df_anos[df_anos['year']>=2000]
df_anos['year'].unique()
df_anos.drop(columns=['key', 'mode'], inplace = True)
df_anos.reset_index(drop = True)

Unnamed: 0,year,acousticness,danceability,duration_ms,energy,instrumentalness,liveness,loudness,speechiness,tempo,valence,popularity
0,2000,0.289323,0.590918,242724.642638,0.625413,0.101168,0.197686,-8.247766,0.089205,118.999323,0.559475,46.684049
1,2001,0.286842,0.583318,240307.79601,0.626986,0.107214,0.187026,-8.305095,0.089182,117.765399,0.541479,48.750125
2,2002,0.282624,0.57616,239503.283,0.64127,0.088048,0.193911,-7.68664,0.084308,119.239738,0.542397,48.6555
3,2003,0.256471,0.575763,244670.57523,0.660165,0.083049,0.196976,-7.485545,0.093926,120.914622,0.530504,48.626407
4,2004,0.280559,0.56768,237378.708037,0.648868,0.077934,0.202199,-7.601655,0.094239,121.290346,0.524489,49.273143
5,2005,0.255764,0.572281,237229.588205,0.653209,0.090194,0.190082,-7.466159,0.093334,121.617967,0.532531,50.953333
6,2006,0.279986,0.56823,234042.914359,0.650326,0.077701,0.188289,-7.265501,0.085847,121.798615,0.520028,51.313846
7,2007,0.254081,0.563414,241049.962564,0.668305,0.072957,0.196127,-7.044536,0.084347,124.087516,0.516794,51.075897
8,2008,0.249192,0.579193,240107.315601,0.671461,0.063662,0.198431,-6.843804,0.077356,123.509934,0.527542,50.630179
9,2009,0.261929,0.56419,238140.013265,0.670749,0.075872,0.205252,-7.046015,0.085458,123.463808,0.50717,51.440816


In [15]:
# Verificando nulos
df_anos.isna().sum()

year                0
acousticness        0
danceability        0
duration_ms         0
energy              0
instrumentalness    0
liveness            0
loudness            0
speechiness         0
tempo               0
valence             0
popularity          0
dtype: int64

### `Anpalise Gráfica`

In [16]:
fig = px.line(df_anos, x = 'year', y = 'loudness', markers = True, title = 'Variação do lounds conforme os anos')
fig

In [17]:
import plotly.graph_objects as go

In [18]:
fig = go.Figure()

fig.add_trace(go.Scatter(x = df_anos['year'], y=df_anos['acousticness'], name='Acusticness'))
fig.add_trace(go.Scatter(x = df_anos['year'], y=df_anos['valence'], name='Valence'))
fig.add_trace(go.Scatter(x = df_anos['year'], y=df_anos['danceability'], name='Danceability'))
fig.add_trace(go.Scatter(x = df_anos['year'], y=df_anos['energy'], name='Energy'))
fig.add_trace(go.Scatter(x = df_anos['year'], y=df_anos['instrumentalness'], name='Instrumentalness'))
fig.add_trace(go.Scatter(x = df_anos['year'], y=df_anos['liveness'], name='Liveness'))
fig.add_trace(go.Scatter(x = df_anos['year'], y=df_anos['speechiness'], name='Speechiness'))
fig.show()

In [19]:
fig = px.imshow(df.corr(numeric_only = True), text_auto = True)
fig.show()

## Aula 2: Clusterização por genero

In [20]:
df.head(3)

Unnamed: 0,valence,year,acousticness,artists,danceability,duration_ms,energy,id,instrumentalness,liveness,loudness,name,popularity,speechiness,tempo,artists_song
0,0.285,2000,0.00239,Coldplay,0.429,266773,0.661,3AJwUDP919kvQ9QcozQPxg,0.000121,0.234,-7.227,Yellow,84,0.0281,173.372,Coldplay - Yellow
1,0.613,2000,0.143,OutKast,0.843,270507,0.806,0I3q5fE6wg7LIfHGngUTnV,0.0,0.0771,-5.946,Ms. Jackson,80,0.269,94.948,OutKast - Ms. Jackson
2,0.4,2000,0.00958,Linkin Park,0.556,216880,0.864,60a0Rd6pjrkxjPbaKzXjfq,0.0,0.209,-5.87,In the End,84,0.0584,105.143,Linkin Park - In the End


### `PCA E StandartScaler`

In [49]:
df_generos['genres'].value_counts().sum()

2973

In [50]:
# Isolado apenas generos e caracteristicas dos generos
only_generos = df_generos['genres']
df_no_gen = df_generos.drop('genres', axis = 1)
df_no_gen.head()

Unnamed: 0,acousticness,danceability,duration_ms,energy,instrumentalness,liveness,loudness,speechiness,tempo,valence,popularity,cluster_pca
0,0.979333,0.162883,160297.7,0.071317,0.606834,0.3616,-31.514333,0.040567,75.3365,0.103783,27.833333,2
1,0.49478,0.299333,1048887.0,0.450678,0.477762,0.131,-16.854,0.076817,120.285667,0.22175,52.5,2
2,0.762,0.712,115177.0,0.818,0.876,0.126,-9.18,0.047,133.444,0.975,48.0,0
3,0.651417,0.529093,232880.9,0.419146,0.205309,0.218696,-12.288965,0.107872,112.857352,0.513604,20.859882,4
4,0.676557,0.538961,190628.5,0.316434,0.003003,0.172254,-12.479387,0.082851,112.110362,0.448249,45.820071,4


In [74]:
# importando bibliotecas
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

In [75]:
# Criando o Pipeline
SEED = 1224
np.random.seed(1224)

pca_pipeline = Pipeline([('scaler', StandardScaler()),
                         ('PCA', PCA(n_components=2, random_state=SEED))])

In [76]:
# Tranformando os dados
genre_embedding_pca = pca_pipeline.fit_transform(df_no_gen)
projection = pd.DataFrame(columns=['x','y'], data=genre_embedding_pca)
projection

Unnamed: 0,x,y
0,5.793737,-0.351045
1,2.747403,3.642279
2,-1.060605,-1.552502
3,1.381677,-0.393412
4,1.091329,-0.638992
...,...,...
2968,-0.574157,-0.068197
2969,-3.287708,-1.522842
2970,-1.170673,-1.590471
2971,2.068408,-2.953647


### `Kmeans`

In [77]:
from sklearn.cluster import KMeans

In [78]:
KMeans_pca = KMeans(n_clusters=5 , verbose=False, random_state=SEED)

KMeans_pca.fit(projection)

df_generos['cluster_pca'] = KMeans_pca.predict(projection)
projection['cluster_pca'] = KMeans_pca.predict(projection)

In [79]:
projection.head()

Unnamed: 0,x,y,cluster_pca
0,5.793737,-0.351045,1
1,2.747403,3.642279,1
2,-1.060605,-1.552502,0
3,1.381677,-0.393412,3
4,1.091329,-0.638992,3


In [80]:
projection['generos'] = df_generos['genres']
projection

Unnamed: 0,x,y,cluster_pca,generos
0,5.793737,-0.351045,1,21st century classical
1,2.747403,3.642279,1,432hz
2,-1.060605,-1.552502,0,8-bit
3,1.381677,-0.393412,3,[]
4,1.091329,-0.638992,3,a cappella
...,...,...,...,...
2968,-0.574157,-0.068197,4,zolo
2969,-3.287708,-1.522842,0,zouglou
2970,-1.170673,-1.590471,0,zouk
2971,2.068408,-2.953647,3,zurich indie


### `Plot Dos Cliusters`

In [81]:
px.scatter(
     projection, x = 'x', y = 'y', color= 'cluster_pca', hover_data=['x', 'y', 'generos']
)

In [82]:
# Verificando o quanto os clusters são explicados
pca_pipeline[1].explained_variance_ratio_.sum()

0.472237223046475

In [83]:
# Verificando o quanto os clusters são explicadas por cada coluna
pca_pipeline[1].explained_variance_.sum()

5.66875342173824