# Projeto 3 - Clusterização

**Alunos:** Ellen Shen, Enzo Neto, Gabriel Huerta, Giulia Castro

Turma B

___

Este projeto consiste em fazer uma análise exploratória, utilizando a técnica de clusterização, sob uma base de dados do spotify. A **clusterização** é um algoritmo de machine learning, que une os dados similiares em diferentes grupos.

**A pergunta que iremos responder é:** "Dado uma playlist com gêneros musicais diferentes. Um usuário está escutando uma determinada música desta playlist, qual seria a melhor música para ser recomendada como a próxima?"

In [1]:
%matplotlib notebook

import matplotlib.pyplot as plt

import pandas as pd
import numpy as np
from mpl_toolkits.mplot3d import Axes3D
import seaborn as sns
from sklearn import cluster, datasets
from sklearn.neighbors import kneighbors_graph
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

random_state = 42
np.random.seed(42)

In [2]:
top_2017_2018_teste, top_2017_2018_treinamento = train_test_split(pd.read_excel("top2018_2017.xlsx", index_col=1),train_size=0.20)



In [5]:
top_2017_2018_treinamento.head(2)

Unnamed: 0_level_0,id,artists,danceability,energy,key,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,duration_ms,time_signature
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Rewrite The Stars,630sXRhIcfwr2e4RdNtjK,Zac Efron,0.684,0.619,10.0,-7005.0,1.0,0.0386,0.0716,0.0,0.122,0.284,125046.0,217440.0,4.0
All The Stars (with SZA),3GCdLUSnKSMJhs4Tj6CV3,Kendrick Lamar,0.698,0.633,8.0,-4946.0,1.0,0.0597,0.0605,0.000194,0.0926,0.552,96924.0,232187.0,4.0


In [6]:
top_2017_2018_teste.head(2)

Unnamed: 0_level_0,id,artists,danceability,energy,key,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,duration_ms,time_signature
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Silence,7vGuf3Y35N4wmASOKLUVV,Marshmello,0.52,0.761,4.0,-3093.0,1.0,0.0853,0.256,5e-06,0.17,0.286,141971.0,180823.0,4.0
New Rules,2ekn2ttSfGqwhhate0LSR,Dua Lipa,0.771,0.696,9.0,-6258.0,0.0,0.0755,0.00256,1e-05,0.179,0.656,116054.0,208827.0,4.0


## Divisão em Clusters

Escolhemos as variáveis "danceability", "energy" e "valence" para separar os clusters.

In [7]:
plt3d_2017_2018 = plt.figure().gca(projection="3d")
plt3d_2017_2018.scatter(top_2017_2018_treinamento.danceability, top_2017_2018_treinamento.energy, top_2017_2018_treinamento.valence)

<IPython.core.display.Javascript object>

<mpl_toolkits.mplot3d.art3d.Path3DCollection at 0x1a22f24518>

In [8]:
dados_entrada_2017_2018 = top_2017_2018_treinamento.loc[:,("danceability", "energy", "valence")]

In [9]:
clusters_2017_2018 = cluster.MiniBatchKMeans(n_clusters=5)
clusters_2017_2018.fit(dados_entrada_2017_2018)
saida_2017_2018 = clusters_2017_2018.predict(dados_entrada_2017_2018)

A partir das variáveis, separamos em 5 clusters e fizemos um "predict" do nosso dataset.

In [10]:
saida_2017_2018

array([2, 3, 0, 0, 1, 3, 1, 2, 3, 1, 1, 1, 0, 4, 2, 3, 1, 2, 0, 0, 3, 3,
       0, 2, 2, 1, 0, 3, 0, 1, 3, 4, 0, 3, 3, 1, 0, 2, 1, 3, 0, 0, 0, 1,
       2, 2, 2, 0, 3, 0, 0, 2, 0, 1, 3, 0, 2, 2, 0, 2, 0, 1, 3, 1, 2, 1,
       3, 3, 3, 0, 1, 2, 4, 1, 1, 4, 3, 3, 4, 2, 2, 1, 4, 3, 4, 1, 1, 2,
       0, 0, 1, 1, 1, 2, 2, 0, 1, 1, 3, 2, 0, 2, 4, 1, 2, 1, 0, 0, 3, 0,
       2, 0, 3, 3, 1, 4, 2, 1, 3, 0, 1, 4, 1, 1, 4, 2, 1, 4, 3, 2, 1, 3,
       1, 0, 3, 0, 0, 0, 4, 3, 3, 3, 0, 2, 2, 1, 1, 3, 0, 3, 0, 1, 4, 0,
       0, 4, 3, 3, 1, 2], dtype=int32)

In [12]:
musicas_2017_2018 = dados_entrada_2017_2018.copy()
musicas_2017_2018["saida"] = saida_2017_2018
musicas_2017_2018.head(2)

Unnamed: 0_level_0,danceability,energy,valence,saida
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Rewrite The Stars,0.684,0.619,0.284,2
All The Stars (with SZA),0.698,0.633,0.552,3


In [56]:
plt3d_2017_2018 = plt.figure().gca(projection="3d")
grupo1_2017_2018 = musicas_2017_2018[musicas_2017_2018.saida==0]
grupo2_2017_2018 = musicas_2017_2018[musicas_2017_2018.saida==1]
grupo3_2017_2018 = musicas_2017_2018[musicas_2017_2018.saida==2]
grupo4_2017_2018 = musicas_2017_2018[musicas_2017_2018.saida==3]
grupo5_2017_2018 = musicas_2017_2018[musicas_2017_2018.saida==4]

plt3d_2017_2018.scatter(grupo1_2017_2018.danceability, grupo1_2017_2018.energy, grupo1_2017_2018.valence, color="r")
plt3d_2017_2018.scatter(grupo2_2017_2018.danceability, grupo2_2017_2018.energy, grupo2_2017_2018.valence, color="g")
plt3d_2017_2018.scatter(grupo3_2017_2018.danceability, grupo3_2017_2018.energy, grupo3_2017_2018.valence, color="b")
plt3d_2017_2018.scatter(grupo4_2017_2018.danceability, grupo4_2017_2018.energy, grupo4_2017_2018.valence, color="black")
plt3d_2017_2018.scatter(grupo5_2017_2018.danceability, grupo5_2017_2018.energy, grupo5_2017_2018.valence, color="purple")


<IPython.core.display.Javascript object>

<mpl_toolkits.mplot3d.art3d.Path3DCollection at 0x1a2c6e58d0>

## Análise sobre os Resultados

**Dançabilidade** descreve se a música combina com a sua caracteristica levando em conta a combinação de elementos musicais como o tempo, estabilidade do ritmo, força da batida e regularidade no geral. O valor varia de 0.0 à 1.0.

**Energia** é medida entre 0.0 e 1.0, representa a medida percentual da intensiade da atividade. Tipicamente, musicas energéticas são rapidas, altas e muito barulhentas. Um exemplo é o "Death metal" que tem uma energia alta, enquanto o "Bach" tem uma pontuacao baixa na escala.

**Valência** da musica é medida entre 0.0 e 1.0, descrevendo a positividade da música transmitida pela mesma. Músicas com uma valência alta tem um som mais positivo, como por exemplo felicidade, alegria e euforia. Por outro lado, músicas com valor baixo de valência, soam mais negativas, deprimentes.

In [16]:
variaveis_x = ["danceability","energy","valence"]
variaveis_y = variaveis_x

- **Grupo 1: Grupo vermelho** 
    - Observando o gráfico de dispersão plotado, a dançabilidade se encontra alta, porém a valência e a energia estão com valores médios.


In [17]:
sns.set(style="ticks")
sns.pairplot(grupo1_2017_2018, hue="saida", x_vars=variaveis_x, y_vars=variaveis_y)

<IPython.core.display.Javascript object>

  return np.add.reduce(sorted[indexer] * weights, axis=axis) / sumval


<seaborn.axisgrid.PairGrid at 0x1a25db50b8>

In [18]:
fig = plt.figure(figsize=(10, 3))
plt.subplot(131)
plot = grupo1_2017_2018.danceability.plot.hist(bins=15, title='Grupo 1 - Dançabilidade', alpha=0.9)

plt.subplot(132)
plot = grupo1_2017_2018.energy.plot.hist(bins=15, title='Grupo 1 - Energia', alpha=0.9)

plt.subplot(133)
plot = grupo1_2017_2018.valence.plot.hist(bins=15, title='Grupo 1 - Valência', alpha=0.9)

plt.tight_layout(1)

<IPython.core.display.Javascript object>

Observandos os gráficos plotados acima, vemos que a dançabilidade se encontra em valores mais altos (entre 0.8 - 0.9), enquanto a energia e a valência se concentram em valores mais abaixo de 0.6. Concluindo que são músicas dançantes, mas sem muito barulho.

- **Grupo 2: Grupo verde**
    - Segundo o gráfico de dispersão, os pontos estão plotados numa região em que as três variáveis são altas.


In [25]:
sns.set(style="ticks")
sns.pairplot(grupo2_2017_2018, hue="saida", x_vars=variaveis_x, y_vars=variaveis_y)

<IPython.core.display.Javascript object>

  return np.add.reduce(sorted[indexer] * weights, axis=axis) / sumval


<seaborn.axisgrid.PairGrid at 0x1a254bf710>

In [26]:
fig = plt.figure(figsize=(10, 3))
plt.subplot(131)
plot = grupo2_2017_2018.danceability.plot.hist(bins=15, title='Grupo 2 - Dançabilidade', alpha=0.9)

plt.subplot(132)
plot = grupo2_2017_2018.energy.plot.hist(bins=15, title='Grupo 2 - Energia', alpha=0.9)

plt.subplot(133)
plot = grupo2_2017_2018.valence.plot.hist(bins=15, title='Grupo 2 - Valência', alpha=0.9)

plt.tight_layout(1)

<IPython.core.display.Javascript object>

Ao ver os gráficos plotados acima, podemos concluir que a dançabilidade chega a 0.8, a energia até 0.9 com muita frequência em 0.8, com uma valência mais dispersa mas que chega em valores altos também. Concluimos que são músicas dançantes, barulhentas e alegres.

- **Grupo 3: Grupo Azul**
    - Observando o segundo gráfico de dispersão, pode-se observar que esse grupo apresenta as músicas com valência muito baixa 

In [23]:
sns.set(style="ticks")
sns.pairplot(grupo3_2017_2018, hue="saida", x_vars=variaveis_x, y_vars=variaveis_y)

<IPython.core.display.Javascript object>

  return np.add.reduce(sorted[indexer] * weights, axis=axis) / sumval


<seaborn.axisgrid.PairGrid at 0x1a24d77908>

In [24]:
fig = plt.figure(figsize=(10, 3))
plt.subplot(131)
plot = grupo3_2017_2018.danceability.plot.hist(bins=15, title='Grupo 3 - Dançabilidade', alpha=0.9)

plt.subplot(132)
plot = grupo3_2017_2018.energy.plot.hist(bins=15, title='Grupo 3 - Energia', alpha=0.9)

plt.subplot(133)
plot = grupo3_2017_2018.valence.plot.hist(bins=15, title='Grupo 3 - Valência', alpha=0.9)

plt.tight_layout(1)

<IPython.core.display.Javascript object>

Ao observarmos os gráficos plotados acima, nota-se que a energia desse grupo gira em torno de 0.7, porém o grupo apresenta um número considerável de músicas com valores de energia bem baixos (entre 0.4 - 0.5) e os valores de daçabilidade são um pouco mais altos (0.7). Já a valência do grupo chega no máximo à 0.5 e se concentram entre 01 e 03, ou seja, são valores bem baixos. 
Assim, conclui-se que as músicas desse grupo são negativas e mais deprimentes. 

- **Grupo 4: Grupo Preto**
  - Como pode ser visto no gráfico acima as músicas pertencentes a esse grupo apresentam dançabilidade e energia altas e valores de valência medianos.

In [19]:
sns.set(style="ticks")
sns.pairplot(grupo4_2017_2018, hue="saida", x_vars=variaveis_x, y_vars=variaveis_y)

<IPython.core.display.Javascript object>

  return np.add.reduce(sorted[indexer] * weights, axis=axis) / sumval


<seaborn.axisgrid.PairGrid at 0x1a24c365c0>

In [20]:
fig = plt.figure(figsize=(10, 3))
plt.subplot(131)
plot = grupo4_2017_2018.danceability.plot.hist(bins=15, title='Grupo 4 - Dançabilidade', alpha=0.9)

plt.subplot(132)
plot = grupo4_2017_2018.energy.plot.hist(bins=15, title='Grupo 4 - Energia', alpha=0.9)

plt.subplot(133)
plot = grupo4_2017_2018.valence.plot.hist(bins=15, title='Grupo 4 - Valência', alpha=0.9)

plt.tight_layout(1)

<IPython.core.display.Javascript object>

Os gráficos plotados acima confirmam as hipóteses anteriores. Como pode-se perceber, nesse grupo os valores de dançabilidade giram em torno de 0.8, os de energia próximos à 0.9 e os de valência próximos ã 0.6. 
Conclui-se, então, que as músicas pertencentes ao Grupo 4 são dançáveis, bem rápidas e barulhentas, porém não são tão positivas 

- **Grupo 5: Grupo Roxo**
    - Nota-se pelo gráfico de dispersão que essas músicas apresentam valência, energia e dançabilidade altos.

In [21]:
sns.set(style="ticks")
sns.pairplot(grupo5_2017_2018, hue="saida", x_vars=variaveis_x, y_vars=variaveis_y)

<IPython.core.display.Javascript object>

  return np.add.reduce(sorted[indexer] * weights, axis=axis) / sumval


<seaborn.axisgrid.PairGrid at 0x1a24d204a8>

In [22]:
fig = plt.figure(figsize=(10, 3))
plt.subplot(131)
plot = grupo5_2017_2018.danceability.plot.hist(bins=15, title='Grupo 5 - Dançabilidade', alpha=0.9)

plt.subplot(132)
plot = grupo5_2017_2018.energy.plot.hist(bins=15, title='Grupo 5 - Energia', alpha=0.9)

plt.subplot(133)
plot = grupo5_2017_2018.valence.plot.hist(bins=15, title='Grupo 5 - Valência', alpha=0.9)

plt.tight_layout(1)

<IPython.core.display.Javascript object>

Observando os gráficos acima conclui-se que as hipóteses iniciais estavam corretas. A dançabilidade do grupo é no geral maior que 0.8 e a energia e a valência maiores que 0.9. Ou seja, as músicas desse grupo são no geral bem dançantes, bem energéticas e muito positivas. 

## Análisa Qualitativa sobre a base de teste

In [27]:
plt3d_teste_2017_2018 = plt.figure().gca(projection="3d")
plt3d_teste_2017_2018.scatter(top_2017_2018_teste.danceability, top_2017_2018_teste.energy, top_2017_2018_teste.valence)

<IPython.core.display.Javascript object>

<mpl_toolkits.mplot3d.art3d.Path3DCollection at 0x1a26b07b38>

In [28]:
teste_entrada_2017_2018 = top_2017_2018_teste.loc[:,("danceability", "energy", "valence")]

In [29]:
clusters_teste_2017_2018 = cluster.MiniBatchKMeans(n_clusters=5)
clusters_teste_2017_2018.fit(teste_entrada_2017_2018)
saida_teste_2017_2018 = clusters_teste_2017_2018.predict(teste_entrada_2017_2018)

In [30]:
musicas_teste_2017_2018 = teste_entrada_2017_2018.copy()
musicas_teste_2017_2018["saida"] = saida_teste_2017_2018

In [31]:
plt3d_teste_2017_2018 = plt.figure().gca(projection="3d")
grupo1_teste_2017_2018 = musicas_teste_2017_2018[musicas_teste_2017_2018.saida==0]
grupo2_teste_2017_2018 = musicas_teste_2017_2018[musicas_teste_2017_2018.saida==1]
grupo3_teste_2017_2018 = musicas_teste_2017_2018[musicas_teste_2017_2018.saida==2]
grupo4_teste_2017_2018 = musicas_teste_2017_2018[musicas_teste_2017_2018.saida==3]
grupo5_teste_2017_2018 = musicas_teste_2017_2018[musicas_teste_2017_2018.saida==4]

plt3d_teste_2017_2018.scatter(grupo1_teste_2017_2018.danceability, grupo1_teste_2017_2018.energy, grupo1_teste_2017_2018.valence, color="r")
plt3d_teste_2017_2018.scatter(grupo2_teste_2017_2018.danceability, grupo2_teste_2017_2018.energy, grupo2_teste_2017_2018.valence, color="g")
plt3d_teste_2017_2018.scatter(grupo3_teste_2017_2018.danceability, grupo3_teste_2017_2018.energy, grupo3_teste_2017_2018.valence, color="b")
plt3d_teste_2017_2018.scatter(grupo4_teste_2017_2018.danceability, grupo4_teste_2017_2018.energy, grupo4_teste_2017_2018.valence, color="black")
plt3d_teste_2017_2018.scatter(grupo5_teste_2017_2018.danceability, grupo5_teste_2017_2018.energy, grupo5_teste_2017_2018.valence, color="purple")


<IPython.core.display.Javascript object>

<mpl_toolkits.mplot3d.art3d.Path3DCollection at 0x1a25563fd0>

## Conclusão

Com a ausência de uma base de dados, que sirva como um gabarito, não é possivel atribuir as músicas de teste para os mesmos clusters das músicas de treinamento. Como pode-se observar no gráfico acima, o agrupamento feito na base de teste foi realizado entre as próprias músicas do teste e não foi relacionado com o treinamento feito anteriormente.

Como uma futura iteração para o projeto busca-se fazer a clusterização da base teste utilizando o resultado da base de treinamento como parâmetro. 

Por não possuírmos um gabarito para a clusterização, não é possível utilizarmos esse método para recomendarmos músicas a partir de uma playlist de base contendo diferentes gêneros musicais.