**Trabalho SCC0252 Visualização Computacional**

**Autores:**

* [Tarcídio Antônio Júnior - 10748347](https://github.com/tarcidio)
* Rafael Kuhn Takano - 11200459
* Igor Antunes Boson Paes - 11200571

**GitHub:**
* [Projeto](https://github.com/tarcidio/scc0252-visualization-spotify-feature)
* [Spotify Features](https://www.kaggle.com/datasets/zaheenhamidani/ultimate-spotify-tracks-db)
* [Feature Explain](https://developer.spotify.com/documentation/web-api/reference/#/operations/get-audio-features)

---

# **Introdução, Objetivos e Ferramentas**

**Introdução**
---
  Ciência de Dados extrai conclusões a partir de dados brutos utilizando estatística e técnicas de aprendizagem de máquina. Na primeira etapa, faz-se o  pré-processamento que se resume em, nesta ordem, extrair os dados, limpá-los e **visualizá-los**. A última é de grande importância para guiar as etapas de análise, provendo ótimas noções de como os dados se comportam, ideias de como **explorá-los**, além de encurtar o tempo de entendimento para os quais não são familiarizados com o assunto.

**Objetivo do trabalho**
---

  Para entender praticando, o grupo utilizou um conjunto de dados extraídos do Spotify (utilizando sua API). Neste documento, encontra-se visualizações detalhando os diversos atributos, seja categóricos ou numéricos, do dataset. Quando possível, os autores expressam suas conclusões sobre os dados.

**Ferramentas**
---

  Para elaboração, utilizou-se a linguagem Python e, principalmente, as bibliotecas Pandas, Matplotlib, Seaborn, Scikit-learn, Plotly e Numpy. Algumas das inúmeras ferramentas visuais utilizadas foram:
* Mapa de calor
* Gráfico de barras
* Gráfico de dispersão
* Coordenadas paralelas
* Boxplot
* Gráfico de linhas
* Treemap

**Origem dos dados**
---

Por fim, vale ressaltar que toda a explicação da extração destes dados encontra-se no [perfil do Zaheen Hamidani](https://www.kaggle.com/datasets/zaheenhamidani/ultimate-spotify-tracks-db) na [Kaggle](https://www.kaggle.com/), plataforma para aprendizado de ciências de dados. Cada atributo do dataset será explicado, porém as mesmas informações podem ser encontradas no [Spotify For Developers](https://developer.spotify.com/documentation/web-api/reference/#/operations/get-audio-features), site que documenta a API do Spotify.

**Observações finais**
---

Para fins didático e interativos, ao longo de todo `.ipynb`, a explicação será feita com primeira pessoa do plural como pronome pessoal.

# **Importando bibliotecas, inicializando e vendo o dataset**

Como descrevemos, usamos as seguintes bilbiotecas:
* [Pandas](https://github.com/pandas-dev/pandas): para manipular os dados e fazer sua análises
* [Matplotlib](https://github.com/matplotlib/matplotlib): para criar gráficos e visualizar dados no geral
* [Plotly](https://github.com/plotly/plotly.py): para criar gráficos interativos
* [Seaborn](https://github.com/seaborn): para visualizar dados baseados no matplotlib
* [Numpy](https://github.com/numpy/numpy): processamento de arrays n-dimensionais e fornece grande coleção de funções matemáticas de alto nível para operar estes arrays
* [Scikit-learn](https://github.com/scikit-learn/scikit-learn): biblioteca de aprendizado de máquina 

Importemos:

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.io as pio
import numpy as np
from sklearn import preprocessing 

Agora, vamos ler o conjunto de dados protagonista deste trabalho que está no formato `.csv`:

In [2]:
#Para leitura no Google Colab
from google.colab import drive
drive.mount('/content/mount')
caminho = '/content/mount/MyDrive/Colab Notebooks/Visualização Computacional/trabalho01/spotify_features.csv'
spotify = pd.read_csv(caminho)

#Para leitura no Jupyter Notebook
#spotify = pd.read_csv('spotify_features.csv')

#Imprimindo informações gerais do dataset
spotify.info()

Mounted at /content/mount


FileNotFoundError: ignored

Perceba que o dataset possui, no total, 18 features (ou atributos). Dentre eles, nove são do tipo float descritos em 64 bits, dois são inteiros descritos em 64 bits e sete são object python (que contem caracteres, números, nan, etc.). Note também que há, no total, 232725 linhas (também chamados de anotações, observações ou amostras).


Por fim, vamos ver o dataset em si.

In [None]:
spotify

Note que cada linha descreve uma música, informando a que gênero musical pertence, o nome da banda ou artista(s) que a produziu(ram), além da sua popularidade e outras características intrínsecas. Vamos explorar, nas próximas etapas, cada um desses atributos.

# **Visão geral do dados**

Este tópico será um pouco mais extenso. O objetivo é fazer a introdução do dataset para que, nos próximos tópicos, sejamos mais sintéticos. Vale ressaltar já de início que este dataset não possui dados ausentes e, por conta disso, abordaremos tal ponto apenas no fim deste tópico.

## **Genre**

O atributo `genre` refere-se ao gênero musical da amostra. Este é um dos dois atributos que não são descritos no ['Get Track's Audio Features'](https://developer.spotify.com/documentation/web-api/reference/#/operations/get-audio-features) do Spotify. Provavelmente, por ser um conceito senso comum. Vale a pena, porém, resgatar que os gêneros são grupos de músicas que se assemelham em algumas características: ritmos, semântica da letras, etc. Iremos notar um pouco desta semalhanças ao longo do trabalho.

---
Para fins práticos para as próximas etapas, vamos manter o dataset principal ordenado segundo o gênero até o final deste trabalho.

In [None]:
spotify.sort_values(by = 'genre', ascending = True, inplace = True)

---
Vamos começar mapeando quais gêneros músicas presentes no dataset:

In [None]:
genres = spotify.drop_duplicates(subset = 'genre')
genres.drop(spotify.columns[1:], axis = 1, inplace = True)
genres.reset_index(drop = True, inplace = True)
genres

A princípio, deveríamos concluir que há 27 gêneros musicais neste dataset. Porém, o algoritmo do python concluiu que o gênero `Children's Music` e  `Children’s Music` são diferentes porque as aspas simples são de fontes diferentes. Corringindo, temos:

In [None]:
spotify['genre'].replace(to_replace = "Children's Music", value = 'Children’s Music', inplace = True)

genres = spotify.drop_duplicates(subset = 'genre')
genres.drop(spotify.columns[1:], axis = 1, inplace = True)
genres.reset_index(drop = True, inplace = True)
genres

Logo, são 26 gêneros. Como é **importante entender o que são os dados antes de fazer a visualização**, vamos, agora, fazer uma breve descrição de cada um deles:

1. **A Capella**: música vocal sem acompanhamento instrumental;
2. **Alternative**: uma categoria de rock que emergiu na década de 1980 e é caracterizada por grande uso da guitarra e riffs sonoros. Ficou conhecido por abordar, em suas letras, assuntos de preocupação social;
3. **Anime**: músicas pertencentes a indústria musical do Japão. É comum que séries televisivas e animações produzidas no Japão sejam acompanhadas por faixas deste gênero;
4. **Blues**: com origem afro-americana em torno do fim do século XIX, é caracterizado pelo padrão de chamada e resposta e por progressões de acordes específicos. Antigamente, era caracterizado pela repetição dos primeiros versos;
5. **Children’s Music**: ou música infantojuvenil, música escrita especificamente para crianças e jovens. Em geral, são cativantes e simples. Também são fáceis de cantar, rimadas e repetitivas;
6. **Classical**: música costumeiramente classificada como erudita e que faz amplamente uso dos instrumentos musicais com diferentes timbre e tonalidades;
7. **Comedy**: músicas que, em geral, trazem histórias faladas e com teor humorístico;
8. **Country**: música popular nos Estados Unidos que é muitas vezes tocada em baladas. Geralmente é de formas e harmonias simples acompanhadas de instrumentos de corda, tais como banjo, guitarra acústica, dobro e violino;
9. **Dance**: qualquer tipo de música composta especificamente para facilitar ou acompanhar a dança, bem como qualquer peça musical completa ou parte de um arranjo musical maior;
10. **Electronic**: toda música que é criada ou modificada através do uso de equipamentos e instrumentos eletrônicos;
11. **Folk**: refere-se a uma grande variedade de gêneros musicais que surgiram em meados do século XX nos Estados Unidos. Estão associados à música tradicional. Atualmente, possuem foco em instrumentos acústicos e letras política e socialmente conscientes que refletem as mudanças sociais;
12. **Hip-Hop**: música popular desenvolvido nos Estados Unidos por afro-americanos e latino-americanos caracterizada por ser rítmica estilizada e com fala rítmica e rimada;
13. **Indie**: subgênero do rock que busca trazer aspectos originais do rock tanto na parte de instrumentos (guitarra, baixo e bateria) como no estilo (fúria e agressividade);
14. **Jazz**: são músicas que usam muito instrumentos do tipo metais, palhetas e baterias. Neste gênero, a improvisação é um fator chave no desenvolvimento da música;
15. **Movie**: produzidas para que as personagens de filmes (principalmente as de animação) cantem durante o filme;
16. **Opera**: músicas desenvolvidas para acompanhar encenação dramática. Em geral, é uma música instrumental combinada com o canto;
17. **Pop**:  é conhecida por ser eclética e incorporar elementos de muitos outros estilos. Algumas características são a duração curta-média e letras no formato básico, empregando refrões e batidas repetidas. Em geral, são super produzidas e abordam temas universais para atingir um número maior de pessoas. Este gênero é, em geral, comercial;
18. **R&B**: também chamada de Rhythm and Blue, é um gênero musical fortemente influenciado pelo jazz e, em segundo plano, pelo funk, hip hop e soul. Caracterizado pela batida pesada e constante, este gênero teve origem na África na mesma época de ascensão dos gêneros rock e blues;
19. **Rap**: caracterizada pelo discurso rítmico com rimas e poesias, em geral descreve uma improvisação poética sobre uma batida no tempo rápido e frequentemente só é acompanhada pelo som do baixo, ou sem acompanhamento. Neste gênero, o texto é mais importante que a parte musical;
20. **Reggae**: é conhecida pelo estilo mais lento e pela acentuação na segunda e quarta batida;
21. **Reggaeton**: com raízes latina, caribenha e europeia, seu som deriva do reggae e foi influenciado pelo hip hop e música eletrônica. A maioria das letras tem conteúdo sexual, mas alguns também aborda temas românticos e preocupações sociais;
21. **Rock**: músicas que giram em torno da guitarra elétrica ou violão, utilizando um forte contratempo estabelecido pelo ritmo do baixo elétrico, da bateria, do teclado e outros instrumentos como órgão, piano e sintetizadores digitais.
22. **Ska**: originária da Jamaica, é possui elementos do jazz e blues. Suas letras, em geral, trazem sianis de insatisfação, abordando temas ocmo marginalidade, discriminação, etc;
23. **Soul**: é caracterizado pelo ritmo cativante, enfatizado por palmas e movimentos corporais espontâneos, vocal tenso, além da chamada e resposta entre vocalista principal e o refrão;
24. **Soundtrack**: trilhas sonoras de filmes;
25. **World**: música calma e tranquila cujas letras buscam promover a harmonia e entendimento entre as culturas.


## **Artist_name, track_name e popularity**

Para o caso de não conhecer, vale a pena ouvir algumas das músicas mais populares do gênero. Para isso, introduzimos os seguintes atributos:
*  `popularity`: métrica que o Spotify usa para determinar o quão uma música é popular com base na quantidade de plays que ela recebeu de seus usuários. Este atributo é o segundo que não é listado pelo Spotify For Developers.
* `artist_name`: nome da banda ou cantor(a) que produziu a música
* `track_name`: nome da música. Vale ressaltar que, para uma mesma música, pode existir `artist_name` diferentes. É o caso da música "Hey Jude" do "The Beatles".

Quais são os gêneros e as músicas mais populares? A princípio, seria muito interessante fazer um treemap e aprensentar a proporção por gênero, por artista e, por fim, por música. Mas a quantidade de amostras por gênero são tantas que fica, além de computacional, visualmente inviável. Mas para não abrir mão dessas informações, mostraremos:
1. As músicas mais populares de cada gênero;
2. As dez músicas mais populares de cada gênero;
4. Os primeiros 10% de músicas mais populares;
5. Os últimos 10% de músicas menos populares;
6. A média de popularidade entre os gêneros;
7. A distribuição de quantidade músicas entre os gêneros;
8. A distribuição de popularidade de cada gênero.

### **Conhecendo cada gênero**

Você deve ter se deparado com alguns gêneros que nunca viu na vida. Que tal ouvir alguma música que os represente? Segue uma tabela com a música mais famosa de cada gênero.

In [None]:
more_famous = spotify.sort_values(by = 'popularity', ascending = False)
more_famous_per_genre = more_famous.groupby('genre')
more_famous_per_genre.first()[['artist_name','track_name']]

Caso queira ter uma gama maior de músicas representativas de cada gênero, vamos plotar um treemap informando as dez músicas mais populares de cada gênero. Nele também é possível ver a proporção que essas dez músicas de cada gênero tem em relação a outros grupos de dez do ponto de vista da popularidade.

In [None]:
df_tree = more_famous.groupby('genre').head(10)
df_tree['estilo'] = 'Estilo'
treemap_mean_artist = px.treemap(
    df_tree,
    path = ['estilo','genre','artist_name','track_name'],
    values = 'popularity',
    title = 'As 10 músicas mais poupulares de cada gênero'
)
treemap_mean_artist.show()

Note que, se tratando destes dez mais populares, não há muita diferença na proporção.

No treemap acima, foram coletados 260 músicas (dez de cada gênero). Mas e se pegassemos as 260 músicas mais famosas e então visse de quais gêneros são? Teríamos muita diferença? O tree map a seguir mostra que sim: o gênero 'Pop' detem as músicas mais populares, seguido do 'Rap' e 'Dance'.

In [None]:
df_tree = more_famous.head(260)
df_tree['estilo'] = 'Estilo'
treemap_mean_artist = px.treemap(
    df_tree,
    path = ['estilo','genre', 'artist_name','track_name'],
    values = 'popularity',
    title = 'As 260 músicas mais populares do dataset'
)
treemap_mean_artist.show()

### **10% mais e menos populares**

Mesmo reduzindo a amostragem para 10% do original, a quantidade de observações deixa inviável usar treemap (ou mesmo um sunburst) para analisar a proporção de popularidade. Faremos uma análise parecida, mas envolvendo média e gráfico de barras, pois estes admitem uma análise quantitativa melhor.

Primeiro, vamos pegar os primeiros 10% de músicas mais famosas e ver qual a proporção da média de popularidade de cada um dos gêneros.

In [None]:
ten_percent_head = more_famous.head(int(0.1*len(more_famous.index)))

In [None]:
ten_percent_pop = ten_percent_head.groupby('genre').mean()
ten_percent_pop.sort_values(by = 'popularity', ascending = False, inplace = True)
bar_famous = px.bar(ten_percent_pop,
                    x = ten_percent_pop.index, 
                    y = 'popularity', 
                    title = "Média de popularidade entre os gêneros nos 10% de músicas mais populares")
bar_famous.show()

Veja que o gráfico de barras é quase "linear". Em outras palavras, nesses 10% mais famosos, a média de fama é muito parecida, indicando que todo gênero tem sua parcela famosa.

Agora, vamos analisar, para esses mesmos 10%, quantos são de cada gênero.

In [None]:
ten_percent_num_head = ten_percent_head.groupby('genre').size()
ten_percent_num_head.sort_values(ascending = False, inplace = True)
bar_famous = px.bar(ten_percent_num_head,
                    x = ten_percent_num_head.index,
                    y = ten_percent_num_head, 
                    title = "Quantidade de músicas por gêneros nos 10% de músicas mais populares")
bar_famous.show()

Este gráfico traz algo já esperado: apesar de todos terem suas parcelas de músicas famosas, alguns gêneros possuem bem mais músicas famosas do que outros. 
Neste dataset, o 'Pop' está isolado na "competição" por número de músicas mais famosas. 'Rap, 'Rock', 'Hip-hop' e 'Dance' são os gêneros com mais músicas famosas que se seguem, mas em quantidades muito parecidas. 'Indie', 'Children’s Music' e R&B formam outro grupo. 'Folk', 'Alternative', 'Soul', 'Reggaeton' e 'Country' formam outro. Todos os outros formam o último: os com quantidade ínfima de músicas famosas.

Trabalhamos com os 10% mais famosos. Mas e se visualizarmos os 10% menos famosos? Faremos exatamente as mesmas análises, a começar pela média de popularidade de cada gênero.

In [None]:
ten_percent_tail = more_famous.tail(int(0.1*len(more_famous.index)))

In [None]:
ten_percent_unpop = ten_percent_tail.groupby('genre').mean()
ten_percent_unpop.sort_values(by = 'popularity', ascending = False, inplace = True)
bar_famous = px.bar(ten_percent_unpop,
                    x = ten_percent_unpop.index, 
                    y = 'popularity', 
                    title = "Média de popularidade de cada gênero nos 10% das músicas menos populares")
bar_famous.show()

Diferente dos 10% mais populares, aqui tivemos um gráfico bem mais decrescente. Mesmo entre os menos populares, 'Hip-hop', 'Rap' e 'Pop' continuam famosos. Porém, agora 'Ska', 'Reggaeton', 'Comedy' e 'Anime' se equiparam a 'Pop' neste dataset. Vale ressaltar que, entre os impopulares, 'Eletronic' continua em baixa. 'Dance', que é um gênero muito popular, não possui relevância neste recorte.

Seguindo com o planejado, analisemos a quantidade.

In [None]:
ten_percent_num_tail = ten_percent_tail.groupby('genre').size()
ten_percent_num_tail.sort_values(ascending = False, inplace = True)
bar_famous = px.bar(ten_percent_num_tail,
                    x = ten_percent_num_tail.index,
                    y = ten_percent_num_tail, 
                    title = "Quantidade de música em cada gênero nos 10% das músicas menos populares")
bar_famous.show()

Apesar de não necessariamente os mais populares, 'Opera', 'Movie' e 'Children’s Music' são os que possuem mais músicas no recorte dos menos populares. O segundo grupo que vem é 'Comedy', 'Anime' e 'Classical'. Note que, 'Pop', 'Rap' e 'Hip-hop' possuem pouca música neste dataset. Em outras palavras, com base no último gráfico, há poucas músicas, mas a média de popularidade entre elas é elevada, consolidando ainda mais o título de gêneros mais populares.

### **Popularidade do dataset inteiro**

Por fim, vamos entender como se comporta esses mesmos gráficos aplicados ao dataset inteiro?

In [None]:
mean_genre_sorted_by_popularity = more_famous_per_genre.mean()
mean_genre_sorted_by_popularity = mean_genre_sorted_by_popularity.sort_values(by = 'popularity', ascending = False)['popularity']

In [None]:
bar_famous = px.bar(mean_genre_sorted_by_popularity,
                    x = mean_genre_sorted_by_popularity.index, 
                    y = 'popularity', 
                    title = "Média de popularidade por gênero")
bar_famous.show()

Enfim, dentro do dataset, não há dúvidas das diferenças de popularidades e quais são os mais populares e os menos populares. Tratemos das conclusões finais no fim deste tópico.

Agora, vamos ver a quantidade de músicas por gênero:

In [None]:
size_genre = spotify.groupby('genre').size().to_frame()
size_genre.columns = ['size']
size_genre_sorted = size_genre.sort_values(by = 'size', ascending = False)

In [None]:
bar_famous = px.bar(size_genre_sorted,
                    x = size_genre_sorted.index,
                    y = 'size',
                    title = "Quantidade de músicas por gênero")
bar_famous.show()

Deste gráfico, concluímos que a quantidade de músicas são equilibradas entre os gêneros, exceto para "A Capella" e "Children’s Music". De fato, o gênero "A Capella" só possui 119 amostras e isso quer dizer que a maioria das análises que faremos aqui provavelmente não valerá para ela, pois não há motivos para acreditar que a amostra que temos deste gênero é representativa. Podemos, por exemplo, na análise dos 10% mais famosos, o dataset original ter tido o azar de ter apenas os mais famosos ou os menos famosos deste gênero. Não temos tanto problema para o gênero "Children’s Music", pois há mais amostras. Como todos os outros gêneros possuem um número razoável, dá para supor, a princípio, que as análises que faremos sejam válidas.

In [None]:
size_genre_sorted[(size_genre_sorted.index == 'A Capella') | (size_genre_sorted.index == 'Children’s Music')]

Por fim, vamos estudar o redgeline que indica a densidade de músicas em cada gênero numa faixa de popularidade. A vantagem é que poderemos ver uma visão geral de todas as hipóteses que já fizemos até aqui, fechando algumas conclusões

In [None]:
#Não consegui adicionar um título, infelizmente ;(
redgeline = sns.FacetGrid(spotify, row = "genre", hue = "genre", aspect = 2.5, height = 2.5) 
redgeline.map(sns.kdeplot,'popularity', clip_on = True, 
       shade=True, alpha=0.7, lw=2, bw=.4)

Algumas conclusões:
* 'Pop' é o mais popular. Isso já era esperado, pois é um gênero comercial feito, via de regra, para agradar a maior quantidade de pessoas possíveis. 
* Os gêneros tipados como 'popular' também são os primeiros da lista: 'Rock', 'Rap', 'Hip-hop', etc. Isso indica que são mais acessíveis para o entendimento do público. 
* Os menos populares são gênero novos ou destinados a grupos mais específicos, tipicamente relacionados a geekers (como o 'Anime' e 'Comedy'), "pessoas cultas" (como 'A Capella', 'Opera', 'Soundtrack' e 'Classical'), etc.

## **Correlograma, mapa de calor e coordenadas paralelas**

Façamos agora, em última análise, os gráficos padrões para exploração dos dados. Veremos o correlograma, scatter plot e coordenadas paralelas. É claro que a maioria dos atributos ainda não são conhecidas pelo leitor, mas um visão geral antes pode elucidar alguns pontos.

Comecemos pela descrição geral do dataset:

In [None]:
spotify.describe().drop(index = 'count', axis = 0)

A princípio, é difícil extrair conclusões desta tabela. No futuro, vamos tratar caso a caso para os atributos.

Agora, dê uma olhada no mapa de calor:

In [None]:
plt.figure(figsize = (16,10))

spotify_corr = spotify.corr()
sns.heatmap(spotify_corr, annot=True, cmap="RdBu", vmin=-1, vmax=1);

Ele fornece muitas informações sobre relações entre os atributos. Infelizmente, não conseguimos ser muito informativos sobre a popularidade. Ver os scatter plots também não ajuda muito. Plotaremos a relação de atributos com maior correlação e, mesmo assim, notará que a visualização não será tão boa.

In [None]:
scatter = px.scatter(spotify,
    x = 'energy', 
    y = 'acousticness',
    marginal_x = "histogram", 
    marginal_y = "violin")
scatter.show()

Fica completamente inviável fazer coordenadas paralelas para quantidade amostras que tem indicando gênero por cor. O máximo que se pode fazer é reduzir a amostragem por gênero. Mesmo assim, nem sempre alguma informação relevante é visível.

In [None]:
def parallel_plot(genero: str):
  parallel = px.parallel_coordinates( spotify[spotify['genre'] == genero],
    dimensions = ['artist_name', 'track_name', 'track_id', 'popularity',
       'acousticness', 'danceability', 'duration_ms', 'energy',
       'instrumentalness', 'key', 'liveness', 'loudness', 'mode',
       'speechiness', 'tempo', 'time_signature', 'valence'],
    color_continuous_scale = px.colors.diverging.Tealrose,
    color_continuous_midpoint = 2,
    title = genero)
  parallel.show()

In [None]:
#Para plotar a coordenada paralela do seu gênero, use a função mudando apenas o nome do gênero:
nome_do_genero = 'A Capella'
parallel_plot(nome_do_genero)

Por fim, vale dizer que o correlograma é completamente inviável para este dataset sem um bom recorte. O máximo que podemos fazer é seguir a ideia que fizemos para Coordenadas Paralelas:

In [None]:
def correlogram_plot(genero: str):
  correlogram = px.scatter_matrix(spotify[spotify['genre'] == genero],
    dimensions = ['popularity',
       'acousticness', 'danceability', 'duration_ms', 'energy',
       'instrumentalness', 'liveness', 'loudness',
       'speechiness', 'tempo', 'valence'],
    height=2800, width=2800,
    title= genero)
  correlogram.update_traces(diagonal_visible= True)
  correlogram.show()

In [None]:
#Para plotar a coordenada paralela do seu gênero, use a função mudando apenas o nome do gênero:
nome_do_genero = 'A Capella'
correlogram_plot(nome_do_genero)

Vale ressaltar que só faz sentido, pelo menos para este dataset, fazer Coordenadas Paralelas e Correlograma para atributos numéricos e não para os categóricos. Por fim, também não iremos plotar o correlograma para o dataset inteiro sem definir gêneros pelos mesmos motivos já citados.

## **Observações finais e o track_id**

O atributo `track_id` é um identificador da música no dataset do Spotify. Evidentemente, ele não é útil para nossa análise, visto que temos nosso próprio index. Desta maneira, vamos excluí-lo do dataset principal.

In [None]:
spotify.drop(columns = 'track_id', inplace = True)

Como foi mencionado antes, algumas músicas tem covers. Apenas por cuiriosidade, vamos visualizar as 100 músicas com mais covers. Infelizmente não é possível exibir o artista original, pois o dataset não informa isso. Porém, basta pesquisar o nome da música na barra de pesquisa do google, por exemplo.

In [None]:
size_track = spotify.groupby('track_name').count()
size_track = size_track['genre'].to_frame()
size_track.columns = ['quantidade_de_cover']
size_track.sort_values(by = 'quantidade_de_cover', ascending = False, inplace = True)
size_track.head(100)

Encerrando o tópico geral, combinamos que iríamos falar dos dados ausentes. Resumimos essa parte em: não há! Portanto, não precisamos nos preocupar com tratamento. Veja:

In [None]:
spotify.isnull().any()

# **Acousticness**

O atributo `acousticness` é uma métrica que determina o quão confiável é assumir que uma determinada música é acústica ou não. Essa medida varia entre 0 e 1. Quanto mais próximo de 1, mais confiável é fazer essa afirmação.

Mas o que são músicas acústicas? A melhor maneira de explicar é dizendo que são opostas às eletrônicas. Se uma música possui guitarra elétrica, teclado, contra baixo elétrico, dentre outros instrumentos eletrônicos, então ela não é acústica. Ser acústica é preservar as características naturais dos instrumentos. 

Como instrumentos eletrônicos são recentes na história da música, é natural acreditar que a maioria das músicas são acústicas. Mas será que este dataset se comporta assim? Também é legítimo imaginar que alguns gêneros terão destaques do que outros, a começar pelas músicas "Eletronic". Vamos verificar!

OBS: Como repetiremos vários deste procedimentos em outros atributos, resolvemos modulá-los em função. Observe!

## **Visões gerais**

Para todos os atributos, incluindo este, vamos apresentar as visões gerais de maneira parecida como foi feito para `popularity`. O objetivo é transformar a tabela gerada pela função de agregação `describe()` em algo visual. Para isso, faremos o seguinte:
* Plotar tabela `describe()`
* Gerar gráfico de barra da média de acousticness para cada gênero
* Gerar redgeline da distribuição de acousticness para cada gênero
* Box plot do acoustiness para o dataset inteiro

### *Tabela describe:*

In [None]:
def describe_feature(feature: str) -> pd.DataFrame:
  feature_describe = spotify.groupby('genre').describe()[feature].drop(columns = 'count')
  return feature_describe

In [None]:
describe_feature('acousticness')

Note que é muito difícil visualizar este tipo de dado.

### *Gráfico de barra da média de acousticness para cada gênero*

In [None]:
def bar_mean_feature(feature: str):
  mean_feature = spotify.groupby('genre').mean()
  mean_feature.sort_values(by = feature, ascending = False, inplace = True)
  bar = px.bar( mean_feature,
                x = mean_feature.index, 
                y = feature, 
                title = "Média de " + feature + " por gênero")
  bar.show()

In [None]:
bar_mean_feature('acousticness')

Note que 'Opera', 'Classical', 'A Capella', 'Comedy', 'Soundtrack' e 'Movie' formam o bloco com mais acústica. Isso é natural, pois todos estes gêneros são conhecidos por abusar de instrumentos ou, no caso de 'A Capella' da voz. Em contrapartida, vemos 'Ska', 'Eletronic', 'Dance', 'Alternative' e mais alguns formando o bloco menos acústico. Note que músicas desses gêneros usam muito teclado e guitarra, contribuindo para a posição no gráfico.

### *Redgeline da distribuição de acousticness para cada gênero*

In [None]:
def redgeline_feature(feature: str):
  #Não consegui adicionar um título, infelizmente ;(
  redgeline = sns.FacetGrid(spotify, row = "genre", hue = "genre", aspect = 2.5, height = 2.5) 
  redgeline.map(sns.kdeplot, feature, clip_on = True, 
        shade=True, alpha=0.7, lw=2, bw=.4)

In [None]:
redgeline_feature('acousticness')

Vale a pena observar que alguns dos gráficos do redgeline superam o limite inferior 0 e o superior 1. Isso porque o redgeline não promove uma queda brusca. Após calcular a densidade no ponto 0 e 1, o gráfico começa descer gradativamente.

### *Box plot*

Esta é uma ferramenta gráfica para visualizar distribuição e valores discrepantes (outliers) dos dados. Nela encontra-se localização, dispersão, assimetria, comprimento da cauda e outliers (medidas discrepantes). Para isso, trabalha-se com mínimo, o primeiro quartil (Q1), a mediana, o terceiro quartil (Q3) e o máximo.  

In [None]:
def box_feature(feature:str):
  box = px.box(spotify,
          #points = 'all',
          y = feature, 
          title = "Box plot do data set para o atributo " + feature)
  box.show()

In [None]:
box_feature('acousticness')

## **Análise dos 10%**

Com o intuito de explorar um pouco mais o dataset, repetimos o procedimento feito para o atributo `popularity`:
* Média de acousticness entre os gêneros nos 10% de músicas com mais acousticness
* Quantidade de música por gênero nos 10% de músicas com mais acousticness
* Média de acousticness entre os gêneros nos 10% de músicas com menos acousticness
* Quantidade de música por gênero nos 10% de músicas com menos acousticness

In [None]:
#Fazer a devida documentação das funções
def plot_bar(ter_percent : pd.core.frame.DataFrame, feature : str, title : str):
  bar = px.bar( ter_percent,
                x = ter_percent.index, 
                y = feature, 
                title = title)
  bar.show()

def ter_percent_func (feature: str, bool_ascending : bool):
  #Ordenando o DataFrame segundo a feature
  more_less_feature = spotify.sort_values(by = feature, ascending = bool_ascending)

  #Coletando os 10% menores ou maiores
  ten_percent_head = more_less_feature.head(int(0.1*len(more_less_feature.index)))

  #Agrupando por gênero e tirando a média
  ten_percent_head_feature = ten_percent_head.groupby('genre').mean()
  #Ordenando o recorte
  ten_percent_head_feature.sort_values(by = feature, ascending = False, inplace = True)
  #Setando o título
  if bool_ascending:
    title = "Média de " + feature + " entre os gêneros nos 10% de músicas com menos " + feature
  else:
    title = "Média de " + feature + " entre os gêneros nos 10% de músicas com mais " + feature
  #Executando o plot
  plot_bar(ten_percent_head_feature, feature, title)

  #Agrupando por gênero e fazendo a contagem
  ten_percent_num_head = ten_percent_head.groupby('genre').size()
  #Ordenando o recorte
  ten_percent_num_head.sort_values(ascending = False, inplace = True)
  if bool_ascending:
    title = "Quantidade de música por gênero nos 10% de músicas com menos " + feature
  else:
    title = "Quantidade de música por gênero nos 10% de músicas com mais " + feature
  #Executando o plot
  plot_bar(ten_percent_num_head, ten_percent_num_head, title)

def bar_10_percent_feature (feature : str):
  #Primeiro bloco: 10% com mais feature
  ter_percent_func(feature, False)
  #Segundo bloco: 10% com menos feature
  ter_percent_func(feature, True)

In [None]:
bar_10_percent_feature('acousticness')

Conclusões gerais: todos os gêneros possuem sua parcela de acousticness. 'Opera' e 'Classical' são os mais presentes nos mais acústicos. Entre os menos acústicos, o 'Classical' é o menos acústico. 'Ska', 'Alternative', 'Children Music', 'Eletrocnic' e 'Anime' são mais presentes nos menos acústicos. 

## **Histograma e boxpot para os gêneros destaque**

Apenas a título de curiosidade e para deixar as coisas ainda mais claras, vamos plotar o histogram e o boxplot dos gêneros destaques (tanto para mais, quanto para menos) para o atributo acousticness.

### *Mais destacado*

In [None]:
def box_feature_specifc (feature: str, genero: str):
  box = px.box(spotify[spotify['genre'] == genero],
      #points="all",
      y = feature,
      title = "Box plot do gênero " + genero + " para o atributo " + feature)
  box.show()

In [None]:
box_feature_specifc('acousticness', 'Opera')

In [None]:
def hist_feature_specifc (feature: str, genero: str):
  hist = px.histogram(spotify[spotify['genre'] == genero], 
                  x = feature, 
                  nbins = 200,
                  title = "Distribuição das músicas segundo o atributo " + 
                    feature + " para o gênero " + genero)
  hist.show()

In [None]:
hist_feature_specifc('acousticness', 'Opera')

### *Menos destacado*

In [None]:
box_feature_specifc('acousticness', 'Electronic')

In [None]:
hist_feature_specifc('acousticness', 'Electronic')

## **Conclusões**

Várias conclusões foram feitas e acreditamos que elas são suficientes para análise. A partir de agora, o documento será bem mais sucinto, discursando apenas nas conclusões que acontecerá no final dos tópicos ou sugerindo hipóteses no início.

# **Danceability**

`danceability` indica o quanto uma música é adequada para dançar. Essa métrica é elaborada com base nos elementos músicas (ritmo, força da batida, regularidade geral, etc.). Essa medida varia entre 0 e 1. Quanto mais próximo de 1, mais dançável ela é.

In [None]:
feature = 'danceability'

## **Visões gerais**

### *Tabela describe:*

In [None]:
describe_feature(feature)

### *Gráfico de barra da média para cada gênero*

In [None]:
bar_mean_feature(feature)

Note que 'Reggaeton', 'Hip-hop', 'Reggae' e 'Rap' são mais dançáveis. 'A Capella', 'Classical', 'Opera' e 'Soundtrack' são menos dançáveis.

### *Redgeline da distribuição para cada gênero*

In [None]:
redgeline_feature(feature)

### *Box plot*


In [None]:
box_feature(feature)

## **Análise dos 10%**

In [None]:
bar_10_percent_feature(feature)

## **Histograma e boxpot para os gêneros destaque**

In [None]:
mais_destaque = 'Hip-Hop'
menos_destaque = 'Soundtrack'

### *Mais destacado*

In [None]:
box_feature_specifc(feature, mais_destaque)

In [None]:
hist_feature_specifc(feature, mais_destaque)

### *Menos destacado*

In [None]:
box_feature_specifc(feature, menos_destaque)

In [None]:
hist_feature_specifc(feature, menos_destaque)

# **Energy**

O atributo `energy` mede a intensidade e a atividade da música. Música energéticas são rápidas, altas e barulhentas. Os cálculos desta atributo envolvem timbre, entropia geral, taxa de onset, percepção de volume, etc. Essa medida varia entre 0 e 1. Quanto mais próximo de 1, mais dançável ela é. Quanto mais próximo de 1, mais energética ela é.

Para este atributo, músicas mais "death metal" devem ser mais energéticas que clássicas, por exemplo. "Typically, energetic tracks feel fast, loud, and noisy. For example, death metal has high energy, while a Bach prelude scores low on the scale."

In [None]:
feature = 'energy'

## **Visões gerais**

### *Tabela describe:*

In [None]:
describe_feature(feature)

### *Gráfico de barra da média para cada gênero*

In [None]:
bar_mean_feature(feature)

'Ska', 'Reggaeton' e 'Electronic' são mais energicos. Já 'Opera', 'Classical' e 'Soundtrack' são os menos enérgicos.

### *Redgeline da distribuição para cada gênero*

In [None]:
redgeline_feature(feature)

### *Box plot*


In [None]:
box_feature(feature)

## **Análise dos 10%**

In [None]:
bar_10_percent_feature(feature)

CONCLUSÕES

## **Histograma e boxpot para os gêneros destaque**

In [None]:
mais_destaque = 'Ska'
menos_destaque = 'Classical'

### *Mais destacado*

In [None]:
box_feature_specifc(feature, mais_destaque)

In [None]:
hist_feature_specifc(feature, mais_destaque)

### *Menos destacado*

In [None]:
box_feature_specifc(feature, menos_destaque)

In [None]:
hist_feature_specifc(feature, menos_destaque)

# **Instrumentalness**

O `instrumentalness` é uma métrica que determina o quão confiável é assumir que a música não contem vocal. Essa medida varia entre 0 e 1. Quanto mais próximo de 1, mais confiável é fazer essa afirmação.

OBS: "Ooh" e "aah" são tratados como instrumentos neste contexto.

É esperado que gênero como 'Rap' tenho baixíssimo `instrumentalness`.

In [None]:
feature = 'instrumentalness'

## **Visões gerais**

### *Tabela describe:*

In [None]:
describe_feature(feature)

### *Gráfico de barra da média para cada gênero*

In [None]:
bar_mean_feature(feature)

'Soundtrack' e 'Classical' são isoladamente os gêneros com menor presença de vocal. Em contrapartida, 'Comedy', 'Reggaeton, 'Country' e 'A Capella' são os com mais vocal.

### *Redgeline da distribuição de acousticness para cada gênero*

In [None]:
redgeline_feature(feature)

### *Box plot*


In [None]:
box_feature(feature)

## **Análise dos 10%**

In [None]:
bar_10_percent_feature(feature)

## **Histograma e boxpot para os gêneros destaque**

In [None]:
mais_destaque = 'Soundtrack'
menos_destaque = 'Comedy'

### *Mais destacado*

In [None]:
box_feature_specifc(feature, mais_destaque)

In [None]:
hist_feature_specifc(feature, mais_destaque)

### *Menos destacado*

In [None]:
box_feature_specifc(feature, menos_destaque)

In [None]:
hist_feature_specifc(feature, menos_destaque)

# **Liveness**

`liveness` é uma métrica que determina o quão confiável é assumir a música possui plateia. Essa medida varia entre 0 e 1. Quanto mais próximo de 1, mais confiável é fazer essa afirmação.

In [None]:
feature = 'liveness'

## **Visões gerais**

### *Tabela describe:*

In [None]:
describe_feature(feature)

### *Gráfico de barra da média para cada gênero*

In [None]:
bar_mean_feature(feature)

'Comedy' é o vencedor isolado deste atributo. Todos os outros são quase que equivalentes, mas 'A Capella' é o menor.

### *Redgeline da distribuição para cada gênero*

In [None]:
redgeline_feature(feature)

### *Box plot*


In [None]:
box_feature(feature)

## **Análise dos 10%**

In [None]:
bar_10_percent_feature(feature)

## **Histograma e boxpot para os gêneros destaque**

In [None]:
mais_destaque = 'Comedy'
menos_destaque = 'Children’s Music'

### *Mais destacado*

In [None]:
box_feature_specifc(feature, mais_destaque)

In [None]:
hist_feature_specifc(feature, mais_destaque)

### *Menos destacado*

In [None]:
box_feature_specifc(feature, menos_destaque)

In [None]:
hist_feature_specifc(feature, menos_destaque)

#**Loudness**

O atributo `loudness` é o volume, medido em decibéis, médio de uma faixa. Os valores geralmente variam entre -60 e 0 db.

Útil para comparar os volumes. Adiantamos que muito das faixas de baixos decibéis na possem erro de áudio ou de gravação de forma que simplesmente não saem som. s oueh erro de gravacao. as primeria q começam q surgir a medid que avança no decibel sao classicas e soundtrack

In [None]:
feature = 'loudness'

## **Visões gerais**

### *Tabela describe:*

In [None]:
describe_feature(feature)

### *Gráfico de barra da média para cada gênero*

In [None]:
bar_mean_feature(feature)

A média de volume relativo é bem menor em 'A Capella', 'Soundtrack', 'Opera' e 'Classical'. 'Reggaeton', 'Dance', 'Ska' e 'Pop' são maiores.

### *Redgeline da distribuição para cada gênero*

In [None]:
redgeline_feature(feature)

### *Box plot*


In [None]:
box_feature(feature)

## **Análise dos 10%**

In [None]:
bar_10_percent_feature(feature)

## **Histograma e boxpot para os gêneros destaque**

In [None]:
mais_destaque = 'Anime'
menos_destaque = 'Classical'

### *Mais destacado*

In [None]:
box_feature_specifc(feature, mais_destaque)

In [None]:
hist_feature_specifc(feature, mais_destaque)

### *Menos destacado*

In [None]:
box_feature_specifc(feature, menos_destaque)

In [None]:
hist_feature_specifc(feature, menos_destaque)

# **Speechiness**

O atributo `speechiness` indica a presença de palavras faladas. Valores acima de 0.66 descrevem músicas que provavelmente são feitas inteiramente de palavras faladas. Valores entre 0.33 e 0.66 descrevem músicas que podem conter música e fala. Valores abaixo de 0.33 representam músicas que não possuem palavras faladas.

In [None]:
feature = 'speechiness'

## **Visões gerais**

### *Tabela describe:*

In [None]:
describe_feature(feature)

### *Gráfico de barra da média para cada gênero*

In [None]:
bar_mean_feature(feature)

### *Redgeline da distribuição para cada gênero*

In [None]:
redgeline_feature(feature)

### *Box plot*


In [None]:
box_feature(feature)

## **Análise dos 10%**

In [None]:
bar_10_percent_feature(feature)

## **Histograma e boxpot para os gêneros destaque**

In [None]:
mais_destaque = 'Comedy'
menos_destaque = 'Country'

### *Mais destacado*

In [None]:
box_feature_specifc(feature, mais_destaque)

In [None]:
hist_feature_specifc(feature, mais_destaque)

### *Menos destacado*

In [None]:
box_feature_specifc(feature, menos_destaque)

In [None]:
hist_feature_specifc(feature, menos_destaque)

# **Tempo**

O atributo `tempo` o ritmo médio da música. A medida é atráveis de batidas por minuto (BPM).

In [None]:
feature = 'tempo'

## **Visões gerais**

### *Tabela describe:*

In [None]:
describe_feature(feature)

### *Gráfico de barra da média para cada gênero*

In [None]:
bar_mean_feature(feature)

Neste atributo, as músicas distoam muito pouco. Mesmo sendo vencedor, 'Ska' não é muito diferente do perdedor 'Comedy'

### *Redgeline da distribuição para cada gênero*

In [None]:
redgeline_feature(feature)

### *Box plot*


In [None]:
box_feature(feature)

## **Análise dos 10%**

In [None]:
bar_10_percent_feature(feature)

CONCLUSÕES

## **Histograma e boxpot para os gêneros destaque**

In [None]:
mais_destaque = 'Ska'
menos_destaque = 'Comedy'

### *Mais destacado*

In [None]:
box_feature_specifc(feature, mais_destaque)

In [None]:
hist_feature_specifc(feature, mais_destaque)

### *Menos destacado*

In [None]:
box_feature_specifc(feature, menos_destaque)

In [None]:
hist_feature_specifc(feature, menos_destaque)

# **Valence**

O atributo `valence` descreve a "positividade transmitida" por uma música. Essa medida varia entre 0 e 1. Quanto mais próximo de 1, mais o som soa positivo (ou seja, feliz, alegre, eufórico, etc.). Quanto mais próximo de 0, mais o som soa negativo (ou seja, triste, deprimido, irritado, etc.)

In [None]:
feature = 'valence'

## **Visões gerais**

### *Tabela describe:*

In [None]:
describe_feature(feature)

### *Gráfico de barra da média para cada gênero*

In [None]:
bar_mean_feature(feature)

'Reggae', 'Reggaeton' e 'Ska' são bem mais animados do que 'Classical', 'Opera' e 'Soundtrack'.

### *Redgeline da distribuição para cada gênero*

In [None]:
redgeline_feature(feature)

### *Box plot*


In [None]:
box_feature(feature)

## **Análise dos 10%**

In [None]:
bar_10_percent_feature(feature)

CONCLUSÕES

## **Histograma e boxpot para os gêneros destaque**

In [None]:
mais_destaque = 'Reggae'
menos_destaque = 'Soundtrack'

### *Mais destacado*

In [None]:
box_feature_specifc(feature, mais_destaque)

In [None]:
hist_feature_specifc(feature, mais_destaque)

### *Menos destacado*

In [None]:
box_feature_specifc(feature, menos_destaque)

In [None]:
hist_feature_specifc(feature, menos_destaque)

# **Duration_ms**

O atributo `duration_ms` é o tempo, em milisegundos, da música.

Sobre este atributo, não há muito que discutir, pois a faixa de tempo da maioria das músicas são muito parecidas. Desta maneira, optamos apenas por transformar a unidade de medida da música de milissegundos para minutos:

In [None]:
spotify['duration_ms'] = spotify.apply(lambda x: x.duration_ms/60000, axis = 1)

# **Key, mode e time_signature**

* `key`: o tom a qual a música pertence/está. No total, são 12. Caso não tenha sido detectado, vale -1;
* `mode`: indica escala melódica da música. Pode assumir 'Minor' ou 'Major';
* `time_signature`: é uma notação para especificar o quantas batidas cada compasso tem.

Como são dados categóricos e muito específico para quem entende de música, fica um pouco díficil analisar. Portanto, vamos plotar o valor modal de cada gênero.

In [None]:
spotify.groupby(['genre']).agg(pd.Series.mode)[['key','mode','time_signature']]

OBS: se der tempo, vamos visualizar a quantidade de cada um.

# **Outros**

Por fim, apenas por curiosidade, segue uma comparaçao entre duas músicas com mesmo track_name, mas artist_name diferentes. Gostaríamos de ter gerado um spider plot, mas infelizmente não conseguimos.

In [None]:
spotify_droped = spotify.drop(columns = ['genre','artist_name','track_name','key','mode','time_signature','duration_ms'])
scaler = preprocessing.MinMaxScaler()
scaled = scaler.fit_transform(spotify_droped)
spotify_scaled = pd.DataFrame(data = scaled, columns = spotify_droped.columns)
compare_music = spotify_scaled[(spotify_scaled.index == 153996) | (spotify_scaled.index == 65586)]

Uma outra ideia interessante que, infelizmente, não tivemos tempo hábil, é a de gerar uma núvem de palavras relacionando músicas a seu nível de popularidade. As cores representariam o gênero a qual pertence. Provavelmente, no entando, não daria certo pelo alto números de músicas.