<a href="https://colab.research.google.com/github/m4rc0st/Comment-List/blob/main/analise_spotify_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 1. Introdução

A análise abaixo foi feita utilizando dados de faixas do Spotify em uma variedade de 125 gêneros diferentes. Cada faixa tem alguns recursos de áudio associados a ela, que está disponível no site [Kangle](https://www.kaggle.com/datasets/maharshipandya/-spotify-tracks-dataset?select=dataset.csv).

A motivação do estudo parte de entender como essas variáveis afetam no popularidade das musícas. Mostrando-se relevante, por permitir enteder o gosto dos usuários e possibilitar a construção de um sistema de recomendação para os usuários do Spotify, com base nas suas entradas.

**Hipóteses iniciais quanto a base utilizada:**
1. Qual a relação das variáveis com o nível de popularidade da faixa?
2. Há alguma tendência de variação no tempo médio das faixas ao longo dos anos?
3. Existe uma correlação entre a energia de uma faixa e sua popularidade?  

### 1.1 Importando as Bibliotecas

In [None]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sb

plt.style.use('ggplot')

### 1.2 Carregando o Dataset

In [None]:
# importando o arquivo de músicas
df = pd.read_csv('/content/dataset.csv', low_memory = False)
df.head()

In [None]:
df.info()

1.2.1 Limpando o Dataset

Remover os dados nulos, também conhecidos como valores ausentes ou NaN (Not a Number), do conjunto de dados é uma etapa comum na limpeza de dados. Essa etapa é realizada para manter a integridade dos dados, evitar erros na análise e possíveis interpretações.

In [None]:
# contando valores ausentes
df.isna().sum()

In [None]:
#verificando a localização dos valores nulos
valores_nulos = df.loc[df.isna().any(axis=1)]
print(valores_nulos)

In [None]:
# retirando espaços vazios
df.dropna(inplace=True)

### 1.3 Análise Univariada

In [None]:
variaveis = ['popularity', 'duration_ms', 'danceability', 'energy', 'key', 'loudness',
             'mode', 'speechiness', 'acousticness', 'instrumentalness', 'liveness',
             'valence', 'tempo', 'time_signature']

for variavel in variaveis:
    plt.figure(figsize=(6, 4))
    plt.hist(df[variavel], bins=20, color='blue', alpha=0.7)
    plt.title(f'Histograma de {variavel}')
    plt.xlabel(variavel)
    plt.ylabel('Frequência')
    plt.show()

In [None]:
variaveis_objects = ['track_genre']

for variavel in variaveis_objects:
  contagem_por_categoria = df[variavel].value_counts()
  plt.figure(figsize=(6, 4))
  contagem_por_categoria.plot(kind='bar', color='blue')
  plt.title(f'Distribuição da Variável: {variaveis_objects}')
  plt.xlabel(variaveis_objects)
  plt.ylabel('Contagem')
  plt.xticks(rotation=45)
  plt.show()

In [None]:
df['artists'].value_counts()

In [None]:
df['track_genre'].value_counts()

### 1.4 Análise Multivariável

In [None]:
# Mapa de Calor
musica = ['popularity', 'duration_ms', 'danceability','energy', 'key', 'loudness', 'mode', 'speechiness',
             'acousticness', 'instrumentalness','liveness', 'valence', 'tempo','time_signature','track_genre']

# matriz de correlação
corrmat = df[musica].corr()

#configurações do tamanho do plot
fig = plt.figure(figsize = (12, 9))

#masking the upper traingle part since matrix is symmetric(repetitive)
mask = np.triu(np.ones_like(corrmat, dtype=bool))
sb.heatmap(corrmat, vmax = .8,mask=mask, square = True, annot = True)
plt.show()

In [None]:
# Exploração percentual desses valores
plt.figure(figsize=(30,15))
musica = ['popularity', 'duration_ms', 'danceability','energy', 'key', 'loudness', 'mode', 'speechiness',
             'acousticness', 'instrumentalness','liveness', 'valence', 'tempo','time_signature','track_genre']
corrMatrix = df[musica].corr()
sb.heatmap(corrMatrix, annot=True)
plt.show()