# Spotify Song Attributes

#### Equipe: 

- Benedikt Reppin - 501237
- Natália Rios - 408864
- Helano Pessoa - 398861

### Introdução

- O dataset escolhido foi o 'Spotify Song Attributes' disponível no Kaggle neste link: https://www.kaggle.com/geomack/spotifyclassification/data;
- Nesse dataset temos dados referentes à músicas presentes em playlists de um cliente spotify;
- Os dados foram obtidos pelo cliente em 2017 através de extração com a ajuda da API do Spotify;
- Foram criadas duas playlists: uma com músicas classificadas como '0' - GOSTO e '1' - NÃO GOSTO;
- Sendo assim, o problema estabelecido é de classificação binária da variável 'target' descrita acima;
- Os atributos que interessam nesta análise são atributos de audio das músicas;
- Neste link é possível encontrar uma descrição mais detalhada dos atributos contidos no dataset, bem como uma apresentação do trabalho realizado pelo autor: 
https://opendatascience.com/a-machine-learning-deep-dive-into-my-spotify-data/;
- No trabalho original foram utilizados KNN e Decision Tree para a classificação. Não há uma descrição detalhada para o pre-processamento realizado. Pretendemos abordar o problema utilizando os conhecimentos aprendidos na disciplina até então e através de pesquisa;


- O objetivo deste trabalho é utilizar o classificador Perceptron e, possivelmente outros modelos para classificar músicas entre GOSTO e NÂO GOSTO de acordo com a apreciação do cliente em questão.

### Pre-processamento

In [1]:
# Imports
from pandas import read_csv
from sklearn.preprocessing import MinMaxScaler

In [2]:
# Leitura do dataset
df = read_csv('data.csv')

In [3]:
# primeiras 5 linhas do dataset
df.head()

Unnamed: 0.1,Unnamed: 0,acousticness,danceability,duration_ms,energy,instrumentalness,key,liveness,loudness,mode,speechiness,tempo,time_signature,valence,target,song_title,artist
0,0,0.0102,0.833,204600,0.434,0.0219,2,0.165,-8.795,1,0.431,150.062,4.0,0.286,1,Mask Off,Future
1,1,0.199,0.743,326933,0.359,0.00611,1,0.137,-10.401,1,0.0794,160.083,4.0,0.588,1,Redbone,Childish Gambino
2,2,0.0344,0.838,185707,0.412,0.000234,2,0.159,-7.148,1,0.289,75.044,4.0,0.173,1,Xanny Family,Future
3,3,0.604,0.494,199413,0.338,0.51,5,0.0922,-15.236,1,0.0261,86.468,4.0,0.23,1,Master Of None,Beach House
4,4,0.18,0.678,392893,0.561,0.512,5,0.439,-11.648,0,0.0694,174.004,4.0,0.904,1,Parallel Lines,Junior Boys


In [4]:
# não temos dados faltantes no dataset
df.isna().sum().sum()

0

In [5]:
# temos 2017 amostras e 17 colunas
df.shape

(2017, 17)

In [6]:
# colunas do dataset
df.columns

Index(['Unnamed: 0', 'acousticness', 'danceability', 'duration_ms', 'energy',
       'instrumentalness', 'key', 'liveness', 'loudness', 'mode',
       'speechiness', 'tempo', 'time_signature', 'valence', 'target',
       'song_title', 'artist'],
      dtype='object')

### Utilização dos atributos

- A primeira coluna (não nomeada) é referente ao ID da música e será removida assim como as colunas **['song_title', 'artist']** pois não são úteis ao treinamento do modelo;
- As colunas **['key', 'time_signature']** têm peculiaridades que merecem uma maior atenção em um trabalho futuro. Tais colunas serão removidas por conveniência;

In [7]:
# remoção de colunas
df.drop(columns=['Unnamed: 0', 'song_title', 'artist', 'key', 'time_signature'], inplace=True)

- Os atributos **['duration_ms', 'tempo', 'loudness']** contém valores que estão em uma escala diferente dos demais atributos e serão ajustados utilizando uma função apropriada do scikit-learn;
- Os atributos **['acousticness', 'danceability', 'energy', 'instrumentalness', 'liveness', 'loudness', 'mode', 'speechiness' 'valence']** não serão alterados pois já estão com valores entre 0 e 1 (escala desejada);
- Por fim, temos a coluna 'target' a qual é nossa variável alvo (0,1).

In [8]:
""" 
Foi utilizado o 'MinMaxScaler' do 'sklearn' para colocar as colunas ['duration_ms', 'tempo', 'loudness']
na mesma escala das demais (entre 0 e 1)
"""

scaler = MinMaxScaler()
df['duration_ms'] = scaler.fit_transform(df['duration_ms'].values.reshape(-1,1))
df['tempo'] = scaler.fit_transform(df['tempo'].values.reshape(-1,1))
df['loudness'] = scaler.fit_transform(df['loudness'].values.reshape(-1,1))

In [9]:
# substituindo 0 por -1 para utilização do Perceptron
df['target'] = df['target'].replace(0,-1)

In [10]:
# salvando um arquivo .csv com os dados pre-processados
df.to_csv('pp_data.csv', index=False)