# Spotify Song Attributes

### Pre-processamento

- Neste link é possível encontrar uma descrição mais detalhada dos atributos contidos no dataset:
https://opendatascience.com/a-machine-learning-deep-dive-into-my-spotify-data/
- 
- 

In [107]:
# Imports
from pandas import read_csv
from sklearn.preprocessing import MinMaxScaler

In [108]:
# Leitura do dataset
df = read_csv('../data/data.csv')

In [109]:
df.head()

Unnamed: 0.1,Unnamed: 0,acousticness,danceability,duration_ms,energy,instrumentalness,key,liveness,loudness,mode,speechiness,tempo,time_signature,valence,target,song_title,artist
0,0,0.0102,0.833,204600,0.434,0.0219,2,0.165,-8.795,1,0.431,150.062,4.0,0.286,1,Mask Off,Future
1,1,0.199,0.743,326933,0.359,0.00611,1,0.137,-10.401,1,0.0794,160.083,4.0,0.588,1,Redbone,Childish Gambino
2,2,0.0344,0.838,185707,0.412,0.000234,2,0.159,-7.148,1,0.289,75.044,4.0,0.173,1,Xanny Family,Future
3,3,0.604,0.494,199413,0.338,0.51,5,0.0922,-15.236,1,0.0261,86.468,4.0,0.23,1,Master Of None,Beach House
4,4,0.18,0.678,392893,0.561,0.512,5,0.439,-11.648,0,0.0694,174.004,4.0,0.904,1,Parallel Lines,Junior Boys


In [110]:
# Não temos dados faltantes no dataset
df.isna().sum().sum()

0

In [111]:
df.shape

(2017, 17)

In [112]:
df.columns

Index(['Unnamed: 0', 'acousticness', 'danceability', 'duration_ms', 'energy',
       'instrumentalness', 'key', 'liveness', 'loudness', 'mode',
       'speechiness', 'tempo', 'time_signature', 'valence', 'target',
       'song_title', 'artist'],
      dtype='object')

### Utilização dos atributos

- A primeira coluna (não nomeada) é referente ao ID da música e será removida assim como as colunas **['song_title', 'artist']** pois não são úteis ao treinamento do modelo;
- As colunas **['key', 'time_signature']** têm peculiaridades que merecem uma maior atenção em um trabalho futuro. Tais colunas serão removidas por conveniência;

In [113]:
df.drop(columns=['Unnamed: 0', 'song_title', 'artist', 'key', 'time_signature'], inplace=True)

- Os atributos **['duration_ms', 'tempo']** contém valores que estão em uma escala diferente dos demais atributos e serão ajustados utilizando uma função apropriada do scikit-learn;
- Os atributos **['acousticness', 'danceability', 'energy', 'instrumentalness', 'liveness', 'loudness', 'mode', 'speechiness' 'valence']** não serão alterados pois já estão com valores entre 0 e 1 (escala desejada);
- Por fim, temos a coluna 'target' a qual é nossa variável alvo (0,1).

In [114]:
scaler = MinMaxScaler()
df['duration_ms'] = scaler.fit_transform(df['duration_ms'].values.reshape(-1,1))
df['tempo'] = scaler.fit_transform(df['tempo'].values.reshape(-1,1))
df['loudness'] = scaler.fit_transform(df['loudness'].values.reshape(-1,1))

In [115]:
df['target'] = df['target'].replace(0,-1)

In [120]:
df.to_csv('../data/pp_data.csv', index=False)