<a href="https://colab.research.google.com/github/luanSaid/predict-popularity-spotify/blob/main/predict_popularity_spotify.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Trabalho de Aprendizado de Máquina
## Nome: Luan Said Meira
## Matrícula: 20103533

## Título do Trabalho: Predição da Popularidade de músicas no Spotify


## Definição de escopo do projeto

### Objetivo
Nesta tarefa o objetivo é construir os modelos preditivos de regressão para a predição de popularidade de músicas. Os dados a serem utilizados foram extraídos do Spotify. Abaixo seguem as definições do que significa cada uma das variáveis escolhidas para compor as variáveis independentes:


* year: Ano de lançamento
* acousticness: Entre 0 e 1, quanto a música é acústica.
* danceability: Entre 0 e 1, quanto a música é dançável.
* energy: Entre 0 e 1, quanto a música é energética.
* explicit: 1 se a música contém letra com conteúdo explícito, 0 caso contrário.
* instrumentalness: Entre 0 e 1, quão instrumental é a música.
* key: Tom da música, mapeado aqui.
* liveness: Entre 0 e 1, quão “Ao vivo” é a música
* loudness: O quanto a música é volumosa. O valor usualmente varia entre -60 e 0, representando a quantidade de decibéis da música.
* mode: 1 se a música é em tom maior, 0 se em tom menor. Popularmente, as músicas em tom maior são consideradas músicas felizes, enquanto as em tom menor são consideradas mais tristes.
* speechiness: Entre 0 e 1, quanto a música é vocalizada/falada.
* tempo: Tempo da música em quantidades de Batidas por Minuto (BPM)
* valence: Entre 0 e 1, descreve a positividade da música, com valores altos para músicas positivas (felizes, alegres, eufóricas, etc) e valores baixos para músicas negativas (tristes, com raiva, etc)
* **popularity: Entre 0 e 100, popularidade da música. Neste conjunto, esta é a variável alvo.**


### Aprendizado Supervisionado
A característica básica de sistemas de aprendizado supervisionado é que os dados que utilizamos para treiná-los contém a resposta desejada, isto é, contém a variável dependente resultante das variáveis independentes observadas. Nesse caso, dizemos que os dados são anotados com as respostas ou classes a serem previstas.


### Problemas de Regressão
Os problemas de regressão existem quando precisamos prever um valor numérico específico. Este valor pode ser o preço de um produto, o peso ou altura de uma pessoa, a metragem de uma casa, e assim por diante. Nestas situações, o modelo poderá apresentar como resposta qualquer valor. Por exemplo, você pode apresentar produtos e seus preços para que o algoritmo crie o modelo, e ainda que nestes produtos não exista nenhum preço superior a R$ 100,00 o modelo poderá realizar previsões de preços superiores a este valor.

### Bootstrap

Uma distribuição de amostragem descreve a probabilidade de se obter todos os valores possíveis de uma estatística em uma amostra aleatória de uma população; em outras palavras, qual proporção de todas as amostras aleatórias desse tamanho fornecerão esse valor. Bootstrapping é um método que estima a distribuição de amostragem que coleta várias amostras com reposição de uma amostra aleatória única. Essas amostras repetidas são chamadas reamostras. Cada reamostra é do mesmo tamanho da amostra original.

### Hipóteses

Com as definições acima, inferiu-se que o melhor algoritmo para prever a popularidade das músicas do Spotify seria o Random Forest Regressor, no qual é um problema de regressão e dispõe de dados para aprendizado supervisionado. 


## Implementação do modelo


#### Read data

In [None]:
import numpy as np
import pandas as pd

df = pd.read_csv('/content/drive/MyDrive/Faculdade/Ciência da Informação/2020.2/Introdução a Machine Learning/Trabalho - Spotify Regression /train.csv')

#### Choose Variables Dependents

In [None]:
x = df[['year','danceability', 'acousticness', 'energy','explicit', 'liveness', 'loudness', 'mode', 'speechiness', 'valence']]
y = df['popularity']

#### Split dataset

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

x_train,x_test, y_train, y_test = train_test_split(x.values,y.values, test_size=0.3, random_state = 0)

#### Normalize data

In [None]:
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()

x_train = sc.fit_transform(x_train)
x_test = sc.transform(x_test)

#### Random Forest Regressor

In [None]:
from sklearn.ensemble import RandomForestRegressor

modelo = RandomForestRegressor(max_depth=20, random_state=5, max_features='sqrt', criterion='mae', n_estimators=15)
modelo.fit(x_train, y_train)

RandomForestRegressor(bootstrap=True, ccp_alpha=0.0, criterion='mae',
                      max_depth=20, max_features='sqrt', max_leaf_nodes=None,
                      max_samples=None, min_impurity_decrease=0.0,
                      min_impurity_split=None, min_samples_leaf=1,
                      min_samples_split=2, min_weight_fraction_leaf=0.0,
                      n_estimators=15, n_jobs=None, oob_score=False,
                      random_state=5, verbose=0, warm_start=False)

In [None]:
y_pred = modelo.predict(x_test)

#### Data Analyses

Comparando os 50 primeiros resultados da predição com o valor *verdadeiro* de y 

In [None]:
data = pd.DataFrame()
data
data['Predicted'] =  y_pred.astype(int)
data['Popularity'] = y_test

data.head(30)

Unnamed: 0,Predicted,Popularity
0,48,69
1,8,20
2,1,15
3,19,0
4,19,8
5,33,28
6,28,65
7,40,36
8,0,0
9,32,29


#### R2 Score

In [None]:
from sklearn.metrics import r2_score
print(f'Final R2 Score: {r2_score(y_test, y_pred):.3f}')

Final R2 Score: 0.628


#### Tuning CSV

Abaixo segue o código que utilizei para tentar encontrar os melhores parametros (auxílio no processo de Tuning do Modelo)

In [None]:
import numpy as np
from sklearn.datasets import load_boston
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestRegressor

df_train = pd.read_csv('/content/drive/MyDrive/Faculdade/Ciência da Informação/2020.2/Introdução a Machine Learning/Trabalho - Spotify Regression /train.csv')

SEED = 30

random_forest = RandomForestRegressor(random_state = SEED)

X = df_train[['danceability', 'acousticness', 'energy','explicit', 'liveness', 'loudness', 'mode', 'speechiness', 'valence']]
y = df_train['popularity']

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=SEED)

random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print('MAE: ', mean_absolute_error(y_test, y_pred))
print('MSE: ', mean_squared_error(y_test, y_pred))

'''
MAE:  12.422671021610947
MSE:  271.66249796289014
'''

from sklearn.model_selection import GridSearchCV
random_forest_tuning = RandomForestRegressor(random_state = SEED)

param_grid = { 
    'max_features': ['auto', 'sqrt', 'log2'],
    'max_depth' : [8, 20, 35, 50]
}


'''
    'n_estimators': [50, 75, 200, 400],
    'criterion' :['mse', 'mae'],
    'max_features': ['auto', 'sqrt', 'log2'],
    'max_depth' : [8, 20, 35, 50],
'''


GSCV = GridSearchCV(estimator=random_forest_tuning, param_grid=param_grid, cv=5)
GSCV.fit(X_train, y_train)

print(GSCV.best_params_)
# Best params: {'max_depth': 50, 'max_features': 'sqrt', 'criterion': 'mae', }



MAE:  12.422671021610947
MSE:  271.66249796289014
{'max_depth': 50, 'max_features': 'sqrt'}


#### Referências

* Link Kaggle Code: https://www.kaggle.com/luansaid/spotify-regression/edit
* Link Competetion: https://www.kaggle.com/c/spotify-popularity-prediction/submissions
* Link Variáveis e correlações: http://www.dpi.ufv.br/~peternelli/inf162.www.16032004/materiais/CAPITULO9.pdf