# Grupo 5

---


**Objetivo**: considerando a base de dados de músicas do Spotify, construir um modelo que, levando em consideração a duração de uma música e se ela é explícita ou não, prevê a popularidade desta faixa.

**Dataset**: músicas do Spotify

**Coluna Alvo**: popularity


---



## Dataset



O dataset deste trabalho foi obtido através da [API][1] do Spotify. Utilizamos o endpoint de recuperar a [playlist de musicas curtidas do usuário][2]. Esse processo foi feito da seguinte maneira:

### Inicialização

Algumas das bibliotecas e constantes a serem usadas no código.

```python
#!/usr/bin/env python
# -*- coding: utf-8 -*-

import json
import requests
from dotenv import load_dotenv
from collections import defaultdict

load_dotenv()
LIMIT = 50 #limite de músicas por request
OAUTH_TOKEN = os.environ.OAUTH_TOKEN
```

### Método principal

Onde definimos a url com a quantidade de músicas que queremos recuperar por request e a estrutura de dados que queremos utilizar.

```python
def main():
    next_url = f"https://api.spotify.com/v1/me/tracks?limit={LIMIT}"
    data = dict()
    while next_url:
        response = requests.get(url=next_url,
                                headers={
                                    "Accept": "application/json",
                                    "Content-Type": "application/json",
                                    "Authorization": OAUTH_TOKEN
                                })

        if not response:
            print(response.status_code)

        response = response.json()
```

A resposta padrão para uma única música segue este estilo: (Para facilitar a visualização ocultamos os mercados disponíveis)

```json
{
    "href": "https://api.spotify.com/v1/me/tracks?offset=0&limit=1&locale=pt-BR,pt;q=0.9,en;q=0.8",
    "items": [
        {
            "added_at": "2021-11-22T12:49:30Z",
            "track": {
                "album": {
                    "album_type": "single",
                    "artists": [
                        {
                            "external_urls": {
                                "spotify": "https://open.spotify.com/artist/1Rg9lThlSiYDl8b6z1bpg0"
                            },
                            "href": "https://api.spotify.com/v1/artists/1Rg9lThlSiYDl8b6z1bpg0",
                            "id": "1Rg9lThlSiYDl8b6z1bpg0",
                            "name": "Nick Cruz",
                            "type": "artist",
                            "uri": "spotify:artist:1Rg9lThlSiYDl8b6z1bpg0"
                        },
                        {
                            "external_urls": {
                                "spotify": "https://open.spotify.com/artist/6BXiBj4eAZsiynbcmSRHUs"
                            },
                            "href": "https://api.spotify.com/v1/artists/6BXiBj4eAZsiynbcmSRHUs",
                            "id": "6BXiBj4eAZsiynbcmSRHUs",
                            "name": "Urias",
                            "type": "artist",
                            "uri": "spotify:artist:6BXiBj4eAZsiynbcmSRHUs"
                        }
                    ],
                    "available_markets": [ ... ],
                    "external_urls": {
                        "spotify": "https://open.spotify.com/album/7MivQ2d8PX42LfAZGkTfFW"
                    },
                    "href": "https://api.spotify.com/v1/albums/7MivQ2d8PX42LfAZGkTfFW",
                    "id": "7MivQ2d8PX42LfAZGkTfFW",
                    "images": [
                        {
                            "height": 640,
                            "url": "https://i.scdn.co/image/ab67616d0000b2731883a3a7df2db0eb8f3029bb",
                            "width": 640
                        },
                        {
                            "height": 300,
                            "url": "https://i.scdn.co/image/ab67616d00001e021883a3a7df2db0eb8f3029bb",
                            "width": 300
                        },
                        {
                            "height": 64,
                            "url": "https://i.scdn.co/image/ab67616d000048511883a3a7df2db0eb8f3029bb",
                            "width": 64
                        }
                    ],
                    "name": "Cato Cato",
                    "release_date": "2021-09-10",
                    "release_date_precision": "day",
                    "total_tracks": 1,
                    "type": "album",
                    "uri": "spotify:album:7MivQ2d8PX42LfAZGkTfFW"
                },
                "artists": [
                    {
                        "external_urls": {
                            "spotify": "https://open.spotify.com/artist/1Rg9lThlSiYDl8b6z1bpg0"
                        },
                        "href": "https://api.spotify.com/v1/artists/1Rg9lThlSiYDl8b6z1bpg0",
                        "id": "1Rg9lThlSiYDl8b6z1bpg0",
                        "name": "Nick Cruz",
                        "type": "artist",
                        "uri": "spotify:artist:1Rg9lThlSiYDl8b6z1bpg0"
                    },
                    {
                        "external_urls": {
                            "spotify": "https://open.spotify.com/artist/6BXiBj4eAZsiynbcmSRHUs"
                        },
                        "href": "https://api.spotify.com/v1/artists/6BXiBj4eAZsiynbcmSRHUs",
                        "id": "6BXiBj4eAZsiynbcmSRHUs",
                        "name": "Urias",
                        "type": "artist",
                        "uri": "spotify:artist:6BXiBj4eAZsiynbcmSRHUs"
                    }
                ],
                "available_markets": [ ... ],
                "disc_number": 1,
                "duration_ms": 179711,
                "explicit": true,
                "external_ids": {
                    "isrc": "BRWMB2100651"
                },
                "external_urls": {
                    "spotify": "https://open.spotify.com/track/4miqOLaV1W50mx4KMPEBhy"
                },
                "href": "https://api.spotify.com/v1/tracks/4miqOLaV1W50mx4KMPEBhy",
                "id": "4miqOLaV1W50mx4KMPEBhy",
                "is_local": false,
                "name": "Cato Cato",
                "popularity": 41,
                "preview_url": "https://p.scdn.co/mp3-preview/724734854e0fb1903a083b7da2b1a589169a29b0?cid=774b29d4f13844c495f206cafdad9c86",
                "track_number": 1,
                "type": "track",
                "uri": "spotify:track:4miqOLaV1W50mx4KMPEBhy"
            }
        }
    ],
    "limit": 1,
    "next": "https://api.spotify.com/v1/me/tracks?offset=1&limit=1&locale=pt-BR,pt;q=0.9,en;q=0.8",
    "offset": 0,
    "previous": null,
    "total": 2436
}
```

Tendo em vista a estrutura anterior, extraimos os dados que achamos pertinente o uso.

Os dados que queremos extrair para montar nosso dataset são:

- ISRC (ID da música);
- Nome;
- Quando foi adicionado (data e hora);
- Os artistas;
- Duração;
- Se é explicito;
- Popularidade;

É necessário fazer um pequeno processamento para separar a data e hora.

```python
        for item in response["items"]:
            date_hour = item["added_at"].split("T")
            date = "".join(date_hour[0].split("-"))
            hour = "".join(date_hour[1].split(":"))
            isrc = item["track"]["external_ids"]["isrc"]
            data[isrc] = {
                "name": item["track"]["name"],
                "added_at": {
                    "date": date,
                    "hour": hour,
                },
                "artists":
                [artist["name"] for artist in item["track"]["artists"]],
                "duration_ms": item["track"]["duration_ms"],
                "explicit": item["track"]["explicit"],
                "popularity": item["track"]["popularity"],
            }
```

A nova estrutura fica da seguinte forma:

```json
{
    "BRWMB2100651": {
        "name": "Cato Cato",
        "added_at": {
            "date": "20211122",
            "hour": "124930"
        },
        "artists": [
            "Nick Cruz",
            "Urias"
        ],
        "duration_ms": 179711,
        "explicit": true,
        "popularity": 41
    }
}
```

Por fim pegamos a próxima url com as 50 músicas seguintes. Quando o loop terminar salvamos o arquivo no formato json.

```python
        next_url = response["next"]

    with open("dataset.json", "w") as file:
        json.dump(data, file, indent=4, ensure_ascii=False)


if __name__ == "__main__":
    main()
```

[1]: https://developer.spotify.com/console/
[2]: https://developer.spotify.com/console/get-current-user-saved-tracks/


Após esta estrutura definida ainda foi necessário um outro processamento para inverter a estrutura agrupada para uma estrutura de listas (arrays). Para melhor trabalhar com os dados, foi criado um script de transformação na linguagem JavaScript, que recebendo o dataset foi capaz de gerar um dataset compatível com a estrutura de dados necessária. O script criado foi:  
```
const dataset = require("./dataset.json");
const fs = require("fs");
const result = Object.values(dataset).map((value) => ({
  explicit: value.explicit ? 1 : 0,
  popularity: value.popularity,
  duration_ms: value.duration_ms,
}));
fs.writeFileSync("./dataset-parsed.json", JSON.stringify(result));

```
O resultado da transformação pelo script gerou o dataset formatado da seguinte forma:   
```
[
  {
    "duration_ms": 237787,
    "explicit": 0,
    "popularity": 57,
  },
  ...
]
```

In [None]:
# lendo o arquivo
import pandas as pd
tracks = pd.read_json('sample_data/dataset-parsed.json')

In [None]:
# atribuindo e removendo o atributo alvo da lista
popularities = tracks["popularity"]
del tracks["popularity"]

In [None]:
# definindo dados de treinamento e dados de teste
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(tracks, popularities)

## **Modelo 1 — Usando Gaussian Naive Bayes**


In [None]:
from sklearn.naive_bayes import GaussianNB
gaussian_nb = GaussianNB()

In [None]:
gaussian_nb.fit(X_train.values, Y_train.values)

GaussianNB()

In [None]:
gaussian_nb.score(X_test.values, Y_test.values)

0.027960526315789474

**Score: 0.027960526315789474**

## **Modelo 2 — Usando Linear Regression**

In [None]:
from sklearn.linear_model import LinearRegression
linear_regression = LinearRegression()

In [None]:
linear_regression.fit(X_train.values, Y_train.values)

LinearRegression()

In [None]:
linear_regression.score(X_test.values, Y_test.values)

-0.012800855404665912

**Score: -0.012800855404665912**

## **Modelo 3 — Usando LogisticRegression**


In [None]:
from sklearn.linear_model import LogisticRegression
logistic_regression = LogisticRegression()

In [None]:
logistic_regression.fit(X_train.values, Y_train.values)

LogisticRegression()

In [None]:
logistic_regression.score(X_test.values, Y_test.values)

0.03782894736842105

**Score: 0.03782894736842105**

## **Modelo 4 — Usando SGDClassifier**


In [None]:
from sklearn.linear_model import SGDClassifier
sgdc = SGDClassifier()

In [None]:
sgdc.fit(X_train.values, Y_train.values)

SGDClassifier()

In [None]:
sgdc.score(X_test.values, Y_test.values)

0.02138157894736842

 **Score: 0.02138157894736842**

# Avaliação dos resultados

Todos os modelos retornaram resultados com pouca acurácia, porém o com pior resultado foi o `Linear Regression` e o de melhor foi o `Logistic Regression`. Talvez pela relação dos dados não serem exclusivamente entre duas variáveis fez com que o modelo de regressão linear não conseguisse prever corretamente.

Por esses resultados entendemos que os dados que usamos de insumo para tentar realizar as predições possuem pouca relação, ou seja, acabamos descobrindo que não tem muita relação entra a musica ser explicita e sua duração para definir sua popularidade. Deve haver uma série de outros atributos que influenciam muito mais e esse seria um dos motivos dos dais os classificadores funcionaram tão mal.