# 🎵 Previsão de Popularidade Musical com Machine Learning

### Integrantes:
- Jonas Felipe
- João Vitor Oliveira

#### Universidade Federal da Paraíba – 2024

# 🎯 Motivação

- Qual o "segredo" para uma música fazer sucesso?
- Billboard disponibiliza dados públicos com métricas de popularidade.
- Podemos prever se uma música será popular apenas a partir do áudio?

## **Objetivo**
- Explorar técnicas de Machine Learning para prever o sucesso de músicas usando características extraídas de seus áudios.

# 📚 Trabalhos Relacionados

- **Hit Song Science**: campo dedicado à previsão de sucessos musicais.
- [Lee & Lee (2019)](https://arxiv.org/pdf/1812.00551) — métrica de popularidade + predição com SVM.
- [Jung & Mayer (2024)](https://arxiv.org/abs/2403.12079) — XGBoost, Random Forest, MARS.
- Aplicações:
  - Recomendadores (Spotify, YouTube)
  - Marketing musical


# ⚙️ Metodologia

## Dataset
- 966 músicas (Top 5 e Não-Top 5)
- Extraídas de áudios `.wav` convertidos de `.webm` e `.mp3`

## Features
- MFCCs, Chroma, Spectral Centroid, Tempo
- Total: 34 variáveis por música

## Modelos
- Random Forest (baseline)
- XGBoost (com `scale_pos_weight`)
- Validação cruzada estratificada (5 folds)


# 📊 Resultados e Discussão

## Acurácia média (5 folds)

| Modelo         | Acurácia Média |
|----------------|----------------|
| Random Forest  | ~60%           |
| XGBoost        | ~61–62%        |

- Métricas limitadas pelos dados exclusivamente acústicos.
- Performance consistente com literatura.

## Importância das Features
_(plot gerado abaixo)_


In [None]:
# Código para plotar importância das features
from xgboost import plot_importance
import matplotlib.pyplot as plt

plot_importance(model_xgb, max_num_features=15)
plt.title("Importância das Features - XGBoost")
plt.show()

# 🧪 Demonstração

- Extração de features de uma música real
- Previsão ao vivo com modelo treinado

In [None]:
# Exemplo de execução ao vivo
audio = '../data/musics/wav/musica_nova.wav'
features = extract_features(audio).reshape(1, -1)
pred = model_xgb.predict(features)
print("🎵 Resultado:", "Top 5" if pred[0] == 1 else "Não Top 5")

# ✅ Conclusões

- É possível prever padrões de popularidade com acurácia ~60% usando apenas o áudio.
- Gênero, loudness e MFCCs são features relevantes.
- Dados de áudio sozinhos **limitam a precisão**.

## 🧩 Limitações
- Dataset pequeno (966 músicas)
- Sem dados contextuais (artista, redes sociais, etc.)
- Compressão de áudio afeta qualidade

## 📈 Trabalhos Futuros
- Usar espectrogramas com CNN
- Incluir dados externos (tweets, playlists)
- Testar com regressão (score contínuo)
