# Template ‚Äî MVP: *Machine Learning & Analytics*
**Autor:** Rafael Theodoro Rocha  

**Data:** 28/09/2025

**Matr√≠cula:** 4052025001358

**Dataset:** Ex: [Iris Dataset](https://archive.ics.uci.edu/dataset/53/iris)

---



## ‚úÖ Checklist do MVP (o que precisa conter)
- [‚úÖ] **Problema definido** e contexto de neg√≥cio
- [‚úÖ] **Carga e prepara√ß√£o** dos dados (sem vazamento de dados)
- [‚úÖ] **Divis√£o** em treino/valida√ß√£o/teste (ou valida√ß√£o cruzada apropriada)
- [‚úÖ] **Tratamento**: limpeza, transforma√ß√£o e **engenharia de atributos**
- [‚úÖ] **Modelagem**: comparar abordagens/modelos (com **baseline**)
- [‚úÖ] **Otimiza√ß√£o de hiperpar√¢metros**
- [‚úÖ] **Avalia√ß√£o** com **m√©tricas adequadas** e discuss√£o de limita√ß√µes
- [‚úÖ] **Boas pr√°ticas**: seeds fixas, tempo de treino, recursos computacionais, documenta√ß√£o
- [‚úÖ] **Pipelines reprodut√≠veis** (sempre que poss√≠vel)

# 1. Escopo, Objetivo e Defini√ß√£o do Problema

## Contexto e Objetivo
O objetivo do projeto √© **prever se um usu√°rio ir√° curtir uma m√∫sica** com base em caracter√≠sticas da faixa (ex.: `danceability`, `energy`, `year`, `acousticness`).  
A previs√£o permite personalizar recomenda√ß√µes musicais e melhorar a experi√™ncia do usu√°rio, priorizando m√∫sicas que ele tem maior probabilidade de gostar.

## Tipo de Tarefa
- **Classifica√ß√£o bin√°ria**: a vari√°vel alvo √© `liked` (1 = curtida, 0 = n√£o curtida).

## √Årea de Aplica√ß√£o
- Dados tabulares provenientes de m√∫sicas e comportamento do usu√°rio.
- Aplica√ß√£o em **recomenda√ß√£o musical**, an√°lise de prefer√™ncias e personaliza√ß√£o de playlists.

## Valor para o Neg√≥cio / Usu√°rio
- Identificar m√∫sicas que o usu√°rio realmente ir√° curtir, aumentando **engajamento e satisfa√ß√£o**.
- Permitir **personaliza√ß√£o de playlists** e **ranking refinado de recomenda√ß√µes**.
- Possibilitar futuras evolu√ß√µes do sistema, combinando classifica√ß√£o com **modelos probabil√≠sticos** e **clustering de estilos musicais** para recomenda√ß√µes h√≠bridas.


## 2. Reprodutibilidade e ambiente

In [61]:
# === Setup b√°sico e reprodutibilidade ===
import os
import sys
import random
import time
import math
import json
import requests
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier

from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, classification_report
from sklearn.model_selection import train_test_split, StratifiedKFold, GridSearchCV
from sklearn.preprocessing import StandardScaler

SEED = 42
np.random.seed(SEED)
random.seed(SEED)

print("Python:", sys.version.split()[0])
print("Seed global:", SEED)


Python: 3.12.11
Seed global: 42


# 3 Extra√ß√£o e Origem dos Dados

**Vers√£o:** 1.0

Este projeto utiliza um modelo de **classifica√ß√£o supervisionada** para prever se uma m√∫sica ser√° curtida (`liked`) ou n√£o, com base em suas caracter√≠sticas sonoras e metadados.

## Fonte de Dados

As m√∫sicas utilizadas para treinamento e avalia√ß√£o do modelo foram coletadas a partir da biblioteca do usu√°rio no Spotify, utilizando dois endpoints da API oficial do Spotify:

- M√∫sicas curtidas: `GET https://api.spotify.com/v1/me/tracks`
- M√∫sicas mais ouvidas: `GET https://api.spotify.com/v1/me/top/tracks`

Os dados foram armazenados localmente em arquivos `.json` e processados para compor os datasets de entrada do modelo.  
A documenta√ß√£o completa da API do Spotify est√° dispon√≠vel em: https://developer.spotify.com/documentation/web-api

## Features das M√∫sicas

Inicialmente, a extra√ß√£o de caracter√≠sticas sonoras das faixas (como `danceability`, `energy`, `valence`, etc.) seria realizada por meio dos endpoints:

- Track's Audio Features: `GET https://api.spotify.com/v1/audio-features/{id}`  
- Track's Audio Analysis: `GET https://api.spotify.com/v1/audio-analysis/{id}`

Como estes endpoints foram oficialmente depreciados, optou-se por utilizar datasets p√∫blicos dispon√≠veis no **Kaggle**, contendo as features previamente extra√≠das.  
Esses dados foram cruzados com os dados das m√∫sicas do usu√°rio para construir o dataset final.

> **Observa√ß√£o:** Nem todas as m√∫sicas do usu√°rio (curtidas ou mais ouvidas) estavam presentes nos datasets p√∫blicos, reduzindo o tamanho final do DataFrame para treinamento.

## Dataset Consolidado

Ap√≥s o processamento, foi criado o DataFrame principal contendo:

- Colunas de metadados (`track_name`, `artists`, `track_id`)  
- Features num√©ricas para modelagem  
- Vari√°vel alvo (`liked`), bin√°ria


# 3.1 Extra√ß√£o das M√∫sicas Curtidas e Mais Ouvidas

**Vers√£o:** 1.0

Os dados das m√∫sicas do usu√°rio foram extra√≠dos em lotes da API do Spotify.

## Extra√ß√£o de M√∫sicas Curtidas (`/v1/me/tracks`)

Os dados das m√∫sicas curtidas do usu√°rio foram extra√≠dos em lotes utilizando o endpoint `/v1/me/tracks` da API do Spotify, que retorna as faixas salvas na biblioteca do usu√°rio.

Os dados coletados foram armazenados localmente em arquivos `.json` paginados:

```python
arquivos_musicas_curtidas = [
    "musicas_curtidas-1-50.json",
    "musicas_curtidas-51-100.json",
    "musicas_curtidas-101-150.json",
    "musicas_curtidas-151-200.json",
    "musicas_curtidas-201-250.json"
]


In [67]:
base_url = "https://raw.githubusercontent.com/rafatheodoro/mvp-machine-learning/main/"


arquivos_musicas_curtidas = [
    "musicas_curtidas-1-50.json",
    "musicas_curtidas-51-100.json",
    "musicas_curtidas-101-150.json",
    "musicas_curtidas-151-200.json",
    "musicas_curtidas-201-250.json"
]

# Monta a lista completa de URLs
urls_musicas_curtidas = [base_url + nome for nome in arquivos_musicas_curtidas]

def carregar_musicas_curtidas(urls_json):
    todas_musicas = []
    for url in urls_json:
        response = requests.get(url)  # baixa o arquivo
        response.raise_for_status()   # gera erro se a URL estiver inv√°lida
        data = response.json()        # carrega o JSON direto da URL
        for item in data.get("items", []):
            track = item.get("track")
            if track:
                todas_musicas.append(track)
    return todas_musicas

todas_musicas_curtidas = carregar_musicas_curtidas(urls_musicas_curtidas)

# Extrai nome, ID, artistas, dura√ß√£o e popularidade das faixas
def extrair_colunas_relevantes(tracks):
    return pd.DataFrame([{
        "track_name": track.get("name"),
        "track_id": track.get("id"),
        "artists": ", ".join([artist["name"] for artist in track.get("artists", [])]),
        "duration_ms": track.get("duration_ms"),
        "popularity": track.get("popularity")
    } for track in tracks])

df_musicas_curtidas = extrair_colunas_relevantes(todas_musicas_curtidas)

df_musicas_curtidas.head()

Unnamed: 0,track_name,track_id,artists,duration_ms,popularity
0,In the End,60a0Rd6pjrkxjPbaKzXjfq,Linkin Park,216880,88
1,American Idiot,45zvStEMsXp8z45OQRhWFJ,Green Day,174320,61
2,All My Life,6tsojOQ5wHaIjKqIryLZK6,Foo Fighters,263440,72
3,Want You Bad,6hwQ69v7VbPhTTR2fOtYX7,The Offspring,202573,73
4,Chop Suey!,2DlHlPMa4M17kufBvI2lEN,System Of A Down,210240,85


## Extra√ß√£o de M√∫sicas Mais Ouvidas (`/v1/me/top/tracks`)

Os dados foram extra√≠dos em lotes da API do Spotify utilizando o endpoint `/v1/me/top/tracks`, que retorna as m√∫sicas mais ouvidas pelo usu√°rio autenticado.

Os dados foram armazenados localmente em arquivos `.json` paginados:

```python
arquivos_musicas_ouvidas = [
    "musicas_ouvidas-1-50.json",
    "musicas_ouvidas-51-100.json",
    "musicas_ouvidas-101-150.json",
    "musicas_ouvidas-151-200.json",
    "musicas_ouvidas-201-250.json",
    "musicas_ouvidas-251-300.json",
    "musicas_ouvidas-301-350.json",
    "musicas_ouvidas-351-400.json",
    "musicas_ouvidas-401-450.json",
    "musicas_ouvidas-451-500.json",
    "musicas_ouvidas-501-550.json"
]

Observa√ß√£o: Algumas m√∫sicas curtidas tamb√©m est√£o presentes nesse conjunto. Portanto, para garantir o balanceamento entre m√∫sicas curtidas (liked = 1) e n√£o curtidas (liked = 0), utilizou-se um conjunto maior de m√∫sicas ouvidas.
Al√©m disso, n√£o foram encontradas features para todas as m√∫sicas curtidas e ouvidas do usu√°rio, o que fez com que o dataset final (df_musicas) fosse reduzido.

In [68]:
# Base URL correta
base_url = "https://raw.githubusercontent.com/rafatheodoro/mvp-machine-learning/main/"

# Arquivos das m√∫sicas ouvidas
arquivos_musicas_ouvidas = [
    "musicas_ouvidas-1-50.json",
    "musicas_ouvidas-51-100.json",
    "musicas_ouvidas-101-150.json",
    "musicas_ouvidas-151-200.json",
    "musicas_ouvidas-201-250.json",
    "musicas_ouvidas-251-300.json",
    "musicas_ouvidas-301-350.json",
    "musicas_ouvidas-351-400.json",
    "musicas_ouvidas-401-450.json",
    "musicas_ouvidas-451-500.json",
    "musicas_ouvidas-551-600.json",
    "musicas_ouvidas-601-650.json",
    "musicas_ouvidas-651-700.json"
]

# Monta as URLs
urls_musicas_ouvidas = [base_url + nome for nome in arquivos_musicas_ouvidas]

# Fun√ß√£o para carregar m√∫sicas ouvidas
def carregar_musicas_ouvidas(urls_json):
    todas_musicas = []
    for url in urls_json:
        response = requests.get(url)
        response.raise_for_status()
        data = response.json()
        for item in data.get("items", []):
            track = item.get("track")
            if track:
                todas_musicas.append(track)
    return todas_musicas

# Carregar e processar m√∫sicas ouvidas
todas_musicas_ouvidas = carregar_musicas_ouvidas(urls_musicas_ouvidas)
df_musicas_ouvidas = extrair_colunas_relevantes(todas_musicas_ouvidas)

df_musicas_ouvidas.head()


## 3.2 Montagem do DataFrame das M√∫sicas com R√≥tulo (Target)

Ap√≥s a extra√ß√£o das m√∫sicas curtidas (`/v1/me/tracks`) e das m√∫sicas mais ouvidas (`/v1/me/top/tracks`), os dados foram organizados em dois dataframes:

- `df_musicas_curtidas`: m√∫sicas curtidas (salvas) pelo usu√°rio.  
- `df_musicas_ouvidas`: m√∫sicas mais ouvidas pelo usu√°rio.

Para treinar o modelo de classifica√ß√£o supervisionado, foi criada a vari√°vel alvo `liked`, que indica se uma m√∫sica foi curtida (`liked = 1`) ou n√£o (`liked = 0`).  
Essa coluna ser√° utilizada como **target** no treinamento do modelo.

Os dois conjuntos foram ent√£o combinados no dataframe `df_musicas`, que cont√©m as seguintes colunas:

- `track_id`  
- `track_name`  
- `artists`  
- `duration_ms`  
- `popularity`  
- `liked` (vari√°vel alvo)


In [64]:
df_musicas_curtidas['liked'] = 1  # Curtidas (liked = 1)
df_musicas_ouvidas['liked'] = 0   # Apenas ouvidas (liked = 0)

df_musicas = pd.concat(
    [df_musicas_curtidas, df_musicas_ouvidas],
    ignore_index=True
)

# Mant√©m a vers√£o 'curtida' (liked=1), se a m√∫sica estiver duplicada
df_musicas = (
    df_musicas
    .sort_values("liked", ascending=False)  # Garante que liked=1 venha primeiro
    .drop_duplicates(subset=["track_id"], keep="first")
    .reset_index(drop=True)
)

# Distribui√ß√£o da v√°riavel alvo (liked)
df_musicas['liked'].value_counts()

Unnamed: 0_level_0,count
liked,Unnamed: 1_level_1
1,231


# 3. Enriquecimento com Audio Features

Para enriquecer o dataset com caracter√≠sticas de √°udio das m√∫sicas curtidas e ouvidas, foram utilizados diversos datasets p√∫blicos do Kaggle. Isso foi necess√°rio porque os endpoints da API do Spotify que forneciam essas informa√ß√µes foram descontinuados.

## Datasets utilizados

Foram utilizados os seguintes arquivos CSV como fontes complementares de dados:

| Dataset                  | Descri√ß√£o                                  |
|--------------------------|--------------------------------------------|
| `tracks_features.csv`     | Cont√©m features de faixas diversas.        |
| `ultimateClassicRock.csv` | Cont√©m features de faixas de rock cl√°ssico.|
| `spotify-1990.csv`        | Cont√©m features de faixas lan√ßadas nos anos 1990. |
| `spotify-2000.csv`        | Cont√©m features de faixas lan√ßadas nos anos 2000. |
| `audioFeatures.csv`       | Cont√©m features de faixas diversas.       |

## Tratamentos realizados

Como os datasets foram extra√≠dos de fontes distintas, foi necess√°rio realizar padroniza√ß√µes antes da jun√ß√£o com o dataset principal:

- Normaliza√ß√£o dos nomes de colunas para letras min√∫sculas  
- Renomea√ß√£o de colunas para unifica√ß√£o:  
  - `id` ‚Üí `track_id`  
  - `artist` / `artist_name` ‚Üí `artists`  
  - `title` / `track` / `name` ‚Üí `track_name`  
- Jun√ß√£o dos dados com o dataframe `df_musicas`, utilizando as colunas dispon√≠veis para garantir o m√°ximo de correspond√™ncia

## Dataset final com audio features

Os dados foram consolidados no dataframe:

```python
df_musicas_features


In [69]:
# URLs raw dos CSVs no GitHub
url_track_features = "https://raw.githubusercontent.com/rafatheodoro/mvp-machine-learning/main/tracks_feature_merged.csv"
url_features_rock = "https://raw.githubusercontent.com/rafatheodoro/mvp-machine-learning/main/ultimateClassicRock.csv"
url_features_1990 = "https://raw.githubusercontent.com/rafatheodoro/mvp-machine-learning/main/spotify-1990.csv"
url_features_2000 = "https://raw.githubusercontent.com/rafatheodoro/mvp-machine-learning/main/spotify-2000.csv"


# Leitura e padroniza√ß√£o dos datasets
df_track_features = pd.read_csv(url_track_features)
df_track_features.columns = df_track_features.columns.str.lower()
df_track_features.rename(columns={'id':'track_id', 'name': 'track_name'}, inplace=True)

# Merge com df_musicas (assumindo df_musicas j√° carregado)
df_features_merged_musicas = pd.merge(
    df_track_features,
    df_musicas[['track_id', 'liked']],
    on='track_id',
    how='inner'
)

# Leitura e padroniza√ß√£o de outros datasets
df_features_rock = pd.read_csv(url_features_rock)
df_features_rock.columns = df_features_rock.columns.str.lower()
df_features_rock.rename(columns={'track': 'track_name', 'artist': 'artists'}, inplace=True)

df_features_1990 = pd.read_csv(url_features_1990)
df_features_1990.columns = df_features_1990.columns.str.lower()
df_features_1990.rename(columns={'track': 'track_name', 'artist': 'artists'}, inplace=True)

df_features_2000 = pd.read_csv(url_features_2000)
df_features_2000.columns = df_features_2000.columns.str.lower()
df_features_2000.rename(columns={'title': 'track_name', 'artist': 'artists', 'loudness (db)': 'loudness'}, inplace=True)

# Consolida√ß√£o de todos os datasets e merge com df_musicas
dfs_outras_features_merged_musicas = pd.concat([df_features_rock, df_features_1990, df_features_2000], ignore_index=True)
dfs_outras_features_merged_musicas = pd.merge(
    dfs_outras_features_merged_musicas,
    df_musicas[['track_id', 'track_name', 'artists', 'liked']],
    on=['track_name', 'artists'],
    how='inner'
)

# Dataframe final para treinamento e teste
df_musicas_features = pd.concat([df_features_merged_musicas, dfs_outras_features_merged_musicas], ignore_index=True)

# Verificar distribui√ß√£o da vari√°vel alvo
print(df_musicas_features['liked'].value_counts())

# Listar colunas do dataframe final
print(df_musicas_features.columns)


HTTPError: HTTP Error 404: Not Found

# 4. Sele√ß√£o das Features para o Modelo

Para a constru√ß√£o do modelo preditivo, selecionamos um conjunto de vari√°veis num√©ricas que representam caracter√≠sticas relevantes das faixas de √°udio, al√©m de vari√°veis auxiliares para an√°lise e identifica√ß√£o.  
A vari√°vel alvo √© **`liked`**, indicando se uma m√∫sica foi curtida (`1`) ou n√£o (`0`).

As vari√°veis de identifica√ß√£o e r√≥tulo incluem:

- `track_id`: identificador √∫nico da m√∫sica  
- `track_name`: nome da m√∫sica  
- `artists`: artista(s) respons√°veis pela m√∫sica  
- `liked`: vari√°vel **alvo** do modelo supervisionado (1 = curtida, 0 = n√£o curtida)  

As vari√°veis de √°udio (features num√©ricas) selecionadas foram:

- **acousticness**: grau de sonoridade ac√∫stica da m√∫sica (0 a 1)  
- **danceability**: qu√£o dan√ß√°vel a m√∫sica √© (0 a 1)  
- **energy**: intensidade e atividade da faixa (0 a 1)  
- **liveness**: presen√ßa de p√∫blico ao vivo (0 a 1)  
- **loudness**: volume m√©dio da m√∫sica em decib√©is (valores geralmente negativos)  
- **speechiness**: presen√ßa de elementos falados na faixa (0 a 1)  
- **valence**: positividade ou alegria percebida na m√∫sica (0 a 1)  
- **year**: ano de lan√ßamento da m√∫sica ‚Äî pode capturar tend√™ncias temporais  

üí° **Nota:** Todas as vari√°veis utilizadas s√£o **num√©ricas e cont√≠nuas**, simplificando o pr√©-processamento, j√° que n√£o h√° necessidade de codifica√ß√£o categ√≥rica.

Durante a constru√ß√£o do modelo, foi realizada uma **sele√ß√£o criteriosa** das vari√°veis, considerando relev√¢ncia preditiva, consist√™ncia e tipo de informa√ß√£o representada.  

As vari√°veis mantidas no modelo foram:

- `acousticness`, `danceability`, `energy`, `liveness`, `loudness`, `speechiness`, `valence`, `year`  
- Metadados: `track_id`, `track_name`, `artists`  
- Vari√°vel alvo: `liked`  

As vari√°veis removidas e justificativas:

- **G√™nero, popularidade e metadata**: `top genre`, `artist_ids`, `album_id`, `explicit`, `popularity`  
  - Categorias inconsistentes ou externas, podendo introduzir vi√©s  
- **Tempo, dura√ß√£o e m√©tricas relacionadas**: `duration_ms`, `duration`, `length (duration)`, `tempo`, `beats per minute (bpm)`, `time_signature`  
  - Redundantes e de baixo poder discriminativo  
- **T√©cnicas ou de baixa relev√¢ncia**: `instrumentalness`, `key`, `mode`, `track_number`, `disc_number`, `release_date`  
  - Pouco relacionadas √† prefer√™ncia do usu√°rio ou substitu√≠das por `year`  

Ap√≥s o merge e a sele√ß√£o de features, o **DataFrame final** apresenta:

- ‚úÖ Nenhum valor ausente (*missing values*)  
- ‚úÖ Vari√°veis categ√≥ricas normalizadas  
- ‚úÖ Sem necessidade de limpeza adicional  

Essas condi√ß√µes permitem um **pipeline de modelagem mais limpo e eficiente**.


In [None]:
features_selecionadas = [
    'track_id', 'artists', 'track_name', 'liked',
    'acousticness', 'danceability', 'energy', 'liveness', 'loudness', 'speechiness', 'valence', 'year'
]

df_musicas_features = df_musicas_features[features_selecionadas]

# Verifica√ß√£o final
df_musicas_features.info()
df_musicas_features['liked'].value_counts()

# 5. Fase de Modelagem e Treino

Nesta etapa, utilizamos as vari√°veis extra√≠das e tratadas para treinar um modelo de machine learning capaz de prever se uma m√∫sica ser√° **curtida** (`liked = 1`) ou **n√£o curtida** (`liked = 0`), com base em suas caracter√≠sticas de √°udio.

Foram geradas **duas vis√µes do dataset** para avaliar o impacto da vari√°vel temporal `year`:


In [None]:
colunas_com_year = [
    'acousticness', 'danceability', 'energy', 'liveness', 'loudness', 'speechiness', 'valence', 'year'
]

colunas_sem_year = [
        'acousticness', 'danceability', 'energy', 'liveness', 'loudness', 'speechiness', 'valence'
]

# X e y para os dois cen√°rios
X_com_year = df_musicas_features[colunas_com_year]
X_sem_year = df_musicas_features[colunas_sem_year]
y = df_musicas_features['liked']

df_musicas_features.info()

## Divis√£o entre Treino e Teste

Foi adotada a estrat√©gia padr√£o de separar 80% dos dados para treino e 20% para teste, mantendo a propor√ß√£o da vari√°vel alvo (stratify=y).


In [None]:
# Com 'year'
X_train_year, X_test_year, y_train_year, y_test_year = train_test_split(
    X_com_year, y, test_size=0.2, stratify=y, random_state=42
)

# Sem 'year'
X_train_no_year, X_test_no_year, y_train_no_year, y_test_no_year = train_test_split(
    X_sem_year, y, test_size=0.2, stratify=y, random_state=42
)

## Sele√ß√£o de Modelos de Classifica√ß√£o e Treinamento

| Modelo                  | Tipo                        | Motivo da Escolha |
|-------------------------|----------------------------|-----------------|
| Logistic Regression     | Linear, classifica√ß√£o bin√°ria | Simples, interpret√°vel, serve como baseline. Funciona bem com features num√©ricas cont√≠nuas. |
| Random Forest           | Ensemble de √°rvores (Bagging) | Captura rela√ß√µes n√£o lineares, robusto a ru√≠do, permite avaliar import√¢ncia das features. |
| XGBoost                 | Gradient Boosting sobre √°rvores | Modelo avan√ßado, alto desempenho, otimiza erros sequencialmente, bom para m√©tricas como F1-score. |

> A combina√ß√£o permite comparar desempenho de modelos simples e complexos e verificar se vari√°veis como `year` melhoram a predi√ß√£o.


In [None]:
modelos = {
    "Logistic Regression": LogisticRegression(max_iter=1000, random_state=42),
    "Random Forest": RandomForestClassifier(n_estimators=200, random_state=42),
    "XGBoost": XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42)
}

def treinar_modelo(modelo, X_train, y_train, X_test):

    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)
    y_probs = modelo.predict_proba(X_test)[:, 1] if hasattr(modelo, "predict_proba") else None

    return y_pred, y_probs

#===============================
# Logistic Regression
# ================================
lr = LogisticRegression(max_iter=1000, random_state=42)

y_pred_lr_year, y_probs_lr_year = treinar_modelo(lr, X_train_year, y_train_year, X_test_year)
y_pred_lr_no_year, y_probs_lr_no_year = treinar_modelo(lr, X_train_no_year, y_train_no_year, X_test_no_year)

# ================================
# Random Forest
# ================================
rf = RandomForestClassifier(n_estimators=200, random_state=42)

y_pred_rf_year, y_probs_rf_year = treinar_modelo(rf, X_train_year, y_train_year, X_test_year)
y_pred_rf_no_year, y_probs_rf_no_year = treinar_modelo(rf, X_train_no_year, y_train_no_year, X_test_no_year)

# ================================
# XGBoost
# ================================
xgb = XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42)

y_pred_xgb_year, y_probs_xgb_year = treinar_modelo(xgb, X_train_year, y_train_year, X_test_year)
y_pred_xgb_no_year, y_probs_xgb_no_year = treinar_modelo(xgb, X_train_no_year, y_train_no_year, X_test_no_year)


## Avalia√ß√£o do Modelo

A fun√ß√£o `avaliar_modelo_completo` avalia modelos de **classifica√ß√£o bin√°ria** (0 = n√£o curtida, 1 = curtida) combinando **visualiza√ß√µes e m√©tricas quantitativas**.

### M√©tricas Escolhidas
- **Matriz de Confus√£o:** identifica acertos e erros por classe.  
- **Precision (classe positiva):** propor√ß√£o de curtidas corretamente previstas, evitando falsos positivos.  
- **Recall (classe positiva):** propor√ß√£o de curtidas reais capturadas, garantindo cobertura.  
- **F1-score:** balanceia precision e recall.  
- **Accuracy:** acur√°cia geral do modelo.

> Essas m√©tricas permitem comparar desempenho, avaliar a capacidade de prever curtidas e analisar o impacto de diferentes features, como `year`.


In [None]:
def avaliar_modelo(y_test, y_pred, label):
    print(f"\n=== Avalia√ß√£o {label} ===")

    # --- Matriz de Confus√£o ---
    cm = confusion_matrix(y_test, y_pred)
    cm_df = pd.DataFrame(
        cm,
        index=["Real 0 (n√£o curtida)", "Real 1 (curtida)"],
        columns=["Predito 0", "Predito 1"]
    )
    print("\nüìå Matriz de Confus√£o:")
    print(cm_df)

    # --- Relat√≥rio de Classifica√ß√£o ---
    print("\nüìå Relat√≥rio de Classifica√ß√£o:")
    print(classification_report(y_test, y_pred, target_names=["N√£o curtida", "Curtida"]))

    # --- Heatmap ---
    plt.figure(figsize=(5,4))
    sns.heatmap(cm, annot=True, fmt="d", cmap="Blues",
                xticklabels=["Predito 0", "Predito 1"],
                yticklabels=["Real 0 (n√£o curtida)", "Real 1 (curtida)"])
    plt.title(f"Matriz de Confus√£o - {label}")
    plt.ylabel("Real")
    plt.xlabel("Predito")
    plt.show()

    # --- M√©tricas principais ---
    report_dict = classification_report(y_test, y_pred, output_dict=True, labels=[0, 1])

    # Acessa a classe positiva independentemente do tipo da chave (str ou int)
    if "1" in report_dict:
        positive_key = "1"
    else:
        positive_key = 1

    metrics = {
        "accuracy": accuracy_score(y_test, y_pred),
        "f1_score": f1_score(y_test, y_pred),
        "precision_1": report_dict["1"]["precision"],  # classe positiva = 1 (Curtida)
        "recall_1": report_dict["1"]["recall"]
    }

    return metrics

In [None]:
# ================================
# Avalia√ß√£o de todos os modelos COM year
# ================================
metrics_year = {}

# Logistic Regression
metrics_year["Logistic Regression"] = avaliar_modelo(
    y_test_year, y_pred_lr_year, "Logistic Regression COM year"
)

# Random Forest
metrics_year["Random Forest"] = avaliar_modelo(
    y_test_year, y_pred_rf_year, "Random Forest COM year"
)

# XGBoost
metrics_year["XGBoost"] = avaliar_modelo(
    y_test_year, y_pred_xgb_year, "XGBoost COM year"
)

# ================================
# Avalia√ß√£o de todos os modelos SEM year
# ================================
metrics_no_year = {}

# Logistic Regression
metrics_no_year["Logistic Regression"] = avaliar_modelo(
    y_test_no_year, y_pred_lr_no_year, "Logistic Regression SEM year"
)

# Random Forest
metrics_no_year["Random Forest"] = avaliar_modelo(
    y_test_no_year, y_pred_rf_no_year, "Random Forest SEM year"
)

# XGBoost
metrics_no_year["XGBoost"] = avaliar_modelo(
    y_test_no_year, y_pred_xgb_no_year, "XGBoost SEM year"
)

# ================================
# Criar tabelas resumidas para compara√ß√£o
# ================================
df_comparacao_year = pd.DataFrame(metrics_year).T
df_comparacao_no_year = pd.DataFrame(metrics_no_year).T

print("\n--- Compara√ß√£o COM year ---")
display(df_comparacao_year)

print("\n--- Compara√ß√£o SEM year ---")
display(df_comparacao_no_year)


### Compara√ß√£o com Modelo que Inclui a feature `year`

| Modelo               | Accuracy | F1-score | Precision | Recall |
|----------------------|----------|----------|-----------|--------|
| Logistic Regression  | 0.609    | 0.609    | 0.609     | 0.609  |
| Random Forest        | 0.587    | 0.612    | 0.577     | 0.652  |
| XGBoost              | 0.587    | 0.642    | 0.567     | 0.739  |

**Considera√ß√µes:**

- A inclus√£o da vari√°vel `year` trouxe **impacto positivo** para a predi√ß√£o.  
- O `year` foi utilizado em sua **escala original** (ex.: 2000, 2010), sem normaliza√ß√£o.  
  - Isso n√£o afeta modelos baseados em √°rvores (Random Forest, XGBoost).  
  - Pode influenciar modelos lineares como a Regress√£o Log√≠stica, indicando oportunidade de **reteste** com a vari√°vel normalizada ou padronizada.  

**Melhor Modelo observado:**

- O modelo **XGBoost** apresentou os melhores resultados, com **maior recall (0.739)** e **F1-score (0.642)**.  
- Como modelo de boosting, o XGBoost captura **padr√µes complexos**, incluindo:  
  - **Intera√ß√µes entre vari√°veis** (ex.: `danceability + energy + year`)  
  - **Rela√ß√µes n√£o lineares**  
  - **Ajuste din√¢mico aos erros**, pois cada √°rvore aprende com os erros das anteriores.


# 6. Melhorias no Treinamento dos Modelos

Nesta etapa, aplicamos ajustes importantes para aprimorar o desempenho dos modelos na predi√ß√£o de m√∫sicas curtidas (`liked`).

---

## Normaliza√ß√£o da vari√°vel `year`

- A vari√°vel `year` foi utilizada anteriormente em sua escala original (ex.: 2000, 2010), o que pode impactar modelos lineares como a **Regress√£o Log√≠stica**.  
- Para aumentar a efici√™ncia do modelo linear, realizamos a **normaliza√ß√£o** da vari√°vel `year`, garantindo que todos os atributos tenham escala compat√≠vel.

---

## Ajuste de Hiperpar√¢metros via GridSearchCV

- Para cada modelo, foi definido um **grid de hiperpar√¢metros**:
  - **Logistic Regression:** diferentes valores de `C` para regulariza√ß√£o.
  - **Random Forest:** n√∫mero de estimadores, profundidade m√°xima, `min_samples_split` e `min_samples_leaf`.
  - **XGBoost:** n√∫mero de estimadores, profundidade das √°rvores, taxa de aprendizado (`learning_rate`) e `subsample`.
- A busca foi realizada usando **GridSearchCV** com **5 folds estratificados**, garantindo:
  - Melhor combina√ß√£o de hiperpar√¢metros focada no **F1-score**.
  - Valida√ß√£o consistente mesmo com pequenas diferen√ßas na propor√ß√£o de classes.

---

## Reuso da fun√ß√£o `avaliar_modelo`

- Fun√ß√£o utilizada para gerar **matriz de confus√£o**, **relat√≥rio de classifica√ß√£o** e extrair m√©tricas principais (accuracy, F1, precision e recall) para todos os modelos.

---

## Compara√ß√£o final dos modelos

- Ap√≥s normaliza√ß√£o do `year` e GridSearchCV, os modelos foram comparados em **accuracy** e **F1-score**, permitindo avaliar o impacto das melhorias no desempenho.


In [None]:
# ======================================
# Normaliza√ß√£o da vari√°vel 'year'
# ======================================

scaler = StandardScaler()
X_train_scaled = X_train_year.copy()
X_test_scaled = X_test_year.copy()

# Aplica a normaliza√ß√£o apenas na coluna 'year'
X_train_scaled[['year']] = scaler.fit_transform(X_train_year[['year']])
X_test_scaled[['year']] = scaler.transform(X_test_year[['year']])

# ======================================
# Configura√ß√£o de Valida√ß√£o Cruzada
# ======================================
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# ======================================
# Grid de Hiperpar√¢metros
# ======================================
param_grid_lr = {
    "C": [0.01, 0.1, 1, 10],       # regulariza√ß√£o
    "penalty": ["l2"],             # l2 √© padr√£o
    "solver": ["lbfgs"]
}

param_grid_rf = {
    "n_estimators": [100, 200, 300],
    "max_depth": [None, 5, 10],
    "min_samples_split": [2, 5],
    "min_samples_leaf": [1, 2]
}

param_grid_xgb = {
    "n_estimators": [100, 200],
    "max_depth": [3, 5, 7],
    "learning_rate": [0.01, 0.1],
    "subsample": [0.7, 1.0]
}

# ======================================
# Fun√ß√£o auxiliar para GridSearch + Avalia√ß√£o
# ======================================
def grid_search_avaliacao(modelo, param_grid, X_train, y_train, X_test, y_test, label):
    grid = GridSearchCV(modelo, param_grid, scoring="f1", cv=cv, n_jobs=-1)
    grid.fit(X_train, y_train)

    print(f"\nMelhores par√¢metros para {label}: {grid.best_params_}")

    y_pred_train = grid.predict(X_train)

    y_pred = grid.predict(X_test)
    metrics = avaliar_modelo(y_test, y_pred, label)

    return grid.best_estimator_, metrics, y_pred, y_pred_train

# ======================================
# Treino e Avalia√ß√£o COM 'year' normalizado
# ======================================

# Logistic Regression
lr_best, metrics_lr, y_pred_lr, y_pred_train_lr  = grid_search_avaliacao(
    LogisticRegression(max_iter=1000, random_state=42),
    param_grid_lr,
    X_train_scaled, y_train_year,
    X_test_scaled, y_test_year,
    "Logistic Regression COM year"
)

# Random Forest
rf_best, metrics_rf, y_pred_rf, y_pred_train_rf = grid_search_avaliacao(
    RandomForestClassifier(random_state=42),
    param_grid_rf,
    X_train_year, y_train_year,
    X_test_year, y_test_year,
    "Random Forest COM year"
)

# XGBoost
xgb_best, metrics_xgb, y_pred_xgb, y_pred_train_xgb = grid_search_avaliacao(
    XGBClassifier(eval_metric='logloss', random_state=42),
    param_grid_xgb,
    X_train_year, y_train_year,
    X_test_year, y_test_year,
    "XGBoost COM year"
)

# ======================================
# Compara√ß√£o resumida
# ======================================
df_comparacacao_final = pd.DataFrame([metrics_lr, metrics_rf, metrics_xgb],
                             index=["Logistic Regression", "Random Forest", "XGBoost"])
print("\n--- Compara√ß√£o Final dos Modelos (com vari√°vel 'year' e GridSearchCV) ---")
print(df_comparacacao_final)


# 7. An√°lise final e Defini√ß√£o do Modelo

Ap√≥s compara√ß√£o entre **Logistic Regression**, **Random Forest** e **XGBoost**, considerando ajustes de **hiperpar√¢metros**, **valida√ß√£o cruzada** e **normaliza√ß√£o da vari√°vel `year`**, o **XGBoost** se destacou como o modelo mais adequado para prever curtidas em m√∫sicas.

## Observa√ß√µes importantes

- A **normaliza√ß√£o da vari√°vel `year`** beneficiou principalmente a Logistic Regression, tornando os coeficientes mais interpret√°veis.  
- Mesmo ap√≥s **GridSearchCV e normaliza√ß√£o**, **Logistic Regression** e **Random Forest** n√£o apresentaram melhorias significativas, mostrando que essas t√©cnicas n√£o impactaram tanto nesses modelos.  
- O **XGBoost**, por outro lado, apresentou melhorias consistentes, consolidando-se como o melhor modelo para prever curtidas em m√∫sicas.

## M√©tricas de Desempenho (ap√≥s ajustes)

| Modelo             | Accuracy | F1-score | Recall | Precision |
|------------------|---------|----------|--------|-----------|
| Logistic Regression | 0.609   | 0.609    | 0.609  | 0.609     |
| Random Forest       | 0.609   | 0.608    | 0.652  | 0.577     |
| XGBoost             | 0.565   | 0.615    | 0.739  | 0.567     |

- **Recall elevado (0.739) do XGBoost:** captura a maior parte das m√∫sicas realmente curtidas (verdadeiros positivos).  
- **F1-score (0.615) do XGBoost:** equil√≠brio entre precis√£o e recall, mostrando boa capacidade de classifica√ß√£o mesmo com alguns falsos positivos.  
- **Precision menor (0.567) do XGBoost:** indica a presen√ßa de falsos positivos, mas o foco √© priorizar a identifica√ß√£o de m√∫sicas que o usu√°rio realmente curtir√°.

## Justificativa do desempenho do XGBoost

- **Boosting sequencial:** combina v√°rias √°rvores fracas, aprendendo com os erros anteriores.  
- **Captura padr√µes complexos:**  
  - **Intera√ß√µes entre vari√°veis** (ex.: `danceability + energy + year`).  
  - **Rela√ß√µes n√£o lineares** entre features e curtidas.  
  - **Ajuste din√¢mico aos erros:** cada √°rvore corrige erros anteriores, aumentando recall e F1-score.  
- **Valida√ß√£o cruzada estratificada:** garante avalia√ß√£o robusta mesmo com dataset pequeno (~200 registros).  
- **Ajuste de hiperpar√¢metros:** GridSearchCV otimiza `n_estimators`, `max_depth`, `learning_rate` e `subsample`.

> Conclus√£o: O XGBoost apresentou **maior capacidade de identificar verdadeiros positivos**, sendo o modelo mais robusto para classifica√ß√£o de m√∫sicas curtidas.


In [None]:
# ======= Print do Resultado =======
print("Resultado final do Treino e Teste do modelo XGBoost")

# ======= Treino =======
df_train = pd.DataFrame({
    "track_id": X_train_year.index,
    "real": y_train_year.values,
    "pred": y_pred_train_xgb
})
df_train["acerto"] = df_train["real"] == df_train["pred"]
df_train["conjunto"] = "Treino"

# ======= Teste =======
df_test = pd.DataFrame({
    "track_id": X_test_year.index,
    "real": y_test_year.values,
    "pred": y_pred_xgb
})
df_test["acerto"] = df_test["real"] == df_test["pred"]
df_test["conjunto"] = "Teste"

# ======= Concatenar =======
df_resultados = pd.concat([df_train, df_test], ignore_index=True)

# ======= Plot =======
plt.figure(figsize=(14,6))
sns.scatterplot(
    data=df_resultados,
    x="track_id",
    y="real",
    hue="acerto",
    style="conjunto",
    palette={True:"green", False:"red"},
    s=100
)
plt.yticks([0,1], ["N√£o Curtida", "Curtida"])
plt.xlabel("M√∫sicas (track_id)")
plt.ylabel("Valor Real")
plt.title("Acertos (verde) e Erros (vermelho) do Modelo XGBoost - Treino e Teste")
plt.legend(title="Acerto / Conjunto", loc="upper right")
plt.tight_layout()
plt.show()


# 8. Conclus√µes Finais sobre o Modelo de Classifica√ß√£o para Previs√£o de M√∫sicas Curtidas

Ap√≥s a modelagem e avalia√ß√£o com **Logistic Regression**, **Random Forest** e **XGBoost**, os principais insights s√£o:

## Desempenho para o Usu√°rio Alvo
- O modelo apresentou bom desempenho para o usu√°rio analisado, com **gosto musical espec√≠fico** (rock, blues e g√™neros afins).  
- As m√∫sicas de teste inclu√≠ram g√™neros fora do hist√≥rico de curtidas do usu√°rio, avaliando a capacidade de generaliza√ß√£o.  
- Resultado: alta acur√°cia nos **verdadeiros positivos**, identificando corretamente m√∫sicas realmente curtidas.

## Limita√ß√µes em Falsos Positivos
- Em outros usu√°rios ou contextos, fatores subjetivos (como humor ou momento) podem afetar a curtida.  
- Consequentemente, surgem **falsos positivos**, m√∫sicas previstas como curtidas que na pr√°tica n√£o foram.

## Possibilidades de Evolu√ß√£o
Para melhorar a assertividade e gerar recomenda√ß√µes mais precisas:  
- Utilizar **modelo probabil√≠stico** ao inv√©s de classifica√ß√£o bin√°ria.  
- Integrar **clustering de estilos musicais** para uma recomenda√ß√£o h√≠brida.  
- Combinar a **probabilidade de curtida** com clusters para criar um **ranking personalizado**.

> ‚úÖ **Conclus√£o Geral:**  
> O XGBoost, com ajuste de hiperpar√¢metros, valida√ß√£o cruzada e capacidade de capturar padr√µes complexos, mostrou-se o modelo mais robusto para identificar m√∫sicas curtidas pelo usu√°rio-alvo, considerando limita√ß√µes subjetivas nas prefer√™ncias musicais.
