In [None]:
#Importações iniciais

import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report



In [3]:
df = pd.read_csv("../data/processed/spotify_prepared_v2_20251114_104521.csv")
df.head()

Unnamed: 0,num01__danceability,num01__energy,num01__speechiness,num01__acousticness,num01__instrumentalness,num01__liveness,num01__valence,numscale__tempo,numscale__duration_ms,numscale__loudness,...,cat__release_year_2021.0,cat__release_year_2022.0,cat__release_year_2023.0,cat__release_year_2024.0,track_name,playlist_genre,track_popularity,is_hit_rule,is_hit_agree,is_hit
0,0.521,0.592,0.0304,0.308,0.0,0.122,0.535,0.75027,0.404633,0.848451,...,0.0,0.0,0.0,1.0,Die With A Smile,pop,100,1,1.0,1
1,0.747,0.507,0.0358,0.2,0.0608,0.117,0.438,0.318378,0.301981,0.785096,...,0.0,0.0,0.0,1.0,BIRDS OF A FEATHER,pop,97,1,1.0,1
2,0.554,0.808,0.0368,0.214,0.0,0.159,0.372,0.347475,0.192423,0.943932,...,0.0,0.0,0.0,1.0,That’s So True,pop,93,1,1.0,1
3,0.67,0.91,0.0634,0.0939,0.0,0.304,0.786,0.383483,0.17,0.946552,...,0.0,0.0,0.0,1.0,Taste,pop,81,1,1.0,1
4,0.777,0.783,0.26,0.0283,0.0,0.355,0.939,0.67739,0.201414,0.935781,...,0.0,0.0,0.0,1.0,APT.,pop,98,1,1.0,1


In [None]:
#Removendo colunas que NÃO devem entrar como features
colunas_descartar = ["track_name", "playlist_genre", "track_popularity", 
                     "is_hit_rule", "is_hit_agree", "is_hit"]

# X = todas as colunas exceto as descartadas
X = df.drop(columns=colunas_descartar)

# y = coluna alvo
y = df["is_hit"]

X.head(), y.head()

(   num01__danceability  num01__energy  num01__speechiness  \
 0                0.521          0.592              0.0304   
 1                0.747          0.507              0.0358   
 2                0.554          0.808              0.0368   
 3                0.670          0.910              0.0634   
 4                0.777          0.783              0.2600   
 
    num01__acousticness  num01__instrumentalness  num01__liveness  \
 0               0.3080                   0.0000            0.122   
 1               0.2000                   0.0608            0.117   
 2               0.2140                   0.0000            0.159   
 3               0.0939                   0.0000            0.304   
 4               0.0283                   0.0000            0.355   
 
    num01__valence  numscale__tempo  numscale__duration_ms  numscale__loudness  \
 0           0.535         0.750270               0.404633            0.848451   
 1           0.438         0.318378           

In [6]:
#Separando treino e teste

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2,        # 20% para teste
    random_state=42,      # deixa o resultado reproduzível
    stratify=y            # mantém proporção de hits e não-hits
)

X_train.shape, X_test.shape, y_train.shape, y_test.shape


((3864, 211), (967, 211), (3864,), (967,))

In [8]:
#Escalonamento

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

# Ajusta apenas com os dados de treino, depois transforma treino e teste
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

X_train_scaled[:5]


array([[ 0.90829541,  0.90543045, -0.63895036, ..., -0.30759968,
        -0.42916935, -0.6521536 ],
       [-0.09743105,  0.80835892, -0.00315039, ..., -0.30759968,
        -0.42916935, -0.6521536 ],
       [ 0.41072548,  0.75173385, -0.67122944, ..., -0.30759968,
        -0.42916935, -0.6521536 ],
       [ 1.02474795,  1.34225238, -0.45016668, ..., -0.30759968,
         2.33008251, -0.6521536 ],
       [-1.12433071, -0.68007135, -0.43158176, ..., -0.30759968,
        -0.42916935, -0.6521536 ]], shape=(5, 211))

In [None]:
#Treinando Naive Bayes

from sklearn.naive_bayes import GaussianNB

modelo_nb = GaussianNB()
modelo_nb.fit(X_train_scaled, y_train)


0,1,2
,priors,
,var_smoothing,1e-09


In [10]:
modelo_nb = GaussianNB()
modelo_nb.fit(X_train_scaled, y_train)


0,1,2
,priors,
,var_smoothing,1e-09


In [None]:
#Previsões com o modelo
y_pred = modelo_nb.predict(X_test_scaled)
y_pred[:10]

#Probabilidades
probs = modelo_nb.predict_proba(X_test_scaled)  
prob_hit = probs[:, 1]   # só a probabilidade da classe HIT

for i in range(5):  
    print(f"Música {i+1}: Previsto = {y_pred[i]}, Probabilidade de HIT = {prob_hit[i]:.2f}")

Música 1: Previsto = 0, Probabilidade de HIT = 0.00
Música 2: Previsto = 0, Probabilidade de HIT = 0.00
Música 3: Previsto = 1, Probabilidade de HIT = 1.00
Música 4: Previsto = 0, Probabilidade de HIT = 0.00
Música 5: Previsto = 1, Probabilidade de HIT = 1.00


In [14]:
#Avaliação

from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

acc = accuracy_score(y_test, y_pred)
cm = confusion_matrix(y_test, y_pred)
rel = classification_report(y_test, y_pred)

acc, cm, rel

#Acurácia de 0.7104, ou seja, 71%


(0.7104446742502585,
 array([[369, 261],
        [ 19, 318]]),
 '              precision    recall  f1-score   support\n\n           0       0.95      0.59      0.72       630\n           1       0.55      0.94      0.69       337\n\n    accuracy                           0.71       967\n   macro avg       0.75      0.76      0.71       967\nweighted avg       0.81      0.71      0.71       967\n')

## Considerações Finais sobre a Classificação de Hits com Naive Bayes

O modelo Naive Bayes foi empregado com o propósito de estimar a probabilidade de uma música se consolidar como um sucesso ("hit"). O foco principal era classificar cada faixa em duas categorias distintas: "hit" (1) ou "não hit" (0), utilizando atributos musicais previamente padronizados.

# Desempenho e Características do Modelo
Os resultados alcançados demonstram que o algoritmo tem uma capacidade razoável de diferenciar os dois grupos de músicas, registrando uma acurácia de 71%.

Uma característica do Naive Bayes é sua tendência a produzir probabilidades próximas dos extremos (ou seja, perto de 0 ou 1). Essa propensão indica uma forte confiança na classificação sempre que uma nova música se alinha de perto com os padrões identificados durante a fase de treinamento.

# Conclusão e Próximos Passos
Dessa forma, o modelo atendeu o objetivo central do projeto, pois é capaz tanto de prever se uma faixa será um hit quanto de estimar a probabilidade associada a essa classificação.

Contudo, por se tratar de um algoritmo de classificação relativamente simples, há uma clara oportunidade para aprimoramento. Recomenda-se a realização de testes adicionais com algoritmos de Machine Learning mais robustos a fim de elevar a qualidade e a precisão das previsões futuras.