#Classifica√ß√£o de m√∫sicas do Spotify üéµ.

## Sobre a base de dados:üé≤


Este √© um conjunto de dados de faixas do Spotify em uma variedade de 125 g√™neros diferentes. Cada faixa possui alguns recursos de √°udio associados a ela.

Uso da base: üõ†Ô∏è
O conjunto de dados pode ser usado para:



1.   Construindo um sistema de recomenda√ß√£o com base em alguma entrada ou prefer√™ncia do usu√°rio
2.   Finalidades de classifica√ß√£o com base em recursos de √°udio e g√™neros dispon√≠veis
3.   Qualquer outro aplicativo que voc√™ possa imaginar. Sinta-se √† vontade para discutir!






## Objetivo do nosso projeto:üéØ

Este notebook contempla a cria√ß√£o de um modelo preditivo para classificar m√∫sicas lentas e agitadas utilizando a base de dados "Spotify Tracks Dataset" do Kaggle.

O link desta base e mais detalhes se encontra em: https://www.kaggle.com/datasets/maharshipandya/-spotify-tracks-dataset

In [None]:
import pandas as pd

In [None]:
pd.set_option('display.max_columns', None)
df = pd.read_csv('/content/dataset.csv')
df.head()

In [None]:
df.shape

##Criando a vari√°vel targetüéØ

De acordo com a regra de neg√≥cio, a coluna valence √© uma medida de 0,0 a 1,0 que descreve a positividade musical transmitida por uma faixa. Faixas com alta val√™ncia soam mais positivas (por exemplo, feliz, alegre, euf√≥rica), enquanto faixas com baixa val√™ncia soam mais negativas (por exemplo, triste, deprimida, irritada). Para criar a nossa coluna alvo do modelo preditivo, vamos utizar a coluna "valence" para ser nosso crit√©rio de m√∫sicas agitadas ou lentas.

In [None]:
import matplotlib.pyplot as plt

#Analisando a colune "valence" com o intuito de criar a vari√°vel de target
plt.hist(df['valence'], bins=20, color='red', edgecolor='black')
plt.xlabel('Valence')
plt.ylabel('Frequ√™ncia')
plt.title("Histograma da coluna Valence")
plt.show()

Uma an√°lise superficial do gr√°fico demonstra que ele est√° levemente deslocado para a esquerda, o que pode sinalizar que a maioria das m√∫sicas tem um ritmo mais lento, mas a discuss√£o ainda ir√° seguir adiante.

In [None]:
df['valence'].describe() #caracter√≠sticas da coluna

Criando uma fun√ß√£o para categorizar os diferentes tipos de m√∫sica entre agitada e lenta a partir do limiar de valence.

In [None]:
def categorizar_valence(row):
  if row['valence'] > 0.5:
    return 'agitada'
  else:
    return 'lenta'
#Agora iremos criar a nova coluna de 'target' utilizando a fun√ß√£o categorizar_Valence
df['target'] = df.apply(categorizar_valence, axis=1)
df.head()

In [None]:
df.tail()

## Feature Engineering üõ†Ô∏è

Como pr√≥ximo passo, vamos armazenar em um novo dataframe apenas as colunas necess√°rias para nossa classifica√ß√£o de m√∫sicas.

In [None]:
df.columns

In [None]:
df_musica = df.drop(['Unnamed: 0', 'track_id'], axis = 1)
df_musica.head()

## Tratando os dados categ√≥ricos üÖ∞Ô∏è

LabelEncoder: Essa classe √© utilizada para codificar r√≥tulos de classes em n√∫meros inteiros. √â frequentemente usado quando se trabalha com algoritmos de aprendizado supervisionado que requerem r√≥tulos num√©ricos.

In [None]:
df_musica.head() #visualizando as colunas categ√≥ricas

In [None]:
def label_encoder_dataframe(df, columns_to_encode):
  from sklearn.preprocessing import LabelEncoder
  le = LabelEncoder()

  for column in columns_to_encode:
    if column in df.columns:
      df[column] = le.fit_transform(df[column])
    else:
      print('A lista possui colunas que n√£o existem no DataFrame.')
  return df

colunas_a_codificar = ['artists', 'album_name', 'track_name', 'explicit', 'track_genre', 'target']
label_encoder_dataframe(df_musica, colunas_a_codificar)
df_musica.head() #o dataframe foi atualizado para ter apenas dados num√©ricos agora.

## Analisando as vari√°veis que v√£o compor nosso modelo üìä

Fazendo um gr√°fico de correla√ß√£o com o seaborn.

In [None]:
import seaborn as sns

In [None]:
correlation_matrix = df_musica.corr().round(2)

fig,ax = plt.subplots(figsize=(12,10))
sns.heatmap(data=correlation_matrix, annot=True, cmap='coolwarm', ax=ax);

Poucas vari√°veis tem uma alta correla√ß√£o ao analisar o gr√°fico de calor, mas √© sempre bom lembrar que correla√ß√£o n√£o √© causalidade.

## Entendendo o equil√≠brio da target üéØ

In [None]:
#Vamos verificar o equil√≠brio das classes na target
round(df_musica['target'].value_counts(normalize=True)*100,2)

In [None]:
set(df['target'])

In [None]:
set(df_musica['target']) #apenas conferindo os valores que 0 e 1 representam: 0 = Agitada e 1 = Lenta

Como as classes est√£o bem equilibradas n√£o vai ser necess√°rio realizar t√©cnicas adicionais para tratar um poss√≠vel desequil√≠brio, como oversampling e outras.

## Separando os dados em treino e teste üîÑ

Agora vamos criar um modelo supervisionado.

In [None]:
df_musica.columns

In [None]:
#separando os dados em treino e teste (m√©todo hold out - divis√£o, treinamento e avalia√ß√£o)
from sklearn.model_selection import train_test_split

X = df_musica[['popularity', 'duration_ms', 'danceability', 'energy', 'loudness', 'acousticness', 'instrumentalness', 'liveness', 'track_genre']]
y = df_musica['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)


In [None]:
print(X_train.shape, X_test.shape)

## Normalizando os dados üìè

Ao aplicar o MinMaxScaler, todos os valores dos dados ser√£o transformados para o intervalo entre 0 e 1, onde o valor m√≠nimo ser√° 0 e o valor m√°ximo ser√° 1. Essa t√©cnica √© especialmente √∫til quando os algoritmos de aprendizado de m√°quina s√£o sens√≠veis √† escala dos dados.

Por que aplicamos a normaliza√ß√£o dos dados com as bases j√° separadas em treino e teste? ü§î Se aplicarmos normaliza√ß√µes antes de dividir em conjuntos de treino e teste, podemos acabar introduzindo informa√ß√µes do conjunto de teste no conjunto de treino. Isso pode levar a uma avalia√ß√£o otimista do desempenho do modelo, uma vez que o modelo ter√° visto parte dos dados de teste durante o treinamento. Este tipo de problema tamb√©m √© chamado de Data Leak (vazamento de dados).

In [None]:
from numpy import ScalarType
from sklearn.preprocessing import MinMaxScaler

#Criar uma inst√¢ncia do MinMaxScaler
scaler = MinMaxScaler()

scaler.fit(X_train) #fazemos o fit apenas na base de treinamento para evitar data leak

X_train_escalonado = scaler.transform(X_train)
X_test_escalonado = scaler.transform(X_test)

## Criando uma fun√ß√£o para executar modelos de machine learning üöÄ

In [None]:
def roda_modelo(modelo):

    from sklearn.metrics import roc_curve, roc_auc_score, classification_report

    # Treinando modelo com os dados de treino
    modelo.fit(X_train_escalonado, y_train)

    # Calculando a probabilidade e calculando o AUC
    prob_predic = modelo.predict_proba(X_test_escalonado) # obter as probabilidades associadas √†s classes previstas para cada inst√¢ncia de dados
    auc = roc_auc_score(y_test, prob_predic[:,1])
    print(f"AUC {auc}")

    # Fazendo a predicao dos dados de teste e calculando o classification report
    predicao = modelo.predict(X_test_escalonado)
    print("\nClassification Report")
    print(classification_report(y_test, predicao))

    print("\nRoc Curve\n")
    # Fazer previs√µes de probabilidades
    y_pred_probs = modelo.predict_proba(X_test_escalonado)[:, 1]

    # Calcular a curva ROC
    fpr, tpr, thresholds = roc_curve(y_test, y_pred_probs)

    # Calcular a AUC (√°rea sob a curva ROC)
    auc = roc_auc_score(y_test, y_pred_probs)

    # Plotar a curva ROC
    plt.figure(figsize=(8, 6))
    plt.plot(fpr, tpr, color='blue', label=f'ROC curve (AUC = {auc:.2f})') # linewidth
    plt.plot([0, 1], [0, 1], color='gray',linestyle='--')
    plt.xlabel('Taxa de Falso Positivo')
    plt.ylabel('Taxa de Verdadeiro Positivo')
    plt.title('Curva ROC')
    plt.legend(loc='lower right')
    plt.show()

    # Converter probabilidades em classes preditas (0 ou 1)
    y_pred = (y_pred_probs > 0.5).astype(int)


## Regress√£o log√≠stica

O modelo se baseia em uma fun√ß√£o log√≠stica, que transforma as vari√°veis independentes em uma probabilidade entre 0 e 1. Para novas entradas de dados, o modelo calcula a probabilidade do evento bin√°rio ocorrer.

In [None]:

from sklearn.linear_model import LogisticRegression
modelo_logistico = LogisticRegression()
roda_modelo(modelo_logistico)

Analisando o f1-score e as outras m√©tricas de avalia√ß√£o, √© poss√≠vel concluir que esse m√©todo de regress√£o n√£o ficou bem adequado com a constru√ß√£o de um bom modelo com os dados selecionados.

## KNN (K-Nearest Neighbors)

Para um novo ponto de dados, o KNN identifica os K pontos mais pr√≥ximos (vizinhos) no conjunto de treinamento. A classe do novo ponto √© a classe mais frequente entre os K vizinhos.

In [None]:

from sklearn.neighbors import KNeighborsClassifier
modelo_knn = KNeighborsClassifier(n_neighbors=3)
roda_modelo(modelo_knn)


Da mesma forma que o modelo de regress√£o, esse n√£o ficou t√£o satisfat√≥rio.

## Random Florest

O Random Forest Classifier √© um algoritmo de ensemble learning, que combina v√°rios modelos para melhorar a performance. O modelo cria uma floresta de √°rvores de decis√£o, onde cada √°rvore √© treinada em um subconjunto aleat√≥rio dos dados (bootstrap). A classe final do novo ponto de dados √© a classe mais votada pelas √°rvores da floresta.

In [None]:

from sklearn.ensemble import RandomForestClassifier
modelo_random_forest = RandomForestClassifier(max_depth=7, n_estimators= 100)
roda_modelo(modelo_random_forest)

Est√° melhorando aos poucos, mas mesmo assim ainda n√£o tem um rendimento ideal. Vamos utilizar Grid Search para alterar par√¢metros.

## Testando novos par√¢metros com Grid Search

In [None]:
from sklearn.model_selection import GridSearchCV

# Defina os par√¢metros a serem testados
param_grid = {
    "n_estimators": [100, 200, 300],
    "max_depth": [5, 10, 15]
}

# GridSearchCV
grid_search = GridSearchCV(RandomForestClassifier(), param_grid, cv=5, scoring='f1', n_jobs=1)

# Ajuste o modelo ao conjunto de dados
grid_search.fit(X_train_escalonado, y_train)

rf_params = grid_search.best_params_
print("Melhores hiperpar√¢metros:", rf_params)

Melhores Hiperpar√¢metros:{'max_depth':15, 'n_estimators':300}

Testando agora com esses par√¢metros

In [None]:
modelo_random_forest = RandomForestClassifier(max_depth=15, n_estimators= 300)
roda_modelo(modelo_random_forest)

In [None]:
# Tentando novos par√¢metros ajustados manualmente
modelo_random_forest_manual = RandomForestClassifier(n_estimators=500, max_depth=20, min_samples_split=5, random_state=42)
roda_modelo(modelo_random_forest_manual)

Neste exemplo, aumentamos o `n_estimators` (n√∫mero de √°rvores) para 500, a `max_depth` (profundidade m√°xima das √°rvores) para 20 e adicionamos `min_samples_split=5`. Esses s√£o apenas alguns ajustes que poderiam ser testados manualmente. O `random_state` foi adicionado para garantir a reprodutibilidade dos resultados.

Ainda n√£o est√° pr√≥ximo de uma acur√°cia de 90%, mas melhorou bastante. Provavelmente √© melhor trabalhar com mais hiperpar√¢metros ainda para melhorar esse modelo.

## Testando o Modelo ‚úÖ

In [None]:
import numpy as np

novos_dados = pd.read_excel("novos_dados.xlsx")
base_original = pd.read_excel("novos_dados.xlsx")

#Criando a pipeline
coluna = ['track_genre']
label_encoder_dataframe(novos_dados, coluna)
novos_dados = scaler.transform(novos_dados)

# Realize a previs√£o usando o modelo Random Forest treinado
previsoes = modelo_random_forest_manual.predict(novos_dados)

# Obtendo o predict
def mapear_valor(valores):
    resultados = []
    for valor in valores:
        if valor == 0:
            resultados.append('M√∫sica agitada')
        elif valor == 1:
            resultados.append('M√∫sica lenta')
        else:
            resultados.append('Desconhecido')
    return np.array(resultados)

base_original['target'] = mapear_valor(previsoes)
base_original.head()

Com o modelo √© poss√≠vel ver o resultado a partir do track_genre em conjunto com o target, sendo poss√≠vel visualizar se √© uma m√∫sica agitada ou lenta.