<a href="https://colab.research.google.com/github/Lrs-mtos/song-popularity-ML/blob/develop_edinaldo/song_popularity.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Setup

In [1]:
# Python ≥3.5 is required
import sys
assert sys.version_info >= (3, 5)

# Scikit-Learn ≥0.20 is required
import sklearn
assert sklearn.__version__ >= "0.20"


# Common imports
import numpy as np
import pandas as pd
from pandas.plotting import scatter_matrix
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
import os

# To plot pretty figures
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)


## Get the data

In [None]:
import os
import requests
import zipfile
import pandas as pd


url = "https://www.kaggle.com/api/v1/datasets/download/joebeachcapital/30000-spotify-songs"
zip_path = "spotify_songs.zip"
extract_path = "./datasets"
#create dataframe songs:


# Faz o download do arquivo zip
response = requests.get(url)
with open(zip_path, "wb") as file:
    file.write(response.content)
os.makedirs(extract_path, exist_ok=True)

with zipfile.ZipFile(zip_path, "r") as zip_ref:
    zip_ref.extractall(extract_path)

## Take a quick look at the dataset

In [None]:
csv_path = os.path.join(extract_path, "spotify_songs.csv")
songs = pd.read_csv(csv_path)
print(songs.head())

                 track_id                                         track_name  \
0  6f807x0ima9a1j3VPbc7VN  I Don't Care (with Justin Bieber) - Loud Luxur...   
1  0r7CVbZTWZgbTCYdfa2P31                    Memories - Dillon Francis Remix   
2  1z1Hg7Vb0AhHDiEmnDE79l                    All the Time - Don Diablo Remix   
3  75FpbthrwQmzHlBJLuGdC7                  Call You Mine - Keanu Silva Remix   
4  1e8PAfcKUYoKkxPhrHqw4x            Someone You Loved - Future Humans Remix   

       track_artist  track_popularity          track_album_id  \
0        Ed Sheeran                66  2oCs0DGTsRO98Gh5ZSl2Cx   
1          Maroon 5                67  63rPSO264uRjW1X5E6cWv6   
2      Zara Larsson                70  1HoSmj2eLcsrR0vE9gThr4   
3  The Chainsmokers                60  1nqYsOef1yKKuGOVchbsk6   
4     Lewis Capaldi                69  7m7vv9wlQ4i0LFuJiE2zsQ   

                                    track_album_name track_album_release_date  \
0  I Don't Care (with Justin Bieber) [Loud Luxu

In [None]:
songs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32833 entries, 0 to 32832
Data columns (total 23 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   track_id                  32833 non-null  object 
 1   track_name                32828 non-null  object 
 2   track_artist              32828 non-null  object 
 3   track_popularity          32833 non-null  int64  
 4   track_album_id            32833 non-null  object 
 5   track_album_name          32828 non-null  object 
 6   track_album_release_date  32833 non-null  object 
 7   playlist_name             32833 non-null  object 
 8   playlist_id               32833 non-null  object 
 9   playlist_genre            32833 non-null  object 
 10  playlist_subgenre         32833 non-null  object 
 11  danceability              32833 non-null  float64
 12  energy                    32833 non-null  float64
 13  key                       32833 non-null  int64  
 14  loudne

In [None]:
pd.set_option('display.max_rows', None)
songs["playlist_genre"].value_counts()

playlist_genre
edm      6043
rap      5746
pop      5507
r&b      5431
latin    5155
rock     4951
Name: count, dtype: int64

## Create a Set Test

In [None]:
#to make this notebook's output identical at every run
np.random.seed(42)

train_set, test_set = train_test_split(songs, test_size=0.2, random_state=42)
len(train_set)

In [None]:
len(test_set)

# Checklist 3: Explore os dados

## 1. Crie uma cópia dos dados para exploração(amostragem até um tamanho gerenciavel se necessário)

In [None]:
songs_cp = songs.copy()

## 2. Crie um Jupyter Notebook para manter um registro de sua exploração de dados


## 3. Estude cada atributo e suas propriedades

## 4. Para tarefas de aprendizado supervisionado, identifique o(s) atributo(s)-alvo

In [None]:
songs_cp['track_popularity']

## 5. visualize os dados
## 6. Estude a correlação entre os dados

- Matriz de correlação

In [None]:
# Se seu DataFrame é 'songs_cp', selecione apenas colunas numéricas
songs_cp_numeric = songs_cp.select_dtypes(include=['int64', 'float64'])

# Agora calcule a matriz de correlação apenas com colunas numéricas
corr_matrix = songs_cp_numeric.corr()

# Se quiser ver a correlação de uma coluna específica, substitua "alguma_coluna"
# por um nome de coluna que seja numérica
corr_matrix["track_popularity"].sort_values(ascending=False)

In [None]:
attributes = ["track_popularity", "danceability", "acousticness", "instrumentalness", "duration_ms"]
scatter_matrix(songs_cp[attributes], figsize=(20, 20))

- Grafico que mostra a distribuição dos dados

In [None]:
songs.hist(bins=50, figsize=(20,15))
plt.show()

- grafico de relacionamento em pares com uso de grade de axes

In [None]:
sns.pairplot(songs_cp, vars=[ "energy", "loudness", "speechiness", "acousticness", "instrumentalness", "liveness", "valence", "tempo"],
             hue="track_popularity")

- usando boxplot a fim de procurar possiveis Outliers e concentração de dados

In [None]:
plt.figure(figsize=(10, 6))
sns.boxplot(x=songs['speechiness'])
plt.title('Boxplot de Speechiness')
plt.figure(figsize=(10, 6))
sns.boxplot(x=songs['acousticness'])
plt.title('Boxplot de acousticness')
plt.figure(figsize=(10, 6))
sns.boxplot(x=songs['instrumentalness'])
plt.title('Boxplot de instrumentalness')
plt.figure(figsize=(10, 6))
sns.boxplot(x=songs['liveness'])
plt.title('Boxplot de liveness')
plt.figure(figsize=(10, 6))
sns.boxplot(x=songs['valence'])
plt.title('Boxplot de valence')
plt.figure(figsize=(10, 6))
sns.boxplot(x=songs['tempo'])
plt.title('Boxplot de tempo')
plt.figure(figsize=(10, 6))
sns.boxplot(x=songs['duration_ms'])
plt.title('Boxplot de duration_ms')
plt.figure(figsize=(10, 6))
sns.boxplot(x=songs['loudness'])
plt.title('Boxplot de loudness')
plt.figure(figsize=(10, 6))
sns.boxplot(x=songs['energy'])
plt.title('Boxplot de energy')
plt.figure(figsize=(10, 6))
sns.boxplot(x=songs['danceability'])
plt.title('Boxplot de danceability')
plt.figure(figsize=(10, 6))
sns.boxplot(x=songs['track_popularity'])
plt.title('Boxplot de track_popularity')
plt.figure(figsize=(10, 6))
sns.boxplot(x=songs['key'])
plt.title('Boxplot de key')
plt.figure(figsize=(10, 6))
sns.boxplot(x=songs['mode'])
plt.title('Boxplot de mode')
plt.show()

## 7. Estude como você resolveria o problema manualmente

## 8. Identifique as transformações promissoras que você pode querer aplicar

## 9. Identifique dados extras que seriam uteis

## 10. Documente o que você aprendeu

# Checklist 4: Prepare os dados

## Funções que serão utilizadas para tratamento dos dados

### Retirar músicas duplicadas

In [2]:
def removeDuplicates(df):
    # Adiciona uma coluna auxiliar com o nome da música em lowercase
    df['track_name_lower'] = df['track_name'].str.lower()
    # Remove duplicadas usando a coluna auxiliar
    df_unique = df.drop_duplicates(subset=['track_artist', 'track_name_lower'])
    # Remove a coluna auxiliar antes de retornar
    df_unique = df_unique.drop(columns=['track_name_lower'])
    df = df_unique

### OneHot para os artistas mais relevantes do dataset

In [None]:
#Já que o dataset possue uma quantidade consideravel de artistas, faz o Onehot apenas
#dos artistas mais populares
def onehotTopArtists(df, n, alpha=5):
    # Verifica se as colunas necessárias existem no DataFrame
    if 'track_artist' not in df.columns or 'track_popularity' not in df.columns:
        raise ValueError("O dataset deve conter as colunas 'track_artist' e 'track_popularity'.")
    # Calcula a popularidade total por artista
    artist_total_popularity = df.groupby('track_artist')['track_popularity'].sum()
    # Conta o número de músicas por artista
    artist_song_count = df.groupby('track_artist').size()
    # Ajuste da popularidade considerando o número de músicas com o parâmetro de suavização alpha
    artist_adjusted_popularity = artist_total_popularity / (artist_song_count + alpha)
    # Seleciona os `n` artistas mais populares com a popularidade ajustada
    top_artists = artist_adjusted_popularity.sort_values(ascending=False).head(n).index.tolist()
    print("Top artistas:", top_artists)  # Verifique os artistas mais populares
    # Cria colunas one-hot para esses `n` artistas mais populares
    for artist in top_artists:
        df[f"artist_{artist}"] = (df['track_artist'] == artist).astype(int)

### Remoção de colunas desnecessarias para a predição do modelo

In [None]:
#Remove uma lista de colunas de um dataset
def removeColumns(df, columns_name):
    df.drop(columns=columns_name)

### Remoção de linhas que possuem algum dado em branco e que não pode ser obtido atraves de outros dados

In [None]:
#Remove linhas que possuam alguma informação relevante em branco
#Utilize depois de remover as colunas que não seram necessarias para a predição do modelo
def removeRowNaN(songs_cp):
    songs_cp_sem_nulos = songs_cp.dropna(axis=0, how='any')
    return songs_cp_sem_nulos

def dropRowsEmpty(songs_cp):
    songs_cp_sem_nulos = removeRowNaN(songs_cp)
    valores_nulos_por_coluna = songs_cp_sem_nulos.isna().sum()
    print("\nQuantidade de valores nulos por coluna:")
    songs_cp = songs_cp_sem_nulos
    print(valores_nulos_por_coluna)


### Normalizar os dados numericos

In [None]:
#normaliza os dados em um intervalo de 0 a 1
def normalizeColumns(df,columns_name):
    scaler = MinMaxScaler()
    df[columns_name] = scaler.fit_transform(df[columns_name])
    return df

### Realizar Onehot para as variaveis categoricas que possuem um numero pequeno de categorias

In [None]:
#faz Onehot para variaveis categoricas com um numero pequeno de categorias
def onehotEncode(df, columns):
    return pd.get_dummies(df, columns=columns, prefix=columns)

### Preencheer o mês das musicas que estão com o mês em branco

In [None]:
def fillMonths(songs: pd.DataFrame) -> None:
    # Filtrar as linhas onde a data de lançamento tem apenas o ano (4 caracteres)
    df_ano_apenas = songs[songs['track_album_release_date'].str.len() == 4].copy()

    # Filtrar as linhas onde a data de lançamento tem o formato completo (ano-mês-dia)
    df_completo = songs[songs['track_album_release_date'].str.len() == 10].copy()

    # Extrair o mês das músicas com ano-mês-dia
    df_completo['month'] = df_completo['track_album_release_date'].str[5:7]

    # Contar a frequência de cada mês
    month_counts = df_completo['month'].value_counts()

    # Agora vamos preencher os meses nas músicas com ano apenas, de forma proporcional
    # Criação de uma lista que vai armazenar os meses a serem atribuídos
    months_to_fill = []

    # Para cada mês na distribuição, vamos adicionar o mês de forma proporcional
    for month, count in month_counts.items():
        months_to_fill.extend([month] * count)

    # Para as músicas faltando mês, vamos preencher com base na lista 'months_to_fill'
    df_ano_apenas['month'] = np.random.choice(months_to_fill, size=len(df_ano_apenas))

    # Agora vamos juntar os dois DataFrames (completo e preenchido) novamente
    # Garantindo que estamos mantendo todas as colunas, não apenas 'track_album_release_date'
    df_completo['month'] = df_completo['month']  # As músicas já completas não devem ser modificadas
    df_ano_apenas['track_album_release_date'] = df_ano_apenas['track_album_release_date'] + '-' + df_ano_apenas['month'] + '-01'

    # Substituir as linhas no DataFrame original
    songs.update(df_completo)  # Atualiza as músicas completas
    songs.update(df_ano_apenas)  # Atualiza as músicas com ano apenas

### Retorna o dataframe com a decomposição da 'track_album_release_date' em 'track_year' e 'track_month'

In [None]:
def decompositionDateTransform(df, date_column):
    # Como o ano é composto de 4 dígitos, iremos extrair os 4 primeiros caracteres da coluna
    def get_year(date):
        if isinstance(date, str) and len(date) >= 4 and date[:4].isdigit():
            return int(date[:4])
        return None

    # Depois dos 4 caracteres teremos um '-' que faz a divisão do ano e mês, iremos fazer
    # split e pegaremos os dois próximos dígitos
    def get_month(date):
        if isinstance(date, str) and len(date) >= 7:
            parts = date.split('-')
            if len(parts) > 1 and parts[1].isdigit():
                return f"{int(parts[1]):02d}"  # Garantir dois dígitos no mês
        return None

    # Agora adicionamos as novas colunas
    df['track_year'] = df[date_column].apply(get_year)
    df['track_month'] = df[date_column].apply(get_month)

    return df

### Retorna o dataframe com a decomposição da 'duration_ms' em 'track_minutes' e 'track_seconds'

In [None]:
def MilisecondsTransform(df, millis_column):
    def get_minutes(millis):
        if isinstance(millis, (int, float)) and millis >= 0:
            return millis // 60000
        return None

    def get_seconds(millis):
        if isinstance(millis, (int, float)) and millis >= 0:
            return (millis % 60000) // 1000
        return None

    df['track_minutes'] = df[millis_column].apply(get_minutes)
    df['track_seconds'] = df[millis_column].apply(get_seconds)

### Retorna o dataframe com a classificação da 'duration_ms' em 0,1,2,3,4,5 e 6, na coluna 'track_duration_classification'

In [None]:
def classifyDuration(df, millis_column):
    def classify(millis):
        if isinstance(millis, (int, float)) and millis >= 0:
            duration_minutes = millis / 60000
            if duration_minutes == 0:
                return 0
            elif duration_minutes <= 1:
                return 1
            elif duration_minutes <= 2:
                return 2
            elif duration_minutes <= 3:
                return 3
            elif duration_minutes <= 4:
                return 4
            elif duration_minutes <= 5:
                return 5
            else:
                return 6
        return None

    df['track_duration_classification'] = df[millis_column].apply(classify)

### Retorna os dados discretizados e possiveis Outliers


In [None]:
def discretizeAndPossibleOutliers(data, n_bins=10, metodo='quantis'):
    if metodo == 'quantis':
        # Discretização baseada em quantis (divide os dados em n_bins intervalos com número igual de dados)
        bins = np.percentile(data, np.linspace(0, 100, n_bins+1))
        labels = [f'Intervalo {i+1}' for i in range(n_bins)]
        data_discretizada = pd.cut(data, bins=bins, labels=labels, include_lowest=True)
    elif metodo == 'igual':
        # Discretização por intervalos iguais (divide os dados em n_bins intervalos de tamanho igual)
        bins = np.linspace(data.min(), data.max(), n_bins+1)
        labels = [f'Intervalo {i+1}' for i in range(n_bins)]
        data_discretizada = pd.cut(data, bins=bins, labels=labels, include_lowest=True)
    else:
        raise ValueError("ERROR: 'quantis' ou 'igual'.")

    # Visualizar os dados discretizados
    sns.histplot(data_discretizada, kde=False, discrete=True, color='skyblue')
    plt.title('Distribuição dos Dados Discretizados')
    plt.xlabel('I')
    plt.ylabel('C')
    plt.show()

    # Identificar outliers (valores fora de 1.5 vezes o intervalo interquartil)
    Q1 = np.percentile(data, 25)
    Q3 = np.percentile(data, 75)
    IQR = Q3 - Q1
    outliers = data[(data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))]

    return data_discretizada, outliers

###

## Funções de apoio

### Mostrar nível de popularidade por gênero

In [None]:
def popularityPerGenre(songs):
    # Agrupar por 'playlist_genre' e calcular a média da popularidade
    genre_popularity = songs.groupby("playlist_genre")["track_popularity"].mean()
    # Ordenar os resultados em ordem decrescente
    genre_popularity_sorted = genre_popularity.sort_values(ascending=False)
    # Exibir os gêneros com músicas mais populares
    print(genre_popularity_sorted)

### Retorna todos os artistas e suas respectivas popularidades

In [None]:
#retorna todos os artistas e suas respectivas popularidade
def getArtistsAndPopularity(df, alpha=5):
    # Verifica se as colunas necessárias existem no DataFrame
    if 'track_artist' not in df.columns or 'track_popularity' not in df.columns:
        raise ValueError("O dataset deve conter as colunas 'track_artist' e 'track_popularity'.")
    # Calcula a popularidade total por artista
    artist_total_popularity = df.groupby('track_artist')['track_popularity'].sum()
    # Conta o número de músicas por artista
    artist_song_count = df.groupby('track_artist').size()
    # Calcula a popularidade ponderada para cada artista
    artist_weighted_popularity = artist_total_popularity / (artist_song_count + alpha)
    # Ordena os artistas pela popularidade ponderada em ordem decrescente
    artist_weighted_popularity_sorted = artist_weighted_popularity.sort_values(ascending=False)
    # Retorna o DataFrame com o nome do artista e sua popularidade
    return artist_weighted_popularity_sorted.reset_index()

### Retorna as n musicas mais populares do dataset

In [None]:
#retorna as n musicas mais populares do dataset
def getTopSongs(df,n):
  return df[['track_name', 'track_popularity']].sort_values(by='track_popularity', ascending=False).head(n)

###

### Mostrar nível de popularidade por gênero

In [None]:
def popularityPerGenre(songs):
    # Agrupar por 'playlist_genre' e calcular a média da popularidade
    genre_popularity = songs.groupby("playlist_genre")["track_popularity"].mean()
    # Ordenar os resultados em ordem decrescente
    genre_popularity_sorted = genre_popularity.sort_values(ascending=False)
    # Exibir os gêneros com músicas mais populares
    print(genre_popularity_sorted)


## 1. Limpeza de dados

In [None]:
## removendo dados duplicados
removeDuplicates(songs_cp)

In [None]:
## removendo linhas que possuem dados em branco e que não podem ser obtidos de forma
## ideal
dropRowsEmpty(songs_cp)

In [None]:
## preenchendo o mês das musicas que não possuem
fillMonths(songs_cp)

## 2. Seleção de Caracteristicas

In [None]:
## dropando as colunas que representam id
removeColumns(songs_cp,['track_id','track_album_id','playlist_id'])

In [None]:
## dropando colunas de nomes que não irão agregar na predição do modelo
removeColumns(songs_cp,['track_name','track_album_name','playlist_name'])

## 3. Feature engineering

In [None]:
## Decompondo a coluna 'track_album_release_date' em 'track_year' e 'track_month'
decompositionDateTransform(songs_cp,'track_album_release_date')

In [None]:
## transformando a coluna 'duration_ms' em 'track_minutes' e 'track_seconds'
MilisecondsTransform(songs_cp,'duration_ms')

In [None]:
## Categorizando as musicas por 'duration_ms' e cria a coluna 'track_duration_classification':
## 0 - musicas com tempo zerado
## 1- musicas > 0 and <= 1
## 2- musicas > 1 and <= 2
## 3- musicas > 2 and <= 3
## 4- musicas > 3 and <= 4
## 5- musicas > 4 and <= 5
## 6- musicas > 5
classifyDuration(songs_cp,'duration_ms')

In [None]:
## realiza oneHot para os 10 artistas mais populares do dataset
onehotTopArtists(songs_cp,10)

## 3. Escalonamento de caracteristicas

In [None]:
## para todas as variaveis categoricas e numericas iremos colocar todas na mesma escala,
## para que o modelo consiga convergir de forma mais rapida
normalizeColumns(songs_cp,['track_popularity','danceability','energy','key','loudness','mode','speechiness','acousticness'])
normalizeColumns(songs_cp,['instrumentalness','liveness','valence','tempo','track_minutes','track_seconds','track_year','track_month'])