In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

In [2]:
# Ler o arquivo CSV com os parâmetros adequados

import os

os.chdir(os.path.dirname(os.getcwd()))
print("diretório:", os.getcwd())


df = pd.read_csv('../dados/Spotify_Most_Streamed_Songs.csv',
                 sep=',',            # Separador é a vírgula
                 quotechar='"',      
                 engine='python',   
                 skipinitialspace=True,  # Ignora espaços após o separador
                 na_values=['', ' '],    # Trata strings vazias como NaN
                 on_bad_lines='skip'     # Ignora linhas com erros
                 )

# Exibir as primeiras linhas de dado
print(df.head())


diretório: c:\Users\ianfe\Desktop\IA\projeto_dupla\Atividade-4-Redes-Neurais\notebooks
                            track_name    artist(s)_name  artist_count  \
0  Seven (feat. Latto) (Explicit Ver.)  Latto, Jung Kook             2   
1                                 LALA       Myke Towers             1   
2                              vampire    Olivia Rodrigo             1   
3                         Cruel Summer      Taylor Swift             1   
4                       WHERE SHE GOES         Bad Bunny             1   

   released_year  released_month  released_day  in_spotify_playlists  \
0           2023               7            14                   553   
1           2023               3            23                  1474   
2           2023               6            30                  1397   
3           2019               8            23                  7858   
4           2023               5            18                  3133   

   in_spotify_charts    streams  in

In [3]:
print(df['streams'].dtype) # mostrar o tipo de dado da coluna streams

object


In [4]:
## converter a coluna streams para tipo adequado para manipulação

df['streams'] = df['streams'].astype(str) # converter para string
df['streams'] = df['streams'].replace('nan', np.nan) # substituir 'nan' por NaN, facilita a manipulação
df.dropna(subset=['streams'], inplace=True) # remover linhas com NaN

In [5]:
# Remover vírgulas dos valores em 'streams' e converter para numérico
df['streams'] = df['streams'].str.replace(',', '')
df['streams'] = pd.to_numeric(df['streams'], errors='coerce')


# Remover linhas com valores nulos em 'streams'
df.dropna(subset=['streams'], inplace=True)

# Verificar valores nulos em 'streams'
print("Valores nulos em 'streams':", df['streams'].isnull().sum())


Valores nulos em 'streams': 0


In [6]:
# Criar a coluna 'popular' baseada na mediana de 'streams'
df['popular'] = (df['streams'] >= df['streams'].median()).astype(int)

# criamos essa coluna para facilitar a visualização dos dados
# a coluna 'popular' é uma variável categórica que indica se a música é popular ou não


In [7]:
features = ['bpm', 'danceability_%', 'valence_%', 'energy_%',
            'acousticness_%', 'instrumentalness_%', 'liveness_%', 'speechiness_%'] # features que serão utilizadas

# as features são as características das músicas que serão utilizadas para prever se a música é popular ou não

# Verificar se as features existem no DataFrame
print("Features disponíveis:", df.columns)


Features disponíveis: Index(['track_name', 'artist(s)_name', 'artist_count', 'released_year',
       'released_month', 'released_day', 'in_spotify_playlists',
       'in_spotify_charts', 'streams', 'in_apple_playlists', 'in_apple_charts',
       'in_deezer_playlists', 'in_deezer_charts', 'in_shazam_charts', 'bpm',
       'key', 'mode', 'danceability_%', 'valence_%', 'energy_%',
       'acousticness_%', 'instrumentalness_%', 'liveness_%', 'speechiness_%',
       'cover_url', 'popular'],
      dtype='object')


In [8]:
# Verificar valores ausentes nas features
print(df[features].isnull().sum())

# Remover linhas com valores ausentes nas features
df.dropna(subset=features, inplace=True)


bpm                   0
danceability_%        0
valence_%             0
energy_%              0
acousticness_%        0
instrumentalness_%    0
liveness_%            0
speechiness_%         0
dtype: int64


In [9]:
X = df[features].values # é uma variável de entrada que contém as features
y = df['popular'].values # é a variável de saída que contém a popularidade das músicas

# nesse caso, x representa as features e y representa a popularidade das músicas
# fazemos isso para que o modelo possa aprender a relação entre as features e a popularidade das músicas


In [10]:
# Divisão inicial: treino (70%) e restante (30%)
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y) # divide os dados em treino e restante

# a função train_test_split divide os dados em treino e teste

# Divisão do restante: validação (15%) e teste (15%)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42, stratify=y_temp) # divide o restante em validação e teste


In [11]:
scaler = MinMaxScaler() # inicializa o escalonador

# Ajusta e transforma os dados de treino
X_train = scaler.fit_transform(X_train)

# Transforma os dados de validação e teste
X_val = scaler.transform(X_val)
X_test = scaler.transform(X_test)


In [12]:
# Salvar os dados processados para uso posterior
np.savez('../dados/dados_processados.npz',
         X_train=X_train, y_train=y_train,
         X_val=X_val, y_val=y_val,
         X_test=X_test, y_test=y_test)


In [13]:
# Verificar os conjuntos de dados
print("Forma de X_train:", X_train.shape)
print("Forma de y_train:", y_train.shape)
print("Forma de X_val:", X_val.shape)
print("Forma de y_val:", y_val.shape)
print("Forma de X_test:", X_test.shape)
print("Forma de y_test:", y_test.shape)


Forma de X_train: (666, 8)
Forma de y_train: (666,)
Forma de X_val: (143, 8)
Forma de y_val: (143,)
Forma de X_test: (143, 8)
Forma de y_test: (143,)
