In [None]:
!pip install category_encoders

In [None]:
import pandas as pd
import plotly.express as px
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

In [None]:
#Importação do DF
df = pd.read_csv('dataset.csv')
df

In [None]:
# Criando um DataFrame com dados nulos
num_linhas_nulas = 5  # Número de linhas com valores nulos que você deseja adicionar
linhas_nulas = pd.DataFrame({
    'track_genre': [np.nan] * num_linhas_nulas,
    'popularity': [np.nan] * num_linhas_nulas
})

In [None]:
#Adicionando os nulos no df
df_com_nulos = pd.concat([df, linhas_nulas], ignore_index=True)

print(df_com_nulos)

In [None]:
#Verificando valores nulos:
display(df_com_nulos.isnull().sum())

In [None]:
#Dropagem de linhas com valores nulos
df1 = df_com_nulos.dropna()
df1.isnull().sum()



In [None]:
#duração esta em milissegundos:
df1['duration_minutes'] = df1['duration_ms'] // 60000  # Minutos
df1['duration_seconds'] = (df1['duration_ms'] % 60000) // 1000  # Segundos

# Criando uma nova coluna no formato "mm:ss":
df1['formatted_duration'] = df1['duration_minutes'].astype(str) + ':' + \
    df1['duration_seconds'].apply(lambda x: f"{x:02}")  # Formata segundos com dois dígitos

# Exibindo as primeiras linhas para verificar o resultado:
print(df1[['duration_ms', 'formatted_duration']].head())

In [None]:
#Dropagem de colunas que a princípio não serão necessárias
df1 = df1.drop(columns=['Unnamed: 0', 'track_id', 'key','duration_ms', 'artists', 'album_name'])
df1

In [None]:
# Removendo os gêneros "world-music" e "sleep"
#Por que? No data set ja temos músicas de vários países e o world-musica só tinha o nome da música e não o pais.
#O sleep rmovemos por que estava causando outliers e sem necessidade manter sleep na playlist
df1 = df1[~((df1['track_genre'] == 'world-music') | (df1['track_genre'] == 'sleep'))]
# Verificando se os gêneros foram removidos
print(df1['track_genre'].unique())


In [None]:
# Dicionário para armazenar o número de duplicatas por coluna
duplicatas_por_coluna = {}

# Itera sobre as colunas do DataFrame
for coluna in df1.columns:
    # Conta as duplicatas na coluna atual
    num_duplicatas = df1.duplicated(subset=[coluna], keep=False).sum()

    # Armazena o número de duplicatas no dicionário
    duplicatas_por_coluna[coluna] = num_duplicatas

# Exibe o número de duplicatas por coluna
for coluna, num_duplicatas in duplicatas_por_coluna.items():
    print(f"Coluna '{coluna}': {num_duplicatas} duplicatas")
#Todas essa duplicadas são necessárias para o dataframe, pois fazem part existem músicas diversas do mesmo artista e com os mesmos parâmetros

In [None]:
#Procura valores não numéricos em colunas numéricas
#não encontrado valores não numéricos nas colunas: popularity, duration_ms, danceability, energy, loudness, mode, speechiness, acousticness, instrumentalness, liveness, valence, tempo, time_signature.
coluna = 'time_signature'
print(df1[~df1[coluna].apply(lambda x: isinstance(x, (int, float)))])

In [None]:
df1.describe()

In [None]:
#Relações de algumas colunas com popularidade
#Relação "dançabilidade" de uma música x popularidade
fig0 = px.scatter(
    df1,
    y='popularity',
    x='danceability',
    title='Relação "dançabilidade" de uma música x popularidade',
    labels={'popularity':'Popularidade','danceability':'Dançabilidade'},
    color='track_genre',
    hover_data=['track_name']

)
fig0.show()
#Aqui a gente pode ver quer as músicas mais populares nem sempre serão as mais "dançaveis",as mais populares ta entre 0.5 a 0.7 de "dançavel"


In [None]:
#Relação instrumental x popularidade
px.scatter(
    df1,
    title='Relação instrumental x popularidade',
    x='instrumentalness',
    y='popularity',
    labels={'popularity':'Popularidade','instrumentalness':'Instrumentalidade'}
)
#Interessante aqui que as músicas que tem alta popularidade são menos instrumentais e mais vocais

In [None]:
#Relação entre valence e popularidade
px.scatter(
    df1,
    x='valence',
    y='popularity',
    color='track_genre',
    labels={'popularity':'Popularidade','valence':'Quanto mais próximo do 0 mais sentimentos negativos essa música causa, o contrário para sentimentos positivos! ', 'track_genre':'Gênero'}
)
#Aqui conseguimos perceber que existem músicas bem tristes mas que ainda sim são populares, o que indica esse lado muito mais sentimental que uma música tem, não apenas uma letra escrita e cantada, consgeuioms ver que o gênero dance é o mais popular mas ainda sim parece ser triste.

In [None]:
px.scatter(
    df1,
    x='formatted_duration',
    y='popularity',
    color='track_genre',
    labels={'popularity':'Popularidade','formatted_duration':'duração','track_genre':'Gênero'}
)
#Aqui vemos que as pessoas preferem músicas mais curtas e maioria do pop, e os gêneros que mais gostam são EDM, hip-hop, pop, emo e hardrock

In [None]:
#Criação de heatmap para conprovar meus insigths
# pego apenas colunas numéricas
numeric_columns = df1.select_dtypes(include=['number'])

# Calcula a matriz de correlação
correlation_matrix = numeric_columns.corr()


# Cria o mapa de calor
plt.figure(figsize=(10, 8))  # Tamanho do gráfico
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title('Correlações', fontsize=16)
plt.show()

In [None]:
# Dataframe tratado df1

### Análise descritiva estatísticas dos dados: 
##### Tipos de análise: Média, Mediana, Moda, Desvio-padrão

In [None]:
# Filtrando apenas as colunas numéricas
df_numerico = df1.select_dtypes(include=['number'])#Isso seleciona apenas as colunas do DataFrame que contêm dados numéricos

# Calculando as estatísticas para as colunas numéricas
moda = df1.mode().iloc[0]  # Moda de cada coluna (pegamos a primeira moda)
desvio_padrao = df_numerico.std()  # Desvio-padrão de cada coluna

# Criando um DataFrame com as estatísticas calculadas
estatisticas = pd.DataFrame({
    'Moda': moda,
    'Desvio-padrão': desvio_padrao
})
estatisticas

### Features relevantes 
##### Tipos de features: energy, loudness, intensidade, tempo, velocidade

In [None]:
#Classificando a intensidade
def calcular_intensidade(energy, loudness):
    # loudness positivo
    if loudness <= 0:
        loudness = 1  # Se loudness for zero ou negativo, ajustar para 1

#Cálculo da intensidade
    intensidade = energy * np.log(loudness + 1)

#Multiplicando por 100 e ajustando a faixa de 0 a 200
    intensidade *= 100

#Garantindo que a intensidade esteja entre 0 e 200
    intensidade = np.clip(intensidade, 0, 200)

    return round(intensidade) 

#Cálculo de intensidade
df1['intensidade'] = df1.apply(lambda row: calcular_intensidade(row['energy'], row['loudness']), axis=1)

#Nova coluna de intensidade
(df1[['energy', 'loudness', 'intensidade']].head())

In [None]:
# Classificando a velocidade
def classificar_velocidade(bpm):
    if bpm <= 90:
        return 'Lento'
    elif bpm <= 150:
        return 'Moderado'
    elif bpm <= 200:
        return 'Rápido'
    else:
        return 'Desconhecido'

df1 = df1.copy()

# Aplicando a função à coluna "tempo"
if 'tempo' in df1.columns:
    df1.loc[:, 'velocidade'] = df1['tempo'].apply(classificar_velocidade)
    (df1[['tempo', 'velocidade']].head())
else:
    print("A coluna 'tempo' não está disponível no DataFrame.")


In [None]:
# Novas features
(df1[['energy', 'loudness', 'intensidade', 'tempo', 'velocidade']].head())

### Transformar variáveis categóricas em numéricas
##### Tipo: Nominais

In [None]:
# Exibe informações sobre o DataFrame
df1.info()

In [None]:
# Exibindo colunas que são do tipo String
df1.select_dtypes(include='object')

In [None]:
# Transforma variaveis categoricas em numericas usando OneHotEnconder

from category_encoders.one_hot import OneHotEncoder

one_hot = OneHotEncoder(cols=['track_genre'])
df1 = one_hot.fit_transform(df1)
df1.head()