# Project #1
## Data Visualization (LECD) 2024/25

#### Student name: Miguel António - 2022237621

## Data

Para este projeto, optei por utilizar o dataset do Spotify (spotify.csv), que oferece uma rica diversidade de informações sobre músicas e artistas. Este conjunto de dados permite explorar padrões e relações entre diferentes características musicais, proporcionando uma base sólida para análises comparativas.

A análise foca em quatro artistas distintos: **Future** (Hip-hop/Trap), **Beach House** (Dream Pop/Indie Rock), **Edvard Grieg** (Romantismo) e **Ida Engberg** (Techno/House). Cada artista representa um gênero único, permitindo uma comparação abrangente das suas músicas em relação a quatro atributos musicais selecionados: "acousticness", "danceability", "energy" e "valence".

Durante o pré-processamento do dataset, foi identificada a presença de registros duplicados, resultantes de músicas repetidas de artistas. Esses duplicados foram removidos para garantir a integridade dos dados. Além disso, o dataset não apresentava valores nulos, o que facilitou a preparação para a análise.

Com uma estrutura que abrange uma variedade de métricas e características, este dataset é uma ferramenta valiosa para entender as nuances da música contemporânea e suas interações com diferentes estilos e artistas. Através das visualizações, será possível identificar tendências, padrões e relações que enriquecem a compreensão das características musicais em questão.


In [2]:
# import your dataset in this section (cell)
import pandas as pd
df = pd.read_csv('C:\\Users\\Miguel António\\Desktop\\3\\VD\\PRÁTICAS\\PROJETO\\spotify.csv')

# Para ver os valores nulos que existem no dataset
df.isnull().sum()

# Para ver os valores duplicados no dataset, e como existem elimino-os
duplicados = df[df.duplicated()]
df_clean = df.drop_duplicates()
df_final = df.drop_duplicates(subset='song_title')



- Intervalo em que os atributos estão:


In [3]:
print("Mínimo e Máximo de acousticness:",df_final['acousticness'].min(),"   ",df_final['acousticness'].max())
print("Mínimo e Máximo de danceability:",df_final['danceability'].min(),"   ",df_final['danceability'].max())
print("Mínimo e Máximo de energy:",df_final['energy'].min(),"   ",df_final['energy'].max())
print("Mínimo e Máximo de valence:",df_final['valence'].min(),"   ",df_final['valence'].max())

Mínimo e Máximo de acousticness: 2.84e-06     0.995
Mínimo e Máximo de danceability: 0.122     0.984
Mínimo e Máximo de energy: 0.0148     0.998
Mínimo e Máximo de valence: 0.0348     0.992


## Visualization model #1 - **RADAR CHART**

In [9]:
import plotly.graph_objects as go

future = df_final[df_final['artist'] == "Future"]
beach = df_final[df_final['artist'] == "Beach House"]
ida = df_final[df_final['artist'] == "Ida Engberg"]
edvard = df_final[df_final['artist'] == "Edvard Grieg"]

f = future[['acousticness', 'danceability', 'energy', 'valence']].mean()
b = beach[['acousticness', 'danceability', 'energy', 'valence']].mean()
i = ida[['acousticness', 'danceability', 'energy', 'valence']].mean()
e = edvard[['acousticness', 'danceability', 'energy', 'valence']].mean()

f_min = future[['acousticness', 'danceability', 'energy', 'valence']].min().min()
f_max = future[['acousticness', 'danceability', 'energy', 'valence']].max().max()

b_min = beach[['acousticness', 'danceability', 'energy', 'valence']].min().min()
b_max = beach[['acousticness', 'danceability', 'energy', 'valence']].max().max()

i_min = ida[['acousticness', 'danceability', 'energy', 'valence']].min().min()
i_max = ida[['acousticness', 'danceability', 'energy', 'valence']].max().max()

e_min = edvard[['acousticness', 'danceability', 'energy', 'valence']].min().min()
e_max = edvard[['acousticness', 'danceability', 'energy', 'valence']].max().max()

categorias = ['acousticness', 'danceability', 'energy', 'valence']

rad = go.Figure()

# Future
rad.add_trace(go.Scatterpolar(
    r=[f['acousticness'], f['danceability'], f['energy'], f['valence']],
    theta=categorias,
    fill='toself',
    name=f'Future (Min: {f_min:.2f}, Max: {f_max:.2f})',  
    line_color='#FF6F61',
    hovertext=[f['acousticness'], f['danceability'], f['energy'], f['valence']],
    hoverinfo='text+name',
    opacity=0.6,
    marker=dict(symbol='circle', size=8),
    mode='markers+lines'
))

# Beach House
rad.add_trace(go.Scatterpolar(
    r=[b['acousticness'], b['danceability'], b['energy'], b['valence']],
    theta=categorias,
    fill='toself',
    name=f'Beach House (Min: {b_min:.2f}, Max: {b_max:.2f})',  
    line_color='#6C5B7F',
    hovertext=[b['acousticness'], b['danceability'], b['energy'], b['valence']],
    hoverinfo='text+name',
    opacity=0.6,
    marker=dict(symbol='square', size=8),
    mode='markers+lines'
))

# Ida Engberg
rad.add_trace(go.Scatterpolar(
    r=[i['acousticness'], i['danceability'], i['energy'], i['valence']],
    theta=categorias,
    fill='toself',
    name=f'Ida Engberg (Min: {i_min:.2f}, Max: {i_max:.2f})',  
    line_color='#F7B7A3',
    hovertext=[i['acousticness'], i['danceability'], i['energy'], i['valence']],
    hoverinfo='text+name',
    opacity=0.6,
    marker=dict(symbol='diamond', size=8),
    mode='markers+lines'
))

# Edvard Grieg
rad.add_trace(go.Scatterpolar(
    r=[e['acousticness'], e['danceability'], e['energy'], e['valence']],
    theta=categorias,
    fill='toself',
    name=f'Edvard Grieg (Min: {e_min:.2f}, Max: {e_max:.2f})',  
    line_color='#55B3B0',
    hovertext=[e['acousticness'], e['danceability'], e['energy'], e['valence']],
    hoverinfo='text+name',
    opacity=0.6,
    marker=dict(symbol='triangle-up', size=8),
    mode='markers+lines'
))

rad.update_layout(
    polar=dict(
        radialaxis=dict(
            visible=True,
            range=[0, 1],
            tickvals=[0, 0.5, 1],
            ticktext=['Mínimo', 'Médio', 'Máximo']
        )
    ),
    title='Comparação de Artistas: Future vs Beach House vs Ida Engberg vs Edvard Grieg',
    showlegend=True,
    height=600,
    hovermode='x unified'
)

rad.show()


## Visualization model #2 - **BAR PLOT**


In [8]:
import plotly.graph_objects as go

future = df_final[df_final['artist'] == "Future"]
beach = df_final[df_final['artist'] == "Beach House"]
ida = df_final[df_final['artist'] == "Ida Engberg"]
edvard = df_final[df_final['artist'] == "Edvard Grieg"]

f = future[['acousticness', 'danceability', 'energy', 'valence']].mean()
b = beach[['acousticness', 'danceability', 'energy', 'valence']].mean()
i = ida[['acousticness', 'danceability', 'energy', 'valence']].mean()
e = edvard[['acousticness', 'danceability', 'energy', 'valence']].mean()

bar = go.Figure()

categorias = ['acousticness', 'danceability', 'energy', 'valence']

bar.add_trace(go.Bar(
    name='Future', x=categorias, y=f.values, marker_color='#FF6F61', 
    text=[f"{v:.2f}" for v in f.values], textposition='outside'  
))
bar.add_trace(go.Bar(
    name='Beach House', x=categorias, y=b.values, marker_color='#6C5B7F', 
    text=[f"{v:.2f}" for v in b.values], textposition='outside'
))
bar.add_trace(go.Bar(
    name='Ida Engberg', x=categorias, y=i.values, marker_color='#F7B7A3', 
    text=[f"{v:.2f}" for v in i.values], textposition='outside'
))
bar.add_trace(go.Bar(
    name='Edvard Grieg', x=categorias, y=e.values, marker_color='#55B3B0', 
    text=[f"{v:.2f}" for v in e.values], textposition='outside'
))

bar.update_layout(
    title="Comparação de Artistas: Future vs Beach House vs Ida Engberg vs Edvard Grieg",
    barmode='group',  
    xaxis_title="Categorias",  
    yaxis_title="Valores",  
    legend_title="Artistas",  
    height=600,  
    font=dict(size=14),  
    transition_duration=500,  
    xaxis=dict(
        tickfont=dict(size=12),  
        title_font=dict(size=14),  
    ),
    yaxis=dict(
        title_font=dict(size=14), 
        gridcolor='lightgray'  
    ),
    plot_bgcolor='#F9F9F9'  
)

bar.update_traces(
    textfont_size=12,  
    hoverinfo="x+y+name"  
)

bar.show()


## Visualization model #3 - **BUBBLE CHART**

In [6]:
from plotly import graph_objects as go

future = df_final[df_final['artist'] == "Future"]
beach = df_final[df_final['artist'] == "Beach House"]
ida = df_final[df_final['artist'] == "Ida Engberg"]
edvard = df_final[df_final['artist'] == "Edvard Grieg"]

f = future[['acousticness', 'danceability', 'energy', 'valence']].mean()
b = beach[['acousticness', 'danceability', 'energy', 'valence']].mean()
i = ida[['acousticness', 'danceability', 'energy', 'valence']].mean()
e = edvard[['acousticness', 'danceability', 'energy', 'valence']].mean()

categorias = ['acousticness', 'danceability', 'energy', 'valence']
artistas = ['Future', 'Beach House', 'Ida Engberg', 'Edvard Grieg']

data = []

for category in categorias:
    values = [f[category], b[category], i[category], e[category]]
    sizes = [value * 100 for value in values]  
    colors = values  
    rounded_values = [round(value, 3) for value in values]  
    
    data.append(go.Scatter(
        x=artistas,
        y=[category] * len(artistas),
        mode='markers+text',  
        marker=dict(
            size=sizes,
            color=colors,  
            colorscale='Viridis',  
            cmin=0.1,  
            cmax=1.0,  
            showscale=True,  
            colorbar=dict(
                title='Escala',
                tickvals=[0.1 * i for i in range(1, 11)],  
                ticktext=[f'{0.1 * i:.1f}' for i in range(1, 11)]  
            ),
        ),
        text=rounded_values, 
        textposition='top center',   
        name=category 
    ))

fig = go.Figure(data=data)

fig.update_layout(
    title="Comparação de Artistas: Future vs Beach House vs Ida Engberg vs Edvard Grieg",
    xaxis_title="Artistas",
    yaxis_title="Categorias",
    height=800,  
    showlegend=False,
    yaxis=dict(
        tickvals=categorias,  
        title='Categorias',
        automargin=True,  
        tickmode='array',
        ticktext=categorias,
        range=[-0.5, len(categorias) - 0.5]  
    ),
    xaxis=dict(title='Artistas') 
)

fig.show()


## Visualization model #4 - **STACKED AREA GRAPH**

In [7]:
import plotly.graph_objects as go
import numpy as np

future = df_final[df_final['artist'] == "Future"]
beach = df_final[df_final['artist'] == "Beach House"]
ida = df_final[df_final['artist'] == "Ida Engberg"]
edvard = df_final[df_final['artist'] == "Edvard Grieg"]

f = future[['acousticness', 'danceability', 'energy', 'valence']].mean()
b = beach[['acousticness', 'danceability', 'energy', 'valence']].mean()
i = ida[['acousticness', 'danceability', 'energy', 'valence']].mean()
e = edvard[['acousticness', 'danceability', 'energy', 'valence']].mean()

categorias = ['acousticness', 'danceability', 'energy', 'valence']
x = np.arange(len(categorias))  

offset = np.zeros(len(categorias))

stream = go.Figure()

# Future
stream.add_trace(go.Scatter(
    x=categorias, y=f.values + offset, mode='markers+lines+text', fill='tonexty', 
    name='Future', 
    line=dict(color='#FF6F61', width=3),  
    marker=dict(symbol='circle', size=10, color='#FF6F61'),  
    hoverinfo='x+y+name',
    text=[round(val, 2) for val in f.values],
    textposition=['middle right', 'top center', 'top center', 'middle left']  
))

offset += f.values  

# Beach House
stream.add_trace(go.Scatter(
    x=categorias, y=b.values + offset, mode='markers+lines+text', fill='tonexty', 
    name='Beach House', 
    line=dict(color='#6C5B7F', width=3), 
    marker=dict(symbol='square', size=10, color='#6C5B7F'),  
    hoverinfo='x+y+name',
    text=[round(val, 2) for val in b.values],  
    textposition=['middle right', 'top center', 'top center', 'middle left']  
))

offset += b.values  

# Ida Engberg
stream.add_trace(go.Scatter(
    x=categorias, y=i.values + offset, mode='markers+lines+text', fill='tonexty', 
    name='Ida Engberg', 
    line=dict(color='#F7B7A3', width=3),  
    marker=dict(symbol='diamond', size=10, color='#F7B7A3'),  
    hoverinfo='x+y+name',
    text=[round(val, 2) for val in i.values], 
    textposition=['middle right', 'top center', 'bottom center', 'middle left']  
))

offset += i.values  

# Edvard Grieg
stream.add_trace(go.Scatter(
    x=categorias, y=e.values + offset, mode='markers+lines+text', fill='tonexty', 
    name='Edvard Grieg', 
    line=dict(color='#55B3B0', width=3),  
    marker=dict(symbol='triangle-up', size=10, color='#55B3B0'),  
    hoverinfo='x+y+name',
    text=[round(val, 2) for val in e.values],  
    textposition=['middle right', 'top center', 'top center', 'middle left']  
))

stream.update_layout(
    title="Comparação de Artistas: Future vs Beach House vs Ida Engberg vs Edvard Grieg",
    xaxis_title="Categorias",
    yaxis_title="Valores",
    legend_title="Artistas",
    height=600,
    showlegend=True,
    plot_bgcolor='#F9F9F9'
)

stream.show()


## Critical reflection
A visualização que fornece o insight mais claro e abrangente dos dados e que na minha opinião é a mais eficaz é a visualização 1 (Radar Chart), pois permite uma comparação visual imediata de todos os atributos para todos os artistas e gera uma forma para cada artista, dando-lhe uma espécie de identidade visual única, o que facilita a determinação de padrões gerais. Além disso é eficaz para mostrar semelhanças e diferenças entre os artistas em várias categorias em simultâneo, sendo por isso a visualização mais memorável por ter uma forma única, criando um apelo visual que pode ser mais envolvente tornando mais fácil para quem vê lembrar-se dos dados apresentados.

Os aspetos dos dados que consigo recordar é a comparação dos 4 artistas (**Future**, **Beach House**, **Ida Engberg** e **Edvard Grieg**) em relação aos atributos musicais que escolhi (**acousticenss**, **danceability**, **energy** e **valence**). As análises revalaram que cada artista possui um perfil distinto em relação aos atributos musicais escolhidos. Future destacou-se com uma média elevada em "energy" que vai de encontro com a natureza vibrante e dinâmica do Hip-hop/Trap. Por outro lado, Edvard Grieg apresentou uma alta acosuticness, o que é coerente com o seu estilo clássico e melódico. Beach House e Ida Engberg apresentaram médias equilibradas em "danceability" e "valence" representando uma sonoridade envolvente. As diferenças de caraterísticas musicais entre os artistas podem ser atribuídas aos géneros que representam, por exemplo o Hip-hop/Trap prioriza a "energy", enquanto o Romantismo tende a valorizar a "acousticness", o que pemite uma análise mais profunda das influências estilísticas. Também foi possível observar que Future não se destacou apenas na "energy" mas também em "danceability", sugerindo que as suas músicas não são apenas energéticas mas também dançáveis deste modo, torna-o um artista popular em festas e eventos. Por outro lado também é possível notar que Edvard Grieg apresntou valores mais baixos em "energy", que é esperado para um artista de música clássica refletindo um estilo mais introspetivo.

Para comunicação com pessoas "comuns" a melhor visualização é a 2 (Bar Plot), pois são gráficos fáceis de entender e permitem que as pessoas comparem rapidamente os valores dos diferentes atributos entre artistas, facilitando a comunicação de informações de forma eficaz. SE a tarefa for análise exploratória a visualização 1 (Radar Chart) é a melhor, porque se consegue explorar m+ultiplas variáveis de dados ao mesmo tempo, permitindo a identificação de padrões, tendências e relações entre os atributos de maneira intuitiva. 

Algumas tarefas que se podem realizar com cada visualização e como cada uma suporta essa tarefa: **Radar Chart**, compara múltiplas variáveis de diferentes categorias (como neste caso, atributos musicais de artistas), uma vez que permite visualizar todas as variáveis simultaneamente numa única visualização, facilitando a comparação direta entre os artistas em relação aos atributos de selecionados, ajudando a identificar rapidamente quais artistas se destacam nas determinadas caraterísticas. **Bar Plot**, compara valores absolutos de diferentes categorias, pois mostra comparações claras e diretas entre os artistas em acda atributo, permitindo que as pessoas veja rapidamente qual artista tem maior ou menor valor em cada categoria. **Bubble Chart**, visualizar diferenças entre variáveis (no caso que usei para atributos musicais e as suas magnitudes), pois é um gráfico que mostra a relação entre os atributos do eixo x e do eixo y, usando o tamanho da "bolha" para representar uma dimensão (magnitude de um atributo), sendo menos intuitiva para comparação direta entre categorias. **Stacked Area Graph**, pode ser usada para mostrar a evolução de variáveis ao longo do tempo. É uma visualização útil para mostrar a contribuição de cada artista para cada atributo musical, permitindo observar como as proporções mudam e como cada artista contribui para o total, facilitando a análise de tendências.

## References

- slides da teórica e da prática

- https://plotly.com/python/bar-charts/

- https://plotly.com/python/radar-chart/

- https://estudogeral.uc.pt/retrieve/265513/Disserta%c3%a7%c3%a3o_Miguel_Galv%c3%a3o.pdf

- https://plotly.com/python/bubble-charts/

- https://community.plotly.com/t/add-streamgraph/12851/4

- https://datavizcatalogue.com/methods/stacked_area_graph.html

- https://plot.ly/python/filled-area-plots/

- https://www.geeksforgeeks.org/how-to-create-stacked-area-plot-using-plotly-in-python/

- https://community.plotly.com/t/how-to-edit-lines-on-a-plotly-stacked-area-chart/80798

- https://datavizcatalogue.com/

- https://datavizcatalogue.com/methods/bubble_chart.html