# Predire emozioni di una canzone

**Progetto di Programmazione di Applicazioni Data Intensive**   
Laurea in Ingegneria e Scienze Informatiche  
DISI - Università di Bologna, Cesena

Studente Corrado Stortini   
`corrado.stortini2@studio.unibo.it`

## Setup

- Importare i package necessari

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sklearn
%matplotlib inline

## Introduzione

- L'obbiettivo è quello di classificare le canzoni in base a quale emozioni suscitano negli utenti che le ascoltano
    - 0 -> Triste
    - 1 -> Felice
    - 2 -> Energetica
    - 3 -> Calma
- Il dataset usato è _278k Emotion Labeled Spotify Songs_, reperibile su [_Kaggle_](https://www.kaggle.com/datasets/abdullahorzan/moodify-dataset)
- Il dataset completo è composto da 12 variabili, di cui 1 di target (*label*)


In [19]:
songs = pd.read_csv("278k_song_labelled.csv", index_col="Unnamed: 0")
songs.head(10)

Unnamed: 0,duration (ms),danceability,energy,loudness,speechiness,acousticness,instrumentalness,liveness,valence,tempo,spec_rate,labels
0,195000.0,0.611,0.614,-8.815,0.0672,0.0169,0.000794,0.753,0.52,128.05,3.446154e-07,2
1,194641.0,0.638,0.781,-6.848,0.0285,0.0118,0.00953,0.349,0.25,122.985,1.464234e-07,1
2,217573.0,0.56,0.81,-8.029,0.0872,0.0071,8e-06,0.241,0.247,170.044,4.00785e-07,1
3,443478.0,0.525,0.699,-4.571,0.0353,0.0178,8.8e-05,0.0888,0.199,92.011,7.959809e-08,0
4,225862.0,0.367,0.771,-5.863,0.106,0.365,1e-06,0.0965,0.163,115.917,4.693131e-07,1
5,166920.0,0.572,0.837,-7.876,0.0367,0.0197,0.0,0.163,0.627,100.343,2.198658e-07,1
6,193133.0,0.725,0.687,-6.465,0.0596,0.694,0.000369,0.231,0.77,96.005,3.085956e-07,1
7,253000.0,0.675,0.547,-4.999,0.0481,0.114,8e-05,0.0678,0.365,75.003,1.901186e-07,1
8,216187.0,0.516,0.692,-4.842,0.0279,0.0875,0.0093,0.09,0.181,83.571,1.290549e-07,0
9,232333.0,0.548,0.509,-7.937,0.0288,0.261,0.702,0.079,0.484,78.974,1.2396e-07,0


## Spiegazione attributi

- *duration (ms)* è la durata in millisecondi della traccia
- *danceability* è un valore compreso tra 0 e 1 che riporta la "danzabilità" di una traccia, valori più alti indicano una traccia più danzabile (potrebbe essere legata alla variabile *tempo*)
- *energy* indica una misura di intensità e attività percepiti. Tipicamente traccie energetiche sono veloci, forti e rumorose, per esempio come la musica Metal
- *loudness* è il volume della traccia audio, i valori vanno da -60 a 0 db. Questi valori sono la media del volume audio di tutta la traccia.
- *speechiness* indica la quantità di parole cantate in una traccia. Più una traccia sarà parlata (per esempio un audiolibro o una poesia) più il valore si avvicinerà ad 1.
- *acousticness* indica il livello di acustica nella traccia. Valori vicini ad 1 indicano un'alta probabilità che la traccia sia acustica.
- *instrumentalness* indica se una traccia non contiene voce. Più il valore è vicino ad 1, più è probabile che la traccia non contenga voce. Valori sopra a 0.5 indicano che potrebbe essere priva di voce, ma più sono alti più è questa probabilità.
- *liveness* è la probabilità che la traccia sia in diretta, in base a quanto si sente la presenza di un pubblico. Valori sopra al 0.8 indicano una altissima probabilità che la traccia sia in diretta.
-  *valence* indica generalmente quanto è positiva una traccia. Valori alti indicano una valenza positiva (felice, gioiosa, euforica) e valori bassi indicano una valenza negativa (triste, arrabiata, depressa)
- *tempo* è la durata media dei battiti in una canzone.
- *spec_rate* è un'informazione generale sulla voce nella traccia (sarà probabilmente legato a *speechiness*)

Non ci sono dati mancanti o errati nel dataset come riportato nelle statistiche sul [sito](https://www.kaggle.com/datasets/abdullahorzan/moodify-dataset)

Un identificativo numerico è utilizzato come indice per le righe

## Esplorazione Dataset

- Come prima cosa da fare, creaiamo train e data set

In [37]:
from sklearn.model_selection import train_test_split

X_train, X_val, y_train, y_val = train_test_split(
    songs.drop(columns=["labels"], axis=1), songs["labels"],
    test_size=1/3,
    random_state=23
)

- Diamo ora un'occhiata a varie statistiche generali nel dataset come media, numero di istanze e così via.

In [38]:
X_train.describe()

Unnamed: 0,duration (ms),danceability,energy,loudness,speechiness,acousticness,instrumentalness,liveness,valence,tempo,spec_rate
count,185292.0,185292.0,185292.0,185292.0,185292.0,185292.0,185292.0,185292.0,185292.0,185292.0,185292.0
mean,232644.3,0.552738,0.557183,-10.366698,0.087808,0.385841,0.254647,0.189181,0.449714,119.211747,4.736415e-07
std,117350.1,0.18892,0.279628,6.688214,0.112253,0.363994,0.373593,0.163628,0.267415,30.46465,9.181183e-07
min,6706.0,0.0,0.0,-60.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,172093.0,0.432,0.34275,-12.745,0.0359,0.034,0.0,0.0962,0.22,95.067,1.532238e-07
50%,213107.0,0.571,0.592,-8.391,0.0471,0.262,0.00106,0.12,0.434,119.95,2.342706e-07
75%,264981.0,0.693,0.792,-5.838,0.0821,0.752,0.643,0.227,0.665,138.944,4.435727e-07
max,3919895.0,0.989,1.0,4.882,0.965,0.996,1.0,1.0,1.0,244.947,5.97186e-05
