# Preparazione del dataset

Come presentato, i dati che utilizziamo provengono da una playlist di spotify.
Di seguito alcuni link per avere maggiori informazioni.

Dataset: https://www.kaggle.com/datasets/geomack/spotifyclassification/data

Spotify API: https://developer.spotify.com/documentation/web-api/reference/get-audio-features

Per ora, non modificare la parte seguente del codice. Assicurati di aver **creato una scorciatoia** ai dati condivisi sul tuo drive.

Esegui i seguenti sei blocchi dando il consenso a Google. Quando esegui il quarto blocco, assicurati di trovare nelle tue cartelle la cartella **Modulo_IA**.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

In [None]:
sns.set_style("darkgrid")
# sns.set_context("paper", font_scale=1.2)

In [None]:
url = "https://raw.githubusercontent.com/ggaregnani/data_spotify/refs/heads/main/data.csv"
df = pd.read_csv(url, encoding='utf-8', sep=',', index_col=0)

df.head()

Unnamed: 0,acousticness,danceability,duration_ms,energy,instrumentalness,key,liveness,loudness,mode,speechiness,tempo,time_signature,valence,target,song_title,artist
0,0.0102,0.833,204600,0.434,0.0219,2,0.165,-8.795,1,0.431,150.062,4.0,0.286,1,Mask Off,Future
1,0.199,0.743,326933,0.359,0.00611,1,0.137,-10.401,1,0.0794,160.083,4.0,0.588,1,Redbone,Childish Gambino
2,0.0344,0.838,185707,0.412,0.000234,2,0.159,-7.148,1,0.289,75.044,4.0,0.173,1,Xanny Family,Future
3,0.604,0.494,199413,0.338,0.51,5,0.0922,-15.236,1,0.0261,86.468,4.0,0.23,1,Master Of None,Beach House
4,0.18,0.678,392893,0.561,0.512,5,0.439,-11.648,0,0.0694,174.004,4.0,0.904,1,Parallel Lines,Junior Boys


# PARTE 1

## Come è fatto il nostro dataset?

Scopriamo le feature (colonne) della nostra matrice.

1.   `df.info()` ci permette di ottenere informazioni su ogni colonna del dataset.



Che tipi di variabili sono? Quali colonne possiamo considerare? Ricorda che le nostre feature rappresentano le coordinate di un punto nel piano cartesiano.

2.  `df["target"].value_counts()` conta i valori 1 e 0 della nostra colonna target (cioè la label).

Com'è la distribuzione dei valori target?

### Osservazioni

Riporta le tue risposte

## Selezione delle feature (coordinate del punto)

Tra le colonne numeriche del dataset iniziale seleziona le feature che secondo te possono aiutarci a predirre se una nuova canzone piace o non piace all'utente.

Di seguito il codice per visualizzare il dataframe solo con le colonne numeriche.

```
numeric_cols = df.select_dtypes(include="number").columns
print(len(numeric_cols))
df[numeric_cols].head()
```


Per scegliere le due feature più significative puoi aiutarti rappresentando i punti nel piano cartesiano usando il seguente codice.


```
fig, axes = plt.subplots(1, 2, figsize=(12, 6))
axes = axes.flatten()
sns.scatterplot(
    data=df,
    x="energy",
    y="loudness",
    ax=axes[0],
    hue="target")
  sns.scatterplot(
    data=df,
    x="danceability",
    y="valence",
    ax=axes[1],
    hue="target",
)
fig.suptitle("Piano cartesiano")
```

Ponendo x e y uguale al nome della colonna desiderata utilizzi quella feature come coordinata.



Riporta qui le colonne che desideri selezionare creando:
*   una lista con il nome delle due colonne. La lista si deve chiamare feature_columns=["feature1", "feature2"]
*   una lista con la colonna con le label: target_column = "target"

### Osservazioni

Riporta le tue risposte.

## Matrice X e vettore y

La seguente parte di codice ci suddivide il dataset nella matrice X di feature e nel vettore y con le label (target).



```
X = df[feature_columns]
y = df[target_column]
```



## Divisione del dataset in train e test
Non utilizzerai tutto il dataset per allenare il modello, ma dovrai dividerlo in due parti:

1.   Train
2.   Test

Di seguito il codice che crea la martice X e il vettore y sia per il test (20% dei dati) che per il training (80% dei dati).

Nella variabile "numero elenco" inserisci il tuo numero nell'elenco della classe.

La suddivisione viene fatta in maniera casuale, ma tramite la variabile seed, inserendo un numero, il risultato sarà sempre quello (per avere gli stessi risultato tra compagni di gruppo).

```
numero_elenco =

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=numero_elenco
)
```

Controlla poi il numero di righe nelle diverse matrici e nei vettori ottenuti con l'attributo `shape`.

Cosa osservi?


### Osservazioni

Riporta le tue osservazioni

## Modello

Costruiamo un modello basato sull'algoritmo k-NN.

```
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier(n_neighbors=3)
```


**Fase di training:** alleniamo il modello con la nostra matrice di training e vettore di training.

```
model.fit(X_train, y_train)
```


**Fase di test:** Creato il modello, andiamo a prevedere se le canzoni della *matrice di test* piacciono o meno:
```
y_pred = model.predict(X_test)
```
Possiamo quindi vedere il vettore di test con i valori predetti.



Dopo aver predetto il vettore y, come facciamo a valutare se la nostra predizione è abbastanza accurata?

### Osservazioni

Riporta le tue osservazioni su come si potrebbe valutare l'accuratezza della predizione.

# PARTE 2

Si procede quindi con la validazione del modello. Per valutare la sua performance andiamo a paragonare i risultati previsti con quelli misurati.

Costruiamo quindi una matrice di confusione nel seguente modo:

```
from sklearn.metrics import confusion_matrix

fig, ax = plt.subplots()

cm = confusion_matrix(y_test, y_pred)

sns.heatmap(data=cm, cmap="Blues", annot=True, fmt="d", ax=ax)
ax.set_title("Confusion matrix")
ax.set_xlabel("Predicted")
ax.set_ylabel("Observed")
```



## Accuratezza

La variabile `cm` rappresenta la matrice di confusione. Si può accedere ai valori della matrice in maniera simile alle liste:

```
cm[0,1]
```

dove 0 è l'indice della riga della matrice e 1 l'indide della colonna.

Prova a implementare la formula per il calcolo dell'accuratezza e a confrontare il valore così ottenuto con quello calcolato dal seguente codice


```
from sklearn.metrics import accuracy_score
print("accuracy:", accuracy_score(y_test, y_pred))
```

e riporta le tue osservazioni.


### Osservazioni

## Ulteriori metriche

Esistono ulteriori metriche come precisione e recall

```
from sklearn.metrics import precision_score, recall_score
print("precision:", precision_score(y_test, y_pred))
print("recall:", recall_score(y_test, y_pred))
```

Riportane il loro significato e la formula per ottenerle e poi confrontale con il codice qui sopra.

### Osservazioni

Riporta le tue osservazioni

# PARTE 3

## Scelta del modello

Come abbiamo capito dall'esercitazione, cambiando l'*iperaparametro* k dell'algoritmo k-NN può cambiare il risultato.


Di seguito il codice utilizzato precedentemente per costruire il modello.

```
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier(n_neighbors=VALORE)

model.fit(X_train, y_train)

y_pred = model.predict(X_test)
```

Prova a modificare il valore di k cambiando il valore in `n_neighbors=VALORE` per ottenere un'accuratezza maggiore.

### Osservazioni

# PARTE 4

##Validazione finale

E ora vediamo se siamo in grado di prevedere i gusti musicali del nostro utente.

Carichiamo dei nuovi dati e supponiamo di non conoscere la label (etichetta).



```
url = "https://raw.githubusercontent.com/ggaregnani/data_spotify/refs/heads/main/validation.csv"
df_validation = pd.read_csv(url, index_col=0)

X_validation = df_validation[feature_columns]

X_validation
```



Andiamo a prevedere se le canzoni contenute nel file "validation" piacciono o non piacciono all'utente.

Confrontiamo ora la nostra previsione con i valori reali `y_reale = df_validation[target_column]`