# model.ipynb

**Projekt:** Spotify-Datensatz  
**Autor:** Erjon Hulaj  
**Datum:** 28.04.2025  

## Einleitung
In diesem Notebook trainiere ich ein maschinelles Lernmodell auf meinem Datensatz, 
um die Popularität von Songs vorherzusagen.  
Dazu teile ich die Daten in Trainings- und Testdaten auf, trainiere ein Modell, 
treffe Vorhersagen und überprüfe deren Qualität.

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

df = pd.read_csv("/Users/erjon/Library/CloudStorage/OneDrive-AlteKantonsschuleAarau/BBB/Module/2. Jahr/M259/LB/dataset.csv")
df.head(10)

Unnamed: 0.1,Unnamed: 0,track_id,artists,album_name,track_name,popularity,duration_ms,explicit,danceability,energy,...,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,time_signature,track_genre
0,0,5SuOikwiRyPMVoIQDJUgSV,Gen Hoshino,Comedy,Comedy,73,230666,False,0.676,0.461,...,-6.746,0,0.143,0.0322,1e-06,0.358,0.715,87.917,4,acoustic
1,1,4qPNDBW1i3p13qLCt0Ki3A,Ben Woodward,Ghost (Acoustic),Ghost - Acoustic,55,149610,False,0.42,0.166,...,-17.235,1,0.0763,0.924,6e-06,0.101,0.267,77.489,4,acoustic
2,2,1iJBSr7s7jYXzM8EGcbK5b,Ingrid Michaelson;ZAYN,To Begin Again,To Begin Again,57,210826,False,0.438,0.359,...,-9.734,1,0.0557,0.21,0.0,0.117,0.12,76.332,4,acoustic
3,3,6lfxq3CG4xtTiEg7opyCyx,Kina Grannis,Crazy Rich Asians (Original Motion Picture Sou...,Can't Help Falling In Love,71,201933,False,0.266,0.0596,...,-18.515,1,0.0363,0.905,7.1e-05,0.132,0.143,181.74,3,acoustic
4,4,5vjLSffimiIP26QG5WcN2K,Chord Overstreet,Hold On,Hold On,82,198853,False,0.618,0.443,...,-9.681,1,0.0526,0.469,0.0,0.0829,0.167,119.949,4,acoustic
5,5,01MVOl9KtVTNfFiBU9I7dc,Tyrone Wells,Days I Will Remember,Days I Will Remember,58,214240,False,0.688,0.481,...,-8.807,1,0.105,0.289,0.0,0.189,0.666,98.017,4,acoustic
6,6,6Vc5wAMmXdKIAM7WUoEb7N,A Great Big World;Christina Aguilera,Is There Anybody Out There?,Say Something,74,229400,False,0.407,0.147,...,-8.822,1,0.0355,0.857,3e-06,0.0913,0.0765,141.284,3,acoustic
7,7,1EzrEOXmMH3G43AXT1y7pA,Jason Mraz,We Sing. We Dance. We Steal Things.,I'm Yours,80,242946,False,0.703,0.444,...,-9.331,1,0.0417,0.559,0.0,0.0973,0.712,150.96,4,acoustic
8,8,0IktbUcnAGrvD03AWnz3Q8,Jason Mraz;Colbie Caillat,We Sing. We Dance. We Steal Things.,Lucky,74,189613,False,0.625,0.414,...,-8.7,1,0.0369,0.294,0.0,0.151,0.669,130.088,4,acoustic
9,9,7k9GuJYLp2AzqokyEdwEw2,Ross Copperman,Hunger,Hunger,56,205594,False,0.442,0.632,...,-6.77,1,0.0295,0.426,0.00419,0.0735,0.196,78.899,4,acoustic


## (3.1) Aufteilen der Daten in Training und Test

Ich teile meinen Datensatz in Trainingsdaten (80%) und Testdaten (20%) auf.  
Die Features sind wichtige Eigenschaften der Songs (energy, danceability, loudness, valence, duration_ms) 
und die Zielvariable ist popularity.

In [3]:
# Features (X) und Zielvariable (y) definieren
X = df[["energy", "danceability", "loudness", "valence", "duration_ms"]]
y = df["popularity"]

# Aufteilen in Trainings- und Testdaten
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [4]:
# Kontrolle: Aufteilung Trainings-/Testdaten
print(X_train.shape)
print(X_test.shape)

(91200, 5)
(22800, 5)


## (3.2) Auswahl des Algorithmus

Ich habe mich für den Algorithmus **LinearRegression** entschieden, 
weil ich eine kontinuierliche Zielgrösse (**popularity**) vorhersagen möchte. 
Linear Regression ist einfach, schnell und gut interpretierbar. 
Sie eignet sich besonders für Probleme, bei denen numerische Merkmale wie Energy, Danceability oder Loudness 
einen Einfluss auf die Zielvariable haben. 
Für eine erste Modellierung ohne komplexe Zusammenhänge ist sie eine zuverlässige Wahl.

In [5]:
# Modell erstellen und trainieren
model = LinearRegression()
model.fit(X_train, y_train)

## (3.3) Vorhersagen treffen und überprüfen

Ich lasse mein Modell Vorhersagen auf den Testdaten machen und vergleiche die Ergebnisse.

In [6]:
# Vorhersagen machen
y_pred = model.predict(X_test)

# Vergleich von tatsächlichen und vorhergesagten Werten
vergleich = pd.DataFrame({
    "Tatsächliche Popularity": y_test.values,
    "Vorhergesagte Popularity": y_pred
})
vergleich.head(10)

Unnamed: 0,Tatsächliche Popularity,Vorhergesagte Popularity
0,50,35.339927
1,11,34.162657
2,0,31.394478
3,0,35.568174
4,57,31.356086
5,38,34.550687
6,21,32.159711
7,54,34.701781
8,29,33.228119
9,48,29.113913


### Manuelle Überprüfung einzelner Vorhersagen

Beim Vergleich einzelner Werte fällt auf, dass das Modell z. B. bei Zeile 0 eine tatsächliche Popularität von **50** mit nur **35.3** vorhergesagt hat. Also deutlich zu tief.  
Auch bei Zeile 3 wurde ein Song mit echter Popularität **0** auf **35.5** geschätzt, was unrealistisch ist.  
Das Modell scheint vor allem extrem niedrige und extrem hohe Werte nicht gut zu treffen, sondern alles eher in der Mitte zu schätzen.  
Daraus lässt sich schliessen, dass das Modell **zur Mitte tendiert** und die Popularität nur grob abbildet.

### Erkenntnisse zur Modellqualität

Beim Vergleich der tatsächlichen und vorhergesagten Popularity-Werte zeigt sich, 
dass das Modell grobe Trends gut erkennen kann. 
Die Vorhersagen liegen jedoch oft deutlich unter den tatsächlichen Werten, 
insbesondere bei Songs mit höherer Popularität. 
Dies deutet darauf hin, dass eine einfache lineare Regression 
die Komplexität der Zusammenhänge nur teilweise abbildet. 
Insgesamt erscheinen die Vorhersagen plausibel für eine erste Modellversion, 
lassen aber noch Potenzial für Verbesserungen offen.