# 3.1 Teilen Sie Ihren Datensatz in einen test- und einen train-satz ein

In diesem Abschnitt lade ich meinen Datensatz und gebe die Features und Targets an. <br>
Zudem teile ich noch meine Daten in Trainingsdaten und Testdaten.

In [33]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

# 1. Laden des Datensatzes
df = pd.read_excel('Top_spotify_songs-entire.xlsx')

# 2. Eingabefelder (Features) und Zielvariable (Label) definieren
X = df[['danceability', 'energy', 'key', 'loudness', 'mode', 'speechiness', 'acousticness', 'liveness', 'valence', 'tempo']]
y = df['popularity']

# 3. Aufteilen in 80% Trainingsdaten und 20% Testdaten
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=42)

print("Trainingsdaten: ", X_train.shape)
print("Testdaten: ", X_test.shape)

Trainingsdaten:  (44999, 10)
Testdaten:  (5000, 10)


# 3.2 Modell auswählen und Trainieren

Ich habe das Modell RandomForestRegressor genommen.

### Begründung:
- Random Forest kombiniert viele Entscheidungsbäume und erzielt dadurch eine hohe Vorhersagegenauigkeit.
- Er ist robust gegenüber Rauschen in den Trainingsdaten.
- Er kann komplexe Zusammenhänge in den Daten gut modellieren, ohne dass starke Annahmen über die Verteilung gemacht werden müssen.
- Durch die Aggregation vieler Bäume werden einzelne Fehler einzelner Modelle ausgeglichen.
- Er ist flexibel einsetzbar und liefert oft gute Ergebnisse auch ohne aufwendige Hyperparameter-Optimierung.

Dazu habe ich das Modell trainniert, damit es bessere Voerhersagungen treffen kann.

In [34]:
# 4. Initialisieren des Random Forest Regressor Modells
model = RandomForestRegressor(random_state=42)  # Geändert zu RandomForestRegressor

# 5. Training des Modells
model.fit(X_train, y_train)

print("Modelltraining abgeschlossen.")

Modelltraining abgeschlossen.


# 3.3 Vorhersagungen testen

In diesem Abschnitt habe ich die Vorhersagungen auf Richtigkeit geprüft. <br>

In [35]:
# 6. Vorhersagen generieren
y_pred = model.predict(X_test)  # Keine Klassen, sondern numerische Werte

# 7. Anzeigen einiger Vorhersagen im Vergleich zu den tatsächlichen Werten
comparison = pd.DataFrame({'Tatsächliche Popularität': y_test.values, 'Vorhergesagte Popularität': y_pred}) # Angepasst
comparison.head(10)

Unnamed: 0,Tatsächliche Popularität,Vorhergesagte Popularität
0,83,82.636875
1,84,84.485176
2,85,86.681964
3,91,91.071918
4,95,94.879468
5,79,82.236548
6,92,91.931701
7,100,98.934485
8,96,96.066346
9,87,86.45124


## Mean Squared Error und R²

In diesem Abschnitt habe ich die Richtigkeit der Vorhersagungen mit Zahlen dargestellt.

### Kennzahlen
- **Mean Squared Error (MSE):**  
  Misst den durchschnittlichen quadratischen Fehler zwischen den vorhergesagten und den tatsächlichen Werten. Je kleiner der MSE, desto besser passt   das Modell.

- **Bestimmtheitsmass (R²):**  
  Gibt an, wie gut die Varianz der Zielvariable durch das Modell erklärt wird. Ein R² von 1 bedeutet perfekte Vorhersage, ein R² von 0 bedeutet, dass das Modell nicht besser ist als ein einfacher Mittelwert.

### Bewertung der Kennzahlen

- **Mean Squared Error (MSE):**  
  Ein MSE von 0 wäre perfekt und bedeutet, dass keine Fehler in den Vorhersagungen gemacht wurden. Mein Modell erreicht einen MSE von 29.21, was auf eine insgesamt gute Vorhersagequalität hinweist. Umso kleiner die Werte, umso besser, und 29.21 ist für diesen Anwendungsfall in Ordnung.

- **Bestimmtheitsmaß (R²):**  
  Ein R² von 1.00 entspricht einer perfekten Modellanpassung. Mein Modell erreicht ein R² von 0.88, was bedeutet, dass 88% der Hervorsagungen richtig waren.


In [37]:
from sklearn.metrics import mean_squared_error, r2_score

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse:.2f}")
print(f"Bestimmtheitsmass (R²): {r2:.2f}")


Mean Squared Error: 29.21
Bestimmtheitsmass (R²): 0.88
