# Machine Learning Projekt – Spiele-Datenanalyse
In diesem Projekt wird anhand des Preises eines Spiels die durchschnittliche Spielzeit vorhergesagt. Dazu wird ein Datensatz eingelesen, vorbereitet, ein Regressionsmodell trainiert und getestet.


In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

# Daten laden
games = pd.read_csv(r"C:\Users\david\OneDrive\Desktop\Python lb\games (1).csv", delimiter=';', encoding='ISO-8859-1')

# Nur Spiele mit positiver Spielzeit filtern
filtered_games = games[games['Average playtime forever'] > 0].copy()

filtered_games.head()


Unnamed: 0,AppID,Name,Release date,Estimated owners,Required age,Price,DLC count,Supported languages,Website,Windows,Mac,Linux,Positive,Negative,Achievements,Average playtime forever,Median playtime forever,Developers,Publishers,Categories
9,320150,Deadlings: Rotten Edition,11.11.2014,50000 - 100000,0,3.99,0,"['English', 'Polish', 'French', 'Italian', 'Ge...",http://www.omlgames.com,WAHR,WAHR,WAHR,225,45,32,703,782,ONE MORE LEVEL,ONE MORE LEVEL,"Single-player,Steam Achievements,Steam Trading..."
10,1026420,WARSAW,02.10.2019,20000 - 50000,0,23.99,0,"['English', 'French', 'German', 'Polish', 'Rus...",http://warsawthegame.com,WAHR,FALSCH,FALSCH,589,212,34,67,93,Pixelated Milk,"Pixelated Milk,gaming company","Single-player,Steam Achievements,Steam Trading..."
11,485000,Cthulhu Realms,01.07.2016,50000 - 100000,0,0.0,1,['English'],https://www.cthulhurealms.com/,WAHR,WAHR,FALSCH,147,58,0,224,257,"Wise Wizard Games, LLC","Wise Wizard Games, LLC","Single-player,Multi-player,Shared/Split Screen..."
13,825930,Royal Battleships,06.04.2018,20000 - 50000,0,2.99,0,['English'],,WAHR,WAHR,WAHR,36,11,19,11,11,Educational Games,Educational Games,"Single-player,Steam Achievements,Steam Leaderb..."
15,22670,Alien Breed 3: Descent,17.11.2010,200000 - 500000,0,9.99,0,"['English', 'French', 'German', 'Italian', 'Ja...",http://www.team17.com/,WAHR,FALSCH,FALSCH,349,134,13,44,24,Team17 Digital Ltd,Team17 Digital Ltd,"Single-player,Multi-player,Co-op,Steam Achieve..."


## 3.1 Datensatz aufteilen in Trainings- und Testdaten

In [2]:
# Feature und Zielvariable definieren
X = filtered_games[['Price']]  # Feature: Preis
y = filtered_games['Average playtime forever']  # Zielvariable: durchschnittliche Spielzeit

# Daten aufteilen: 80% Training, 20% Test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Trainingsdatensätze: {X_train.shape[0]}")
print(f"Testdatensätze: {X_test.shape[0]}")


Trainingsdatensätze: 11928
Testdatensätze: 2983


## Auswahl und Training des Modells 3.2
Für dieses Projekt habe ich den Algorithmus **LinearRegression** aus `sklearn.linear_model` gewählt. 
Dieser Algorithmus eignet sich besonders gut, wenn ein Zusammenhang zwischen einer unabhängigen Variable (hier: Preis) 
und einer kontinuierlichen Zielvariable (hier: durchschnittliche Spielzeit) modelliert werden soll. 
Die lineare Regression ist einfach zu interpretieren, schnell zu berechnen und liefert eine gute Grundlage, 
um erste Trends und Beziehungen in den Daten sichtbar zu machen. 
Deshalb wurde sie für diese Aufgabenstellung als passendste Methode ausgewählt.


In [14]:
# Modell erstellen und trainieren
model = LinearRegression()
model.fit(X_train, y_train)




## 3.3 Modell testen und Vorhersagen prüfen


In [16]:
# Vorhersagen erstellen
y_pred = model.predict(X_test)

# Ergebnisse mit Preis anzeigen
results = pd.DataFrame({
    'Preis (€)': X_test['Price'].values,
    'Tatsächliche Spielzeit (min)': y_test.values,
    'Vorhergesagte Spielzeit (min)': y_pred
})



results.head(31)  # Mehr Zeilen anzeigen


Unnamed: 0,Preis (€),Tatsächliche Spielzeit (min),Vorhergesagte Spielzeit (min)
0,0.99,241,412.032774
1,24.99,2383,890.255864
2,3.99,283,471.81066
3,19.99,1016,790.626054
4,4.99,202,491.736622
5,4.99,228,491.736622
6,9.99,187,591.366433
7,11.99,240,631.218357
8,3.99,14,471.81066
9,24.99,1030,890.255864


## Zusammenfassung 3.3
Das trainierte Modell zeigt, dass der Preis eines Spiels ein gewisser, aber kein starker Prädiktor für die durchschnittliche Spielzeit ist. Die Vorhersagen stimmen im mittleren Bereich teilweise gut überein, während bei sehr niedrigen oder sehr hohen Werten grössere Abweichungen auftreten. Insgesamt deutet sich ein schwacher positiver Zusammenhang an, jedoch ist der Einfluss des Preises auf die Spielzeit begrenzt. Weitere Faktoren wie Genre oder Spielinhalt könnten ebenfalls eine wichtige Rolle spielen.
