In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error

# 1. Wczytanie danych
file_path = "bestSelling_games.csv"
df = pd.read_csv(file_path)

# 2. Wybór cech i celu
features = [
    "reviews_like_rate",
    "all_reviews_number",
    "price"
]

target = "rating"

X = df[features]
y = df[target]

# 3. Podział na train / test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# 4. Trenowanie modelu
model = DecisionTreeRegressor(
    max_depth=5,
    random_state=42
)

model.fit(X_train, y_train)

# 5. Predykcja i ewaluacja
y_pred = model.predict(X_test)

mse = mean_squared_error(y_test, y_pred)

print("Mean Squared Error (MSE):", mse)

Mean Squared Error (MSE): 0.3800580630728472


In [2]:
import pandas as pd

# Dane syntetyczne
synthetic_data = pd.DataFrame([
    # --- SCENARIUSZ A: ABSURD ---
    {
        "reviews_like_rate": 100,
        "all_reviews_number": 1,
        "price": 0.00,
        "scenario": "Absurd: 1 recenzja, 100% like"
    },
    {
        "reviews_like_rate": 20,
        "all_reviews_number": 5000000,
        "price": 79.99,
        "scenario": "Absurd: miliony recenzji, 20% like"
    },
    {
        "reviews_like_rate": 95,
        "all_reviews_number": 3,
        "price": 59.99,
        "scenario": "Absurd: droga gra, brak graczy"
    },

    # --- SCENARIUSZ B: INTUICJA ---
    {
        "reviews_like_rate": 98,
        "all_reviews_number": 500000,
        "price": 9.99,
        "scenario": "Intuicja: hit indie"
    },
    {
        "reviews_like_rate": 92,
        "all_reviews_number": 2000000,
        "price": 19.99,
        "scenario": "Intuicja: duży hit AAA"
    },
    {
        "reviews_like_rate": 85,
        "all_reviews_number": 1000000,
        "price": 0.00,
        "scenario": "Intuicja: popularne F2P"
    }
])

# Cechy wejściowe
X_fake = synthetic_data[["reviews_like_rate", "all_reviews_number", "price"]]

# Predykcja
synthetic_data["predicted_rating"] = model.predict(X_fake)

# Wyniki
display(synthetic_data)

Unnamed: 0,reviews_like_rate,all_reviews_number,price,scenario,predicted_rating
0,100,1,0.0,"Absurd: 1 recenzja, 100% like",2.115
1,20,5000000,79.99,"Absurd: miliony recenzji, 20% like",3.503333
2,95,3,59.99,"Absurd: droga gra, brak graczy",4.283333
3,98,500000,9.99,Intuicja: hit indie,3.861009
4,92,2000000,19.99,Intuicja: duży hit AAA,3.695423
5,85,1000000,0.0,Intuicja: popularne F2P,3.190263


Co wybrałeś i dlaczego?

Wybrałem dane o najlepiej sprzedających się grach na Steamie, bo interesują mnie gry od zawsze i chciałem sprawdzić, czy da się przewidzieć ocenę gry na podstawie takich rzeczy jak cena i opinie graczy.

Jaki wynik dał model na danych z Kaggle?

Model drzewa decyzyjnego osiągnął błąd MSE około 0.38, czyli przewidywał ocenę gry w miarę sensownie, ale bez dużej dokładności.

Co się stało po wrzuceniu danych syntetycznych? Czy model zgadzał się z intuicją?

Czasami tak, ale często nie. Dla „oczywistych hitów” model dawał raczej dobre oceny, ale przy dziwnych przypadkach (np. 1 recenzja i 100% pozytywnych) potrafił przewidzieć w miarę wysoką ocenę, co nie zgadza się z intuicją.

Czy udało Ci się „oszukać” model?

Tak. Model dało się oszukać skrajnymi danymi np. bardzo wysoki procent pozytywnych ocen przy prawie zerowej liczbie recenzji potrafił dać w miarę dobry rating.

Wnioski: Czego to dowodzi? Czy ufasz temu modelowi w biznesie?

To pokazuje, że model nie „rozumie” gier, tylko uczy się wzorców z danych. Do wstępnej analizy może się nadać, ale w biznesie na pewnio nie ufałbym mu bez "ludzkiej interwencji".

Jakich promptów użyłeś?

Oprócz promptów z "Projekt zaliczeniowy - opis" to użyłem promptu żeby spośród 15 kolumn w pliku .csv używał jedynie te które są rzeczywiście potrzebne.