In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error


In [2]:
# Daten einlesen
train = pd.read_csv('data/train.csv')
test = pd.read_csv('data/test.csv')

train.isnull().sum()


id                          0
belongs_to_collection    2396
budget                      0
genres                      7
homepage                 2054
imdb_id                     0
original_language           0
original_title              0
overview                    8
popularity                  0
poster_path                 1
production_companies      156
production_countries       55
release_date                0
runtime                     2
spoken_languages           20
status                      0
tagline                   597
title                       0
Keywords                  276
cast                       13
crew                       16
revenue                     0
dtype: int64

In [3]:
# Fehlende Werte in den relevanten Spalten durch den Durchschnitt ersetzen
# Fehlende Werte im Trainingsdatensatz auffüllen
train['budget'] = train['budget'].fillna(0)
train['popularity'] = train['popularity'].fillna(train['popularity'].mean())
train['runtime'] = train['runtime'].fillna(train['runtime'].mean())

# Fehlende Werte im Testdatensatz auffüllen
test['budget'] = test['budget'].fillna(0)
test['popularity'] = test['popularity'].fillna(test['popularity'].mean())
test['runtime'] = test['runtime'].fillna(test['runtime'].mean())


# Auswahl der Features
features = ['budget', 'popularity', 'runtime']
X = train[features]
y = train['revenue']
X_test = test[features]


In [4]:
# Datenaufteilung in Trainings- und Validierungsdaten
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# Modell initialisieren und trainieren
model = DecisionTreeRegressor(random_state=42)
model.fit(X_train, y_train)

# Vorhersage auf den Validierungsdaten
y_pred = model.predict(X_val)




In [5]:
# RMSE ausrechnen
rmse = np.sqrt(mean_squared_error(y_val, y_pred))
print(f'RMSE des Decision Tree Modells: {rmse}')




RMSE des Decision Tree Modells: 110947036.31303369


In [6]:
# Vorhersage auf den Testdaten
test_predictions = model.predict(X_test)

# Erstellung der Submission-Datei
submission = pd.DataFrame({
    'id': pd.read_csv('data/test.csv')['id'],
    'revenue': test_predictions
})
submission.to_csv('submission_decision_tree3.csv', index=False)

print("Submission-Datei wurde erstellt: submission_decision_tree.csv")

Submission-Datei wurde erstellt: submission_decision_tree.csv
