In [1]:
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import mean_squared_error


df = pd.read_csv('train_features.csv')

# Definisanje X (ulazne karakteristike) i y (ciljna promenljiva) iz dataset-a
X = df.drop('target', axis=1) 

# Podela podataka na trening i test skup 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Kreiranje XGBoost modela sa inicijalnim metrikom evaluacije (rmse)
model = xgb.XGBRegressor(eval_metric='rmse')

# Definisanje mreže hiperparametara koje želimo da testiramo
param_grid = {
    'n_estimators': [50, 100, 200],  # Broj stabala u modelu
    'learning_rate': [0.01, 0.1, 0.2],  # Stopa učenja za model
    'max_depth': [3, 5, 7],  # Maksimalna dubina svakog stabla
    'subsample': [0.8, 0.9, 1.0]  # Procenat podataka koji se koristi za svako stablo
}

# Kreiranje GridSearchCV objekta za pretragu najboljih hiperparametara
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='neg_mean_squared_error')

# Treniranje modela sa različitim kombinacijama hiperparametara
grid_search.fit(X_train, y_train)

# Prikaz najboljih hiperparametara na osnovu unakrsne validacije
print("Najbolji hiperparametri:", grid_search.best_params_)

# Kreiranje modela sa najboljim hiperparametrima
best_model = grid_search.best_estimator_

# Predikcija ciljne promenljive na test skupu
predictions = best_model.predict(X_test)

# Računanje MSE (mean squared error) na test podacima
mse = mean_squared_error(y_test, predictions)
print(f"Mean Squared Error sa najboljim modelom: {mse}")




Najbolji hiperparametri: {'learning_rate': 0.2, 'max_depth': 7, 'n_estimators': 200, 'subsample': 0.8}
Mean Squared Error sa najboljim modelom: 0.49074485870047585
