In [1]:
import pandas as pd
import xgboost as xgb
from sklearn.metrics import mean_squared_error
import joblib


train_file_path = 'train_features.csv'
train_data = pd.read_csv(train_file_path)

# Razdvajanje karakteristika (X_train) i ciljnih promenljivih (y_train)
X_train = train_data.drop(columns=['target'])  
y_train = train_data['target']  

# Najbolji hiperparametri pronađeni putem prethodne optimizacije
best_params = {
    'learning_rate': 0.2,
    'max_depth': 7,
    'n_estimators': 200,
    'subsample': 0.8
}

# Kreiranje XGBoost modela sa najboljim hiperparametrima
xgb_model = xgb.XGBRegressor(
    learning_rate=best_params['learning_rate'],  # Stopa učenja
    max_depth=best_params['max_depth'],  # Maksimalna dubina svakog stabla
    n_estimators=best_params['n_estimators'],  # Broj stabala
    subsample=best_params['subsample'],  # Procenat podataka koji se koristi za svako stablo
    objective='reg:squarederror'  # Funkcija greške za regresiju
)

# Treniranje XGBoost modela na trening podacima
xgb_model.fit(X_train, y_train)

# Predikcija na trening podacima kako bi se izračunao RMSE na trening skupu
y_train_pred = xgb_model.predict(X_train)
train_rmse = mean_squared_error(y_train, y_train_pred, squared=False)
print(f'Training RMSE: {train_rmse}') 

# Čuvanje treniranog modela u fajl pomoću 'joblib' biblioteke
model_path = 'xgb_model.pkl'
joblib.dump(xgb_model, model_path) 


test_file_path = 'val_features.csv'
test_data = pd.read_csv(test_file_path)

# Razdvajanje karakteristika (X_test) i ciljnih promenljivih (y_test) za test skup
X_test = test_data.drop(columns=['target']) 
y_test = test_data['target'] 

# Učitavanje prethodno sačuvanog modela iz fajla
loaded_model = joblib.load(model_path)

# Predikcija na test podacima pomoću učitanog modela
y_pred = loaded_model.predict(X_test)


rmse = mean_squared_error(y_test, y_pred, squared=False)
print(f'Test RMSE: {rmse}')  



Training RMSE: 0.6973309186459775
Test RMSE: 0.7001736950789121
