In [10]:
import pandas as pd
from sklearn.model_selection import train_test_split
from xgboost import XGBRegressor
from sklearn.metrics import mean_absolute_error

In [11]:
df = pd.read_csv("boston.csv")
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


In [12]:
df['AGE'] = df['AGE'].astype(int)

df['TAX'] = df['TAX'].astype(int)

In [13]:
df.dropna(subset=['AGE'], inplace=True)

nan_count_AGE = df['AGE'].isna().sum()

print(f"Nilai NaN pada coloum AGE: {nan_count_AGE}")

Nilai NaN pada coloum AGE: 0


In [14]:
# Select subset of predictors
cols_to_use = ['CRIM', 'ZN', 'INDUS', 'NOX', 'RM']
X = df[cols_to_use]

In [15]:
# Select target
y = df.RAD

# Separate data into training and validation sets
X_train, X_valid, y_train, y_valid = train_test_split(X, y)

In [16]:
# Membuat objek model XGBoost Regressor
my_model = XGBRegressor()

# Melatih model menggunakan data pelatihan X_train dan label y_train
my_model.fit(X_train, y_train)

In [17]:
# Membuat objek model XGBoost Regressor dengan n_estimators diatur sebagai 500
my_model_0 = XGBRegressor(n_estimators=500)

# Melatih model menggunakan data pelatihan X_train dan label y_train
my_model_0.fit(X_train, y_train)

In [18]:
# Membuat objek model XGBoost Regressor dengan n_estimators diatur sebagai 110
my_model_1 = XGBRegressor(n_estimators=110)

# Melatih model menggunakan data pelatihan X_train dan label y_train
my_model_1.fit(X_train, y_train)

In [19]:
# Membuat objek model XGBoost Regressor dengan n_estimators diatur sebagai 110
my_model_1 = XGBRegressor(n_estimators=110)

# Melatih model menggunakan data pelatihan X_train dan label y_train
my_model_1.fit(X_train, y_train)

# Melakukan prediksi menggunakan data validasi X_valid
predictions_1 = my_model_1.predict(X_valid)

# Menampilkan nilai eror (Mean Absolute Error) antara prediksi dan nilai sebenarnya
print("Nilai eror: " + str(mean_absolute_error(predictions_1, y_valid)))

Nilai eror: 0.4071577017701517


In [20]:
from sklearn.model_selection import GridSearchCV

# Tentukan model XGBoost
model_grid = XGBRegressor()

# Tentukan parameter grid
param_grid = {
    'n_estimators': [150, 200, 250, 300, 1000]  # Ganti dengan rentang nilai yang ingin Anda coba
}

# Inisialisasi GridSearchCV
grid_search = GridSearchCV(estimator=model_grid, param_grid=param_grid, cv=5, scoring='neg_mean_absolute_error')

# Lakukan fitting menggunakan data training
grid_search.fit(X_train, y_train)

# Dapatkan parameter terbaik
best_n_estimators = grid_search.best_params_['n_estimators']

print("Nilai best_n_estimators:", best_n_estimators)

Nilai best_n_estimators: 1000


In [21]:
# Mendefinisikan daftar nilai n_estimators yang akan diuji
n_estimators_list = [100, 150, 200, 250, 300]

# Inisialisasi daftar untuk menyimpan hasil Mean Absolute Error (MAE) dari setiap percobaan
mae_results = []

# Iterasi melalui setiap nilai n_estimators pada daftar
for n_estimators in n_estimators_list:
    # Membuat model XGBoost Regressor dengan jumlah pohon (n_estimators) tertentu
    model_grid = XGBRegressor(n_estimators=n_estimators)

    # Melatih model menggunakan data pelatihan (X_train, y_train)
    model_grid.fit(X_train, y_train)

    # Melakukan prediksi menggunakan data validasi (X_valid)
    predictions = model_grid.predict(X_valid)

    # Menghitung Mean Absolute Error (MAE) antara prediksi dan nilai sebenarnya
    mae = mean_absolute_error(predictions, y_valid)

    # Menampilkan hasil MAE untuk nilai n_estimators tertentu
    print(f"n_estimators: {n_estimators}, Mean Absolute Error: {mae}")

    # Menyimpan hasil MAE ke dalam daftar mae_results
    mae_results.append(mae)

n_estimators: 100, Mean Absolute Error: 0.4072270712514562
n_estimators: 150, Mean Absolute Error: 0.40719465664991245
n_estimators: 200, Mean Absolute Error: 0.40719465664991245
n_estimators: 250, Mean Absolute Error: 0.40719465664991245
n_estimators: 300, Mean Absolute Error: 0.40719465664991245


In [22]:
# Membuat objek model XGBoost Regressor dengan n_estimators diatur sebagai 100
my_model_2 = XGBRegressor(n_estimators=100)

# Melatih model menggunakan data pelatihan X_train dan label y_train
# Dengan penerapan early stopping untuk menghentikan pelatihan jika tidak ada peningkatan dalam evaluasi validasi selama 5 iterasi
# Evaluasi dilakukan pada set validasi (X_valid, y_valid)
# verbose=False mengatur agar tidak ada output yang ditampilkan selama pelatihan
my_model_2.fit(X_train, y_train,
               early_stopping_rounds=5,
               eval_set=[(X_valid, y_valid)],
               verbose=False)

# Melakukan prediksi menggunakan data validasi X_valid
predictions_2 = my_model_2.predict(X_valid)

# Menampilkan Mean Absolute Error antara prediksi dan nilai sebenarnya pada data validasi
print("Mean Absolute Error: " + str(mean_absolute_error(predictions_2, y_valid)))

Mean Absolute Error: 0.4192921026485173


