# Model Validation

Measure the performance of your model, so you can test and compare alternatives.

## What is Model Validation

In [2]:
import pandas as pd

melbourne_file_path = 'https://raw.githubusercontent.com/robitalhazmi/intro-to-machine-learning/main/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [3]:
y = melbourne_data.Price

In [4]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

In [5]:
X = melbourne_data[melbourne_features]

In [6]:
from sklearn.tree import DecisionTreeRegressor

# Define model. Specify a number for random_state to ensure same results each run
melbourne_model = DecisionTreeRegressor(random_state=1)

# Fit model
melbourne_model.fit(X, y)

In [7]:
from sklearn.metrics import mean_absolute_error

predicted_home_prices = melbourne_model.predict(X)
mean_absolute_error(y, predicted_home_prices)

1125.1804614629357

1. Baris pertama mengimpor fungsi mean_absolute_error dari library sklearn.metrics.

2. Baris kedua menggunakan model melbourne_model untuk memprediksi harga rumah berdasarkan data fitur X. Hasil prediksi disimpan dalam variabel predicted_home_prices.

3. Baris ketiga menggunakan fungsi mean_absolute_error untuk menghitung MAE antara nilai prediksi predicted_home_prices dan nilai aktual y.

## Coding It - Validation Data

Dalam machine learning, membagi data ke dalam set training dan validasi penting untuk evaluasi model. Data training digunakan untuk melatih model, sedangkan data validasi digunakan untuk menilai kemampuan generalisasinya pada data yang tidak dilihat sebelumnya. Ini membantu mencegah overfitting dan memastikan model bekerja dengan baik pada data baru.

Cuplikan kode berikut menunjukkan pembagian data menggunakan fungsi train_test_split dari scikit-learn:

In [8]:
from sklearn.model_selection import train_test_split

# split data into training and validation data, for both features and target
# The split is based on a random number generator. Supplying a numeric value to
# the random_state argument guarantees we get the same split every time we
# run this script.
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 0)
# Define model
melbourne_model = DecisionTreeRegressor()
# Fit model
melbourne_model.fit(train_X, train_y)

# get predicted prices on validation data
val_predictions = melbourne_model.predict(val_X)
print(mean_absolute_error(val_y, val_predictions))

246642.13146784488


1. Baris pertam mengimpor fungsi yang diperlukan untuk membagi data.

2. Kode pada baris kedua:

    * Membagi fitur (X) dan variabel target (y) menjadi set training dan validasi.
    
    * Parameter random_state memastikan pembagian data dapat direproduksi.