## Overfitting dan Underfitting

Overfitting: Saat model terlalu cocok dengan data pelatihan, namun performanya buruk pada data yang tidak terlihat. Hal ini sering terjadi ketika pohon terlalu dalam dan membagi data menjadi terlalu banyak daun dengan jumlah rumah yang sangat sedikit.

Underfitting: Ketika model gagal menangkap pola penting dalam data dan berperforma buruk bahkan pada data pelatihan. Hal ini sering terjadi jika pohon terlalu dangkal dan tidak membagi data ke dalam kelompok yang cukup jelas.

Pentingnya pemilihan dan penyesuaian model untuk mencapai prediksi akurat pada data yang tidak terlihat memberikan wawasan tentang kedalaman pohon keputusan dan dampaknya terhadap overfitting, sekaligus memperkenalkan konsep fungsi utilitas untuk perbandingan konfigurasi model yang berbeda secara efisien.

In [1]:
from sklearn.metrics import mean_absolute_error
from sklearn.tree import DecisionTreeRegressor

def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(train_X, train_y)
    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)
    return(mae)

In [2]:
import pandas as pd

# Load data
data = pd.read_csv ("/content/melb_data.csv")

In [4]:
# Filter rows with missing values
filtered_data = data.dropna(axis=0)

# Choose target and features
y = filtered_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea',
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = filtered_data[melbourne_features]

dropna digunakan dengan axis=0 menghapus baris (sumbu 0) dengan nilai yang hilang

y: Variabel ini menyimpan kolom 'Harga', yang mewakili variabel target yang ingin kita prediksi atau modelkan
X: DataFrame ini berisi kolom sisa yang ditentukan dalam melbourne_featuresdaftar. Kolom ini mewakili fitur yang akan kita gunakan untuk memprediksi variabel target.
DataFrame yang dihasilkan filtered_datahanya berisi baris yang semua kolomnya memiliki nilai valid

In [5]:
from sklearn.model_selection import train_test_split

# split data into training and validation data, for both features and target
train_X, val_X, train_y, val_y = train_test_split(X, y,random_state = 0)

Mengimpor train_test_split fungsi dari sklearn.model_selection digunakan untuk membagi kumpulan data menjadi kumpulan pelatihan dan validasi.

train_test_split: Fungsi ini membutuhkan beberapa argumen
- X: Matriks fitur yang berisi titik data (baris mewakili sampel, kolom mewakili fitur)
- y: Vektor variabel target (nilai yang ingin kita prediksi)
- random_state = 0 :  menetapkan benih untuk penghasil angka acak yang digunakan dalam proses pemisahan

train_X: Fitur set pelatihan
val_X: Fitur set validasi
train_y: Variabel target set pelatihan
val_y: Variabel target set validasi




In [6]:
# compare MAE with differing values of max_leaf_nodes
for max_leaf_nodes in [5, 50, 500, 5000]:
    my_mae = get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y)
    print("Max leaf nodes: %d  \t\t Mean Absolute Error:  %d" %(max_leaf_nodes, my_mae))

Max leaf nodes: 5  		 Mean Absolute Error:  347380
Max leaf nodes: 50  		 Mean Absolute Error:  258171
Max leaf nodes: 500  		 Mean Absolute Error:  243495
Max leaf nodes: 5000  		 Mean Absolute Error:  255575


Parameter max_leaf_nodesmengontrol jumlah maksimum daun yang dapat dimiliki oleh pohon keputusan.

max_leaf_nodes: Nilai parameter saat ini max_leaf_nodes
train_X: Fitur pelatihan
val_X: Fitur validasi
train_y: Variabel target pelatihan
val_y: Variabel target validasi

get_mae bertanggung jawab untuk melatih model pohon keputusan dengan max_leaf_nodes nilai yang ditentukan dan kemudian menghitung MAE pada data validasi.

max_leaf_nodes nilai yang bervariasi dan mengevaluasi performanya pada data validasi menggunakan MAE. Dengan menganalisis hasilnya, dapat menentukan pengaturan optimal untuk parameter ini untuk meminimalkan overfitting dan mencapai akurasi model terbaik.

Overfitting: menangkap pola palsu yang tidak akan terulang lagi di masa mendatang, sehingga menghasilkan prediksi yang kurang akurat

Underfitting: gagal menangkap pola yang relevan, sehingga menghasilkan prediksi yang kurang akurat