In [25]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

import library yang diperlukan

- pandas: Untuk membaca dan memanipulasi data.
- sklearn.model_selection: Untuk membagi dataset dan melakukan validasi silang.
- sklearn.tree: Untuk membangun dan melatih model pohon keputusan.
- sklearn.metrics: Untuk mengevaluasi performa model.

In [2]:
data = pd.read_csv('Real_Estate_DataSet.csv')

Baris ini membaca dataset Real_Estate_DataSet.csv dan memuatnya ke dalam DataFrame pandas yang disebut data.

In [3]:
print(data.head())

      CRIM    ZN  INDUS  CHAS    NOX     RM   AGE     DIS  RAD  TAX  PTRATIO  \
0  0.00632  18.0   2.31     0  0.538  6.575  65.2  4.0900    1  296     15.3   
1  0.02731   0.0   7.07     0  0.469  6.421  78.9  4.9671    2  242     17.8   
2  0.02729   0.0   7.07     0  0.469  7.185  61.1  4.9671    2  242     17.8   
3  0.03237   0.0   2.18     0  0.458  6.998  45.8  6.0622    3  222     18.7   
4  0.06905   0.0   2.18     0  0.458  7.147  54.2  6.0622    3  222     18.7   

        B  LSTAT  MEDV  
0  396.90   4.98  24.0  
1  396.90   9.14  21.6  
2  392.83   4.03  34.7  
3  394.63   2.94  33.4  
4  396.90   5.33  36.2  


Fungsi head() menampilkan lima baris pertama dari DataFrame untuk memberikan gambaran awal tentang data yang dimuat.

In [4]:
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 511 entries, 0 to 510
Data columns (total 14 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   CRIM     511 non-null    float64
 1   ZN       511 non-null    float64
 2   INDUS    511 non-null    float64
 3   CHAS     511 non-null    int64  
 4   NOX      511 non-null    float64
 5   RM       506 non-null    float64
 6   AGE      511 non-null    float64
 7   DIS      511 non-null    float64
 8   RAD      511 non-null    int64  
 9   TAX      511 non-null    int64  
 10  PTRATIO  511 non-null    float64
 11  B        511 non-null    float64
 12  LSTAT    511 non-null    float64
 13  MEDV     511 non-null    float64
dtypes: float64(11), int64(3)
memory usage: 56.0 KB
None


Fungsi info() memberikan informasi ringkas tentang DataFrame, termasuk jumlah entri, tipe data dari masing-masing kolom, dan apakah ada nilai yang hilang.

In [5]:
print(data.isnull().sum())

CRIM       0
ZN         0
INDUS      0
CHAS       0
NOX        0
RM         5
AGE        0
DIS        0
RAD        0
TAX        0
PTRATIO    0
B          0
LSTAT      0
MEDV       0
dtype: int64


Fungsi isnull().sum() digunakan untuk menghitung jumlah nilai hilang (null) di setiap kolom dalam DataFrame. Ini membantu mengidentifikasi kolom mana yang perlu ditangani karena adanya nilai hilang.

In [6]:
data.drop_duplicates(inplace=True)

Fungsi drop_duplicates() menghapus baris duplikat dari DataFrame untuk memastikan bahwa setiap baris data adalah unik. Parameter inplace=True memastikan bahwa perubahan dilakukan langsung pada DataFrame data tanpa perlu membuat salinan baru.

In [7]:
print (data)

        CRIM    ZN  INDUS  CHAS    NOX     RM   AGE     DIS  RAD  TAX  \
0    0.00632  18.0   2.31     0  0.538  6.575  65.2  4.0900    1  296   
1    0.02731   0.0   7.07     0  0.469  6.421  78.9  4.9671    2  242   
2    0.02729   0.0   7.07     0  0.469  7.185  61.1  4.9671    2  242   
3    0.03237   0.0   2.18     0  0.458  6.998  45.8  6.0622    3  222   
4    0.06905   0.0   2.18     0  0.458  7.147  54.2  6.0622    3  222   
..       ...   ...    ...   ...    ...    ...   ...     ...  ...  ...   
506  0.98765   0.0  12.50     0  0.561  6.980  89.0  2.0980    3  320   
507  0.23456   0.0  12.50     0  0.561  6.980  76.0  2.6540    3  320   
508  0.44433   0.0  12.50     0  0.561  6.123  98.0  2.9870    3  320   
509  0.77763   0.0  12.70     0  0.561  6.222  34.0  2.5430    3  329   
510  0.65432   0.0  12.80     0  0.561  6.760  67.0  2.9870    3  345   

     PTRATIO       B  LSTAT  MEDV  
0       15.3  396.90   4.98  24.0  
1       17.8  396.90   9.14  21.6  
2       17.8  3

Fungsi print(data) digunakan untuk menampilkan seluruh DataFrame data. Ini akan mencetak seluruh konten dari DataFrame ke konsol. Pada dataset besar, ini mungkin tidak praktis karena bisa jadi terlalu banyak data untuk ditampilkan sekaligus.

In [11]:
print(data.head(13))

       CRIM    ZN  INDUS  CHAS    NOX     RM    AGE     DIS  RAD  TAX  \
0   0.00632  18.0   2.31     0  0.538  6.575   65.2  4.0900    1  296   
1   0.02731   0.0   7.07     0  0.469  6.421   78.9  4.9671    2  242   
2   0.02729   0.0   7.07     0  0.469  7.185   61.1  4.9671    2  242   
3   0.03237   0.0   2.18     0  0.458  6.998   45.8  6.0622    3  222   
4   0.06905   0.0   2.18     0  0.458  7.147   54.2  6.0622    3  222   
5   0.02985   0.0   2.18     0  0.458  6.430   58.7  6.0622    3  222   
6   0.08829  12.5   7.87     0  0.524  6.012   66.6  5.5605    5  311   
7   0.14455  12.5   7.87     0  0.524  6.172   96.1  5.9505    5  311   
8   0.21124  12.5   7.87     0  0.524  5.631  100.0  6.0821    5  311   
9   0.17004  12.5   7.87     0  0.524  6.004   85.9  6.5921    5  311   
10  0.22489  12.5   7.87     0  0.524    NaN   94.3  6.3467    5  311   
11  0.11747  12.5   7.87     0  0.524  6.009   82.9  6.2267    5  311   
12  0.09378  12.5   7.87     0  0.524  5.889   39.0

Fungsi head(13) digunakan untuk menampilkan 13 baris pertama dari DataFrame. Ini membantu untuk melihat data awal secara lebih detail, yang bisa bermanfaat untuk memahami struktur dan isi data.

In [12]:
data.dropna(inplace=True)

Fungsi dropna(inplace=True) digunakan untuk menghapus semua baris yang mengandung nilai hilang dari DataFrame. Parameter inplace=True memastikan bahwa penghapusan dilakukan langsung pada DataFrame data tanpa membuat salinan baru.

In [13]:
print(data.head(13))

       CRIM    ZN  INDUS  CHAS    NOX     RM    AGE     DIS  RAD  TAX  \
0   0.00632  18.0   2.31     0  0.538  6.575   65.2  4.0900    1  296   
1   0.02731   0.0   7.07     0  0.469  6.421   78.9  4.9671    2  242   
2   0.02729   0.0   7.07     0  0.469  7.185   61.1  4.9671    2  242   
3   0.03237   0.0   2.18     0  0.458  6.998   45.8  6.0622    3  222   
4   0.06905   0.0   2.18     0  0.458  7.147   54.2  6.0622    3  222   
5   0.02985   0.0   2.18     0  0.458  6.430   58.7  6.0622    3  222   
6   0.08829  12.5   7.87     0  0.524  6.012   66.6  5.5605    5  311   
7   0.14455  12.5   7.87     0  0.524  6.172   96.1  5.9505    5  311   
8   0.21124  12.5   7.87     0  0.524  5.631  100.0  6.0821    5  311   
9   0.17004  12.5   7.87     0  0.524  6.004   85.9  6.5921    5  311   
11  0.11747  12.5   7.87     0  0.524  6.009   82.9  6.2267    5  311   
12  0.09378  12.5   7.87     0  0.524  5.889   39.0  5.4509    5  311   
13  0.62976   0.0   8.14     0  0.538  5.949   61.8

diatas menampilkan kembali 13 baris pertama dari DataFrame setelah beberapa data null telah dihapus

In [14]:
print(data.isnull().sum())

CRIM       0
ZN         0
INDUS      0
CHAS       0
NOX        0
RM         0
AGE        0
DIS        0
RAD        0
TAX        0
PTRATIO    0
B          0
LSTAT      0
MEDV       0
dtype: int64


Fungsi diatas digunakan untuk menghitung kembali jumlah nilai hilang (null) di setiap kolom dalam DataFrame

- Memisahkan atribut dan target
  
  dengan cara pada variabel x menghapus kolom MEDV dan memindahkan ke variabel y

In [15]:
x = data.drop(columns=['MEDV'])
y = data['MEDV']

##### menampilkan variabel x

In [16]:
print(x)

        CRIM    ZN  INDUS  CHAS    NOX     RM   AGE     DIS  RAD  TAX  \
0    0.00632  18.0   2.31     0  0.538  6.575  65.2  4.0900    1  296   
1    0.02731   0.0   7.07     0  0.469  6.421  78.9  4.9671    2  242   
2    0.02729   0.0   7.07     0  0.469  7.185  61.1  4.9671    2  242   
3    0.03237   0.0   2.18     0  0.458  6.998  45.8  6.0622    3  222   
4    0.06905   0.0   2.18     0  0.458  7.147  54.2  6.0622    3  222   
..       ...   ...    ...   ...    ...    ...   ...     ...  ...  ...   
506  0.98765   0.0  12.50     0  0.561  6.980  89.0  2.0980    3  320   
507  0.23456   0.0  12.50     0  0.561  6.980  76.0  2.6540    3  320   
508  0.44433   0.0  12.50     0  0.561  6.123  98.0  2.9870    3  320   
509  0.77763   0.0  12.70     0  0.561  6.222  34.0  2.5430    3  329   
510  0.65432   0.0  12.80     0  0.561  6.760  67.0  2.9870    3  345   

     PTRATIO       B  LSTAT  
0       15.3  396.90   4.98  
1       17.8  396.90   9.14  
2       17.8  392.83   4.03  
3  

##### menampilkan variabel y

In [17]:
print(y)

0      24.0
1      21.6
2      34.7
3      33.4
4      36.2
       ... 
506    12.0
507    32.0
508    54.0
509    67.0
510    24.0
Name: MEDV, Length: 506, dtype: float64


##### Membagi data menjadi data training dan data testing (80% training, 20% testing)

Dengan menggunakan 80% dari data untuk pelatihan, model memiliki cukup informasi untuk mempelajari pola yang ada dalam data. Semakin banyak data pelatihan, semakin baik model dapat belajar, asalkan tidak overfitting.

In [20]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

##### Membuat model Decision Tree

In [48]:
data_model = DecisionTreeRegressor(random_state=42)

##### Melatih model dengan data training

In [49]:
data_model.fit(x_train, y_train)

Penggunaan DecisionTreeRegressor adalah pilihan yang tepat karena cocok untuk nilai target kontinu. MEDV adalah nilai kontinu, sehingga model regresi adalah model yang benar untuk digunakan.

##### Memprediksi data testing

In [50]:
y_pred = data_model.predict(x_test)

##### Mengevaluasi model dengan metrik yang sesuai

In [51]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

mse = mean_squared_error(y_test, y_pred)
rmse = mse ** 0.5
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

In [52]:
print(f'Rata-Rata Kesalahan Kuadrat (MSE): {mse:.2f}')
print(f'Akar Rata-Rata Kesalahan Kuadrat (RMSE): {rmse:.2f}')
print(f'Rata-Rata Kesalahan Absolut (MAE): {mae:.2f}')
print(f'R-kuadrat (R²): {r2:.2f}')

Rata-Rata Kesalahan Kuadrat (MSE): 25.93
Akar Rata-Rata Kesalahan Kuadrat (RMSE): 5.09
Rata-Rata Kesalahan Absolut (MAE): 2.95
R-kuadrat (R²): 0.61


##### Melakukan cross-validation dengan 5-fold

In [53]:
scores = cross_val_score(data_model, x, y, cv=5)

##### Menampilkan hasil cross-validation

In [54]:
print(f'Skor cross-validation: {scores}')
print(f'Rata-rata skor cross-validation: {scores.mean():.2f}')

Skor cross-validation: [ 0.69900719  0.6457556   0.44936169 -0.01572168 -0.00109745]
Rata-rata skor cross-validation: 0.36


Model Decision Tree Regressor sering kali mempelajari detail dan noise dari data training, sehingga bekerja sangat baik pada data training tetapi buruk pada data yang belum pernah dilihat sebelumnya, seperti data testing atau data cross-validation. Model sederhana seperti Decision Tree mungkin tidak cukup kuat untuk menangkap semua variasi ini. Mungkin ada fitur yang tidak relevan atau kurang penting dalam dataset. Selain itu, beberapa fitur penting mungkin tidak cukup representatif atau tidak ada dalam dataset.