**Your First Machine Learning Model**

Building your first model. Hurray!

**Selecting Data for Modeling**

In [1]:
import pandas as pd

melbourne_file_path = '/content/melb_data.csv.zip'
melbourne_data = pd.read_csv(melbourne_file_path)
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

1.Mengimpor modul pandas dengan alias pd.
2.Membaca file data Melbourne dari path yang telah ditentukan. File data ini diasumsikan berupa file CSV yang terkompresi dalam format zip.
3.Mengonversi data yang dibaca menjadi DataFrame yang disimpan dalam variabel melbourne_data.
4.Terakhir, kode tersebut mencetak daftar nama kolom dari DataFrame melbourne_data dengan menggunakan atribut .columns.

In [2]:
# The Melbourne data has some missing values (some houses for which some variables weren't recorded.)
# We'll learn to handle missing values in a later tutorial.
# Your Iowa data doesn't have missing values in the columns you use.
# So we will take the simplest option for now, and drop houses from our data.
# Don't worry about this much for now, though the code is:

# dropna drops missing values (think of na as "not available")
melbourne_data = melbourne_data.dropna(axis=0)

dropna() adalah sebuah metode dari pandas yang digunakan untuk menghapus baris (axis=0) yang mengandung nilai yang hilang dari DataFrame. Dengan menjalankan kode ini, baris-baris yang memiliki nilai yang hilang akan dihapus dari DataFrame melbourne_data.

In [3]:
y = melbourne_data.Price

variabel y ditetapkan sebagai kolom Price dari DataFrame melbourne_data. Ini berarti bahwa kita menggunakan kolom Price sebagai target variabel yang ingin kita prediksi atau modelkan.

In [4]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

melbourne_features adalah sebuah daftar yang berisi nama-nama fitur yang akan digunakan dalam analisis atau pemodelan data untuk menggunakan daftar ini untuk memilih subset tertentu dari fitur-fitur yang ingin kita gunakan dalam pembuatan model atau analisis data lebih lanjut

In [5]:
X = melbourne_data[melbourne_features]

variabel X ditetapkan sebagai subset dari DataFrame melbourne_data yang hanya terdiri dari fitur-fitur yang tercantum dalam variabel melbourne_features

In [6]:
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


Kode X.describe() akan memberikan ringkasan statistik deskriptif untuk setiap fitur dalam DataFrame X, yang berisi fitur-fitur yang telah dipilih sebelumnya dari melbourne_data. Ini akan memberikan informasi tentang rata-rata, standar deviasi, nilai minimum, kuartil, dan nilai maksimum untuk setiap fitur numerik.

In [7]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


Ketika menjalankan X.head(), Anda akan mendapatkan beberapa baris pertama dari DataFrame X, yang berisi subset fitur-fitur yang telah dipilih sebelumnya dari melbourne_data. Ini berguna untuk melihat contoh data yang akan digunakan dalam analisis atau pemodelan lebih lanjut.

In [8]:
from sklearn.tree import DecisionTreeRegressor

# Define model. Specify a number for random_state to ensure same results each run
melbourne_model = DecisionTreeRegressor(random_state=1)

# Fit model
melbourne_model.fit(X, y)

1.Mengimpor Kelas Regresi Pohon Keputusan : DecisionTreeRegressor dari modul tree di pustaka Scikit-Learn. Kelas ini akan digunakan untuk membuat dan melatih model regresi berbasis pohon keputusan.

2.Inisialisasi Model : membuat sebuah objek model regresi melbourne_model dengan menggunakan DecisionTreeRegressor(). Anda juga memberikan argumen random_state=1 untuk memastikan hasil yang konsisten pada setiap pelatihan model.

3.Pelatihan Model : melatih model yang telah diinisialisasi dengan menggunakan metode fit(). Anda menyediakan fitur-fitur dari X dan target variabel y sebagai argumen untuk metode fit(). Dengan melakukan ini, model akan belajar untuk memetakan fitur-fitur tersebut ke target yang sesuai.



In [9]:
print("Making predictions for the following 5 houses:")
print(X.head())
print("The predictions are")
print(melbourne_model.predict(X.head()))

Making predictions for the following 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
The predictions are
[1035000. 1465000. 1600000. 1876000. 1636000.]


1.Menampilkan Pesan : untuk mencetak pesan yang memberi tahu bahwa prediksi akan dibuat untuk lima rumah pertama dalam data. Ini hanya pesan informatif untuk memberi tahu apa yang akan terjadi selanjutnya.

2.Menampilkan Data Rumah : mencetak lima baris pertama dari DataFrame X, yang berisi fitur-fitur rumah-rumah tersebut. Ini adalah contoh data rumah yang akan digunakan untuk membuat prediksi.

3.Membuat Prediksi : menggunakan model melbourne_model yang telah dilatih untuk membuat prediksi harga untuk lima rumah pertama dalam data. Anda menggunakan metode predict() dan memberikan fitur-fitur dari lima rumah pertama sebagai argumen.
