# Your First Machine Learning Model

Building your first model. Hurray!

## Selecting Data for Modeling

In [1]:
import pandas as pd

melbourne_file_path = './melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

1. Import Pandas: Pertama, kita mengimpor pustaka Pandas dengan menggunakan perintah import pandas as pd. Pandas adalah pustaka Python yang digunakan untuk analisis data dan manipulasi data tabular.
2. File Path: Kita mendefinisikan jalur file CSV yang akan dibaca. Jalur file tersebut adalah ../input/melbourne-housing-snapshot/melb_data.csv. Pastikan file CSV berada di lokasi yang benar agar kode berfungsi dengan baik.
3. Read CSV File: Selanjutnya, kita menggunakan perintah pd.read_csv(melbourne_file_path) untuk membaca file CSV dan menyimpannya dalam bentuk DataFrame (struktur data tabular yang disediakan oleh Pandas). Data dari file CSV akan dimuat ke dalam variabel melbourne_data.
4. Display Columns: Terakhir, kita mencetak nama kolom-kolom yang ada dalam DataFrame melbourne_data dengan menggunakan perintah melbourne_data.columns.

In [2]:
# The Melbourne data has some missing values (some houses for which some variables weren't recorded.)
# We'll learn to handle missing values in a later tutorial.  
# Your Iowa data doesn't have missing values in the columns you use. 
# So we will take the simplest option for now, and drop houses from our data. 
# Don't worry about this much for now, though the code is:

# dropna drops missing values (think of na as "not available")
melbourne_data = melbourne_data.dropna(axis=0)

1. Penanganan Data yang Hilang: Kode ini berhubungan dengan penanganan nilai yang hilang dalam dataset. Dalam hal ini, kita bekerja dengan data rumah di Melbourne.
2. dropna(): Fungsi dropna() digunakan untuk menghapus baris dari DataFrame yang memiliki nilai yang hilang (NA). Pada kode ini, kita menggunakan axis=0 untuk menghapus baris yang mengandung setidaknya satu nilai yang hilang.
3. Variabel Baru: Hasil dari operasi ini disimpan kembali dalam variabel melbourne_data. Artinya, kita telah menghapus baris yang memiliki nilai yang hilang dari dataset.

## Selecting The Prediction Target

In [3]:
y = melbourne_data.Price

Dalam kode ini, kita mendefinisikan variabel y yang akan digunakan sebagai target atau variabel dependen dalam analisis kita. y akan berisi data harga rumah dari dataset Melbourne.

## Choosing "Features"

In [4]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

Dalam kode ini, kita mendefinisikan variabel melbourne_features yang berisi daftar fitur atau atribut yang akan digunakan dalam analisis data. Berikut adalah penjelasan singkat mengenai setiap fitur:

1. Rooms: Jumlah kamar di rumah.
2. Bathroom: Jumlah kamar mandi di rumah.
3. Landsize: Luas lahan (dalam satuan meter persegi).
4. Lattitude: Koordinat lintang geografis lokasi rumah.
5. Longitude: Koordinat bujur geografis lokasi rumah.

In [5]:
X = melbourne_data[melbourne_features]

Dalam kode ini, kita mendefinisikan variabel X yang akan berisi subset data dari DataFrame melbourne_data. Subset ini hanya mencakup kolom-kolom yang tercantum dalam daftar fitur melbourne_features yang telah Anda tentukan sebelumnya. Fitur-fitur ini akan digunakan sebagai variabel independen dalam analisis data lebih lanjut.

In [6]:
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


Dalam kode ini, kita diberikan ringkasan statistik deskriptif untuk fitur-fitur yang terdapat dalam dataset Melbourne

In [7]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


Data ini memberikan gambaran awal tentang beberapa rumah dalam dataset, termasuk jumlah kamar, jumlah kamar mandi, luas lahan, serta koordinat lintang dan bujur geografis lokasi rumah.

## Building Your Model

In [10]:
from sklearn.tree import DecisionTreeRegressor

# Define model. Specify a number for random_state to ensure same results each run
melbourne_model = DecisionTreeRegressor(random_state=1)

# Fit model
melbourne_model.fit(X, y)

1. Import Library: Pertama, kita mengimpor pustaka DecisionTreeRegressor dari pustaka sklearn.tree. Pustaka ini digunakan untuk membangun model regresi berbasis pohon keputusan.
2. Definisikan Model: Kita mendefinisikan model regresi dengan menggunakan DecisionTreeRegressor(random_state=1). Parameter random_state digunakan untuk memastikan hasil yang konsisten setiap kali model dijalankan.
3. Fit Model: Selanjutnya, kita melatih model dengan menggunakan data fitur X dan target y. Model akan belajar dari data ini dan mencari pola yang dapat digunakan untuk memprediksi harga rumah.

In [11]:
print("Making predictions for the following 5 houses:")
print(X.head())
print("The predictions are")
print(melbourne_model.predict(X.head()))

Making predictions for the following 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
The predictions are
[1035000. 1465000. 1600000. 1876000. 1636000.]


The model has predicted the house prices for the first 5 houses in the dataset. These predictions are based on the features provided (number of rooms, bathrooms, land size, latitude, and longitude). Keep in mind that these are just initial predictions, and further analysis and evaluation are necessary to assess the model’s accuracy.