<a href="https://colab.research.google.com/github/prananto/baud.prananto/blob/main/BostonHousing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

*Tugas EI7007*

**Eksplorasi Hyperparameter Fully Connected Neural Network untuk Regresi dengan dataset Boston Housing Price**

Boston Housing Price adalah suatu dataset yang memuat data harga rumah di sekitar Boston, AS yang berubah terhadap waktu (time-series). Dataset tersebut memuat 13 parameter numerik yang mempengaruhi harga rumah seperti tingkat kejahatan, konsentrasi kimia, jarak dari pusat bisnis, dsb. Parameter-parameter tersebut berubah terhadap waktu dan dapat mempengaruhi harga rumah. 

Dataset ini dapat digunakan sebagai training data untuk meramalkan harga rumah menggunakan Fully Connected Neural Network. Dalam tugas ini akan dieksplorasi pengaruh dari desain model Neural Network dan pengaruhnya terhadap kinerja model. Kinerja akan dinyatakan dalam bentuk **Mean Squared Error (MSE)** antara nilai yang diprediksi dengan nilai sebenarnya (dari test data). 



Inisialisasi program menggunakan Keras dan loading data set:

In [5]:
# Regression Example With Boston Dataset: Baseline
from pandas import read_csv
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasRegressor
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
# load dataset
dataframe = read_csv("https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.data", delim_whitespace=True, header=None)
dataset = dataframe.values
# split into input (X) and output (Y) variables
X = dataset[:,0:13]
Y = dataset[:,13]


***Model Dasar (Baseline)***

Model pertama yang dibuat adalah sebuah model dasar (*baseline*) yang merupakan NN fully connected dengan satu hidden layer. Terdapat 13 neuron sesuai dengan jumlah atribut input. 

Hasil dari eksekusi program dapat bervariasi. 

Dalam hal ini misalnya didapatkan: **-32.14 (22.08) MSE**

Artinya adalah rata-rata perbedaan antara nilai prediksi dengan nilai sebenarnya adalah 32.14 ribu dollar, dengan standard deviasi 22.08 ribu dollar. 

In [2]:
# define base model
def baseline_model():
	# create model
	model = Sequential()
	model.add(Dense(13, input_dim=13, kernel_initializer='normal', activation='relu'))
	model.add(Dense(1, kernel_initializer='normal'))
	# Compile model
	model.compile(loss='mean_squared_error', optimizer='adam')
	return model
# evaluate model
estimator = KerasRegressor(build_fn=baseline_model, epochs=100, batch_size=5, verbose=0)
kfold = KFold(n_splits=10)
results = cross_val_score(estimator, X, Y, cv=kfold)
print("Baseline: %.2f (%.2f) MSE" % (results.mean(), results.std()))

  # This is added back by InteractiveShellApp.init_path()


Baseline: -32.14 (22.08) MSE


***Model Lebih Dalam***

Dalam model ini ditambahkan satu lagi hidden layer dengan 6 hidden node. Dengan demikian topologinya menjadi:

13 inputs -> [13 -> 6] -> 1 output

Hasil yang didapatkan adalah **23.52 (23.81) MSE**, kesalahan lebih kecil daripada model dasar. 


In [6]:
# define the model
def larger_model():
	# create model
	model = Sequential()
	model.add(Dense(13, input_dim=13, kernel_initializer='normal', activation='relu'))
	model.add(Dense(6, kernel_initializer='normal', activation='relu'))
	model.add(Dense(1, kernel_initializer='normal'))
	# Compile model
	model.compile(loss='mean_squared_error', optimizer='adam')
	return model
# evaluate model with standardized dataset
estimators = []
estimators.append(('standardize', StandardScaler()))
estimators.append(('mlp', KerasRegressor(build_fn=larger_model, epochs=50, batch_size=5, verbose=0)))
pipeline = Pipeline(estimators)
kfold = KFold(n_splits=10)
results = cross_val_score(pipeline, X, Y, cv=kfold)
print("Larger: %.2f (%.2f) MSE" % (results.mean(), results.std()))

  


Larger: -23.52 (23.81) MSE


***Model Lebih Dalam***

Dalam model ini tetap menggunakan 2 hidden layer, tetapi kedua hidden layer memiliki 13 hidden node. Dengan demikian topologinya menjadi:

13 inputs -> [13 -> 13] -> 1 output

Hasil yang didapatkan adalah **23.52 (23.81) MSE**, kesalahan lebih kecil daripada model dasar. 

In [7]:
# define the model
def larger_model():
	# create model
	model = Sequential()
	model.add(Dense(13, input_dim=13, kernel_initializer='normal', activation='relu'))
	model.add(Dense(13, kernel_initializer='normal', activation='relu'))
	model.add(Dense(1, kernel_initializer='normal'))
	# Compile model
	model.compile(loss='mean_squared_error', optimizer='adam')
	return model
# evaluate model with standardized dataset
estimators = []
estimators.append(('standardize', StandardScaler()))
estimators.append(('mlp', KerasRegressor(build_fn=larger_model, epochs=50, batch_size=5, verbose=0)))
pipeline = Pipeline(estimators)
kfold = KFold(n_splits=10)
results = cross_val_score(pipeline, X, Y, cv=kfold)
print("Larger: %.2f (%.2f) MSE" % (results.mean(), results.std()))

  


Larger: -22.34 (25.99) MSE


Referensi:
https://machinelearningmastery.com/regression-tutorial-keras-deep-learning-library-python/
