# MLP(Multi-Layer Perceptron)
### 1. Regression Task
- 예측하고자 하는 변수 y가 연속적인 값을 가질 때
- 예 : age에 따른 height 예측 (age, height) = (12, 153), ..., 32세 일때는? 

### 2. loss function 와 evaluation metric
- 예측치와 실제 값을 뺀 후에 제곱하여 평균한 평균 제곱 오차(MSE)

### 3. Neuron
- $ Neuron = F(x_1 , x_2 , ... , x_m) = y = \Big( \sum_{i=1}^{m} {w_i x_i } \Big) + b $
- Neuron의 의미 : 많은 데이터를 가지고 $w_i$(weight)들과 $b$의 값을 찾아내는 것이 ML의 과정
- hidden layer가 많아질 수록 직선이 아닌 차수가 늘어난다. 

### 4. Activation function 
- output y를 입력으로 f(y)를 계산
- 선형 시스템을 비선형으로 바꾸어줌
- sigmoid, relu, tanh, leaky relu, maxout, elu 등

### 5. Loss Function
- $ L(w_1, w_2, ... , b_1, b_2, ...) = \sum_{i=1}^{n} {\big(F(X_i) - y_i \big)^2} $
- 이상적인 Loss function은 L = 0이 되는 것이다. 
- L을 minimize 하는 과정에서 F 함수의 계수들($w_i, b$)이 구해지면서 이 과정은 optimization 이라는 학문 분야로 연구되어 옴. 

### 6. Optimization
- $ \frac{dF}{dx} = 0$일 때, local minimum/maximum(극소/극대)값을 가짐.
- GD(Gradient Descent) Minimization 
  - $ x_{t+1} = x_t - \epsilon y'(-0.5) \space \big(\epsilon = 0.01로 두고 시작. \frac{dy}{dx}=0일 때까지 반복\big) $ 
- SGD(Stochastic Gradient Descent) Minimization
  - 전체 training data를 여러 개의 mini batch로 나눔
  - batch_size = $ 2^n $ 
  - gradient tensor를 이용하여 GD보다 계산량이 적고 local minima에 빠지지 않음.
  - Adam, RMSprop : 변형된 SGD
  
### 7. Hyperparameters
- 모델이 아니라 학습 알고리즘의 parameter
- 트레이닝 전에 지정하며, 이 파라메터 튜닝이 매우 중요함. 
- 예 : learning rate, epoch, loss function, batch size, layer number, parameter 추기값, regulation term의 parameter, optimization algorithm 등
- 최적의 hyperparmeter 찾는 법 : grid search, random search, 

## Boston Housing Dataset
- Data 506 = training 404 + test 102
- X(13) : crim, indus, nox, rm, lstat, b, ptratio, zn, chas, age, rad, dis, tax
- Y : median value of house (in $1000)

In [2]:
from tensorflow.keras.datasets import boston_housing
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Activation, Dense
from tensorflow.keras import optimizers

In [4]:
(X_train, y_train), (X_test, y_test) = boston_housing.load_data()

In [9]:
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)
print(X_train[0])
print(y_train[0])
print(X_test[0])
print(y_test[0])

(404, 13) (102, 13) (404,) (102,)
[  1.23247   0.        8.14      0.        0.538     6.142    91.7
   3.9769    4.      307.       21.      396.9      18.72   ]
15.2
[ 18.0846   0.      18.1      0.       0.679    6.434  100.       1.8347
  24.     666.      20.2     27.25    29.05  ]
7.2


In [25]:
model = Sequential()

In [26]:
model.add(Dense(10, input_shape=X_train[0].shape, activation='sigmoid'))
model.add(Dense(10, activation='sigmoid'))
model.add(Dense(10, activation='sigmoid'))
model.add(Dense(1))

In [27]:
sgd = optimizers.SGD(lr = 0.01)

In [28]:
model.compile(optimizer=sgd, loss="mean_squared_error", metrics=['mse'])

In [29]:
model.summary()

Model: "sequential_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_12 (Dense)             (None, 10)                140       
_________________________________________________________________
dense_13 (Dense)             (None, 10)                110       
_________________________________________________________________
dense_14 (Dense)             (None, 10)                110       
_________________________________________________________________
dense_15 (Dense)             (None, 1)                 11        
Total params: 371
Trainable params: 371
Non-trainable params: 0
_________________________________________________________________


In [30]:
model.fit(X_train, y_train, batch_size=50, epochs=100, verbose=1)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


<tensorflow.python.keras.callbacks.History at 0x2a561a3e2b0>

In [31]:
results = model.evaluate(X_test, y_test)



In [32]:
print('Loss: ', results[0])
print('mse: ', results[1])

Loss:  83.27144622802734
mse:  83.27144622802734
