### SGD(Stochastic Gradient Descent)


Neural Network의 Weight를 조정하는 과정에는 보통 Gradient Descent라는 방법을 사용한다. 이는 네트워크에서 내놓는 결과값과 실제 값 사이의 차의를 정의하는 Loss Function의 값을 최소화하기 위해 기울기를 이용하는 것입니다. 


여기서 Loss Function을 계산할 때 전체 Train-Set을 사용하는 것을 Batch Gradient Descent라고 한다. 그러나 이렇게 계산하면 한번 step을 내딛을 때, 전체 데이터에 대해 Loss Function을 계산해야 하므로 너무 많은 계산양을 필요로 한다. 이를 방지하기 위해 보통은 Stochastic Gradient Desenct(SGD)라는 방법을 사용한다. 이 방법에서는 Loss Function을 계산할 때, 전체 데이터(Batch) 대신 일부 데이터의 모음(Mini-Batch)를 사용하여 Loss Function을 계산한다. Batch Gradient Descent(BGD)보다 다소 부정확할 수는 있지만, 계산 속도가 훨씬 빠르기 때문에 같은 시간에 더 많은 step을 갈 수 있으며, 여러 번 반복할 경우 Batch 처리한 결과로 수렴한다. 또한 Batch Gradient Descent에서 빠질 Local Minima에 빠지지 않고 더 좋은 방향(Global Minima,극값)에 수렴할 가능성도 높다. 여기에 더해 SGD를 변형시킨 여러 알고리즘들을 활용하면 훨씬 좋은 성능을 낼 수 있다.


## Imports

In [2]:
import tensorflow as tf
import numpy as np
from tensorflow import keras

### Neural Network를 선언하고 컴파일

In [3]:
model = tf.keras.Sequential([keras.layers.Dense(units =1, input_shape=[1])])

우리는 Neurak Network를 컴파일 했고 결과적으로 두가지의 함수를 가지게 된다. loss와 optimizer이다.`
 우리는 주어진 함수의 값이 y = 2x - 1 임을 알고 있는데, 컴퓨터가 learn과정을 할 때는 추측을 하게 됩니다. LOSS 기능은 추측된 답을 알려진 정답과 비교하여 측정하고, 정답이 얼마나 잘 또는 얼마나 잘못되었는지를 측정합니다.
 그런 다음 Optimizer 기능을 사용하여 다른 추측을 합니다.loss function이 어떻게 작동했는지에 따라 loss를 최소화하려고 노력할 것입니다. 이 때 y=5x+5와 같은 결과가 나올 수 있습니다. 이는 여전히 매우 나쁘지만 정확한 결과에 가깝습니다(즉, 손실이 줄어듭니다)

### Compilation

Sequential 모델을 정의하고 학습하기 전에 .compile() 메서드를 사용하여 학습에 대한 설정을 해줘야한다. 설정에 필요한 3개의 인자가 있는데 다음과 같다.

***Optimizer*** : 최적화 함수를 설정하는 부분이다.'sgd', 'adam', 'rmsprop' 등 문자열타입으로 설정할 수 있다.

***Loss function*** : 손실함수를 설정해주는 부분이며, 'categorical_crossentropy', 'mse' 처럼 문자열타입으로 설정할 수 있다.

***Metrics*** : 모델의 성능을 판정하는데 사용하는 지표 함수이며,['accuracy'] 처럼 리스트 형태로 설정한다.


In [4]:
model.compile(optimizer = 'sgd', loss = 'mean_squared_error')

## Providing the Data

numpy를 사용하여 data를 주기

In [5]:
xs = np.array([-1.0, 0.0, 1.0 ,2.0,3.0, 4.0],dtype = float)
ys = np.array([-3.0, -1.0, 1.0 ,3.0, 5.0, 7.0],dtype = float)

## Training the Neural Network

neural network를 training하는 단계이다. Xs와 Ys의 상관 관계를 learn하는데 이를 **model.fit**한다. 이것이 바로 위에서 설명한 loop를 통해 추측을 하고, 얼마나 좋은지(즉, loss)를 측정하며, 또 다른 추측을 하기 위해 optimizer를 사용하는 등입니다. 지정된 epochs만큼 반복이됩니다. 또한, 이 코드를 실행하면 오른쪽에 loss가 표시됩니다.

In [6]:
model.fit(xs, ys, epochs=500)

Epoch 1/500
Epoch 2/500
Epoch 3/500
Epoch 4/500
Epoch 5/500
Epoch 6/500
Epoch 7/500
Epoch 8/500
Epoch 9/500
Epoch 10/500
Epoch 11/500
Epoch 12/500
Epoch 13/500
Epoch 14/500
Epoch 15/500
Epoch 16/500
Epoch 17/500
Epoch 18/500
Epoch 19/500
Epoch 20/500
Epoch 21/500
Epoch 22/500
Epoch 23/500
Epoch 24/500
Epoch 25/500
Epoch 26/500
Epoch 27/500
Epoch 28/500
Epoch 29/500
Epoch 30/500
Epoch 31/500
Epoch 32/500
Epoch 33/500
Epoch 34/500
Epoch 35/500
Epoch 36/500
Epoch 37/500
Epoch 38/500
Epoch 39/500
Epoch 40/500
Epoch 41/500
Epoch 42/500
Epoch 43/500
Epoch 44/500
Epoch 45/500
Epoch 46/500
Epoch 47/500
Epoch 48/500
Epoch 49/500
Epoch 50/500
Epoch 51/500
Epoch 52/500
Epoch 53/500
Epoch 54/500
Epoch 55/500
Epoch 56/500
Epoch 57/500
Epoch 58/500
Epoch 59/500
Epoch 60/500
Epoch 61/500
Epoch 62/500
Epoch 63/500
Epoch 64/500
Epoch 65/500
Epoch 66/500
Epoch 67/500
Epoch 68/500
Epoch 69/500
Epoch 70/500
Epoch 71/500
Epoch 72/500
Epoch 73/500
Epoch 74/500
Epoch 75/500
Epoch 76/500
Epoch 77/500
Epoch 78

Epoch 207/500
Epoch 208/500
Epoch 209/500
Epoch 210/500
Epoch 211/500
Epoch 212/500
Epoch 213/500
Epoch 214/500
Epoch 215/500
Epoch 216/500
Epoch 217/500
Epoch 218/500
Epoch 219/500
Epoch 220/500
Epoch 221/500
Epoch 222/500
Epoch 223/500
Epoch 224/500
Epoch 225/500
Epoch 226/500
Epoch 227/500
Epoch 228/500
Epoch 229/500
Epoch 230/500
Epoch 231/500
Epoch 232/500
Epoch 233/500
Epoch 234/500
Epoch 235/500
Epoch 236/500
Epoch 237/500
Epoch 238/500
Epoch 239/500
Epoch 240/500
Epoch 241/500
Epoch 242/500
Epoch 243/500
Epoch 244/500
Epoch 245/500
Epoch 246/500
Epoch 247/500
Epoch 248/500
Epoch 249/500
Epoch 250/500
Epoch 251/500
Epoch 252/500
Epoch 253/500
Epoch 254/500
Epoch 255/500
Epoch 256/500
Epoch 257/500
Epoch 258/500
Epoch 259/500
Epoch 260/500
Epoch 261/500
Epoch 262/500
Epoch 263/500
Epoch 264/500
Epoch 265/500
Epoch 266/500
Epoch 267/500
Epoch 268/500
Epoch 269/500
Epoch 270/500
Epoch 271/500
Epoch 272/500
Epoch 273/500
Epoch 274/500
Epoch 275/500
Epoch 276/500
Epoch 277/500
Epoch 

Epoch 408/500
Epoch 409/500
Epoch 410/500
Epoch 411/500
Epoch 412/500
Epoch 413/500
Epoch 414/500
Epoch 415/500
Epoch 416/500
Epoch 417/500
Epoch 418/500
Epoch 419/500
Epoch 420/500
Epoch 421/500
Epoch 422/500
Epoch 423/500
Epoch 424/500
Epoch 425/500
Epoch 426/500
Epoch 427/500
Epoch 428/500
Epoch 429/500
Epoch 430/500
Epoch 431/500
Epoch 432/500
Epoch 433/500
Epoch 434/500
Epoch 435/500
Epoch 436/500
Epoch 437/500
Epoch 438/500
Epoch 439/500
Epoch 440/500
Epoch 441/500
Epoch 442/500
Epoch 443/500
Epoch 444/500
Epoch 445/500
Epoch 446/500
Epoch 447/500
Epoch 448/500
Epoch 449/500
Epoch 450/500
Epoch 451/500
Epoch 452/500
Epoch 453/500
Epoch 454/500
Epoch 455/500
Epoch 456/500
Epoch 457/500
Epoch 458/500
Epoch 459/500
Epoch 460/500
Epoch 461/500
Epoch 462/500
Epoch 463/500
Epoch 464/500
Epoch 465/500
Epoch 466/500
Epoch 467/500
Epoch 468/500
Epoch 469/500
Epoch 470/500
Epoch 471/500
Epoch 472/500
Epoch 473/500
Epoch 474/500
Epoch 475/500
Epoch 476/500
Epoch 477/500
Epoch 478/500
Epoch 

<tensorflow.python.keras.callbacks.History at 0x19a6a7d2908>

이 과정을 통해 x와 y 사이의 관계를 알아냄. **model predict** 를 사용하여 y를 추측해낼수 있다.만약에 x= 10이면 y는 몇인가? 아래의 코드를 통해 알아보자:

In [7]:
print(model.predict([10,0]))

[[18.982431 ]
 [-0.9921057]]
