# Adagrad
 - 모멘텀은 학습률을 고정하고 매개변수의 값을 변경할 때, 그 변경값을 조정하였지만 Adagrad는 학습률 자체를 변경하는 기법입니다.
 - 모멘텀과 비교하여 하이퍼 매개변수(매개변수의 변경값을 조정하기 위한 변수)가 적고 경사를 바탕으로 학습률 자체를 조정하는 방법으로 모멘텀보다 다루기 쉬운 방법입니다.

In [1]:
# 유사코드
# G[i][i] += g[i] * g[i]
# theta[i] -= (learning_rate / sqrt(G[i][i] + epsilon)) * g[i]

# 텐서플로
# optimizer = tf.train.AdagradOptimizer(0.01)

# 케라스
# from keras.optimizers import Adagrad
# optimizer = Adagrad(lr=0.01)

# Adadelta
 - Adagrad를 사용하면 학습률을 자동으로 조정할 수 있지만 학습이 진행될 수록 값이 급격히 감소하여 학습이 진행되지 않는다는 단점이 있습니다. 그 이유는 위의 식을 보면 아시겠지만 G에 제곱값을 더해가기 때문입니다.
 - 이를 해결하기 위한 방법으로 스텝을 거듭할 수록 계속 제곱값을 누적하는 것이 아니라 스텝 수를 제한하는 방법을 사용합니다.
 - 단순히 스텝을 제한하는건 비효율적인 방법이므로 모든 경사의 제곱합을 감쇠평균시켜서 재귀식으로 계산합니다.
 - 이때 사용하는 제곱평균제곱근을 RMS(root mean square)라고 합니다.

In [2]:
# 텐서플로
# optimizer = tf.train.AdadeltaOptimizer(learning_rate=1.0, rho=0.95)

# 케라스
# from keras.optimizers import Adadelta
# optimizer=Adadelta(rho=0.95) # 케라스에서는 학습률이 기본값으로 1.0입니다.

# RMSprop
 - Adadelta와 마찬가지로 학습률이 급격히 줄어드는 것을 방지하기 위한 기법입니다.
 - 학습률은 일반적으로 0.001과 같은 작은 값으로 설정합니다.

In [3]:
# 텐서플로
# optimizer = tf.train.RMSPropOptimizer(0.001)

# 케라스
# from keras.optimizers import RMSprop
# optimizer=RMSprop(lr=0.001) 

# Adam
 - 경사의 이동평균을 지수함수적으로 감쇠시킨 항을 추가하여 사용하는 방법입니다.

In [4]:
# 유사코드
# 초기화
# m = 0
# v = 0

# 반복
# learning_rate_t = learning_rate * sqrt(1 - beta2 ** t) / (1 - beta1 ** t)
# m = beta1 * m + (1 - beta1) * g
# v = beta2 * v + (1 - beta2) * g * g
# theta -= learning_rate_t * m / (sqrt(v) + epsilon)

# 텐서플로
# optimizer = tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.9, beta2=0.999)

# 케라스
# from keras.optimizers import Adam
# optimizer=Adam(lr=0.001, beta_!=0.9, beta_2=0.999)

# 얼리 스탑핑(조기 종료)
 - 지금까지 epochs를 일정수로 결정하여 학습을 진행했습니다. 학습횟수가 많아지만 오차는 줄어들지만 지나치면 오버피팅이 발생합니다. 이를 해결하기 위해 얼리 스탑핑을 사용합니다.
 - 쉽게 말해 이전 에폭 때와 비교해서 오차가 증가했다면 학습을 끝내는 기법입니다.

In [5]:
# 텐서플로 - 텐서플로는 얼리 스탑핑을 자신이 직접 구현해야 합니다.
# class EarlyStopping():
#  def __init__(self, patience=0, verbose=0):
#   self._step = 0
#   self._loss = float('inf')
#   self.patience = patience
#   self.verbose = verbose

#  def validate(self, loss):
#   if self._loss < loss:
#    self._step += 1
#    if self._step > self.patience:
#     if self.verbose:
#      print('early stopping')
#     return True
#   else:
#     self._step = 0
#     self._loss = loss

#   return false

# early_stopping = EarlyStopping(patience=10, verbose=1)
# for epoch in range(epochs):
#  for i in range(n_batches):
#   sess.run(train_step, feed_dict={})
#  val_loss = loss.eval(session=sess, feed_dict={})

#  if early_stopping.validate(val_loss):
#   break

# 케라스
# from keras.callbacks import EarlyStopping
# early_stopping = EarlyStopping(monitor='val_loss', patience=10, verbose=1)
# hist = model.fit(X_train, Y_train, epochs=epochs, batch_size-batch_size, 
#                  validation_data=(X_validation, Y_validaion), callbacks=[early_stopping])

# 배치정규화
 - 데이터 셋을 정규화하면 학습 초기에는 잘 진행되지만 결국 네트워크 내부에서 분산이 편중되어 정리한 효과가 한정적입니다.
 - 배치 정규화는 학습에 사용하는 각 미니배치별로 정규화해 학습 과정 전체에서 효과가 있습니다.
 - 장점은 학습률을 크게 설정해도 학습이 잘 진행되고 트롭아웃을 사용하지 않아도 일반화 성능이 높다는 점입니다.

In [6]:
# 텐서플로
# tf.nn.batch_normalization()

# 케라스
# from keras.layers.normalization import BatchNormalization
# nmodel = Sequential()
# for i, input_dim in enumerate(([n_in] + n_hiddens)[:-1]):
#  model.add(Dense(n_hiddens[i], input_dim=input_dim, init=weight_variable))
#  model.add(BatchNormalization())
#  model.add(Activation(activation))

# model.add(Dense(n_out, init=weight_variable))
# model.add(Activation('softmax'))