## 8-2 가중치 초기화(Weights Initialization)

1. 선형 함수 가중치 초기화 <br>
2. 비선형 함수 가중치 초기화 <br><br>

- 만약 가중치의 값이 일부 값으로 치우치게 되면, 활성화 함수를 통과한 값들도 치우치게 되고, 결국 표현할 수 있는 신경망의 수가 적어지는 문제가 발생. <br>
- 보통 가중치 초기값으로 0에 가까운 무작위 값을 사용하더라도 초기값에 따라서 모델의 성능 차이가 발생할 수 있다. <br>
=>즉, 모델의 활성화 값이 골고루 분포되는 것이 중요함, 

In [None]:
from tensorflow.keras import models, layers, optimizers

def build_model(activation, initializer):
    model = models.Sequential()
    model.add(layers.Input(shape=(400, 20), name='input'))
    model.add(layers.Dense(20, activation=activation, name='hidden1', 
                        kernel_initializer=initializer))
    model.add(layers.Dense(20, activation=activation, name='hidden2', 
                        kernel_initializer=initializer))
    model.add(layers.Dense(20, activation=activation, name='hidden3', 
                        kernel_initializer=initializer))
    model.add(layers.Dense(20, activation=activation, name='hidden4', 
                        kernel_initializer=initializer))
    model.add(layers.Dense(20, activation=activation, name='hidden5', 
                        kernel_initializer=initializer))
    model.compile(loss='sparse_categorical_crossentropy',
                optimizer=optimizers.SGD(),
                metrics=['accuracy'])
    return model

In [None]:
import numpy as np 
import matplotlib.pyplot as plt
plt.style.use('seaborn-white')

def show_layer(model):
    input = np.random.randn(400, 20)

    plt.figure(figsize=(12, 6))
    for i in range(1, 6):
        name = 'hidden' + str(i)
        layer = model.get_layer(name)
        input = layer(input)
        plt.subplot(1, 6, i)
        plt.title(name)
        plt.hist(input, 20, range=(-1, 1))
        plt.subplots_adjust(wspace=0.5, hspace=0.5)
    plt.show()

#### 선형함수 가중치 초기화

- activations.sigmoid를 사용하여 초기화 방법들을 비교,
- sigmoid 함수는 전체적으로 볼떄 비선형 함수이지만 특정 범위(-1,1)에서는 선형 함수

In [None]:
from tensorflow.keras import initializers, activations

# 제로 초기화
# Initializers.Zeros()를 이용해 가중치를 제로값으로 초기화함
model = build_model(activations.sigmoid, initializers.Zeros())
show_layer(model)


# 가중치를 제로값으로 초기화할 경우 각 레이어의 가중치 값 분포가 특정한 값으로만 몰려 있는 것을 알 수 있다. 
# 가중치 값이 0일 경우에는 오차역전파에서 모든 가중치 값이 똑같이 갱신되어 학습이 올바르게 진행될 수 없다.

In [None]:
# 정규분포 초기화

# Initializers.RandomNormal()를 통해 정규분포를 따르도록 무작위 값을 초기화
model = build_model(activations.sigmoid, initializers.RandomNormal())
show_layer(model)


# 정규분포를 따르도록 무작위 값을 초기화하면 제로 초기화보다는 분포가 퍼져있는 것을 알 수 있다. 
# 그러나 한 곳에 치우쳐 있기 때문에 여전히 신경망의 표현을 제한한다는 문제가 있다.

In [None]:
# 균일분포 초기화

# Initializers.RandomUniform()를 통해 균일분포를 따르는 무작위갓으로 초기화
model = build_model(activations.sigmoid, initializers.RandomUniform())
show_layer(model)


# 균일분포를 따르는 무작위 값으로 초기화한 결과도 제로 초기화보다는 분포가 퍼져있는 것을 알 수 있다. 
# 그러나 활성화 값이 균일하지 않으므로 역전파로 전해지는 기울기 값이 사라질 수 있다.

In [None]:
# Xavier(Glorot) 정규분포 초기화

# 은닉층의 노드의 수가 n이라면 표준편차가 1/root n인 분포로 초기화
# Initializers.GlorotNormal()를 사용  
model = build_model(activations.sigmoid, initializers.GlorotNormal())
show_layer(model)


# 비교적 분포로 고르고 레이어마다 표현이 잘 되고 있는 것을 알 수 있다. 
# 즉, 더 많은 가중치에 역전파가 전달이 가능함. 
# 일반적으로 Xavier(Glorot) 방법은 활성화 함수가 선형함수인 경우에 매우 적합.

In [None]:
# Xavier(Glorot) 균일분포 초기화

# Initializers.GlorotUniform()를 사용  
model = build_model(activations.sigmoid, initializers.GlorotUniform())
show_layer(model)


# Xavier(Glorot) 균일분포 초기화를 이용한 결과도 마찬가지로 잘 분포되어 있

In [None]:
model = build_model(activations.tanh, initializers.GlorotUniform())
show_layer(model)

In [None]:
# He 정규분포 초기화

# 표준편차가 root(2/n)인 분포를 가지도록 초기화
model = build_model(activations.sigmoid, initializers.HeNormal())
show_layer(model)


# 시각화한 결과보면 활성화값 분포가 균일하게 분포되어 있다.
# ReLU와 같은 비선형함수일 떄 더 적합

In [None]:
# He 균일분포 초기화

model = build_model(activations.sigmoid, initializers.HeUniform())
show_layer(model)
# 가중치 값들이 잘 분포되어 있음을 알 수 있음

#### 비선형 함수 가중치 초기화

In [None]:
# 제로 초기화

# 가중치를 제로값으로 초기화한 경우, 
model = build_model(activations.relu, initializers.Zeros())
show_layer(model)

# 시각화 결과를 보면 레이어의 가중치 분포가 0에만 몰려 있는 것을 알 수 있다. 
# 활성화 함수로 relu를 사용하였기 때문에 0인 값은 그대로 0에만 머무는 것을 알 수 있다.

# relu(0) = 0

In [None]:
# 정규분포 초기화

model = build_model(activations.relu, initializers.RandomNormal())
show_layer(model)


# 마찬가지로 hidden1 레이어를 제외하고는 0에 치우쳐 있는 문제가 있다.

In [None]:
# 균일분포 초기화

model = build_model(activations.relu, initializers.RandomUniform())
show_layer(model)


# 처음 레이어를 제외하고는 가중치 값이 0에 치우쳐 있는 것을 알 수 있다.

In [None]:
# Xavier(Glorot) 정규분포 초기화

model = build_model(activations.relu, initializers.GlorotNormal())
show_layer(model)


# Xavier 초기화 방법은 relu 특성상 0인 값이 많지만, 
# 전체 레이어를 보더라도 어느정도 분포가 퍼져있는 것을 알 수 있다.

In [None]:
# Xavier(Glorot) 균일분포 초기화

model = build_model(activations.relu, initializers.GlorotUniform())
show_layer(model)


# 균일분포도 정규분포와 유사한 형태의 분포를 보여주고 있다.

In [None]:
# He 정규분포 초기화

model = build_model(activations.relu, initializers.HeNormal())
show_layer(model)

# He 초기화는 일반적으로 비선형 함수에 더 적합하다고 알려져있음
# 시각화된 결과도 어느정도 분포가 고르게 형성되어 있음을 알 수 있습니다.

In [None]:
# He 균일분포 초기화

model = build_model(activations.relu, initializers.HeUniform())
show_layer(model)

In [None]:
# [play ground]
# 사용해보고 싶은 활성화함수, 초기화 방법을 각각 activation, initializer에 입력해주세요.

model = build_model(activation = 'relu', initializer = 'HeUniform')
show_layer(model)

## 8-3 Reuters 딥러닝 모델 예제

데이터셋은 뉴스 기사 텍스트와 46개의 토픽으로 구성되어 있다. <br>
가중치 초기화 실습을 진행하겠다.

#### 데이터 로드 및 전처리

reuters.load_data() 함수를 통해 다운로드가 가능합니다. 본 예제에서는 num_words를 10000개로 제한하여 데이터를 로드합니다. 기본적으로 8,982개의 훈련 데이터셋과 2,246개의 테스트 데이터셋으로 구분되어 있습니다. 레이블을 통해 뉴스 기사의 주제로 46개가 있는 것을 알 수 있습니다.

In [None]:
from keras.datasets import reuters
import numpy as np

(train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=10000)

print(len(train_data))
print(len(test_data))
print(len(set(train_labels)))

In [None]:
word_index = reuters.get_word_index()
word_index

In [None]:
index_word = dict([(value, key) for (key, value) in word_index.items()])
# index_word

In [None]:
news = ' '.join([str(i) for i in train_data[0]])
news

In [None]:
news = ' '.join([index_word.get(i-3, '?') for i in train_data[0]])
news

In [None]:
def one_hot_encoding(data, dim=10000):
    results = np.zeros((len(data), dim))
    for i, d in enumerate(data):
        results[i, d] = 1.
    return results

x_train = one_hot_encoding(train_data)
x_test = one_hot_encoding(test_data)

print(x_train[0])

In [None]:
print(train_labels[5])
print(train_labels[15])
print(train_labels[25])
print(train_labels[35])
print(train_labels[45])

In [None]:
from tensorflow.keras import utils

y_train = utils.to_categorical(train_labels)
y_test = utils.to_categorical(test_labels)

print(train_labels[5], y_train[5])
print(train_labels[15], y_train[15])
print(train_labels[25], y_train[25])

#### 모델 구성

Reuters 데이터셋을 주제별로 분류하기 위한 딥러닝 모델을 정의합니다. 순차적으로 레이어를 추가하여 단순한 모델을 생성하기 위해 Sequential() 함수를 사용합니다.

첫번째는 유닛수 256개, 활성화 함수는 'relu', 입력 차원은 10000, 이름은 input인 Dense 레이어를 추가합니다. 두번째도 마찬가지로 유닛수 256개를 가지고, relu 활성화 함수를 사용하며 이름은 hidden인 Dense 레이어를 추가합니다. 세번째는 뉴스 주제 갯수로 유닛수를 46개로 지정하고, 다중 분류이므로 활성화 함수는 softmax를 사용하고, 이름은 output으로 지정한 Dense 레이어를 추가합니다.

In [None]:
import tensorflow as tf
from tensorflow.keras import models, layers

model = models.Sequential()
model.add(layers.Dense(128, activation='relu', input_shape=(10000, ), name='input'))
model.add(layers.Dense(128, activation='relu', name='hidden'))
model.add(layers.Dense(46, activation='softmax', name='output'))

#### 모델 컴파일 및 학습

In [None]:
model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])
model.summary()

In [None]:
history = model.fit(x_train, y_train,
                    epochs=40,
                    batch_size=512,
                    validation_data=(x_test, y_test))

생성한 딥러닝 모델을 이용해 Reuters 데이터셋을 학습하기 위해 학습용 데이터셋으로 x_train과 y_train을 지정하고, 에폭(epochs)은 40으로 지정합니다. 배치 사이즈는 512로 지정하고, 검증을 위해서 테스트 데이터인 x_test와 y_test를 지정하여 fit() 함수를 실행시킵니다.

In [None]:
import matplotlib.pyplot as plt

history_dict = history.history

loss = history_dict['loss']
val_loss = history_dict['val_loss']
epochs = range(1, len(loss) + 1)

fig = plt.figure(figsize=(12, 5))

ax1 = fig.add_subplot(1, 2, 1)
ax1.plot(epochs, loss, color='blue', label='train_loss')
ax1.plot(epochs, val_loss, color='red', label='val_loss')
ax1.set_title('Train and Validation Loss')
ax1.set_xlabel('Epochs')
ax1.set_ylabel('Loss')
ax1.grid()
ax1.legend()

accuracy = history_dict['accuracy']
val_accuracy = history_dict['val_accuracy']

ax2 = fig.add_subplot(1, 2, 2)
ax2.plot(epochs, accuracy, color='blue', label='train_accuracy')
ax2.plot(epochs, val_accuracy, color='red', label='val_accuracy')
ax2.set_title('Train and Validation Accuracy')
ax2.set_xlabel('Epochs')
ax2.set_ylabel('Accuracy')
ax2.grid()
ax2.legend()

plt.show()

#### 가중치 초기화

In [None]:
def build_model(initializer):
    model = models.Sequential()
    model.add(layers.Dense(128,
                         activation='relu', 
                         kernel_initializer=initializer,
                         input_shape=(10000, ), 
                         name='input'))
    model.add(layers.Dense(128, 
                         activation='relu', 
                         kernel_initializer=initializer,
                         name='hidden'))
    model.add(layers.Dense(46, 
                         activation='softmax', 
                         name='output'))
    model.compile(optimizer='rmsprop',
                loss='categorical_crossentropy',
                metrics=['accuracy'])
    history = model.fit(x_train, y_train,
                    epochs=40,
                    batch_size=512,
                    validation_data=(x_test, y_test))
    return history

In [None]:
def diff_history(history1, history2):
    history1_dict = history1.history
    h1_loss = history1_dict['loss']
    h1_val_loss = history1_dict['val_loss']

    history2_dict = history2.history
    h2_loss = history2_dict['loss']
    h2_val_loss = history2_dict['val_loss']

    epochs = range(1, len(h1_loss) + 1)
    fig = plt.figure(figsize=(12, 5))
    plt.subplots_adjust(wspace=0.3, hspace=0.3)

    ax1 = fig.add_subplot(1, 2, 1)
    ax1.plot(epochs, h1_loss, 'b-', label='train_loss')
    ax1.plot(epochs, h1_val_loss, 'r-', label='val_loss')
    ax1.plot(epochs, h2_loss, 'b--', label='train_loss')
    ax1.plot(epochs, h2_val_loss, 'r--', label='val_loss')
    ax1.set_title('Train and Validation Loss')
    ax1.set_xlabel('Epochs')
    ax1.set_ylabel('Loss')
    ax1.grid()
    ax1.legend()

    h1_accuracy = history1_dict['accuracy']
    h1_val_accuracy = history1_dict['val_accuracy']

    h2_accuracy = history2_dict['accuracy']
    h2_val_accuracy = history2_dict['val_accuracy']

    ax2 = fig.add_subplot(1, 2, 2)
    ax2.plot(epochs, h1_accuracy, 'b-', label='train_accuracy')
    ax2.plot(epochs, h1_val_accuracy, 'r-', label='val_accuracy')
    ax2.plot(epochs, h2_accuracy, 'b--', label='train_accuracy')
    ax2.plot(epochs, h2_val_accuracy, 'r--', label='val_accuracy')
    ax2.set_title('Train and Validation Accuracy')
    ax2.set_xlabel('Epochs')
    ax2.set_ylabel('Accuracy')
    ax2.grid()
    ax2.legend()

    plt.show()

In [None]:
# 제로 초기화

# 가중치 값을 0으로 초기화하는 모델을 생성하여 학습한다.
zero_history = build_model(initializers.Zeros())

In [None]:
diff_history(history, zero_history)

In [None]:
# 정규분포 초기화

normal_history = build_model(initializers.RandomNormal())

In [None]:
diff_history(history, normal_history)

# 정규분포로 초기화한 결과는 기본 모델과 유사하지만 조금 더디게 학습된 것을 알 수 있습니다.

In [None]:
# Xavier(Glorot)초기화

glorot_history = build_model(initializers.GlorotNormal())

In [None]:
diff_history(history, glorot_history)

# Xavier 초기화 방법은 기존 모델에서 사용하는 균일분포와 매우 유사한 형태로 학습된 것을 알 수 있습니다.

In [None]:
# He 초기화

he_history = build_model(initializers.HeNormal())

In [None]:
diff_history(history, he_history)

# He 초기화는 기존 모델과 비교하여 작지만 좀 더 빠르게 학습된 것을 알 수 있습니다. 
# 현재 모델이 비선형 함수인 relu를 사용하여 He 초기화에 더 적합한 것을 알 수 있습니다.

In [None]:
# [play ground]
# 이번 build_model() 함수의 인자는 각각 가중치 초기화 방법 하나입니다.

your_history = build_model(initializer = 'HeNormal')
diff_history(history, your_history)

## 8-4 배치정규화 (BatchNormalization)

정의) 모델이 입력되는 샘플들을 균일하게 만드는 방법, 가중치의 활성화값이 적당히 퍼지게끔 '강제'로 적용시키는 것을 의미함 <br><br>

특징) 
- 보통 미니배치 단위로 데이터의 평균이 0, 표준편차는 1로 정규화를 수행 <br>
- 학습자체ㅏ 빨리 진행될 수 있도록 만들고, 학습후에도 새로운 데이터에 일반화가 잘 될 수 있도록 도와줌 <br>
- 초기값에 크게 의존하지 않아도 되고, 과대적합을 방지하는 역할을 수행 <br>
- 배치 정규화는 데이터 전처리 단계에서 진행해도 되짐나 졍규화가 되어서 레이어에 들어갔다는 보장이 없으므로 주로 Dense레이어 이후, 활성화 함수 이전에 활용 <br>
![image.png](attachment:image.png) <br>

#### 모델 구성및 컴파일

Reuters 데이터셋에 대해 뉴스 주제를 분류하는 딥러닝 모델에서 기존에 정의했던 3개의 Dense 레이어 사이에 배치 정규화를 위해 BatchNormalization() 레이어를 추가합니다. 다만 일반적으로 Dense 레이어와 Activation 활성함수 레이어 사이에 추가해야 합니다.

In [None]:
import tensorflow as tf
from tensorflow.keras import models, layers

model = models.Sequential()
model.add(layers.Dense(128, input_shape=(10000, ), name='input'))
model.add(layers.BatchNormalization())
model.add(layers.Activation('relu')) 
model.add(layers.Dense(128, name='hidden'))
model.add(layers.BatchNormalization())
model.add(layers.Activation('relu')) 
model.add(layers.Dense(46, activation='softmax', name='output'))

model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])
model.summary()

In [None]:
batch_norm_history = model.fit(x_train, y_train,
                               epochs=40,
                               batch_size=512,
                               validation_data=(x_test, y_test))

In [None]:
diff_history(history, batch_norm_history)

# 기본 모델과 배치 정규화를 적용한 모델을 비교해보면, 
# 배치 정규화를 적용한 모델이 좀 더 빠르고 안정되게 학습이 되는 것을 알 수 있습니다.

#### 실습해보기

활성화 함수 다음에 BatchNormalization() 레이어를 추가하고 성능을 비교해 봅시다.

In [None]:
# [play ground]

model = models.Sequential()
model.add(layers.Dense(128, input_shape=(10000, ), name='input'))

# 활성화 함수를 Dense 레이어와 같이 선언할 수도 있지만 단순히 위 코드에서 순서를 바꾸어도 동일하게 동작합니다.
model.add(layers.Activation('relu')) 
model.add(layers.BatchNormalization())
model.add(layers.Dense(128, name='hidden'))
model.add(layers.Activation('relu'))
model.add(layers.BatchNormalization())
model.add(layers.Dense(46, activation='softmax', name='output'))

model.compile(optimizer='rmsprop',
              loss='categorical_crossentropy',
              metrics=['accuracy'])
model.summary()

In [None]:
orderd_bn_history = model.fit(x_train, y_train,
                               epochs=40,
                               batch_size=512,
                               validation_data=(x_test, y_test))