<a href="https://colab.research.google.com/github/udlbook/udlbook/blob/main/Notebooks/Chap07/7_3_Initialization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Notebook 7.3: Initialization**

This notebook explores weight initialization in deep neural networks as described in section 7.5 of the book.

Work through the cells below, running each cell in turn. In various places you will see the words "TO DO". Follow the instructions at these places and make predictions about what is going to happen or write code to complete the functions.

Contact me at udlbookmail@gmail.com if you find any mistakes or have any suggestions.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

\



---



### 1. 신경망 계산을 위한 함수 지정

- 파라미터 초기화 함수

In [None]:
def init_params(K, D, sigma_sq_omega):
  # 항상 같은 난수를 얻도록 시드 설정
  np.random.seed(0)

  # 입력층
  D_i = 1
  # 출력층
  D_o = 1

  # 가중치와 바이어스의 리스트 생성
  all_weights = [None] * (K+1)
  all_biases = [None] * (K+1)

  # 입력층과 출력층의 가중치 및 바이어스 초기화
  # np.random.normal: 평균이 0이고 표준편차가 1인 정규분포
  # 표준편차는 np.sqrt(sigma_sq_omega)
  all_weights[0] = np.random.normal(size=(D, D_i)) * np.sqrt(sigma_sq_omega)
  all_weights[-1] = np.random.normal(size=(D_o, D)) * np.sqrt(sigma_sq_omega)
  all_biases[0] = np.zeros((D,1))
  all_biases[-1]= np.zeros((D_o,1))

  # 은닉층의 가중치 및 바이어스 초기화
  for layer in range(1,K):
    all_weights[layer] = np.random.normal(size=(D,D)) * np.sqrt(sigma_sq_omega)
    all_biases[layer] = np.zeros((D,1))

  return all_weights, all_biases

- neural network 함수

In [None]:
# Define ReLU Function
def ReLU(preactivation):
  activation = preactivation.clip(0.0)
  return activation

In [None]:
def compute_network_output(net_input, all_weights, all_biases):

  K = len(all_weights) -1

  all_f = [None] * (K + 1)
  all_h = [None] * (K + 1)

  all_h[0] = net_input

  for layer in range(K): # 0~k-1

      all_f[layer] = all_biases[layer] + np.matmul(all_weights[layer], all_h[layer])

      all_h[layer+1] = ReLU(all_f[layer])

  all_f[K] = all_biases[K] + np.matmul(all_weights[K], all_h[K])

  net_output = all_f[K]

  return net_output, all_f, all_h

\



---



### 2. 신경망 계산 - Initialization for forward pass

In [None]:
# 신경망 구조
K = 5
D = 8
D_i = 1
D_o = 1

# 초기 분산
sigma_sq_omega = 1.0

# Initialize parameters
all_weights, all_biases = init_params(K,D,sigma_sq_omega)

# 입력값 지정
n_data = 1000
data_in = np.random.normal(size=(1,n_data))

# 신경망 계산
net_output, all_f, all_h = compute_network_output(data_in, all_weights, all_biases)

# 각 은닉층의 표준편차 비교
for layer in range(K):
  print("Layer %d, std of hidden units = %3.3f"%(layer, np.std(all_h[layer]))) # 활성화 함수의 표준편차 출력

Layer 0, std of hidden units = 0.981
Layer 1, std of hidden units = 0.811
Layer 2, std of hidden units = 1.472
Layer 3, std of hidden units = 4.547
Layer 4, std of hidden units = 8.896




---



2-1. 초기화 문제 - forward pass

**TO DO**


> 1. 층 당 80개의 은닉유닛이 있는 50개의 층으로 변경해라
2. sigma_sq_omega를 조절하여 forward pass 계산의 분산이 폭발하는 것을 막아라



- He 초기화를 활용한 forward pass

In [None]:
def he_init_params(K, D):
  np.random.seed(0)

  D_i = 1
  D_o = 1

  all_weights = [None] * (K+1)
  all_biases = [None] * (K+1)

  all_weights[0] = np.random.normal(size=(D, D_i)) * np.sqrt(2 / D_i)
  all_weights[-1] = np.random.normal(size=(D_o, D)) * np.sqrt(2 / D)
  all_biases[0] = np.zeros((D,1))
  all_biases[-1]= np.zeros((D_o,1))

  for layer in range(1,K):
    all_weights[layer] = np.random.normal(size=(D,D)) * np.sqrt(2 / D)
    all_biases[layer] = np.zeros((D,1))

  return all_weights, all_biases


K= 50
D= 80
all_weights, all_biases = he_init_params(K,D)
net_output, all_f, all_h = compute_network_output(data_in, all_weights, all_biases)

for layer in range(K):
  print("Layer %d, std of hidden units = %3.3f"%(layer, np.std(all_h[layer])))

Layer 0, std of hidden units = 0.981
Layer 1, std of hidden units = 0.886
Layer 2, std of hidden units = 0.698
Layer 3, std of hidden units = 0.741
Layer 4, std of hidden units = 0.899
Layer 5, std of hidden units = 0.995
Layer 6, std of hidden units = 0.886
Layer 7, std of hidden units = 0.826
Layer 8, std of hidden units = 0.851
Layer 9, std of hidden units = 0.737
Layer 10, std of hidden units = 0.646
Layer 11, std of hidden units = 0.677
Layer 12, std of hidden units = 0.597
Layer 13, std of hidden units = 0.582
Layer 14, std of hidden units = 0.583
Layer 15, std of hidden units = 0.572
Layer 16, std of hidden units = 0.588
Layer 17, std of hidden units = 0.625
Layer 18, std of hidden units = 0.672
Layer 19, std of hidden units = 0.656
Layer 20, std of hidden units = 0.851
Layer 21, std of hidden units = 0.719
Layer 22, std of hidden units = 0.720
Layer 23, std of hidden units = 0.758
Layer 24, std of hidden units = 0.868
Layer 25, std of hidden units = 0.951
Layer 26, std of hidde

\



---



### 3. Initialization for backward pass

- 손실 함수 정의 및 출력에 대한 손실함수의 도함수 계산

In [None]:
def least_squares_loss(net_output, y):
  return np.sum((net_output-y) * (net_output-y))

def d_loss_d_output(net_output, y):
  return 2*(net_output -y);

- backward pass 함수 정의

In [None]:
# We'll need the indicator function
def indicator_function(x):
  x_in = np.array(x)
  x_in[x_in>=0] = 1
  x_in[x_in<0] = 0
  return x_in

# backward pass
def backward_pass(all_weights, all_biases, all_f, all_h, y):  # y는 신경망의 실제 출력값
  # 각 층의 가중치와 바이어스 대한 손실 함수의 미분값 리스트
  all_dl_dweights = [None] * (K+1)
  all_dl_dbiases = [None] * (K+1)
  # 각 층의 전 활성화값과 활성화값 대한 손실 함수의 미분값 리스트
  all_dl_df = [None] * (K+1)
  all_dl_dh = [None] * (K+1)

  # all_h[0]은 입력이고 all_f[k]는 출력

  # 출력에 대한 손실 함수의 미분 계산(all_f의 k층에 저장)
  all_dl_df[K] = np.array(d_loss_d_output(all_f[K],y))

  # 네트워크를 통해 역방향으로 계산
  for layer in range(K,-1,-1): # 출력층부터 입력층까지 각 층을 거꾸로 반복
    # 현재 층(layer)의 바이어스에 대한 손실 함수의 미분을 계산
    all_dl_dbiases[layer] = np.array(all_dl_df[layer])
    # 현재 층(layer)의 가중치에 대한 손실 함수의 미분을 계산
    all_dl_dweights[layer] = np.matmul(all_dl_df[layer], all_h[layer].T)

    # 현재 층(layer)의 활성화값에 대한 손실 함수의 미분을 계산
    all_dl_dh[layer] = np.matmul(all_weights[layer].T, all_dl_df[layer])

    # Calculate the derivatives of the pre-activation f with respect to activation h (eq 7.13, line 3, first part)
    if layer > 0:
      all_dl_df[layer-1] = indicator_function(all_f[layer-1]) * all_dl_dh[layer]

  return all_dl_dweights, all_dl_dbiases, all_dl_dh, all_dl_df

- 신경망 구조에 따른 backward pass를 통한 각 층의 미분 값

In [None]:
# 신경망 구조
K = 5
D = 8
D_i = 1
D_o = 1
sigma_sq_omega = 1.0

# 파라미터 초기화
all_weights, all_biases = init_params(K,D,sigma_sq_omega)

# 각 층의 사전 활성화 함수에 대한 손실함수의 미분값 저장
n_data = 100 # 데이터 포인트 수
aggregate_dl_df = [None] * (K+1)

for layer in range(1,K): # 1~K(4) ->  은닉층
  aggregate_dl_df[layer] = np.zeros((D,n_data))
  # 층별로 (8, 100) 만큼 공간 확보 -> 은닉뉴런수가 8개고 데이터 포인터가 100개 이기 때문

# 데이터 포인트 수 만큼 반복
for c_data in range(n_data):

  data_in = np.random.normal(size=(1,1))
  y = np.zeros((1,1))

  net_output, all_f, all_h = compute_network_output(data_in, all_weights, all_biases)
  all_dl_dweights, all_dl_dbiases, all_dl_dh, all_dl_df = backward_pass(all_weights, all_biases, all_f, all_h, y)

  for layer in range(1,K): # 1~K(4) ->  은닉층
    aggregate_dl_df[layer][:,c_data] = np.squeeze(all_dl_df[layer])

# 각 층의 미분값에 대한 손실함수의 도함수 표준편차 비교
for layer in range(1,K):
  print("Layer %d, std of dl_dh = %3.3f"%(layer, np.std(aggregate_dl_df[layer].ravel())))
  # ravel(): 다차원의 배열을 1차원의 배열로
  # -> 배열의 차원을 무시하고 모든 요소의 표준 편차을 구하기 위해

Layer 1, std of dl_dh = 446.654
Layer 2, std of dl_dh = 340.657
Layer 3, std of dl_dh = 109.132
Layer 4, std of dl_dh = 56.472




---



3-1. 초기화 문제 - Backward pass

**TO DO**


> 1. 층 당 80개의 은닉유닛이 있는 50개의 층으로 변경해라
2. sigma_sq_omega를 조절하여 도함수의 분산이 폭발하는 것을 막아라

- He 초기화를 활용한 backward pass

In [None]:
K = 50
D = 80

def re_init_params(K, D):

  np.random.seed(0)

  D_i = 1
  D_o = 1

  all_weights = [None] * (K+1)
  all_biases = [None] * (K+1)

  all_weights[0] = np.random.normal(size=(D, D_i)) * np.sqrt(2 / D)
  all_weights[-1] = np.random.normal(size=(D_o, D)) * np.sqrt(2 / D_o)
  all_biases[0] = np.zeros((D,1))
  all_biases[-1]= np.zeros((D_o,1))

  for layer in range(1,K):
    all_weights[layer] = np.random.normal(size=(D,D)) * np.sqrt(2 / D)
    all_biases[layer] = np.zeros((D,1))

  return all_weights, all_biases

In [None]:
all_weights, all_biases = re_init_params(K,D)

# 단순화를 위해 첫 번째 은닉층과 마지막 은닉층 사이의 가중치와 편향의 기울기만 고려
n_data = 100 # 데이터 포인트 수
aggregate_dl_df = [None] * (K+1) # 뭐하는 사람이야
for layer in range(1,K): # 1~K(4) ->  은닉층
  # 3D array는 모든 데이터 포인트에 대한 그래디언트를 저장
  aggregate_dl_df[layer] = np.zeros((D,n_data)) # 층별로 (8, 100) 만큼 공간 확보 -> 은닉뉴런수가 8개고 데이터 포인터가 100개 이기 때문


# 각 데이터 포인트에 대한 매개 변수의 도함수를 개별적으로 계산해야함
for c_data in range(n_data):
  data_in = np.random.normal(size=(1,1))
  y = np.zeros((1,1))
  net_output, all_f, all_h = compute_network_output(data_in, all_weights, all_biases)
  all_dl_dweights, all_dl_dbiases, all_dl_dh, all_dl_df = backward_pass(all_weights, all_biases, all_f, all_h, y)
  for layer in range(1,K): # 1~K(4) ->  은닉층
    aggregate_dl_df[layer][:,c_data] = np.squeeze(all_dl_df[layer])

for layer in range(1,K):
  print("Layer %d, std of dl_dh = %3.3f"%(layer, np.std(aggregate_dl_df[layer].ravel())))

Layer 1, std of dl_dh = 2.439
Layer 2, std of dl_dh = 2.572
Layer 3, std of dl_dh = 2.935
Layer 4, std of dl_dh = 2.876
Layer 5, std of dl_dh = 2.683
Layer 6, std of dl_dh = 2.791
Layer 7, std of dl_dh = 2.920
Layer 8, std of dl_dh = 2.613
Layer 9, std of dl_dh = 2.622
Layer 10, std of dl_dh = 2.980
Layer 11, std of dl_dh = 3.040
Layer 12, std of dl_dh = 3.056
Layer 13, std of dl_dh = 2.792
Layer 14, std of dl_dh = 2.899
Layer 15, std of dl_dh = 3.037
Layer 16, std of dl_dh = 2.765
Layer 17, std of dl_dh = 2.364
Layer 18, std of dl_dh = 2.397
Layer 19, std of dl_dh = 2.148
Layer 20, std of dl_dh = 2.639
Layer 21, std of dl_dh = 2.426
Layer 22, std of dl_dh = 2.150
Layer 23, std of dl_dh = 2.224
Layer 24, std of dl_dh = 1.954
Layer 25, std of dl_dh = 2.004
Layer 26, std of dl_dh = 2.793
Layer 27, std of dl_dh = 2.313
Layer 28, std of dl_dh = 2.563
Layer 29, std of dl_dh = 2.771
Layer 30, std of dl_dh = 2.996
Layer 31, std of dl_dh = 3.072
Layer 32, std of dl_dh = 2.969
Layer 33, std of 