### 9.2.1 ドロップアウト 

In [0]:
import numpy as np
# import cupy as np   # GPU를 사용하면 주석 해제
import matplotlib.pyplot as plt
from sklearn import datasets

# -- 각 설정값 --
img_size = 8  # 이미지 높이와 폭
n_noise = 16  # 노이즈 수
eta = 0.001  # 학습률
n_learn = 10001  # 학습 횟수
interval = 1000  # 경과 표시 간격
batch_size = 32

# -- 훈련 데이터 --
digits_data = datasets.load_digits()
x_train = np.asarray(digits_data.data)
x_train = x_train / 15*2-1  # 범위는 -1에서 1사이
t_train = digits_data.target

# -- 전결합층의 부모 클래스 --
class BaseLayer:
    def update(self, eta):
        self.w -= eta * self.grad_w
        self.b -= eta * self.grad_b

# -- 은닉층 --
class MiddleLayer(BaseLayer):
    def __init__(self, n_upper, n):
        self.w = np.random.randn(n_upper, n) * np.sqrt(2/n_upper)  # He 초깃값
        self.b = np.zeros(n)

    def forward(self, x):
        self.x = x
        self.u = np.dot(x, self.w) + self.b
        self.y = np.where(self.u <= 0, 0, self.u) # ReLU
    
    def backward(self, grad_y):
        delta = grad_y * np.where(self.u <= 0, 0, 1)

        self.grad_w = np.dot(self.x.T, delta)
        self.grad_b = np.sum(delta, axis=0)     
        self.grad_x = np.dot(delta, self.w.T) 

# -- 생성자 출력층 --
class GenOutLayer(BaseLayer):
    def __init__(self, n_upper, n):
        self.w = np.random.randn(n_upper, n) / np.sqrt(n_upper)  # 자비에르 초기화 기반의 초깃값
        self.b = np.zeros(n)

    def forward(self, x):
        self.x = x
        u = np.dot(x, self.w) + self.b
        self.y = np.tanh(u)  # tanh

    def backward(self, grad_y):
        delta = grad_y * (1 - self.y**2)
        
        self.grad_w = np.dot(self.x.T, delta)
        self.grad_b = np.sum(delta, axis=0)    
        self.grad_x = np.dot(delta, self.w.T) 

# -- 식별차 출력층 --
class DiscOutLayer(BaseLayer):
    def __init__(self, n_upper, n):
        self.w = np.random.randn(n_upper, n) / np.sqrt(n_upper)  # 자비에르 초기화 기반의 초깃값
        self.b = np.zeros(n)

    def forward(self, x):
        self.x = x
        u = np.dot(x, self.w) + self.b
        self.y = 1/(1+np.exp(-u))  # 시그모이드 함수

    def backward(self, t):
        delta = self.y-t
        
        self.grad_w = np.dot(self.x.T, delta)
        self.grad_b = np.sum(delta, axis=0)  
        self.grad_x = np.dot(delta, self.w.T) 

# -- 드롭 아웃 층 --
class DropoutLayer:
    def __init__(self, dropout_ratio):
        self.dropout_ratio = dropout_ratio  # # 뉴런을 제거할 확률

    def forward(self, x):
        if self.is_train:  # is_train: 학습일 때 True
            rand = np.random.rand(*x.shape)  # 입력과 동일한 형태의 난수 행렬
            self.dropout = np.where(rand > self.dropout_ratio, 1, 0)  # 1:유효 0: 무효(제거)
            self.y = x * self.dropout  # 뉴런을 무작위로 제거
        else:
            self.y = (1-self.dropout_ratio)*x   # 테스트일 때는 출력값을 낮춤
        
    def backward(self, grad_y):
        self.grad_x = grad_y * self.dropout  # 제거된 뉴런에서는 역전파하지 않는다

    def update(self, eta):
        pass

# -- 각 층의 초기화 --
gen_layers = [MiddleLayer(n_noise, 32),
              DropoutLayer(0.2),
              MiddleLayer(32, 64),
              DropoutLayer(0.2),
              GenOutLayer(64, img_size*img_size)]

disc_layers = [MiddleLayer(img_size*img_size, 64),
               MiddleLayer(64, 32),
               DiscOutLayer(32, 1)]

# -- 순전파 --
def forward_propagation(x, layers, is_train):
    for layer in layers:
        layer.is_train = is_train
        layer.forward(x)
        x = layer.y
    return x

# -- 역전파 --
def backpropagation(t, layers):
    grad_y = t
    for layer in reversed(layers):
        layer.backward(grad_y)
        grad_y = layer.grad_x
    return grad_y

# -- 파라미터 갱신 --
def update_params(layers):
    for layer in layers:
        layer.update(eta)

# -- 오차 계산 --
def get_error(y, t):
    eps = 1e-7
    return -np.sum(t*np.log(y+eps) + (1-t)*np.log(1-y+eps)) / len(y)  # 두 값의 교차 엔트로피 오차를 반환

# --  정확도 계산 --
def get_accuracy(y, t):
    correct = np.sum(np.where(y<0.5, 0, 1) == t)
    return correct / len(y)

# -- - 모델 훈련 - --
def train_model(x, t, prop_layers, update_layers):
    y = forward_propagation(x, prop_layers, True)
    backpropagation(t, prop_layers)
    update_params(update_layers)
    return (get_error(y, t), get_accuracy(y, t))

# -- - 이미지를 생성하고 나타냄  --
def generate_images(i):
   # 이미지 생성
    n_rows = 16  # 행수
    n_cols = 16  # 열수
    noise = np.random.normal(0, 1, (n_rows*n_cols, n_noise))
    g_imgs = forward_propagation(noise, gen_layers, False)
    g_imgs = g_imgs/2 + 0.5  # 범위는 0~1

    img_size_spaced = img_size + 2
    matrix_image = np.zeros((img_size_spaced*n_rows, img_size_spaced*n_cols))  # 이미지 전체

    # 생성된 이미지를 나열해 1장의 이미지로 만듦
    for r in range(n_rows):
        for c in range(n_cols):
            g_img = g_imgs[r*n_cols + c].reshape(img_size, img_size)
            top = r*img_size_spaced
            left = c*img_size_spaced
            matrix_image[top : top+img_size, left : left+img_size] = g_img

    plt.figure(figsize=(8, 8))
    plt.imshow(matrix_image.tolist(), cmap="Greys_r")
    plt.tick_params(labelbottom=False, labelleft=False, bottom=False, left=False)   # 축 눈금의 레이블과 선을 삭제
    plt.show()

# -- GAN학습 --
batch_half = batch_size // 2
error_record = np.zeros((n_learn, 2))
acc_record = np.zeros((n_learn, 2))
for i in range(n_learn):
    
   # 노이즈에서 이미지를 생성하여 식별자를 훈련시킴
    noise = np.random.normal(0, 1, (batch_half, n_noise))
    imgs_fake = forward_propagation(noise, gen_layers, False)   # 이미지 생성
    t = np.zeros((batch_half, 1))   # 정답은 0
    error, accuracy = train_model(imgs_fake, t, disc_layers, disc_layers)
    error_record[i][0] = error
    acc_record[i][0] = accuracy

    # 실제 이미지를 사용하여 식별자를 훈련시킴
    rand_ids = np.random.randint(len(x_train), size=batch_half)
    imgs_real = x_train[rand_ids, :]
    t = np.ones((batch_half, 1))  # 정답은 1
    error, accuracy = train_model(imgs_real, t, disc_layers, disc_layers)
    error_record[i][1] = error
    acc_record[i][1] = accuracy

     # 생성자와 식별자 모델을 결합해 생성자만 훈련시킴
    noise = np.random.normal(0, 1, (batch_size, n_noise))
    t = np.ones((batch_size, 1))  # 정답은 1
    train_model(noise, t, gen_layers+disc_layers, gen_layers)  # Generatorのみ訓練

    # 일정한 간격으로 오차와 생성된 이미지를 나타냄
    if i % interval == 0:
        print ("n_learn:", i)
        print ("Error_fake:", error_record[i][0] , "Acc_fake:", acc_record[i][0])
        print ("Error_real:", error_record[i][1] , "Acc_real:", acc_record[i][1])
        generate_images(i)

### 9.2.4 バッチ正規化

In [0]:
import numpy as np
# import cupy as np   # GPU를 사용하면 주석 해제
import matplotlib.pyplot as plt
from sklearn import datasets

# -- 각 설정값 --
img_size = 8 # 이미지의 높이와 폭
n_noise = 16 # 노이즈 수
eta = 0.001 # 학습률
n_learn = 10001 # 학습 횟수
interval = 1000 # 학습 결과 표시 간격
batch_size = 32

# -- 훈련 데이터 --
digits_data = datasets.load_digits()
x_train = np.asarray(digits_data.data)
x_train = x_train / 15*2-1  # 범위는 -1~1
t_train = digits_data.target

# --  전결합층의 부모 클래스 --
class BaseLayer:
    def update(self, eta):
        self.w -= eta * self.grad_w
        self.b -= eta * self.grad_b

# -- 은닉층 --
class MiddleLayer(BaseLayer):
    def __init__(self, n_upper, n):
        self.w = np.random.randn(n_upper, n) * np.sqrt(2/n_upper)  # He 초깃값
        self.b = np.zeros(n)

    def forward(self, x):
        self.x = x
        self.u = np.dot(x, self.w) + self.b
        self.y = np.where(self.u <= 0, 0, self.u) # ReLU
    
    def backward(self, grad_y):
        delta = grad_y * np.where(self.u <= 0, 0, 1)

        self.grad_w = np.dot(self.x.T, delta)
        self.grad_b = np.sum(delta, axis=0)     
        self.grad_x = np.dot(delta, self.w.T) 

# -- Generatorの出力層 --
class GenOutLayer(BaseLayer):
    def __init__(self, n_upper, n):
        self.w = np.random.randn(n_upper, n) / np.sqrt(n_upper)  # Xavierの初期値
        self.b = np.zeros(n)

    def forward(self, x):
        self.x = x
        u = np.dot(x, self.w) + self.b
        self.y = np.tanh(u)  # tanh

    def backward(self, grad_y):
        delta = grad_y * (1 - self.y**2)
        
        self.grad_w = np.dot(self.x.T, delta)
        self.grad_b = np.sum(delta, axis=0)    
        self.grad_x = np.dot(delta, self.w.T) 

# -- 생성자의 출력층 --
class DiscOutLayer(BaseLayer):
    def __init__(self, n_upper, n):
        self.w = np.random.randn(n_upper, n) / np.sqrt(n_upper)  # 자비에르 초기화 기반의 초깃값
        self.b = np.zeros(n)

    def forward(self, x):
        self.x = x
        u = np.dot(x, self.w) + self.b
        self.y = 1/(1+np.exp(-u))  # 시그모이드 함수

    def backward(self, t):
        delta = self.y-t
        
        self.grad_w = np.dot(self.x.T, delta)
        self.grad_b = np.sum(delta, axis=0)  
        self.grad_x = np.dot(delta, self.w.T) 

# -- 배치 정규화 층 --
class BatchNormLayer:
    def __init__(self, n, alpha):
        self.gamma = np.ones(n)
        self.beta = np.zeros(n)

        self.alpha = alpha  # 이동평균에 이용하는 상수
        self.mov_ave = np.zeros(n)   # 평균의 이동평균
        self.move_var = np.ones(n)   # 분산의 이동평균
            
    def forward(self, x):
        eps = 1e-7  # 아주 작은 값   
        if self.is_train:
            self.mu = np.average(x, axis=0)
            self.x_bar = x - self.mu
            self.var = np.mean(self.x_bar**2, axis=0)
            self.s = np.sqrt(self.var+eps)
            self.x_hat = self.x_bar / self.s
            
            self.mov_ave = self.alpha*self.mu + (1-self.alpha)*self.mov_ave
            self.move_var = self.alpha*self.var + (1-self.alpha)*self.move_var
        else:
            self.x_hat = (x-self.mov_ave) / (np.sqrt(self.move_var+eps))
            
        self.y = self.gamma*self.x_hat + self.beta 

    def backward(self, grad_y):
        h = len(grad_y)   # 배치 사이즈

        self.grad_gamma = np.sum(self.x_hat*grad_y, axis=0)
        self.grad_beta = np.sum(grad_y, axis=0)

        grad_x_hat = self.gamma * grad_y
        grad_var = -0.5 / (self.s**3) * np.sum(self.x_bar*grad_x_hat, axis=0)
        grad_x_bar = grad_x_hat/self.s + 2*self.x_bar/h*grad_var
        grad_mu = -np.sum(grad_x_bar, axis=0)
        self.grad_x = grad_x_bar + grad_mu/h
        
    def update(self, eta):
        self.gamma -= eta * self.grad_gamma
        self.beta -= eta * self.grad_beta

# -- 각 층의 초기화 --
gen_layers = [MiddleLayer(n_noise, 32),
              BatchNormLayer(32, 0.1),
              MiddleLayer(32, 64),
              BatchNormLayer(64, 0.1),
              GenOutLayer(64, img_size*img_size)]

disc_layers = [MiddleLayer(img_size*img_size, 64),
               MiddleLayer(64, 32),
               DiscOutLayer(32, 1)]

# -- 순전파 --
def forward_propagation(x, layers, is_train):
    for layer in layers:
        layer.is_train = is_train
        layer.forward(x)
        x = layer.y
    return x

# -- 역전파 --
def backpropagation(t, layers):
    grad_y = t
    for layer in reversed(layers):
        layer.backward(grad_y)
        grad_y = layer.grad_x
    return grad_y

# -- 파라미터 갱신 --
def update_params(layers):
    for layer in layers:
        layer.update(eta)

# -- 오차 계산 --
def get_error(y, t):
    eps = 1e-7
    return -np.sum(t*np.log(y+eps) + (1-t)*np.log(1-y+eps)) / len(y)   # 두 값의 교차 엔트로피 오차를 반환

# -- - 정확도 계산 -- --
def get_accuracy(y, t):
    correct = np.sum(np.where(y<0.5, 0, 1) == t)
    return correct / len(y)

# -- 모델 훈련 ----
def train_model(x, t, prop_layers, update_layers):
    y = forward_propagation(x, prop_layers, True)
    backpropagation(t, prop_layers)
    update_params(update_layers)
    return (get_error(y, t), get_accuracy(y, t))

# -- 이미지를 생성하고 나타냄 --
def generate_images(i):
    # 이미지 생성
    n_rows = 16  # 행수
    n_cols = 16  # 열수
    noise = np.random.normal(0, 1, (n_rows*n_cols, n_noise))
    g_imgs = forward_propagation(noise, gen_layers, False)
    g_imgs = g_imgs/2 + 0.5  #  범위는 0~1

    img_size_spaced = img_size + 2
    matrix_image = np.zeros((img_size_spaced*n_rows, img_size_spaced*n_cols)) # 이미지 전체

    # 생성된 이미지를 나열해 1장의 이미지로 만듦
    for r in range(n_rows):
        for c in range(n_cols):
            g_img = g_imgs[r*n_cols + c].reshape(img_size, img_size)
            top = r*img_size_spaced
            left = c*img_size_spaced
            matrix_image[top : top+img_size, left : left+img_size] = g_img

    plt.figure(figsize=(8, 8))
    plt.imshow(matrix_image.tolist(), cmap="Greys_r")
    plt.tick_params(labelbottom=False, labelleft=False, bottom=False, left=False)   # 축 눈금의 레이블과 선을 삭제
    plt.show()

# -- GAN 학습 --
batch_half = batch_size // 2
error_record = np.zeros((n_learn, 2))
acc_record = np.zeros((n_learn, 2))
for i in range(n_learn):
    
  # 노이즈에서 이미지를 생성하여 식별자를 훈련시킴
    noise = np.random.normal(0, 1, (batch_half, n_noise))
    imgs_fake = forward_propagation(noise, gen_layers, False)  # 이미지 생성
    t = np.zeros((batch_half, 1))  # 정답은 0
    error, accuracy = train_model(imgs_fake, t, disc_layers, disc_layers)
    error_record[i][0] = error
    acc_record[i][0] = accuracy

   # 실제 이미지를 사용하여 식별자를 훈련시킴
    rand_ids = np.random.randint(len(x_train), size=batch_half)
    imgs_real = x_train[rand_ids, :]
    t = np.ones((batch_half, 1))  # 정답은 1
    error, accuracy = train_model(imgs_real, t, disc_layers, disc_layers)
    error_record[i][1] = error
    acc_record[i][1] = accuracy

   # 생성자와 식별자 모델을 결합해 생성자만 훈련시킴
    noise = np.random.normal(0, 1, (batch_size, n_noise))
    t = np.ones((batch_size, 1))  # 정답은 1
    train_model(noise, t, gen_layers+disc_layers, gen_layers) 

   # 일정한 간격으로 오차와 생성된 이미지를 나타냄
    if i % interval == 0:
        print ("n_learn:", i)
        print ("Error_fake:", error_record[i][0] , "Acc_fake:", acc_record[i][0])
        print ("Error_real:", error_record[i][1] , "Acc_real:", acc_record[i][1])
        generate_images(i)