# HW5: Convolutional Neural Networks 연습문제

***참고: 이번 과제5도 Stanford 대학 cs231n 수업의 자료를 기반으로 함***
***http://cs231n.stanford.edu/***

지난 과제3까지는 fully connected 방식의 neural network에 대해서 학습하였다. 이번 과제에서는 convolutional 방식의 neural network에 대해 학습한다. 지난 과제와 비슷하게, convolutional neuron 및 max-pooling 등 layer의 연산 및 gradient 계산 기능을 구현하고, 이들 layer들을 조합하여 network를 구성하고 학습하는 내용을 포함한다.

### 셀1: 환경 설정

필요한 패키지 임포트, 그래프plot 크기 설정, 영상 config 설정 등 수행하며, 별도의 코딩 없이 수행만 시키면 됨.

In [4]:
# Setup cell.
import numpy as np
import matplotlib.pyplot as plt
from intro2ai.classifiers.cnn import *
from intro2ai.data_utils import get_CIFAR10_data
from intro2ai.gradient_check import eval_numerical_gradient_array, eval_numerical_gradient
from intro2ai.layers import *
from intro2ai.fast_layers import *
from intro2ai.solver import Solver

%matplotlib inline
plt.rcParams['figure.figsize'] = (10.0, 8.0) # set default size of plots
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

# for auto-reloading external modules
# see http://stackoverflow.com/questions/1907993/autoreload-of-modules-in-ipython
%load_ext autoreload
%autoreload 2

def rel_error(x, y):
  """ returns relative error """
  return np.max(np.abs(x - y) / (np.maximum(1e-8, np.abs(x) + np.abs(y))))

	You will need to compile a Cython extension for a portion of this assignment.
	The instructions to do this will be given in a section of the notebook below.


### 셀2: CIFAR-10 Data Loading and Preprocessing

다음 셀에서는 모두 데이터 불러오기 및 전처리 등을 수행하며, 역시 별도의 코딩 없이 수행만 시키면 됨.

In [5]:
# Load the (preprocessed) CIFAR-10 data.
data = get_CIFAR10_data()
for k, v in list(data.items()):
    print(f"{k}: {v.shape}")

X_train: (49000, 3, 32, 32)
y_train: (49000,)
X_val: (1000, 3, 32, 32)
y_val: (1000,)
X_test: (1000, 3, 32, 32)
y_test: (1000,)


## 셀3-7: Convolution, Max-pooling layer forward/backward 함수 구현

### 구현문제1: Linear (affine) layer forward 함수 구현 & 셀3: 유효성 확인

**구현문제1**: 파일 `intro2ai/layers.py`을 열어서 convolutional layer에 대한 `conv_forward_naive` 함수를 구현하시오.

현 단계에서는 코드의 수행 속도에 대해서 고민하지 않아도 되며, 우선 구현을 완료하는데 중점을 두시오. 구현을 완료한 후 다음 셀을 실행하여 구현한 함수의 유효성을 검증함:

In [None]:
x_shape = (2, 3, 4, 4)
w_shape = (3, 3, 4, 4)
x = np.linspace(-0.1, 0.5, num=np.prod(x_shape)).reshape(x_shape)
w = np.linspace(-0.2, 0.3, num=np.prod(w_shape)).reshape(w_shape)
b = np.linspace(-0.1, 0.2, num=3)

conv_param = {'stride': 2, 'pad': 1}
out, _ = conv_forward_naive(x, w, b, conv_param)
correct_out = np.array([[[[-0.08759809, -0.10987781],
                           [-0.18387192, -0.2109216 ]],
                          [[ 0.21027089,  0.21661097],
                           [ 0.22847626,  0.23004637]],
                          [[ 0.50813986,  0.54309974],
                           [ 0.64082444,  0.67101435]]],
                         [[[-0.98053589, -1.03143541],
                           [-1.19128892, -1.24695841]],
                          [[ 0.69108355,  0.66880383],
                           [ 0.59480972,  0.56776003]],
                          [[ 2.36270298,  2.36904306],
                           [ 2.38090835,  2.38247847]]]])

# Compare your output to ours; difference should be around e-8
print('Testing conv_forward_naive')
print('difference: ', rel_error(out, correct_out))

### 셀4: Convolution 기반 영상처리 연산을 통한 구현 함수의 유효성 검증

구현한 함수의 유효성을 확인하고 convolutional layer에서 수행되는 연산을 더 잘 이해하기 위해 아래 셀에서는 구현한 함수를 이용하여 두 개의 영상에 대해 흔히 적용되는 컬러-흑백 변환과 에지 검출 등의 영상처리 연산을 적용함. 설정한 convolution kernel 값에 의해 해당 종류의 연산이 달라지게 되며, 연산 과정은 convolution의 forward pass 연산으로 동일함. 연산 결과를 시각화하여 convolution 연산이 제대로 수행되었는지 확인할 수 있음.

In [None]:
from imageio import imread
from PIL import Image

kitten = imread('intro2ai/notebook_images/kitten.jpg')
puppy = imread('intro2ai/notebook_images/puppy.jpg')
# kitten is wide, and puppy is already square
d = kitten.shape[1] - kitten.shape[0]
kitten_cropped = kitten[:, d//2:-d//2, :]

img_size = 200   # Make this smaller if it runs too slow
resized_puppy = np.array(Image.fromarray(puppy).resize((img_size, img_size)))
resized_kitten = np.array(Image.fromarray(kitten_cropped).resize((img_size, img_size)))
x = np.zeros((2, 3, img_size, img_size))
x[0, :, :, :] = resized_puppy.transpose((2, 0, 1))
x[1, :, :, :] = resized_kitten.transpose((2, 0, 1))

# Set up a convolutional weights holding 2 filters, each 3x3
w = np.zeros((2, 3, 3, 3))

# The first filter converts the image to grayscale.
# Set up the red, green, and blue channels of the filter.
w[0, 0, :, :] = [[0, 0, 0], [0, 0.3, 0], [0, 0, 0]]
w[0, 1, :, :] = [[0, 0, 0], [0, 0.6, 0], [0, 0, 0]]
w[0, 2, :, :] = [[0, 0, 0], [0, 0.1, 0], [0, 0, 0]]

# Second filter detects horizontal edges in the blue channel.
w[1, 2, :, :] = [[1, 2, 1], [0, 0, 0], [-1, -2, -1]]

# Vector of biases. We don't need any bias for the grayscale
# filter, but for the edge detection filter we want to add 128
# to each output so that nothing is negative.
b = np.array([0, 128])

# Compute the result of convolving each input in x with each filter in w,
# offsetting by b, and storing the results in out.
out, _ = conv_forward_naive(x, w, b, {'stride': 1, 'pad': 1})

def imshow_no_ax(img, normalize=True):
    """ Tiny helper to show images as uint8 and remove axis labels """
    if normalize:
        img_max, img_min = np.max(img), np.min(img)
        img = 255.0 * (img - img_min) / (img_max - img_min)
    plt.imshow(img.astype('uint8'))
    plt.gca().axis('off')

# Show the original images and the results of the conv operation
plt.subplot(2, 3, 1)
imshow_no_ax(puppy, normalize=False)
plt.title('Original image')
plt.subplot(2, 3, 2)
imshow_no_ax(out[0, 0])
plt.title('Grayscale')
plt.subplot(2, 3, 3)
imshow_no_ax(out[0, 1])
plt.title('Edges')
plt.subplot(2, 3, 4)
imshow_no_ax(kitten_cropped, normalize=False)
plt.subplot(2, 3, 5)
imshow_no_ax(out[1, 0])
plt.subplot(2, 3, 6)
imshow_no_ax(out[1, 1])
plt.show()

### 구현문제2: Linear (affine) layer backward 함수 구현 & 셀5: 유효성 확인

**구현문제2**: 파일 `intro2ai/layers.py`을 열어서 convolutional layer에 대한 `conv_backward_naive` 함수를 구현하시오. 

현 단계에서는 코드의 수행 속도에 대해서 고민하지 않아도 되며, 함수 구현 후 아래 셀을 실행하여 함수의 유효성을 검증함:

In [None]:
np.random.seed(231)
x = np.random.randn(4, 3, 5, 5)
w = np.random.randn(2, 3, 3, 3)
b = np.random.randn(2,)
dout = np.random.randn(4, 2, 5, 5)
conv_param = {'stride': 1, 'pad': 1}

dx_num = eval_numerical_gradient_array(lambda x: conv_forward_naive(x, w, b, conv_param)[0], x, dout)
dw_num = eval_numerical_gradient_array(lambda w: conv_forward_naive(x, w, b, conv_param)[0], w, dout)
db_num = eval_numerical_gradient_array(lambda b: conv_forward_naive(x, w, b, conv_param)[0], b, dout)

out, cache = conv_forward_naive(x, w, b, conv_param)
dx, dw, db = conv_backward_naive(dout, cache)

# Your errors should be around e-8 or less.
print('Testing conv_backward_naive function')
print('dx error: ', rel_error(dx, dx_num))
print('dw error: ', rel_error(dw, dw_num))
print('db error: ', rel_error(db, db_num))

### 구현문제3: Max-Pooling layer naive forward 함수 구현 & 셀5: 유효성 확인

**구현문제1**: 파일 `intro2ai/layers.py`을 열어서 convolutional layer에 대한 `max_pool_forward_naive` 함수를 구현하시오.

현 단계에서는 코드의 수행 속도에 대해서 고민하지 않아도 되며, 우선 구현을 완료하는데 중점을 두시오. 구현을 완료한 후 다음 셀을 실행하여 구현한 함수의 유효성을 검증함:

In [None]:
x_shape = (2, 3, 4, 4)
x = np.linspace(-0.3, 0.4, num=np.prod(x_shape)).reshape(x_shape)
pool_param = {'pool_width': 2, 'pool_height': 2, 'stride': 2}

out, _ = max_pool_forward_naive(x, pool_param)

correct_out = np.array([[[[-0.26315789, -0.24842105],
                          [-0.20421053, -0.18947368]],
                         [[-0.14526316, -0.13052632],
                          [-0.08631579, -0.07157895]],
                         [[-0.02736842, -0.01263158],
                          [ 0.03157895,  0.04631579]]],
                        [[[ 0.09052632,  0.10526316],
                          [ 0.14947368,  0.16421053]],
                         [[ 0.20842105,  0.22315789],
                          [ 0.26736842,  0.28210526]],
                         [[ 0.32631579,  0.34105263],
                          [ 0.38526316,  0.4       ]]]])

# Compare your output with ours. Difference should be on the order of e-8.
print('Testing max_pool_forward_naive function:')
print('difference: ', rel_error(out, correct_out))

### 구현문제4: Max-Pooling: Naive Backward 함수 구현 & 셀7: 유효성 확인

**구현문제4**: 파일 `intro2ai/layers.py`을 열어서 convolutional layer에 대한 `max_pool_backward_naive` 함수를 구현하시오. 

현 단계에서는 코드의 수행 속도에 대해서 고민하지 않아도 되며, 함수 구현 후 아래 셀을 실행하여 함수의 유효성을 검증함:

In [None]:
np.random.seed(231)
x = np.random.randn(3, 2, 8, 8)
dout = np.random.randn(3, 2, 4, 4)
pool_param = {'pool_height': 2, 'pool_width': 2, 'stride': 2}

dx_num = eval_numerical_gradient_array(lambda x: max_pool_forward_naive(x, pool_param)[0], x, dout)

out, cache = max_pool_forward_naive(x, pool_param)
dx = max_pool_backward_naive(dout, cache)

# Your error should be on the order of e-12
print('Testing max_pool_backward_naive function:')
print('dx error: ', rel_error(dx, dx_num))

## 셀8-9: Convolutional "Sandwich" Layers 호출 테스트

지난 과제와 유사하게, 흔히 사용되는 '샌드위치' 형태의 복수의 layer들을 하나의 layer처럼 선언해 주는 함수를 파일 `intro2ai/layer_utils.py`에 정의하고, 이를 이용하여 convolutional network를 손쉽게 정의할 수 있도록 함. 아래 셀들을 호출하여 해당 함수들의 활용 방법을 파악하고 유효성을 검증함.

In [None]:
from intro2ai.layer_utils import conv_relu_pool_forward, conv_relu_pool_backward
np.random.seed(231)
x = np.random.randn(2, 3, 16, 16)
w = np.random.randn(3, 3, 3, 3)
b = np.random.randn(3,)
dout = np.random.randn(2, 3, 8, 8)
conv_param = {'stride': 1, 'pad': 1}
pool_param = {'pool_height': 2, 'pool_width': 2, 'stride': 2}

out, cache = conv_relu_pool_forward(x, w, b, conv_param, pool_param)
dx, dw, db = conv_relu_pool_backward(dout, cache)

dx_num = eval_numerical_gradient_array(lambda x: conv_relu_pool_forward(x, w, b, conv_param, pool_param)[0], x, dout)
dw_num = eval_numerical_gradient_array(lambda w: conv_relu_pool_forward(x, w, b, conv_param, pool_param)[0], w, dout)
db_num = eval_numerical_gradient_array(lambda b: conv_relu_pool_forward(x, w, b, conv_param, pool_param)[0], b, dout)

# Relative errors should be around e-8 or less
print('Testing conv_relu_pool')
print('dx error: ', rel_error(dx_num, dx))
print('dw error: ', rel_error(dw_num, dw))
print('db error: ', rel_error(db_num, db))

In [None]:
from intro2ai.layer_utils import conv_relu_forward, conv_relu_backward
np.random.seed(231)
x = np.random.randn(2, 3, 8, 8)
w = np.random.randn(3, 3, 3, 3)
b = np.random.randn(3,)
dout = np.random.randn(2, 3, 8, 8)
conv_param = {'stride': 1, 'pad': 1}

out, cache = conv_relu_forward(x, w, b, conv_param)
dx, dw, db = conv_relu_backward(dout, cache)

dx_num = eval_numerical_gradient_array(lambda x: conv_relu_forward(x, w, b, conv_param)[0], x, dout)
dw_num = eval_numerical_gradient_array(lambda w: conv_relu_forward(x, w, b, conv_param)[0], w, dout)
db_num = eval_numerical_gradient_array(lambda b: conv_relu_forward(x, w, b, conv_param)[0], b, dout)

# Relative errors should be around e-8 or less
print('Testing conv_relu:')
print('dx error: ', rel_error(dx_num, dx))
print('dw error: ', rel_error(dw_num, dw))
print('db error: ', rel_error(db_num, db))

## 셀10-19: Three Layer Convolutional Neural Network 학습 및 활용

필요한 모든 layer들을 구현하였으므로, 이들을 결합하여 간단한 CNN을 정의할 수 있음. 

### 구현문제5: Three layer CNN 구현 & 셀10: 유효성 확인

**구현문제5**: 파일 `intro2ai/classifiers/cnn.py`을 열고 `ThreeLayerConvNet` class의 구현을 완성하시오. 이때 샌드위치 layer도 활용할 수 있음. 

구현 과정 중 아래의 셀들을 디버깅하는데 이용할 수 있음:

### 셀11: Loss의 유효성 검증 (sanity check) 

새로운 network를 정의한 후 loss 값에 대한 유효성 검증부터 해야 함. Softmax loss를 적용하는 경우 random한 weight 값에 대한 loss 값은 for `C`개의 class에 대해 약 `log(C)` 값이 됨. Regularization을 더할 경우 이 값이 조금 커짐.

In [None]:
model = ThreeLayerConvNet()

N = 50
X = np.random.randn(N, 3, 32, 32)
y = np.random.randint(10, size=N)

loss, grads = model.loss(X, y)
print('Initial loss (no regularization): ', loss)

model.reg = 0.5
loss, grads = model.loss(X, y)
print('Initial loss (with regularization): ', loss)

### 셀12: Gradient의 유효성 검증

Loss 함수 값에 문제가 없는 것으로 확인될 경우, 수치적인(numerical) gradient 검증 과정을 거쳐서 backward pass의 유효성도 검증함. 수치적인 검증을 할 때 각 layer마다 소량의 인공적 데이터와 소수의 neuron을 사용함. 
주의사항: 정확하게 구현했을 경우에도 10^-2 정도의 상대적인 에러가 남을 수 있음.

In [None]:
num_inputs = 2
input_dim = (3, 16, 16)
reg = 0.0
num_classes = 10
np.random.seed(231)
X = np.random.randn(num_inputs, *input_dim)
y = np.random.randint(num_classes, size=num_inputs)

model = ThreeLayerConvNet(
    num_filters=3,
    filter_size=3,
    input_dim=input_dim,
    hidden_dim=7,
    dtype=np.float64
)
loss, grads = model.loss(X, y)
# Errors should be small, but correct implementations may have
# relative errors up to the order of e-2
for param_name in sorted(grads):
    f = lambda _: model.loss(X, y)[0]
    param_grad_num = eval_numerical_gradient(f, model.params[param_name], verbose=False, h=1e-6)
    e = rel_error(param_grad_num, grads[param_name])
    print('%s max relative error: %e' % (param_name, rel_error(param_grad_num, grads[param_name])))

### 셀13-16: 소량의 Data에 대한 Overfitting

모델을 학습할 때 효과적인 트릭은 아주 소량의 학습 데이터에 대해 모델을 학습하는 방식이다. 학습 데이터 양이 아주 적을 때에는 모델이 데이터에 쉽게 fitting이 될 것이며 아주 쉽게 overfitting이 될 것임. Overfitting이 된 경우에는 학습 데이터의 추정 정확도가 매우 높게 도출됨.

In [None]:
np.random.seed(231)

num_train = 100
small_data = {
  'X_train': data['X_train'][:num_train],
  'y_train': data['y_train'][:num_train],
  'X_val': data['X_val'],
  'y_val': data['y_val'],
}

model = ThreeLayerConvNet(weight_scale=1e-2)

solver = Solver(
    model,
    small_data,
    num_epochs=15,
    batch_size=50,
    update_rule='adam',
    optim_config={'learning_rate': 1e-3,},
    verbose=True,
    print_every=1
)
solver.train()

In [None]:
# Print final training accuracy.
print(
    "Small data training accuracy:",
    solver.check_accuracy(small_data['X_train'], small_data['y_train'])
)

In [None]:
# Print final validation accuracy.
print(
    "Small data validation accuracy:",
    solver.check_accuracy(small_data['X_val'], small_data['y_val'])
)

Loss, training accuracy, and validation accuracy 등의 값을 그래프로 그리면 overfitting의 여지가 분명하게 들어날 것임:

In [None]:
plt.subplot(2, 1, 1)
plt.plot(solver.loss_history, 'o')
plt.xlabel('iteration')
plt.ylabel('loss')

plt.subplot(2, 1, 2)
plt.plot(solver.train_acc_history, '-o')
plt.plot(solver.val_acc_history, '-o')
plt.legend(['train', 'val'], loc='upper left')
plt.xlabel('epoch')
plt.ylabel('accuracy')
plt.show()

### 셀17-19: Network 학습

3-layer CNN을 1 세대(epoch)를 학습한 후에는 training set에 대해 40% 이상의 accuracy이 도출될 것임:

In [None]:
model = ThreeLayerConvNet(weight_scale=0.001, hidden_dim=500, reg=0.001)

solver = Solver(
    model,
    data,
    num_epochs=1,
    batch_size=50,
    update_rule='adam',
    optim_config={'learning_rate': 1e-3,},
    verbose=True,
    print_every=20
)
solver.train()

In [None]:
# Print final training accuracy.
print(
    "Full data training accuracy:",
    solver.check_accuracy(data['X_train'], data['y_train'])
)

In [None]:
# Print final validation accuracy.
print(
    "Full data validation accuracy:",
    solver.check_accuracy(data['X_val'], data['y_val'])
)

### 셀20: Filter (convolutional kernel) 시각화

아래 셀을 실행하여 CNN의 첫번째 layer의 convolutional neuron(filter)의 수치를 확인할 수 있음:

In [None]:
from intro2ai.vis_utils import visualize_grid

grid = visualize_grid(model.params['W1'].transpose(0, 2, 3, 1))
plt.imshow(grid.astype('uint8'))
plt.axis('off')
plt.gcf().set_size_inches(5, 5)
plt.show()