# 회귀 분석 : 전복의 고리 수 추정 신경망

In [1]:
# dataset : www.kaggle.com/rodolfomendes/abalone-dataset

### 딥러닝이랑
- 문제 풀이에 적합한 파라미터값의 조합을 구하는 것

### 퍼셉트론
- 입력 벡터로부터 출력 벡터를 얻어내려면, 출력 벡터의 크기의 스칼라 성분만큼 퍼셉트론이 필요

### 파라미터
- 파라미터 : 학습 과정 중에 끊임없이 변경되어 가면서 퍼셉트론의 동작 특성을 결정하는 값들
- 하이퍼파라미터: 에포크 수나 미니배치 크기처럼, 학습 과정에서 변경되지 않으면서 신경망 구조나 학습 결과에 영향을 미치는 고려 요인들

### 단층 퍼셉트론
- 은닉 계층 없이 출력 계층 하나만으로 구성되는 가장 간단한 신경망 구조

### 텐서
- 다차원 숫자 배열 정도로만 이해해도 큰 문제 없음
- 텐서 종류
    - 0차원 : 스칼라
    - 1차원 : 벡터
    - 2차원 : 행렬
    - 3차원 이상도 모두 텐서
- 반복문 대신 텐서를 이용해 처리하는 편이 프로그램도 간단하고 처리 속도도 훨씬 빠름
- 파이썬 인터프리터가 반복문보다 텐서 연산을 더 효율적으로 처리함

### 선형 연산, 비선형 연산
- 선형 연산 : 입력 성분의 일차식으로 표현되는 계산 과정
- 비선형 연산 : 일차식으로 나타낼 수 없는 계산 과정

### 에포크, epoch
- 학습 데이터 전체에 대한 한 차례 처리

### 신경망의 출력 유형
- 회귀 분석
- 이진 판단
- 선택 분류

### 회귀 분석
- 옛날 상태로 돌아간다는 뜻
- 부모와 자녀 키 사이의 상관관계를 연구하면서 가설을 세웠고, 이 같은 분석 방법을 회귀 분석 이라고 부름
- 통계학에서는 연속형 변수 사이의 모형을 구한 뒤, 적합도를 측정하는 분석 방법을 의미

### 평균제곱오차, MSE
- 얼마나 정확한지 숫자로 보여주는 정량적 지표가 필요
- 회귀 분석에서는 보통 평균제곱오차를 평가 지표로 삼음
- MSE : 출력 각 성분에 대해 추정값과 정답 사이의 차이인 오차를 제곱한 뒤 모두 합해 전체 성분 수로 나눈 값
- 제곱으로 항상 양수
- 추정이 정확할 수록 0에 가까움

### 손실 함수, loss function
- 다음과 같은 성질의 평가 지표를 손실 함수(loss function) 또는 비용 함수(cost function)라고 부름
    - 값이 항상 0 이상이며
    - 추정이 정확해질수록 값이 작아짐
    - 미분 가능
- 이를 최소화하는 것을 목표로 학습을 수행
- 함수라는 표현이 붙는 이유는 입력이나 신경망의 가중치에 따라 그 값이 달라지기 때문

### 경사하강법
- 함수의 기울기를 반복 계산하면서 이 기울기에 따라 함숫값이 낮아지는 방향으로 이동하는 기본적인 딥러닝 학습 알고리즘
- 딥러닝은 기본적으로 가변 파라미터를 갖는 신경망 구조를 설정한 후 학습을 통해 파라미터 값들을 조절하는 기법
- 퍼셉트론에서 파라미터란 가중치와 편향을 의미
- 경사하강법은 미니배치 입력 데이터에 대해 순전파와 역전파 과정을 번갈아 수행하는 과정을 반복하면서 신경망 파라미터들을 원하는 방향으로 바꿈

### 순전파, 역전파
- 순전파(forward propagation) : 입력 데이터에 대해 신경망 구조를 따라가면서 현재 파라미터값들을 이용해 손실 함숫값을 계산하는 과정
- 역전파(backward propagation, backpropagation) : 순전파의 계산 과정을 역순으로 거슬러가면서 손실 함숫값에 직간접적으로 영향을 미친 모든 성분에 대하여 손실 기울기를 계산하는 과정

### 경사하강법의 한계
- 항상 최적의 바닥점에 도달할 수 있다는 보장은 없음
- local minimum에 도달하는 문제가 있음
- 이를 위한 개선책과 보조 기법들이 제안되고 있음

### 학습률
- 역전파 과정 중에 가중치나 편향 같은 파라미터 성분에 대해서는 해당 성분의 손실 기울기에 학습률을 곱한 값을 빼줌으로써 그 값을 변경 시킴
- 학습률이 너무 작으면 바닥점에 도달하기까지 너무 긴 시간이 필요
- 학습률이 너무 크면 바닥점에 도달하지 못한 채 근처를 멤돌게 만들 수 있음
- 고정된 학습률 대신 학습 초반에는 큰 학습률을 사용하고 바닥점에 가까워질수록 학습률을 줄이는 기법들이 이용되고 있음

### 딥러닝 모델에서 값들
- 외부에서 주어지는 값
    - input
- 파라미터
- 각종 중간 계산 결과
- 하이퍼파라미터

### one-hot vector
- 비선형 정보를 항목별로 분할하여 해당 항목은 1, 나머지는 0으로 나타내는 방식
- 순서 관계나 값의 크기에 선형적 의미를 찾을 수 없을때 사용

In [4]:
import numpy as np
import csv
import time


In [3]:
np.random.seed(1234)
def randomize(): np.random.seed(time.time())

RND_MEAN = 0
RND_STD = 0.0030

LEARNING_RATE = 0.001

In [5]:
def load_abalone_dataset():
    with open('../jch/chap01/abalone.csv') as csvfile:
        csvreader = csv.reader(csvfile)
        next(csvreader, None)
        rows = []
        for row in csvreader:
            rows.append(row)
            
    global data, input_cnt, output_cnt
    input_cnt, output_cnt = 10, 1
    data = np.zeros([len(rows), input_cnt+output_cnt])

    for n, row in enumerate(rows):
        if row[0] == 'I': data[n, 0] = 1
        if row[0] == 'M': data[n, 1] = 1
        if row[0] == 'F': data[n, 2] = 1
        data[n, 3:] = row[1:]

In [6]:
def abalone_exec(epoch_count=10, mb_size=10, report=1):
    load_abalone_dataset()
    init_model()
    train_and_test(epoch_count, mb_size, report)

In [7]:
def init_model():
    global weight, bias, input_cnt, output_cnt
    weight = np.random.normal(RND_MEAN, RND_STD,[input_cnt, output_cnt])
    bias = np.zeros([output_cnt])

In [8]:
def train_and_test(epoch_count, mb_size, report):
    step_count = arrange_data(mb_size)
    test_x, test_y = get_test_data()
    
    for epoch in range(epoch_count):
        losses, accs = [], []
        
        for n in range(step_count):
            train_x, train_y = get_train_data(mb_size, n)
            loss, acc = run_train(train_x, train_y)
            losses.append(loss)
            accs.append(acc)
            
        if report > 0 and (epoch+1) % report == 0:
            acc = run_test(test_x, test_y)
            print('Epoch {}: loss={:5.3f}, accuracy={:5.3f}/{:5.3f}'. \
                  format(epoch+1, np.mean(losses), np.mean(accs), acc))
            
    final_acc = run_test(test_x, test_y)
    print('\nFinal Test: final accuracy = {:5.3f}'.format(final_acc))

In [9]:
def arrange_data(mb_size):
    global data, shuffle_map, test_begin_idx
    shuffle_map = np.arange(data.shape[0])
    np.random.shuffle(shuffle_map)
    step_count = int(data.shape[0] * 0.8) // mb_size
    test_begin_idx = step_count * mb_size
    return step_count

def get_test_data():
    global data, shuffle_map, test_begin_idx, output_cnt
    test_data = data[shuffle_map[test_begin_idx:]]
    return test_data[:, :-output_cnt], test_data[:, -output_cnt:]

def get_train_data(mb_size, nth):
    global data, shuffle_map, test_begin_idx, output_cnt
    if nth == 0:
        np.random.shuffle(shuffle_map[:test_begin_idx])
    train_data = data[shuffle_map[mb_size*nth:mb_size*(nth+1)]]
    return train_data[:, :-output_cnt], train_data[:, -output_cnt:]

In [10]:
def run_train(x, y):
    output, aux_nn = forward_neuralnet(x)
    loss, aux_pp = forward_postproc(output, y)
    accuracy = eval_accuracy(output, y)
    
    G_loss = 1.0
    G_output = backprop_postproc(G_loss, aux_pp)
    backprop_neuralnet(G_output, aux_nn)
    
    return loss, accuracy

def run_test(x, y):
    output, _ = forward_neuralnet(x)
    accuracy = eval_accuracy(output, y)
    return accuracy

In [11]:
def forward_neuralnet(x):
    global weight, bias
    output = np.matmul(x, weight) + bias
    return output, x

def backprop_neuralnet(G_output, x):
    global weight, bias
    g_output_w = x.transpose()
    
    G_w = np.matmul(g_output_w, G_output)
    G_b = np.sum(G_output, axis=0)

    weight -= LEARNING_RATE * G_w
    bias -= LEARNING_RATE * G_b

In [12]:
def forward_postproc(output, y):
    diff = output - y
    square = np.square(diff)
    loss = np.mean(square)
    return loss, diff

def backprop_postproc(G_loss, diff):
    shape = diff.shape
    
    g_loss_square = np.ones(shape) / np.prod(shape)
    g_square_diff = 2 * diff
    g_diff_output = 1

    G_square = g_loss_square * G_loss
    G_diff = g_square_diff * G_square
    G_output = g_diff_output * G_diff
    
    return G_output

In [13]:
def eval_accuracy(output, y):
    mdiff = np.mean(np.abs((output - y)/y))
    return 1 - mdiff

In [14]:
def backprop_postproc_oneline(G_loss, diff):  # backprop_postproc() 대신 사용 가능
    return 2 * diff / np.prod(diff.shape)

In [15]:
abalone_exec()

Epoch 1: loss=33.875, accuracy=0.557/0.812
Epoch 2: loss=8.226, accuracy=0.820/0.814
Epoch 3: loss=7.582, accuracy=0.812/0.809
Epoch 4: loss=7.475, accuracy=0.808/0.811
Epoch 5: loss=7.395, accuracy=0.810/0.809
Epoch 6: loss=7.328, accuracy=0.808/0.810
Epoch 7: loss=7.269, accuracy=0.808/0.811
Epoch 8: loss=7.217, accuracy=0.808/0.812
Epoch 9: loss=7.175, accuracy=0.810/0.810
Epoch 10: loss=7.135, accuracy=0.809/0.810

Final Test: final accuracy = 0.810


In [16]:
print(weight)
print(bias)

[[1.02697603]
 [1.47450981]
 [1.66960135]
 [2.04468668]
 [1.62513525]
 [0.60292627]
 [2.39993815]
 [0.54107313]
 [0.46878034]
 [1.01969382]]
[4.16894769]


In [17]:
LEARNING_RATE = 0.1
abalone_exec(epoch_count=100, mb_size=100, report=20)

Epoch 20: loss=5.804, accuracy=0.825/0.831
Epoch 40: loss=5.259, accuracy=0.834/0.828
Epoch 60: loss=5.056, accuracy=0.837/0.838
Epoch 80: loss=4.950, accuracy=0.838/0.840
Epoch 100: loss=4.910, accuracy=0.840/0.826

Final Test: final accuracy = 0.826
