# 2 신경망의 수학적 구성요소

## - 신경망의 데이터 표현

**텐서**를 하나의 data 구성 단위로 생각한다. 
텐서는 임의의 차원을 가지는 데이터 컨테이너라고 생각하면 된다.
여기서 임의의 차원을 랭크(rank)로 표현 할 수 있다. 가령 랭크-2 텐서는 행렬과 같다.

### 각 랭크별 텐서가 어떤 값을 가지는 지 알아보자
- 스칼라 (랭크 0)
- 벡터 (랭크 1)
- 행렬 (랭크 2)
- 랭크 3 텐서
- 랭크 4 텐서
- ...


In [1]:
# 코드로 각 텐서를 구현해보기

import numpy as np

#scalar
x = np.array(12)
print('----sclar----')
print(x)
print(x.ndim)

#vector
x = np.array([1,14,12,5])
print('----vector----')
print(x)
print(x.ndim)


#matrix
x = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
print('----matrix----')
print(x)
print(x.ndim)


#rank-3 tensor
x = np.array([[[1,2,3,4],[5,6,7,8],[9,10,11,12]],[[1,2,3,4],[5,6,7,8],[9,10,11,12]],[[1,2,3,4],[5,6,7,8],[9,10,11,12]]])
print('----rank-3 tensor----')
print(x)
print(x.ndim)

----sclar----
12
0
----vector----
[ 1 14 12  5]
1
----matrix----
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
2
----rank-3 tensor----
[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]]
3


## - 텐서의 핵심속성
- 축의 개수(rank)
- 크기(shape, 각 축의 차원의 크기)
- 데이터 타입

텐서가 몇 rank로 구성되어 있으며, 각 축마다의 크기가 어떤지 shape와 데이터가 어떤 타입으로 이뤄져 있는지 아는 것이 중요하다.

넘파이 배열 구조의 텐서는 축의 개수, 크기, 데이터 타입을 구해주는 모듈이 있어 사용하기 간편하다.  
: ndim / shape / dtype

### 랭크별 텐서의 실졔 예시를 살펴보자

#### - 벡터데이터

데이터 포인트를 벡터로 표현할 수 있다.  
ex) 사람의 나이 성별 소득으로 구성된 통계 데이터는 (샘플수, 3)의 벡터로 표현이 가능하다.   
이는 행렬로 볼 수 있겠지만 **벡터의 배열**로 본다.

#### - 시퀀스 데이터

시계열 데이터라고도 하며, 시간 순서에 따라 특성들이 나열된 데이터이다.    
ex) 주식 가격 데이터 => 현재 주식, 이전 최고 최저 가격(3차원 벡터)으로 나타낸 것들을 1분 단위로 나타내면 (390,3)이 되고  
이를 하루로 보고 250일에 대한 주식 데이터는 (250, 390, 3)의 크기를 갖는다.

#### - 이미지 데이터

높이 너비 컬러채널을 갖는 3차원 데이터이다. 흑백의 경우 관례적으로 채널을 1로 보고 컬러라면 rgb값인 3을 갖는다.  
ex) 높이 너비 128 x 128을 갖는 컬러 이미지는 (128,128,3)의 크기를 갖는다.

#### - 비디오 데이터

이미지 데이터 + 시퀀스 데이터라고 생각하면 된다. 각 프레임의 연속적인 집합이다.  
ex) 60초짜리 144 x 256 유튜브 비디오 클립을 초당 4프레임으로 샘플링하면 (240, 144, 256, 3)의 크기를 갖는다.

## - 텐서의 연산

딥러닝이 학습한 모든 변환을 수치 데이터 텐서에 적용하는 것을 **텐서 연산, 텐서 함수** 라고 한다.  
딥러닝의 텐서 연산에는 일반적으로 다음과 같은 것들이 있다.  

- 입력 텐서와 w 텐서의 점곱
- 점곱을 만들어진 행렬과 벡터 b의 덧셈
- relu와 같은 activation func 연산

-> 이를 기하학적으로 해석 할 수 있다.   
즉, 연산을 거치면서 데이터가 가지는 표현들이 달라지는 것이고 그 표현을 어떻게 달라지게 해야 모델을 표현할 수 있는지 아는 것이다.


## - 그레이디언트 기반 최적화

- 훈련 루프 동안 손실을 계속해서 낮춰야 하는데, 그것을 가능하게 하는 것이 그레이디언트 기반 최적화이다.

y = f(x1, x2)일 때, x1, x2가 y에 미치는 영향을 보기 위해서는 편미분 값이 필요하다.  
x1에 대한 y의 미분은 x1이 변하는 값에 대한 y값이 변하는 정도를 나타낸다.  
가령 y = x + 1은 x가 1만큼 변하면 y도 1만큼 변한다는 의미와 일맥상통하다.
  
- w, b의 각각의 gradient를 구하면 각 w / b가 loss에 미치는 정도를 알 수 있다.  

따라서 미분 가능한 loss 함수가 주어지면 각 w / b는 해당 값의 gradient 방향 반대로 움직이면 손실이 조금씩 감소할 것이라는 개념을  
**확률적 경사 하강법**이라고 한다.

- 확률적 경사 하강법에 의거하여 파라미터를 업데이트하기 위해서는 가중치에 대한 손실함수의 그레이디언트를 구할 수 있는 것은 연쇄법칙 덕분이다.

연쇄법칙을 통해 역전파 알고리즘을 적용하면 어떤 복잡한 식의 그레이디언트라도 구할 수 있게 된다.

--------------------------------------------------------------------------

tensorflow와 같은 최신 딥러닝 프레임 워크는 이를 자동으로 수행해주는 자동미분 기능이 구현되어있다.

In [3]:
# 텐서플로의 자동미분 기능 활용하기: gradient tape()

import tensorflow as tf

#다차원 텐서 초기회
w = tf.Variable(tf.random.uniform((2,2)))
b = tf.Variable(tf.zeros((2,)))
x = tf.random.uniform((2,2))

#출력에 대한 모든 텐서 연산의 gradient 저장
with tf.GradientTape() as tape:
    y = tf.matmul(x,w) + b #텐서연산 dot

#x에 대한 y의 gradient계산
grad_of_yx = tape.gradient(y,[w,b])
    

In [5]:
grad_of_yx

[<tf.Tensor: shape=(2, 2), dtype=float32, numpy=
 array([[0.99673855, 0.99673855],
        [0.8330504 , 0.8330504 ]], dtype=float32)>,
 <tf.Tensor: shape=(2,), dtype=float32, numpy=array([2., 2.], dtype=float32)>]

In [8]:
# 신경망의 학습 구조를 mnist로 이해해보기
from tensorflow.keras.datasets import mnist

#data 
(train_data, train_labels), (test_data, test_labels) = mnist.load_data()
train_data = train_data.reshape((60000, -1)).astype("float32") / 255
test_data = test_data.reshape((10000, -1)).astype("float32") / 255

In [12]:
# dense layer

class NaiveDense:
    def __init__(self, input_size, output_size, activation):
        self.activation = activation
        w_shape = (input_size, output_size)
        w_value = tf.random.uniform(w_shape, minval = 0, maxval = 1e-1)
        self.w = tf.Variable(w_value)
        
        b_shape = (output_size,)
        b_value = tf.zeros(b_shape)
        self.b = tf.Variable(b_value)
        
    def __call__(self, inputs):
        #정방향 pass
        return self.activation(tf.matmul(inputs, self.w) + self.b)    
    
    @property
    def weights(self):
        #가중치 추출 
        return [self.w, self.b]
    

In [13]:
# sequential class
# 층 연결/ layers를 리스트로 받는다.

class NaiveSequential:
    def __init__(self, layers):
        self.layers = layers
    
    def __call__(self, inputs):
        x = inputs
        for layer in self.layers:
            x = layer(x)
        return x
    
    @property
    # 층의 weights [w,b]가 리스트에 담긴다.
    def weights(self):
        weights = []
        for layer in self.layers:
            weights += layer.weights
        return weights
    

In [15]:
# batch generator

import math 

class BatchGenerator:
    def __init__(self, images, labels, batch_size = 128):
        assert len(images) == len(labels)
        self.index = 0
        self.images = images
        self.labels = labels
        self.batch_size = batch_size
        # image / batch_size를 반올림
        self.num_batch = math.ceil(len(images) / batch_size)
    
    #하나의 전체 데이터셋에 대한 batch 순회
    def next(self):
        images = self.images[self.index : self.index + self.batch_size]
        labels = self.labels[self.index : self.index + self.batch_size]
        self.index += self.batch_size
        return images, labels

In [24]:
# train step
# 배치 데이터에서 가중치를 업데이트 하기.

# 베치 데이터 별 가중치 업데이트 + 손실함수 값 계산
def training_step(model, images_batch, labels_batch):
    #업데이트를 위해 가중치를 저장할 tape
    with tf.GradientTape() as tape:
        pred = model(images_batch)
        batch_loss = tf.keras.losses.sparse_categorical_crossentropy(labels_batch, pred)
        #배치 데이터별 loss 구하기 (평균)
        avg_loss = tf.reduce_mean(batch_loss)
    
    # w/b에 대한 loss의 gradient 값들
    gradients = tape.gradient(avg_loss, model.weights)
    #추후에 정의할 함수: model.weights의 각 값에 gradient의 반대방향으로 더해주는 함수일 것으로 예상한다 
    update_weights(gradients, model.weights)
    return avg_loss

#lr 
learning_rate = 1e-3

def ex_update_weights(gradients, weights):
    for g, w in zip(gradients, weights):
        #tf.assign_sub => -=
        w.assign_sub(g * learning_rate)

#keras optimizer를 사용하자
from tensorflow.keras import optimizers

optimizer = optimizers.legacy.Adam(learning_rate = learning_rate)
def update_weights(gradients, weights):
    optimizer.apply_gradients(zip(gradients, weights))
    

In [20]:
def fit(model, images, labels, epochs, batch_size = 128):
    for epoch in range(epochs):
        print(f'epoch {epoch + 1}')
        batch_generator = BatchGenerator(images, labels)
        for batch_counter in range(batch_generator.num_batch):
            # 0~ batch size 만큼 배치 데이터 생성
            images_batch, labels_batch = batch_generator.next()
            loss = training_step(model, images_batch, labels_batch)
            # 100번의 iter마다 손실 값 출력(= 배치 데이터 100번 돌면 손실 값출력)
            if batch_counter % 100 == 0:
                print(f'{batch_counter + 1}번째 배치 손실: {loss:.2f}')

In [14]:
# 모델 구성

model = NaiveSequential([
    NaiveDense(input_size = 28*28, output_size = 512, activation = tf.nn.relu),
    NaiveDense(input_size = 512, output_size = 10, activation = tf.nn.softmax)
])

# 계속해서 쌓이지 않게 한다. 각 층에 대한 w,b가 고정되어야함 층마다 2개씩 4개
assert len(model.weights) == 4


In [25]:
# model fit - mnist

fit(model, train_data, train_labels, epochs = 15, batch_size = 128)

epoch 1
1번째 배치 손실: 6.24
101번째 배치 손실: 0.50
201번째 배치 손실: 0.31
301번째 배치 손실: 0.28
401번째 배치 손실: 0.54


loc("mps_select"("(mpsFileLoc): /AppleInternal/Library/BuildRoots/75428952-3aa4-11ee-8b65-46d450270006/Library/Caches/com.apple.xbs/Sources/MetalPerformanceShadersGraph/mpsgraph/MetalPerformanceShadersGraph/Core/Files/MPSGraphUtilities.mm":294:0)): error: 'anec.gain_offset_control' op result #0 must be 4D/5D memref of 16-bit float or 8-bit signed integer or 8-bit unsigned integer values, but got 'memref<1x96x1x10xi1>'


epoch 2
1번째 배치 손실: 0.33
101번째 배치 손실: 0.24
201번째 배치 손실: 0.25
301번째 배치 손실: 0.24
401번째 배치 손실: 0.52
epoch 3
1번째 배치 손실: 0.18
101번째 배치 손실: 0.19
201번째 배치 손실: 0.23
301번째 배치 손실: 0.24
401번째 배치 손실: 0.46
epoch 4
1번째 배치 손실: 0.17
101번째 배치 손실: 0.19
201번째 배치 손실: 0.24
301번째 배치 손실: 0.26
401번째 배치 손실: 0.35
epoch 5
1번째 배치 손실: 0.17
101번째 배치 손실: 0.19
201번째 배치 손실: 0.25
301번째 배치 손실: 0.24
401번째 배치 손실: 0.30
epoch 6
1번째 배치 손실: 0.17
101번째 배치 손실: 0.18
201번째 배치 손실: 0.25
301번째 배치 손실: 0.21
401번째 배치 손실: 0.26
epoch 7
1번째 배치 손실: 0.16
101번째 배치 손실: 0.17
201번째 배치 손실: 0.23
301번째 배치 손실: 0.18
401번째 배치 손실: 0.20
epoch 8
1번째 배치 손실: 0.14
101번째 배치 손실: 0.14
201번째 배치 손실: 0.18
301번째 배치 손실: 0.14
401번째 배치 손실: 0.16
epoch 9
1번째 배치 손실: 0.12
101번째 배치 손실: 0.11
201번째 배치 손실: 0.13
301번째 배치 손실: 0.11
401번째 배치 손실: 0.14
epoch 10
1번째 배치 손실: 0.09
101번째 배치 손실: 0.08
201번째 배치 손실: 0.09
301번째 배치 손실: 0.09
401번째 배치 손실: 0.12
epoch 11
1번째 배치 손실: 0.06
101번째 배치 손실: 0.06
201번째 배치 손실: 0.07
301번째 배치 손실: 0.07
401번째 배치 손실: 0.11
epoch 12
1번째 배치 손실: 0.05
101번째 배치 손실: 

In [27]:
predictions = model(test_data)
# tensor to numpy
predictions = predictions.numpy()
pred_labels = np.argmax(predictions, axis = 1)

#boolean
matches = pred_labels == test_labels
# true이면 1 false면 0이 된다
print(f'test accuracy: {matches.mean():.2f}')

test accuracy: 0.98
