```kewords: tensor, 텐서 연산, 미분, Gradient Descent, ...```

In [1]:
import numpy as np
import tensorflow as tf

from tensorflow.keras.datasets import mnist

from tensorflow.keras.utils import to_categorical

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

import matplotlib.pyplot as plt

%matplotlib inline

## 1. 신경망과의 첫 만남

MNIST

- 흑백 손글씨 숫자 이미지
- 1980s, 미국 국립표준기술연구소 (National Institute of Standards and Technology, NIST)
- train: 6만 / test: 1만
- 28, 28, 1
- 10개의 범주 (0 ~ 9)
- 딥러닝계의 "hello world"

In [2]:
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

In [3]:
print(train_images.shape, len(train_labels))

(60000, 28, 28) 60000


In [4]:
train_labels

array([5, 0, 4, ..., 5, 6, 8], dtype=uint8)

In [5]:
print(test_images.shape, len(test_labels))

(10000, 28, 28) 10000


In [6]:
test_labels

array([7, 2, 1, ..., 4, 5, 6], dtype=uint8)

### 데이터 전처리

In [7]:
train_images = train_images.reshape((60000, 28 * 28))
train_images = train_images.astype("float32") / 255

test_images = test_images.reshape((10000, 28 * 28))
test_images = test_images.astype("float32") / 255

In [8]:
train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

### network

In [9]:
network = Sequential()
network.add(Dense(512, input_shape=(28 * 28,), activation="relu"))
network.add(Dense(10, activation="softmax"))

In [10]:
network.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense (Dense)                (None, 512)               401920    
_________________________________________________________________
dense_1 (Dense)              (None, 10)                5130      
Total params: 407,050
Trainable params: 407,050
Non-trainable params: 0
_________________________________________________________________


신경망의 핵십 구성 요소 = 일종의 데이터 처리 필터, 층 (layer)<br />
= 주어진 문제에 더 의미 있는 표현(representation)을 입력된 데이터로부터 추출.

대부분의 딥러닝은 간단한 층을 연결하여 구성되며, 점진적으로 데이터를 정제하는 형태를 띤다.<br />
따라서 데이터 정제 필터(층)가 연속되어 있는 데이터 프로세싱을 위한 여과기 같음.

- 완전 연결(fully connected)된 신경망 층인 Dense
- Softmax, exponential과 구성비를 이용한 class에 대한 확률값을 반환

compile을 위해 필요한 3가지
- 손실 함수 loss function: 옳은 방햐응로 학습될 수 있도록 도움.
- optimizer: 가중치를 update하는 algorithm
- 훈련 과정을 monitoring할 지표

In [11]:
network.compile(loss="categorical_crossentropy", optimizer="rmsprop", metrics=["accuracy"])

In [12]:
network.fit(train_images, train_labels, batch_size=128, epochs=5)

Epoch 1/5
Please report this to the TensorFlow team. When filing the bug, set the verbosity to 10 (on Linux, `export AUTOGRAPH_VERBOSITY=10`) and attach the full output.
Cause: 'arguments' object has no attribute 'posonlyargs'
Please report this to the TensorFlow team. When filing the bug, set the verbosity to 10 (on Linux, `export AUTOGRAPH_VERBOSITY=10`) and attach the full output.
Cause: 'arguments' object has no attribute 'posonlyargs'
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x18f9c4ed708>

In [13]:
test_loss, test_acc = network.evaluate(test_images, test_labels)
print("test accuracy:", test_acc)

Please report this to the TensorFlow team. When filing the bug, set the verbosity to 10 (on Linux, `export AUTOGRAPH_VERBOSITY=10`) and attach the full output.
Cause: 'arguments' object has no attribute 'posonlyargs'
Please report this to the TensorFlow team. When filing the bug, set the verbosity to 10 (on Linux, `export AUTOGRAPH_VERBOSITY=10`) and attach the full output.
Cause: 'arguments' object has no attribute 'posonlyargs'
test accuracy: 0.9789999723434448


과대적합 (Overfitting): 모델이 훈련 데이터보다 새로운 데이터에서 성능이 낮아지는 경향

## 2. 신경망을 위한 데이터 표현

### tensor

- 데이터를 위한 container, 임의의 차원 개수를 가지는 행렬의 일반화된 형태
- 차원 = 축, 랭크

#### 1. Scalar (0D tensor)

- 스칼라 (tensor), 0차원 텐서, 0D 텐서
- 숫자 하나만 담고 있는 tensor
- in numpy, float32, float64 type

In [14]:
x = np.array(12)
x

array(12)

In [15]:
x.ndim

0

#### 2. Vector (1D tensor)

- 벡터, 1D 텐서

In [16]:
x = np.array([12, 3, 6, 14, 7])
x

array([12,  3,  6, 14,  7])

In [17]:
x.ndim

1

#### 3. Matrix (2D tensor)

- 행렬, 2D 텐서
- 2개의 축 (행-row과 열-column)
- 숫자가 채워진 사각 격자

In [19]:
x = np.array([[5, 78, 2, 34, 0], [6, 79, 3, 35, 1], [7, 80, 4, 36, 2]])
x

array([[ 5, 78,  2, 34,  0],
       [ 6, 79,  3, 35,  1],
       [ 7, 80,  4, 36,  2]])

In [20]:
x.ndim

2

#### 4. 3D tensor ~

- 3D 텐서는 숫자가 채워진 직육면체 형태로 해석할 수 있다.

In [21]:
x = np.array(
    [[[5, 78, 2, 34, 0], [6, 79, 3, 35, 1], [7, 80, 4, 36, 2]],
     [[5, 78, 2, 34, 0], [6, 79, 3, 35, 1], [7, 80, 4, 36, 2]],
     [[5, 78, 2, 34, 0], [6, 79, 3, 35, 1], [7, 80, 4, 36, 2]]]
)
x

array([[[ 5, 78,  2, 34,  0],
        [ 6, 79,  3, 35,  1],
        [ 7, 80,  4, 36,  2]],

       [[ 5, 78,  2, 34,  0],
        [ 6, 79,  3, 35,  1],
        [ 7, 80,  4, 36,  2]],

       [[ 5, 78,  2, 34,  0],
        [ 6, 79,  3, 35,  1],
        [ 7, 80,  4, 36,  2]]])

In [22]:
x.ndim

3

#### 핵심

- 축, rank    : np.array(...).ndim
- 크기, shape : tensor의 축에 따라 얼마나 많은 차원이 있는지, np.array(...).shape
- 데이터 타입  : np.array(...).dtype
  - numpy와 여러 library들이 메모리 사전 할당 문제로 가변 길이의 문자열을 지원하지 않는다.
  - C언어도 아닌데 동적으로 짜면 느려진단 소리로 보인다.

In [None]:
print(train_images.ndim)

In [None]:
print(train_images.dtype)

8bit 정수형

In [None]:
digit = train_images[4]
plt.imshow(digit)
plt.show()

#### in numpy

slicing: 배열에 있는 특정 원소를 선택하는 것

In [None]:
my_slice1 = train_images[10:100]
my_slice2 = train_images[10:100, :, :]
my_slice3 = train_images[10:100, 0:28, 0:28]
print(my_slice1.shape, my_slice2.shape, my_slice3.shape)

In [None]:
my_slice4 = train_images[4, 14:, 14:]
plt.imshow(my_slice4)
plt.show()

In [None]:
my_slice5 = train_images[4, 7:-7, 7:-7]
plt.imshow(my_slice5)
plt.show()

### 배치 데이터

```batch = train_images[size * n : size * (n + 1)```

- 한번에 처리하는 데이터의 양
- 딥러닝에서 첫번째 축은 샘플 축이지만, 배치 데이터를 이용할 땐 배치 축(차원)이라 한다.

### 실제

| name | tensor | axis | description |
|:----:|:------:|------|-------------|
| vector | 2d tensor | (samples, features) | 가장 기본적인 dataset, cell 표현<br />- 나이에 따른 소득세 데이터셋 |
| 시계열 or Sequence(주기성) 데이터 | 3d tensor | (samples, timesteps, features) | 시간이나 연속된 순서가 중요할 때 쓰임<br />- 주식 가격 데이터셋, 트윗 데이터셋 |
| image | 4d tensor | (samples, height, width, channels)<br />(samples, channels, height, width) | 픽셀을 표현하는 색 차원의 추가<br />- tensorflow: channel-last<br />- Theano: channel-first<br />- Keras는 둘 다 가능 |
| video | 5d tensor | (sampels, frames, height, width, channels)<br />(samples, frames, channels, height, width) | 프레임의 연속이고, 컬러니까 |

## 3. 신경망의 톱니바퀴: 텐서 연산

모든 신경망 연산은 작은 텐서의 연산으로 나타낼 수 있다. 마치 파이나 곱셈을 덧셈으로 표현할 수 있듯이 말이다.

- ```keras.layers.Dense(512, activation="relu")```
- output = relu(dot(W, input) + b)
   - ```dot(W, input)``` | ```Z + b``` | ```relu(Z')```

### 원소별 계산

- element-wise operation
- numpy 연산은 (System's) BLAS에 위임해 병렬 연산을 처리함.
- BLAS: Basic Linear Algebra Subprogram (Fortan or C)
- 같은 위치에 있는 얘들끼리 덧셈 및 곱셈을 하는 것.

In [None]:
def naive_add(x, y):
    assert len(x.shape) == 2
    assert x.shape == y.shape

    x = x.copy()
    for i in range(x.shape[0]):
        for j in range(x.shape[1]):
            x[i, j] += y[i, j]
    return x

In [None]:
def naive_relu(x):
    assert len(x.shape) == 2

    x = x.copy()
    for i in range(x.shape[0]):
        x[i, j] = max(x[i, j], 0)
    return x

### broadcasting

- 큰 tensor의 input에 맞도록 작은 tensor에 (broadcasting 축이라고 부르는) 축이 추가됨.
- 작은 tensor가 새 축을 따라서 큰 tensor의 크기에 맞도록 반복됨.

<pre>
assert x.shape == (32, 10)
assert y.shape == (10,)

y.reshape((0, -1))
-> y.shape == (1, 10)
y[i, :] = y for i in range(x.shape[0])

return x + y
</pre>

In [None]:
def naive_add_matrix_and_vector(x, y):
    assert len(x.shape) == 2
    assert len(y.shape) == 1
    assert x.shape[1] == y.shape[0]

    x = x.copy()
    for i in range(x.shape[0]):
        for j in range(x.shape[1]):
            x[i, j] += y[i]
    return x

### 텐서 곱셈

- tensor product
- 원소별 연산과 반대로 입력 텐서의 원소들을 결합시킴.
- (a, b, c, d) * (d, ) = (a, b, c)
- (a, b, c, d) * (d, e) = (a, b, c, e)

In [None]:
def naive_vecetor_dot(x, y):
    assert len(x.shape) == 1
    assert len(y.shape) == 1
    assert x.shape[0] == y.shape[0]

    z = 0.
    for i in range(x.shape[0]):
        z += x[i] * y[i]
    return z

In [None]:
def naive_matrix_vector_dot(x, y):
    assert len(x.shape) == 2
    assert len(y.shape) == 1
    assert x.shape[1] == y.shape[0]

    z = np.zeros(x.shape[0])
    for i in range(x.shape[0]):
        for j in range(x.shape[1]):
            z[i] += x[i, j] * y[j]
    return z

In [None]:
def naive_matrix_vector_dot(x, y):
    z = np.zeros(x.shape[0])
    for i in range(x.shape[0]):
        z[i] = naive_vector_add(x[i, :], y)
    return z

In [None]:
def naive_matrix_dot(x, y):
    assert len(x.shape) == 2
    assert len(y.shape) == 2
    assert x.shape[1] == y.shape[0]

    z = np.zeros((x.shape[0], y.shape[1]))
    for i in range(x.shape[0]):
        for j in range(y.shape[1]):
            row_x = x[i, :]
            column_y = y[:, j]
            z[i, j] = naive_vector_dot(row_x, column_y)
    return z

### 텐서 크기 변환

- 연산 전 전처리 용도랄까.
- 대체로 **전치(Transposition)**를 가장 많이 이용

### 텐서 연산의 기하학적 해석

- tensor는 곧 vector로 변환될 수 있으므로, 모든 tensor 연산은 n-차원에 대한 좌표 포인트로 이해될 수 있다.

### 딥러닝의 기하학적 해석

- 삼단논법에 의거하여, 딥러닝은 텐서 연산의 확장이고 / 텐서 연산은 그 깊이(복잡함)가 얼마든 기학학적 변환으로 해석될 수 있다.
- 따라서, 딥러닝은 복잡한 텐서 연산의 집합체이므로, 기학학적 변환으로 해석될 수 있다.

## 4. 신경망의 엔진: 그래디언트 기반 최적화