# 2. 신경망의 수학적 구성 요소

## 2.3 신경망의 톱니바퀴: 텐서 연산

**텐서 연산(tensor operation)**

- 심층 신경망이 학습한 모든 변환을 수치 데이터 텐서에 적용하는 연산
- ex) 텐서 덧셈, 텐서 곱셈

<br>

**케라스 층 생성**

```python
keras.layers.Dense(512, activation='relu')
```

- 이 층은 2D 텐서를 입력으로 받고 입력 텐서의 새로운 표현인 또 다른 2D 텐서를 반환하는 함수처럼 해석 가능


<br>

**함수의 구체적인 표현**

```python
output = relu(dot(W, input) + b)
```

- `W` : 2D 텐서
- `b` : 벡터
- `W`, `b` 모두 층의 속성이다.

<br>

**3개의 텐서 연산**

- 위 함수에는 3개의 텐서 연산이 있다.

1. **`dot(W, input)`**
  - 입력 텐서(`x`)와 텐서 `W` 사이의 **점곱(dot)**  
  
  
2. **`dot(W, input) + b`**
  - 점곱의 결과인 2D 텐서(`dot(W, input)`)와 벡터 `b` 사이의 **덧셈(+)**  
  
  
3. **`relu(dot(W, input) + b)`**
  - relu(렐루) 연산
  - `relu(x) = max(x, 0)`

<br>

### 2.3.1 원소별 연산 (element-wise operation)

- 텐서에 있는 각 원소에 독립적으로 적용됨
- 즉, 고도의 병렬 구현이 가능한 연산이라는 의미

<br>

**relu 연산 구현**

In [1]:
def naive_relu(x):
    assert len(x.shape) == 2 # x는 2D 넘파이 배열이다.
    
    x = x.copy() # 입력 텐서 자체를 바꾸지 않도록 복사
    for i in range(x.shape[0]):
        for j in range(x.shape[1]):
            x[i, j] = max(x[i, j], 0)
            
    return x

<br>

**덧셈 연산 구현**

In [2]:
def naive_add(x, y):
    assert len(x.shape) == 2 # x와 y는 2D 넘파이 배열이다.
    assert x.shape == y.shape
    
    x = x.copy() # 입력 텐서를 바꾸지 않도록 복사
    for i in range(x.shape[0]):
        for j in range(x.shape[1]):
            x[i, j] += y[i, j]
            
    return x

<br>

**넘파이 내장 함수**

- 넘파이 배열을 다룰때는 최적화된 넘파이 내장 함수로 이런 연산들을 처리할 수 있다.

In [5]:
import numpy as np

x = np.array([[2,2],
              [3,3]])
y = np.array(([4,4],
              [-5,-5]))

z = x + y # 원소별 덧셈
print(z, '\n')

z = np.maximum(z, 0.) # 원소별 렐루 함수
print(z)

[[ 6  6]
 [-2 -2]] 

[[6. 6.]
 [0. 0.]]


<br>

### 2.3.2 브로드캐스팅 (broadcasting)

- 크기가 다른 두 텐서 사이의 연산을 할 경우 모호하지 않고 실행 가능하다면 작은 텐서가 큰 텐서의 크기에 맞추어 **브로드캐스팅(broadcasting)**된다.

<br>

**브로드캐스팅의 2단계**

1. 큰 텐서의 `ndim`에 맞도록 작은 텐서에 (브로드캐스팅 축이라고 부르는) 축이 추가됨
2. 작은 텐서가 새 축을 따라서 큰 텐서의 크기에 맞도록 반복됨

<br>

**브로드 캐스팅의 예**

- `X`의 크기 : `(32, 10)`
- `y`의 크기 : `(10, )`  
  
  
- 먼저 `y`에 비어 있는 첫 번째 축을 추가하여 크기를 `(1, 10)`으로 만든다.
- 그런 다음 `y`를 이 축에 32번 반복하면 텐서 `Y`의 크기는 `(32, 10)`이 된다.  
(`Y[i, :] == y for i in range(0, 32)`)
- 이제 X와 Y의 크기가 같으므로 더할 수 있다.

<r>

**벡터와 행렬의 덧셈 연산 구현**

In [6]:
def naive_add_matrix_and_vector(x, y):
    assert len(x.shape) == 2 # x는 2D 넘파이 배열
    assert len(y.shape) == 1 # y는 넘파이 벡터
    assert x.shape[1] == y.shape[0]
    
    x = x.copy() # 입력 텐서 자체를 바꾸지 않도록 복사
    for i in range(x.shape[0]):
        for j in range(x.shape[1]):
            x[i, j] += y[j]
            
    return x

<br>

**크기가 다른 두 텐서에 브로드캐스팅으로 원소별 `maximum` 연산을 적용하는 예제**

In [11]:
import numpy as np

x = np.random.random((64, 3, 32, 10)) # x는 (64, 3, 32, 10) 크기의 랜덤 텐서
y = np.random.random((32, 10)) # y는 (32, 10) 크기의 랜덤 텐서

print(x.shape)
print(y.shape)

z = np.maximum(x, y) # 출력 z의 크기는 x와 동일하게 (64, 3, 32, 10)이다.
print(z.shape)

(64, 3, 32, 10)
(32, 10)
(64, 3, 32, 10)


<br>

### 2.3.3 텐서 점곱 (tensor product)

- 넘파이, 케라스, 씨아노, 텐서플로에서 **원소별 곱셈**은 `*` 연산자를 사용  
  
  
- 넘파이와 케라스는 **점곱 연산**에 `dot` 연산자를 사용
- 텐서플로에서의 점곱 연산은 `tf.matmul(x, y)` 이다.

<br>

**2개의 벡터 x와 y의 점곱 구현**

In [12]:
def naive_vector_dot(x, y):
    assert len(x.shape) == 1 # x : 넘파이 벡터
    assert len(y.shape) == 1 # y : 넘파이 벡터
    assert x.shape[0] == y.shape[0]
    
    z = 0.
    
    for i in range(x.shape[0]):
        z += x[i] * y[i]
        
    return z

- 두 벡터의 점곱은 스칼라가 되므로 원소 개수가 같은 벡터끼리 점곱이 가능하다.

<br>

**행렬 x와 벡터 y 사이의 점곱 구현**

- y와 x의 행 사이에서 점곱이 일어나므로 벡터가 반환된다.

In [13]:
import numpy as np

def naive_matrix_vector_dot(x, y):
    assert len(x.shape) == 2 # x : 넘파이 행렬
    assert len(y.shape) == 1 # y : 넘파이 벡터
    assert x.shape[1] == y.shape[0] # x의 두 번째 차원이 y의 첫 번째 차원과 같아야 한다.
    
    z = np.zeros(x.shape[0]) # x의 행과 같은 크기의 0이 채워진 벡터를 만든다.
    for i in range(x.shape[0]):
        for j in range(x.shape[1]):
            z[i] = x[i,j] * y[j]
            
    return z

<br>

**행렬-벡터 점곱과 벡터-벡터 점곱 사이의 관계**

In [14]:
def naive_matrix_vector_dot(x, y):
    z = np.zeros(x.shape[0])
    for i in range(x.shape[0]):
        z[i] = naive_vector_dot(x[i,:], y)
    return z

<br>

**dot 연산의 교환 법칙**

- 두 텐서 중 하나라도 `ndim`이 1보다 크면 dot 연산에 교환 법칙이 성립되지 않는다.

```python
dot(x, y) != dot(y, x)
```

<br>

**점곱 연산 일반화**

- `x.shape[1] == y.shape[0]` 일 때 두 행렬 x와 y의 점곱(`dot(x,y)`)이 성립된다.
- x의 열과 y의 행 사이 벡터 점곱으로 인해 `(x.shape[0], y.shape[1])` 크기의 행렬이 된다.

In [15]:
def naive_matrix_dot(x, y):
    assert len(x.shape) == 2 # x : 넘파이 행렬
    assert len(y.shape) == 2 # y : 넘파이 행렬
    assert x.shape[1] == y.shape[0]
    
    z = np.zeros((x.shape[0], y.shape[1]))
    
    for i in range(x.shape[0]): # x의 행 반복
        for j in range(y.shape[1]): # y의 열 반복
            row_x = x[i,:]
            column_y = y[:, j]
            z[i,j] = naive_vector_dot(row_x, column_y)
            
    return z

<img src="img/img_2-5.jpg" width="300px" />

- x, y, z는 직사각형 모양으로 그려져 있음
- x의 행 벡터와 y의 열 벡터가 같은 크기여야 하므로 자동으로 x의 너비는 y의 높이와 동일해야 한다.

<br>

### 2.3.4 텐서 크기 변환 (tensor reshaping)

```python
train_images = train_images.reshape((60000, 28 * 28))
```

- 텐서의 크기를 변환한다 = 특정 크기에 맞게 열과 행을 재배열한다
- 크기가 변환된 텐서는 원래 텐서와 원소 개수가 동일하다.

In [16]:
x = np.array([[0., 1.],
              [2., 3.],
              [4., 5.]])

print(x.shape)

(3, 2)


In [17]:
x = x.reshape((6, 1))
x

array([[0.],
       [1.],
       [2.],
       [3.],
       [4.],
       [5.]])

In [18]:
x = x.reshape((2,3))
x

array([[0., 1., 2.],
       [3., 4., 5.]])

<br>

**전치(transposition)**

- 행렬의 전치는 행과 열을 바꾸는 것을 의미
- `x[i, :]` $\rightarrow$ `x[:, i]`

In [19]:
x = np.zeros((300, 20))
x.shape

(300, 20)

In [20]:
x = np.transpose(x)
print(x.shape)

(20, 300)


<br>

### 2.3.5 텐서 연산의 기하학적 해성

생략

<br>

### 2.3.6 딥러닝의 기하학적 해석

생략