In [1]:
import torch

# 1. PyTorch Tensor Shape Convention

## 1) 2-D tensor convention

$$|t| = (batch\_size, dim)$$

- 행의 크기 : batch-size
- 열의 크기 : dim

- ex) 2x3 텐서라면, 파이토치에선 |t| = (2,3) = (batch size = 2, dim = 3) 이라 표현한다.

```
만약,

데이터 갯수 : 3,000
데이터의 feature 수 : 256

matrix = (3000, 256) ==>> batch-size = 3,000, dim = 256

하지만,
**컴퓨터는 보통 데이터를 하나씩 보다는 묶어서 한번에 처리하는 경우가 많음**
데이터를 한 번에 30개씩 묶어서 처리한다면(batch-size)
컴퓨터가 한번에 처리하는 텐서의 사이즈는

|t| = (30,256) ==>> batch-size = 30, dim = 256

이 된다.
```

## 2) 3-D tensor convention : typical computer vision

$$|t| = (batch\_size, width, height)$$


## 3) 3-D tensor convention : typical natural language processing

$$|t| = (batch\_size, length, dim)$$

- batch_size
- length : 문장의 길이
- dim : 단어 벡터의 차원

### 3-1) NLP tensor practice

**전처리**
- 단어 단위로 전환 : 하나의 문장이 row, 문장 내 단어가 columns 생성

In [11]:
# 컴퓨터는 아직 '나는', '사과를' 등을 단어로 구분하지 못함. 따라서, 이를 나눠주는 전처리 작업 필요
data = [['나는 사과를 좋아해'], ['나는 바나나를 좋아해'], ['나는 사과를 싫어해'], ['나는 바나나를 싫어해']]

In [12]:
# 다음과 같이 전처리 작업 필요
# 아래와 같이 4x3 tensor 가 됨
data = [['나는', '사과를', '좋아해'], ['나는', '바나나를', '좋아해'], ['나는', '사과를', '싫어해'], ['나는', '바나나를', '싫어해']]

In [13]:
data

[['나는', '사과를', '좋아해'],
 ['나는', '바나나를', '좋아해'],
 ['나는', '사과를', '싫어해'],
 ['나는', '바나나를', '싫어해']]

**단어 -> 숫자 벡터로 변환**
```python
'나는' = [0.1, 0.2, 0.9]
'사과를' = [0.3, 0.5, 0.1]
'바나나를' = [0.3, 0.5, 0.2]
'좋아해' = [0.7, 0.6, 0.5]
'싫어해' = [0.5, 0.6, 0.7]
```

In [14]:
data = [[[0.1, 0.2, 0.9], [0.3, 0.5, 0.1], [0.7, 0.6, 0.5]],
 [[0.1, 0.2, 0.9], [0.3, 0.5, 0.2], [0.7, 0.6, 0.5]],
 [[0.1, 0.2, 0.9], [0.3, 0.5, 0.1], [0.5, 0.6, 0.7]],
 [[0.1, 0.2, 0.9], [0.3, 0.5, 0.2], [0.5, 0.6, 0.7]]]

In [16]:
# 이제, (4x3)x3 tensor 가 됨 (3-D tensor)
data

[[[0.1, 0.2, 0.9], [0.3, 0.5, 0.1], [0.7, 0.6, 0.5]],
 [[0.1, 0.2, 0.9], [0.3, 0.5, 0.2], [0.7, 0.6, 0.5]],
 [[0.1, 0.2, 0.9], [0.3, 0.5, 0.1], [0.5, 0.6, 0.7]],
 [[0.1, 0.2, 0.9], [0.3, 0.5, 0.2], [0.5, 0.6, 0.7]]]

**mini-batch size**
- 컴퓨터 연산 수행 단위인 batch size로 데이터 분할

In [18]:
# batch size : 2 라면
# 1 batch -> (2x3)x3 = batch_size, length, dim
data_1 = [[[0.1, 0.2, 0.9], [0.3, 0.5, 0.1], [0.7, 0.6, 0.5]],
 [[0.1, 0.2, 0.9], [0.3, 0.5, 0.2], [0.7, 0.6, 0.5]]]

# 2 batch -> (2x3)x3 = batch_size, length, dim
data_2 = [[[0.1, 0.2, 0.9], [0.3, 0.5, 0.1], [0.5, 0.6, 0.7]],
 [[0.1, 0.2, 0.9], [0.3, 0.5, 0.2], [0.5, 0.6, 0.7]]]

**결국 NLP의 3-D tensors는**

$$|t| = (mini\_batch\_size, length\_of\_sentence, dim\_of\_word)$$

로 정의된다.