# 1. 파이토치 기초

## 1.1. 파이토치 패키지의 기본 구성

1. torch : 텐서 등의 다양한 수학 함수가 포함되어있는 메인 네임스페이스
1. torch.autogard : 자동 미분을 위한 함수들이 있음
1. torch.nn : 신경망 구축을 위한 다양한 데이터 구조, 레이어 등이 정의되어 있음
1. torch.optim : 확률적 경사 하강법(SGD)를 중심으로 한 파라미터 최적화 알고리즘 구현
1. torch.utils.data : SGD의 반복 연산을 실행할 때 사용하는 미니 배치용 유틸리티 함수가 포함
1. torch.onnx : ONNX(Open Neural Network Exchange)의 포맷으로 모델을 export할 때 사용

---
## 1.2. 텐서 조작하기

### 1.2.1 벡터, 행렬, 텐서

#### 1.2.1.1. 정의  
  
- 벡터 : 1차원으로 구성된 값
- 행렬 : 2차원으로 구성된 값
- 텐서 : 3차원으로 구성된 값 
  
  
\* 데이터사이언스 분야 한정으로 3차원 이상의 텐서는 그냥 다차원 행렬 또는 배열로 간주할 수 있다

#### 1.2.1.2. 텐서 표기 방법  

##### 1.2.1.2.1. 2차원 텐서  
- |t| = (Batch size, dim)
- 2차원에서 텐서의 크기는 Batch size * dimension으로 사용
- 즉, batch size가 행, dimension이 열의 크기이다

- 예시  
훈련 데이터 하나의 크기를 256이라고 해봅시다. [3, 1, 2, 5, ...] 이런 숫자들의 나열이 256의 길이로 있다고 상상하면됩니다. 다시 말해 훈련 데이터 하나 = 벡터의 차원은 256입니다. 만약 이런 훈련 데이터의 개수가 3000개라고 한다면, 현재 전체 훈련 데이터의 크기는 3,000 × 256입니다. 행렬이니까 2D 텐서네요. 3,000개를 1개씩 꺼내서 처리하는 것도 가능하지만 컴퓨터는 훈련 데이터를 하나씩 처리하는 것보다 보통 덩어리로 처리합니다. 3,000개에서 64개씩 꺼내서 처리한다고 한다면 이 때 batch size를 64라고 합니다. 그렇다면 컴퓨터가 한 번에 처리하는 2D 텐서의 크기는 (batch size × dim) = 64 × 256입니다.

##### 1.2.1.2.2. 3차원 텐서
- 비전 분야
    1. 이미지, 영상 처리를 주로하는 분야
    1. |t| = (batch size, width, height)
    1. (높이, 가로, 세로)
  
  
- 자연어 처리
    1. |t| = (batch size, length, dim)
    1. (batch size, 문장 길이, 단어 벡터의 차원)

##### 1.2.1.2.3. 자연어 처리(NLP) 분야의 3D 텐서 예제

In [1]:
# 전체 훈련 데이터
string = [
    '나는 사과를 좋아해',
    '나는 바나나를 좋아해',
    '나는 사과를 싫어해',
    '나는 바나나를 싫어해',
]


# 컴퓨터의 입력으로 사용하기 위해 단어별로 나눔
for idx, s in enumerate(string):
    string[idx] =list(s.split())
    
# 나눈 데이터는 4 x 3의 크기를 가진 2D 텐서
string

[['나는', '사과를', '좋아해'],
 ['나는', '바나나를', '좋아해'],
 ['나는', '사과를', '싫어해'],
 ['나는', '바나나를', '싫어해']]

- 임의로 단어를 3차원 벡터로 변환  
    '나는' = [0.1, 0.2, 0.9]  
    '사과를' = [0.3, 0.5, 0.1]  
    '바나나를' = [0.3, 0.5, 0.2]  
    '좋아해' = [0.7, 0.6, 0.5]  
    '싫어해' = [0.5, 0.6, 0.7]  

In [2]:
# 4 x 3 x 3의 크기를 가지는 3D 텐서
string_to_tensor = [[[0.1, 0.2, 0.9], [0.3, 0.5, 0.1], [0.7, 0.6, 0.5]],
 [[0.1, 0.2, 0.9], [0.3, 0.5, 0.2], [0.7, 0.6, 0.5]],
 [[0.1, 0.2, 0.9], [0.3, 0.5, 0.1], [0.5, 0.6, 0.7]],
 [[0.1, 0.2, 0.9], [0.3, 0.5, 0.2], [0.5, 0.6, 0.7]]]

string_to_tensor

[[[0.1, 0.2, 0.9], [0.3, 0.5, 0.1], [0.7, 0.6, 0.5]],
 [[0.1, 0.2, 0.9], [0.3, 0.5, 0.2], [0.7, 0.6, 0.5]],
 [[0.1, 0.2, 0.9], [0.3, 0.5, 0.1], [0.5, 0.6, 0.7]],
 [[0.1, 0.2, 0.9], [0.3, 0.5, 0.2], [0.5, 0.6, 0.7]]]

In [3]:
# string_to_tensor의 batch size를 2로 설정할 때
# 각 배치의 텐서 크기는 2 x 3 x 3

# 첫번째 배치
batch_1 = [[[0.1, 0.2, 0.9], [0.3, 0.5, 0.1], [0.7, 0.6, 0.5]],
 [[0.1, 0.2, 0.9], [0.3, 0.5, 0.2], [0.7, 0.6, 0.5]]]

# 두번째 배치
batch_2 = [[[0.1, 0.2, 0.9], [0.3, 0.5, 0.1], [0.5, 0.6, 0.7]],
 [[0.1, 0.2, 0.9], [0.3, 0.5, 0.2], [0.5, 0.6, 0.7]]]

### 1.2.2. 넘파이로 텐서 만들기(벡터와 행렬 만들기)

In [4]:
import numpy as np

In [5]:
# 1차원 텐서
t = np.array([0., 1., 2., 3., 4., 5., 6.])
t

array([0., 1., 2., 3., 4., 5., 6.])

In [6]:
print("Rank of t :", t.ndim) # 차원
print("Shape of t :", t.shape) # 크기, (7, ) = (1, 7) = 1 x 7 크기의 벡터

Rank of t : 1
Shape of t : (7,)


In [7]:
# 인덱스로 원소 접근
print('t[0] t[1] t[-1] =', t[0], t[1], t[-1])

t[0] t[1] t[-1] = 0.0 1.0 6.0


In [8]:
# 슬라이싱
print('t[2:5] t[4:-1] =', t[2:5], t[4:-1])
print('t[:2] t[3:] =', t[:2], t[3:])

t[2:5] t[4:-1] = [2. 3. 4.] [4. 5.]
t[:2] t[3:] = [0. 1.] [3. 4. 5. 6.]


In [9]:
# 2차원 텐서
t = np.array([[1., 2., 3.], [4., 5., 6.], [7., 8., 9.], [10., 11., 12.]])
t

array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.],
       [ 7.,  8.,  9.],
       [10., 11., 12.]])

In [10]:
print('Rank  of t: ', t.ndim)
print('Shape of t: ', t.shape)

Rank  of t:  2
Shape of t:  (4, 3)


### 1.2.3. 파이토치 텐서 선언하기

In [11]:
import torch

In [12]:
# 1차원 텐서
t = torch.FloatTensor([0., 1., 2., 3., 4., 5., 6.])
t

tensor([0., 1., 2., 3., 4., 5., 6.])

In [13]:
print(t.dim()) # 차원
print(t.shape) # 크기
print(t.size()) # 크기

1
torch.Size([7])
torch.Size([7])


In [14]:
print(t[0], t[1], t[-1])  # 인덱스
print(t[2:5], t[4:-1])    # 슬라이싱
print(t[:2], t[3:])       # 슬라이싱

tensor(0.) tensor(1.) tensor(6.)
tensor([2., 3., 4.]) tensor([4., 5.])
tensor([0., 1.]) tensor([3., 4., 5., 6.])


In [15]:
# 2차원 텐서
t = torch.FloatTensor([[1., 2., 3.],
                       [4., 5., 6.],
                       [7., 8., 9.],
                       [10., 11., 12.]
                      ])
t

tensor([[ 1.,  2.,  3.],
        [ 4.,  5.,  6.],
        [ 7.,  8.,  9.],
        [10., 11., 12.]])

In [16]:
print(t.dim()) # 차원
print(t.size()) # 크기

2
torch.Size([4, 3])


In [17]:
print(t[:, 1]) # 모든 행의 1열의 값 = 첫번째 차원은 전체 선택 후, 두번째 차원에서 1번 인덱스만 가져옴
print(t[:, 1].size()) # t[:, 1]의 크기

tensor([ 2.,  5.,  8., 11.])
torch.Size([4])


In [18]:
t[:, :-1] # 모든 행 중에 마지막 열만 제외

tensor([[ 1.,  2.],
        [ 4.,  5.],
        [ 7.,  8.],
        [10., 11.]])

### 1.2.4. 브로드캐스팅 (Broadcasting)  
행렬 간의 사칙연산은 행렬 크기에 따른 제약이 있다. 그러나 딥 러닝을 하게되면 불가피하게 크기가 다른 행렬에 대해 사칙연산이 필요한 경우가 생긴다. 이를 위해 자동으로 크기를 맞춰 연산을 수행하게 만드는 것을 Broadcasting이라고 한다.

  > 크기가 달라도 자동으로 연산되기에 주의하여 사용할 것

In [19]:
# 같은 크기 행렬의 연산
m1 = torch.FloatTensor([[3, 3]])
m2 = torch.FloatTensor([[2, 2]])
m1 + m2

tensor([[5., 5.]])

In [20]:
# 벡터 + 스칼라
m1 = torch.FloatTensor([[1, 2]])
m2 = torch.FloatTensor([3])
m1 + m2 # 임의로 크기를 맞춰서 계산

tensor([[4., 5.]])

In [21]:
# 크기가 다른 벡터의 연산
m1 = torch.FloatTensor([[1, 2]]) # [[1, 2], [1, 2]]로 변환하여 계산
m2 = torch.FloatTensor([[3], [4]]) # [[3, 3], [4, 4]]로 변환하여 계산
m1+m2

tensor([[4., 5.],
        [5., 6.]])

### 1.2.5. 자주 사용되는 기능들

#### 1.2.5.1. Matrix Multiplication VS Multiplication
- matmul : 행렬 곱셈 / A.matmul(B)
- mul : 원소별 곱셈 / A.mul(B) == A * B 

In [22]:
m1 = torch.FloatTensor([[1, 2], [3, 4]])
m2 = torch.FloatTensor([[1], [2]])

# 행렬 곱셈
print('Shape of Matrix 1: ', m1.shape) # 2 x 2
print('Shape of Matrix 2: ', m2.shape) # 2 x 1
print(m1.matmul(m2), m1.matmul(m2).size()) # 2 x 1

Shape of Matrix 1:  torch.Size([2, 2])
Shape of Matrix 2:  torch.Size([2, 1])
tensor([[ 5.],
        [11.]]) torch.Size([2, 1])


In [23]:
# 원소 곱셈 (브로드캐스팅이 적용되어 m2의 크기가 바뀌며 연산)
print(m1 * m2)
print(m1.mul(m2))

tensor([[1., 2.],
        [6., 8.]])
tensor([[1., 2.],
        [6., 8.]])


#### 1.2.5.2. Mean

In [24]:
t = torch.FloatTensor([1, 2])
t.mean()

tensor(1.5000)

In [25]:
t = torch.FloatTensor([[1, 2], [3, 4]])
print(t.mean()) # 모든 원소의 평균

# 첫번째 차원을 제거
print(t.mean(dim=0)) # 즉, 두번째 차원이 같은 원소끼리의 평균(1과 3의 평균, 2, 4의 평균)

# 두번째 차원을 제거
print(t.mean(dim=1)) # 1과 2의 평균, 3과 4의 평균

# 마지막 차원을 제거
print(t.mean(dim=-1)) # 1과 2의 평균, 3과 4의 평균

tensor(2.5000)
tensor([2., 3.])
tensor([1.5000, 3.5000])
tensor([1.5000, 3.5000])


#### 1.2.5.3. Sum

In [26]:
t = torch.FloatTensor([[1, 2], [3, 4]])
t

tensor([[1., 2.],
        [3., 4.]])

In [27]:
print(t.sum()) # 원소 전체의 합
print(t.sum(dim=0)) # 행을 제거한 총합 (1과 3의 합, 2와 4의 합)
print(t.sum(dim=1)) # 열을 제거한 총합 (1과 2의 합, 3와 4의 합)
print(t.sum(dim=-1)) # 열을 제거한 총합 (1과 2의 합, 3와 4의 합)

tensor(10.)
tensor([4., 6.])
tensor([3., 7.])
tensor([3., 7.])


#### 1.2.5.4. Max & ArgMax
- Max : 원소의 최대값을 리턴
- ArgMax : 최대값을 가진 인덱스를 리턴

In [28]:
t = torch.FloatTensor([[1, 2], [3, 4]])
t

tensor([[1., 2.],
        [3., 4.]])

In [29]:
t.max() # 원소 중의 최대값

tensor(4.)

In [30]:
# 첫번째 차원을 제거한 후 max실행
# dim을 주면 max와 함께 argmax도 리턴
t.max(dim=0) # [3과 1 중 최댓값, 2와 4 중 최댓값] / [각 열에서 최대값의 인덱스]

torch.return_types.max(
values=tensor([3., 4.]),
indices=tensor([1, 1]))

In [31]:
# 따로 받을 수 있다
print('Max: ', t.max(dim=0)[0])
print('Argmax: ', t.max(dim=0)[1])

Max:  tensor([3., 4.])
Argmax:  tensor([1, 1])


In [32]:
print(t.max(dim=1))
print()
print(t.max(dim=-1))

torch.return_types.max(
values=tensor([2., 4.]),
indices=tensor([1, 1]))

torch.return_types.max(
values=tensor([2., 4.]),
indices=tensor([1, 1]))


#### 1.2.5.5. View
- 원소의 수를 유지하면서 텐서의 크기를 변경

In [33]:
t = np.array([[[0, 1, 2],
               [3, 4, 5]],
              [[6, 7, 8],
               [9, 10, 11]]])
ft = torch.FloatTensor(t)

print(ft)
print(ft.shape)

tensor([[[ 0.,  1.,  2.],
         [ 3.,  4.,  5.]],

        [[ 6.,  7.,  8.],
         [ 9., 10., 11.]]])
torch.Size([2, 2, 3])


In [44]:
# 3차원 텐서 -> 2차원 텐서
print(ft.view([-1, 3])) # ft 텐서를 (?, 3)의 크기로 변경 / -1은 파이토치가 자동으로 크기 할당
print(ft.view([-1, 3]).shape)

tensor([[ 0.,  1.,  2.],
        [ 3.,  4.,  5.],
        [ 6.,  7.,  8.],
        [ 9., 10., 11.]])
torch.Size([4, 3])


- 변환 과정 : (2, 2, 3) -> (2 x 2, 3) -> (4, 3)
- view는 기본적으로 변경 전과 후의 텐서 안의 원소 개수가 유지되어야 한다
- -1로 설정한 차원은 다른 차원으로부터 해당 값을 유추하여 설정

In [46]:
# 3차원 텐서 -> 3차원 텐서
# (2 x 2 x 3) -> (? x 1 x 3)
print(ft.view([-1, 1, 3]))
print(ft.view([-1, 1, 3]).shape)

tensor([[[ 0.,  1.,  2.]],

        [[ 3.,  4.,  5.]],

        [[ 6.,  7.,  8.]],

        [[ 9., 10., 11.]]])
torch.Size([4, 1, 3])


#### 1.2.5.6. Squeeze
- 1인 차원을 제거한다

In [47]:
ft = torch.FloatTensor([[0], [1], [2]])
print(ft)
print(ft.shape)

tensor([[0.],
        [1.],
        [2.]])
torch.Size([3, 1])


In [49]:
print(ft.squeeze()) # 차원이 1인 두번째 차원 제거
print(ft.squeeze().shape)

tensor([0., 1., 2.])
torch.Size([3])


#### 1.2.5.7. Unsqueeze
- 특정 위치에 1인 차원을 추가한다

In [50]:
ft = torch.Tensor([0, 1, 2])
print(ft.shape)

torch.Size([3])


In [52]:
# 첫번째 차원에 1인 차원 추가
print(ft.unsqueeze(0)) # 인덱스가 0부터 시작하므로 0은 첫번째 차원을 의미한다.
print(ft.unsqueeze(0).shape)

tensor([[0., 1., 2.]])
torch.Size([1, 3])


In [53]:
# view를 이용하여 첫번째 차원에 1인 차원 추가
print(ft.view(1, -1))
print(ft.view(1, -1).shape)

tensor([[0., 1., 2.]])
torch.Size([1, 3])


In [56]:
# 두번째 차원에 1인 차원 추가
print(ft.unsqueeze(1))
print(ft.unsqueeze(1).shape)

tensor([[0.],
        [1.],
        [2.]])
torch.Size([3, 1])


In [57]:
# 마지막 차원에 1인 차원 추가
print(ft.unsqueeze(-1))
print(ft.unsqueeze(-1).shape)

tensor([[0.],
        [1.],
        [2.]])
torch.Size([3, 1])


#### 1.2.5.8. Type Casting

In [62]:
# Long 타입 텐서
lt = torch.LongTensor([1, 2, 3, 4])
print(lt)
print(lt.float()) # float 형으로 변환

tensor([1, 2, 3, 4])
tensor([1., 2., 3., 4.])


In [64]:
# Byte 타입 텐서
bt = torch.ByteTensor([True, False, False, True])
print(bt)
print(bt.long())
print(bt.float())

tensor([1, 0, 0, 1], dtype=torch.uint8)
tensor([1, 0, 0, 1])
tensor([1., 0., 0., 1.])


#### 1.2.5.9. Concatenate
- 두 텐서를 연결

In [65]:
x = torch.FloatTensor([[1, 2], [3, 4]])
y = torch.FloatTensor([[5, 6], [7, 8]])

In [69]:
# 첫번째 차원을 늘리라는 의미
# 두 개의 (2, 2)의 텐서 -> 한 개의 (4, 2)의 텐서
print(torch.cat([x, y], dim=0))

tensor([[1., 2.],
        [3., 4.],
        [5., 6.],
        [7., 8.]])


In [70]:
# 두번째 차원을 늘리라는 의미
# 두 개의 (2, 2)의 텐서 -> 한 개의 (2, 4)의 텐서
print(torch.cat([x, y], dim=1))

tensor([[1., 2., 5., 6.],
        [3., 4., 7., 8.]])


#### 1.2.5.10. Stacking
- 연결하는 다른 방법
- 많은 연산을 포함하고 있음

In [71]:
x = torch.FloatTensor([1, 4])
y = torch.FloatTensor([2, 5])
z = torch.FloatTensor([3, 6])

In [73]:
# 3개의 벡터를 순차적으로 쌓아 만듬
print(torch.stack([x, y, z]))

tensor([[1., 4.],
        [2., 5.],
        [3., 6.]])


In [75]:
# stack을 cat으로 구현
# 세 개의 (2,) 크기를 가진 텐서 -> 각각 (1, 2)크기로 변환 -> (3, 2) 크기로 연결
print(torch.cat([x.unsqueeze(0), y.unsqueeze(0), z.unsqueeze(0)], dim=0))

tensor([[1., 4.],
        [2., 5.],
        [3., 6.]])


In [76]:
# 두번째 차원이 증가하도록 쌓음
print(torch.stack([x, y, z], dim=1))

tensor([[1., 2., 3.],
        [4., 5., 6.]])


#### 1.2.5.11. ones_like & zeros_like
- 1로 채워진 텐서와 0으로 채워진 텐서

In [77]:
x = torch.FloatTensor([[0, 1, 2], [2, 1, 0]])
x

tensor([[0., 1., 2.],
        [2., 1., 0.]])

In [79]:
# 주어진 텐서의 크기를 유지하며 값을 모두 1로 바꿈
torch.ones_like(x)

tensor([[1., 1., 1.],
        [1., 1., 1.]])

In [81]:
# 주어진 텐서의 크기를 유지하며 값을 모두 0으로 바꿈
torch.zeros_like(x)

tensor([[0., 0., 0.],
        [0., 0., 0.]])

#### 1.2.5.12. In-place Operation (덮어쓰기 연산)

In [87]:
x = torch.FloatTensor([[1, 2], [3, 4]])
print(x)
print()
print(x.mul(2))

tensor([[1., 2.],
        [3., 4.]])

tensor([[2., 4.],
        [6., 8.]])


In [88]:
print(x.mul_(2)) # 연산 뒤에 _을 붙이면 기존의 값을 덮어쓴다 
print()
print(x)

tensor([[2., 4.],
        [6., 8.]])

tensor([[2., 4.],
        [6., 8.]])
