# **파이토치 기초**

## 파이토치 패키지의 기본 구성

### **torch**
---
메인 네임스페이스. 텐서 등의 다양한 수학 함수가 포함되어 있으며 Numpy와 유사한 구조를 가진다.

### **torch.autograd**
---
자동 미분을 위한 함수들의 포함되어 있다. 

자동 미분의 on/off를 제어하는 콘텍스트 매니저나(enable_grad/no_grad)나 자체 미분 가능 함수를 정의할 때 사용하는 기반 클래스 'Function'등이 포함되어 있다.

### **torch.nn**
---
신경망을 구축하기 위한 다양한 데이터 구조나 레이어 등이 정의되어 있다. RNN, LSTM 같은 **레이어**, ReLu와 같은 **활성화 함수**, MSELoss와 같은 **손실 함수**들이 있다.


### **torch.optim**
---
확률적 경사 하강법(Stochastic Gradient Descent, SGD)를 중심으로 한 파라미터 최적화 알고리즘이 구현되어 있다.

### torch.utils.data
---
SGD의 반복 연산을 실행할 대 사용하는 미니 배치용 유틸리티 함수가 포함되어 있다.

### torch.onnx
---
ONNX(Open Neural Network Exchange)의 포맷으로 모델을 **익스포트(export)**할 때 사용한다. ONNX는 서로 다른 딥 러닝 프레임워크 간에 **모델을 공유**할 때 사용하는 포맷.

## 텐서 조작하기

In [1]:
import torch

### 1D

In [2]:
t = torch.FloatTensor([0., 1., 2., 3., 4., 5., 6.])
print(t)

tensor([0., 1., 2., 3., 4., 5., 6.])


In [3]:
print(t.dim())
print(t.shape)
print(t.size())

1
torch.Size([7])
torch.Size([7])


In [4]:
print(t[0], t[1], t[-1])
print(t[2:5], t[4:-1])
print(t[:2], t[3:])

tensor(0.) tensor(1.) tensor(6.)
tensor([2., 3., 4.]) tensor([4., 5.])
tensor([0., 1.]) tensor([3., 4., 5., 6.])


### 2D

In [6]:
t = torch.FloatTensor([[1., 2., 3.],
                       [4., 5., 6.],
                       [7., 8., 9.],
                       [10., 11., 12.]
                       ])
print(t)

tensor([[ 1.,  2.,  3.],
        [ 4.,  5.,  6.],
        [ 7.,  8.,  9.],
        [10., 11., 12.]])


In [7]:
print(t.dim())
print(t.size())

2
torch.Size([4, 3])


In [8]:
print(t[:, 1])
print(t[:, 1].size())

tensor([ 2.,  5.,  8., 11.])
torch.Size([4])


In [9]:
print(t[:, :-1])

tensor([[ 1.,  2.],
        [ 4.,  5.],
        [ 7.,  8.],
        [10., 11.]])


In [10]:
print(t[:-1, :])

tensor([[1., 2., 3.],
        [4., 5., 6.],
        [7., 8., 9.]])


In [11]:
print(t[:-1, :-1])

tensor([[1., 2.],
        [4., 5.],
        [7., 8.]])


### 브로드캐스팅(Broadcasting)

두 행렬 A, B의 덧셈과 뺄셈을 위해선 **행렬 A,B의 크기가 같아야** 한다는 조건이 있다. 

그리고 두 행렬이 곱셈을 할 때에는 **A의 열과 B의 행 차원**이 일치해야 한다는 조건도 있다.

하지만 딥러닝을 하다보면 불가피하게 크기가 다른 행렬(혹은 텐서)에 대해 사칙 연산을 수행해야 하는 경우가 생긴다. 파이토치에서는 자동으로 크기를 맞춰서 연산을 수행하게 만드는 **브토드캐스팅** 기능을 제공한다.

In [12]:
m1 = torch.FloatTensor([[3, 3]])
m2 = torch.FloatTensor([[2, 2]])
print(m1 + m2)

tensor([[5., 5.]])


1행 2열의 같은 크기의 행렬이기 때문에 문제 없이 덧셈 연산이 가능하다.

In [13]:
m1 = torch.FloatTensor([[1, 2]])
m2 = torch.FloatTensor([3]) # [3] -> [3, 3]
print(m1 + m2)

tensor([[4., 5.]])


원칙적으로는 (1,2)와 (1,)의 크기가 달라 덧셈이 불가능하지만 파이토치는 m2롤 동일한 크기로 변경하여 연산을 수행한다. 

In [14]:
# 2 x 1 Vector + 1 x 2 Vector
m1 = torch.FloatTensor([[1, 2]])
m2 = torch.FloatTensor([[3], [4]])
print(m1 + m2)

tensor([[4., 5.],
        [5., 6.]])


[1, 2]
==> [[1, 2],
     [1, 2]]

[3]
[4]
==> [[3, 3],
     [4, 4]]

파이토치는 위처럼 자동으로 브로드캐스팅하여 연산을 수행한다.

이는 편리한 기능이지만 자동으로 실행되는 기능인 만큼 사용자 입장에서 굉장히 주의해서 사용해야 한다. 크기가 다른 텐서를 크기가 같다고 착각하여 덧셈을 하게 되면 나중에 원하지 않는 결과가 나와도 어디서 문제가 발생했는지 찾기 굉장히 어려울 수 있다.

### 자주 사용되는 기능

#### 행렬 곱셈과 원소별 곱셈(Matrix Multiplication Vs. Multiplication)
*   행렬곱셈(.matmul)
*   원소 별 곱셈(.mul) = element-wise 곱셈


In [16]:
# 행렬곱셈 .matmul
m1 = torch.FloatTensor([[1, 2], [3, 4]])
m2 = torch.FloatTensor([[1], [2]])
print('Shape of Matrix 1: ', m1.shape) # 2 x 2
print('Shape of Matrix 2: ', m2.shape) # 2 x 1
print(m1.matmul(m2)) # 2 x 1

Shape of Matrix 1:  torch.Size([2, 2])
Shape of Matrix 2:  torch.Size([2, 1])
tensor([[ 5.],
        [11.]])


In [17]:
# 원소별 곱셈
m1 = torch.FloatTensor([[1, 2], [3, 4]])
m2 = torch.FloatTensor([[1], [2]])
print('Shape of Matrix 1: ', m1.shape) # 2 x 2
print('Shape of Matrix 2: ', m2.shape) # 2 x 1
print(m1 * m2) # 2 x 2
print(m1.mul(m2))

Shape of Matrix 1:  torch.Size([2, 2])
Shape of Matrix 2:  torch.Size([2, 1])
tensor([[1., 2.],
        [6., 8.]])
tensor([[1., 2.],
        [6., 8.]])


[1]

[2]

==>
 [[1, 1],
  [2, 2]]

  로 브로드캐스팅되어 각 원소별로 곱셈이 수행된 것을 확인할 수 있다.

#### 평균(Mean)

In [18]:
t = torch.FloatTensor([1, 2])
print(t.mean())

tensor(1.5000)


In [19]:
t = torch.FloatTensor([[1, 2], [3, 4]])
print(t)

tensor([[1., 2.],
        [3., 4.]])


In [20]:
print(t.mean())

tensor(2.5000)


4개의 원소 평균이 출력됨을 확인할 수 있다.

In [21]:
# 첫 번째 차원(행) 평균
print(t.mean(dim=0))

tensor([2., 3.])


dim은 해당 차원을 제거한다는 의미가 된다. 따라서 행이 제게되고 열끼리 평균을 계산한다는 뜻.

In [22]:
print(t.mean(dim=1))

tensor([1.5000, 3.5000])


In [24]:
print(t.mean(dim=-1)) # -1은 마지막을 의미 -> 열을 제거

tensor([1.5000, 3.5000])


#### 덧셈(sum)

In [25]:
t = torch.FloatTensor([[1, 2], [3, 4]])
print(t)

tensor([[1., 2.],
        [3., 4.]])


In [26]:
print(t.sum()) # 단순히 원소 전체의 덧셈을 수행
print(t.sum(dim=0)) # 행을 제거
print(t.sum(dim=1)) # 열을 제거
print(t.sum(dim=-1)) # 열을 제거

tensor(10.)
tensor([4., 6.])
tensor([3., 7.])
tensor([3., 7.])


sum은 원소를 모두 더해준다

#### 최대(Max)와 아그맥스(ArgMax)

Max는 원소의 **최대값**을 리턴하고, **아그맥스(ArgMax)**는 최대값을 가진 **인덱스**를 리턴한다.

In [27]:
t = torch.FloatTensor([[1, 2], [3, 4]])
print(t)

tensor([[1., 2.],
        [3., 4.]])


In [28]:
print(t.max())

tensor(4.)


In [29]:
print(t.max(dim=0)) # 열에서 최대

torch.return_types.max(
values=tensor([3., 4.]),
indices=tensor([1, 1]))


[1, 1]은 argmax로 인덱스를 의미한다. 첫 번째 열에서 3의 인덱스 1, 두 번째 열에서 4의 인덱스 1이 리턴된 것.

In [30]:
print('Max: ', t.max(dim=0)[0])
print('Argmax: ', t.max(dim=0)[1])

Max:  tensor([3., 4.])
Argmax:  tensor([1, 1])


만약 max따로 argmax따로 리턴받고 싶다면 리턴값에 인덱스를 부여하면 된다.

In [32]:
print(t.max(dim=1)) # 행별 최대값 출력
print(t.max(dim=-1))

torch.return_types.max(
values=tensor([2., 4.]),
indices=tensor([1, 1]))
torch.return_types.max(
values=tensor([2., 4.]),
indices=tensor([1, 1]))
