<a href="https://colab.research.google.com/github/sw-woo/FinRL/blob/master/_9_%ED%8C%8C%EC%9D%B4%ED%86%A0%EC%B9%98(PyTorch)_%EA%B8%B0%EC%B4%88_ipynb%EC%9D%98_%EC%82%AC%EB%B3%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 파이토치(PyTorch)

<img src="https://img1.daumcdn.net/thumb/R800x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbuUgoV%2FbtqwWZvcHHX%2Fd6XzIFBEfiuFb0UvyV4A50%2Fimg.jpg" width="300">

- 코드 출처: https://pytorch.org/tutorials/

## 파이토치의 구성요소

- `torch`: 텐서를 생성하는 라이브러리

- `torch.autograd`: 자동미분 기능을 제공하는 라이브러리

- `torch.nn`: 신경망을 생성하는 라이브러리

- `torch.multiprocessing`: 병럴처리 기능을 제공하는 라이브러리

- `torch.utils`: 데이터 조작 등 유틸리티 기능 제공

- `torch.legacy`(./nn/.optim): Torch로부터 포팅해온 코드

- `torch.onnx`: ONNX(Open Neural Network Exchange)

  - 서로 다른 프레임워크 간의 모델을 공유할 때 사용

## 텐서(Tensors)
- 넘파이(NumPy)의 ndarray와 유사

- GPU를 사용한 연산 가속도 가능

In [None]:
import torch

In [None]:
torch.__version__

'1.10.0+cu111'

### 초기화 되지 않은 행렬 

In [None]:
#4x2에 텐서가 만들어 지고 초기화가 안되어서 random 값이 들어가있다.
x = torch.empty(4,2)
print(x)

tensor([[2.4128e+23, 3.0878e-41],
        [3.3631e-44, 0.0000e+00],
        [       nan, 0.0000e+00],
        [4.4721e+21, 1.5956e+25]])


### 무작위로 초기화된 행렬

In [None]:
x = torch.rand(4,2)
print(x)

tensor([[0.4076, 0.7118],
        [0.8342, 0.1952],
        [0.4607, 0.3545],
        [0.3595, 0.8184]])


### dtype이 long, 0으로 채워진 텐서

In [None]:
x = torch.zeros(4,2, dtype=torch.long)
print(x)

tensor([[0, 0],
        [0, 0],
        [0, 0],
        [0, 0]])


In [None]:
x = torch.tensor([3,2.3])
print(x)

tensor([3.0000, 2.3000])


In [None]:
x = x.new_ones(2, 4, dtype=torch.double)
print(x)

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.]], dtype=torch.float64)


In [None]:
x = torch.randn_like(x, dtype=torch.float32)
print(x)

tensor([[ 0.3961, -1.4162,  0.3068,  1.1151],
        [-0.2888, -0.3395, -0.1179,  0.9885]])


### 텐서의 크기

In [None]:
print(x.size())

torch.Size([2, 4])


## 텐서의 연산(operations)

### 덧셈 1

In [None]:
print(x)

tensor([[ 0.3961, -1.4162,  0.3068,  1.1151],
        [-0.2888, -0.3395, -0.1179,  0.9885]])


In [None]:
y = torch.rand(2,4)
print(y)
print(x+y)

tensor([[0.9706, 0.6392, 0.3825, 0.3969],
        [0.9627, 0.6325, 0.4600, 0.5362]])
tensor([[ 1.3667, -0.7770,  0.6892,  1.5120],
        [ 0.6739,  0.2930,  0.3422,  1.5247]])


### 덧셈2

In [None]:
print(torch.add(x,y))

tensor([[ 1.3667, -0.7770,  0.6892,  1.5120],
        [ 0.6739,  0.2930,  0.3422,  1.5247]])


### 덧셈3
- 결과 텐서를 인자로 제공

In [None]:
result = torch.empty(2,4)
torch.add(x,y, out=result)
print(result)

tensor([[ 1.3667, -0.7770,  0.6892,  1.5120],
        [ 0.6739,  0.2930,  0.3422,  1.5247]])


### 덧셈4
- `in-place` 방식

- (참고) in-place 방식
  - in-place방식으로 텐서의 값을 변경하는 연산 뒤에는 _''가 붙음
  - `x.copy_(y), x.t_()`

In [None]:
print(x)
print(y)
y.add_(x)# y +=x
print(y)

tensor([[ 0.3961, -1.4162,  0.3068,  1.1151],
        [-0.2888, -0.3395, -0.1179,  0.9885]])
tensor([[0.9706, 0.6392, 0.3825, 0.3969],
        [0.9627, 0.6325, 0.4600, 0.5362]])
tensor([[ 1.3667, -0.7770,  0.6892,  1.5120],
        [ 0.6739,  0.2930,  0.3422,  1.5247]])


### 그 외의 연산
- `torch.sub` : 뺄셈

- `torch.mul` : 곱셉

- `torch.div` : 나눗셈

- `torch.mm` : 내적(dot product)

In [None]:
x = torch.Tensor([[1,3],
                 [5,4]])

y = torch.Tensor([[2,4],
                  [6,8]])

print(x - y)
print(torch.sub(x,y))
print(x.sub(y))

tensor([[-1., -1.],
        [-1., -4.]])
tensor([[-1., -1.],
        [-1., -4.]])
tensor([[-1., -1.],
        [-1., -4.]])


In [None]:
print(x * y)
print(torch.mul(x,y))
print(x.mul(y))

tensor([[ 2., 12.],
        [30., 32.]])
tensor([[ 2., 12.],
        [30., 32.]])
tensor([[ 2., 12.],
        [30., 32.]])


In [None]:
print(x / y)
print(torch.div(x,y))
print(x.div(y))

tensor([[0.5000, 0.7500],
        [0.8333, 0.5000]])
tensor([[0.5000, 0.7500],
        [0.8333, 0.5000]])
tensor([[0.5000, 0.7500],
        [0.8333, 0.5000]])


In [None]:
# 내적(dot product) 행렬 곱 연산
x = torch.Tensor([[1,3],
                 [5,4]])

y = torch.Tensor([[2,4],
                  [6,8]])

print(torch.mm(x,y))

tensor([[20., 28.],
        [34., 52.]])


## 텐서의 조작(manipulations)

### 인덱싱
- 넘파이처럼 인덱싱 사용가능

In [None]:
print(x)

tensor([[1., 3.],
        [5., 4.]])


In [None]:
print(x[:,1])

tensor([3., 4.])


### view
- 텐서의 크기(size)나 모양(shape)을 변경

In [None]:
x = torch.randn(4,5)
y = x.view(20)
z = x.view(5,-1)

print(x)
print(y)
print(z)

tensor([[-0.0608,  0.2813, -0.7035, -1.0885, -0.8782],
        [ 2.0014, -0.1016, -1.0393,  0.8939, -0.0293],
        [ 0.2086,  1.1640, -0.0984, -0.4908, -0.9677],
        [-0.2981,  0.9978,  1.0888, -0.6024,  0.8381]])
tensor([-0.0608,  0.2813, -0.7035, -1.0885, -0.8782,  2.0014, -0.1016, -1.0393,
         0.8939, -0.0293,  0.2086,  1.1640, -0.0984, -0.4908, -0.9677, -0.2981,
         0.9978,  1.0888, -0.6024,  0.8381])
tensor([[-0.0608,  0.2813, -0.7035, -1.0885],
        [-0.8782,  2.0014, -0.1016, -1.0393],
        [ 0.8939, -0.0293,  0.2086,  1.1640],
        [-0.0984, -0.4908, -0.9677, -0.2981],
        [ 0.9978,  1.0888, -0.6024,  0.8381]])


### item
- 텐서에 값이 단 하나라도 존재하면 숫자값을 얻을 수 있음


In [None]:
x = torch.randn(1)
print(x)
print(x.item())
print(x.dtype)

tensor([-0.2844])
-0.2843697965145111
torch.float32


- 스칼라값 하나만 존재해야함 아니면 에러 발생

In [None]:
x = torch.randn(2)
print(x)
print(x.item())
print(x.dtype)

tensor([0.8674, 0.7517])


ValueError: ignored

### squeeze 
- 차원을 축소(제거)

In [None]:
tensor = torch.rand(1,3,3)
print(tensor)
print(tensor.shape)

tensor([[[0.6337, 0.3776, 0.4369],
         [0.2669, 0.2220, 0.2309],
         [0.5135, 0.4505, 0.9099]]])
torch.Size([1, 3, 3])


In [None]:
t = tensor.squeeze()

print(t)
print(t.shape)

tensor([[0.6337, 0.3776, 0.4369],
        [0.2669, 0.2220, 0.2309],
        [0.5135, 0.4505, 0.9099]])
torch.Size([3, 3])


### unsqueeze
- 차원을 증가(생성)

In [None]:
tensor = torch.rand(1,3,3)
print(tensor)
print(tensor.shape)

tensor([[[0.9002, 0.3430, 0.9313],
         [0.5659, 0.6545, 0.8966],
         [0.3189, 0.6143, 0.1110]]])
torch.Size([1, 3, 3])


In [None]:
t = tensor.unsqueeze(dim=0)

print(t)
print(t.shape)

tensor([[[[0.9002, 0.3430, 0.9313],
          [0.5659, 0.6545, 0.8966],
          [0.3189, 0.6143, 0.1110]]]])
torch.Size([1, 1, 3, 3])


### stack
- 텐서간 결합

In [None]:
x = torch.FloatTensor([1,4])
y = torch.FloatTensor([2,5])
z = torch.FloatTensor([3,6])

print(torch.stack([x,y,z]))


tensor([[1., 4.],
        [2., 5.],
        [3., 6.]])


### cat
- 텐서를 결합하는 메소드(concatenate)

- 넘파이의 `stack`과 유사하지만, 쌓을 dim이 존재해야함
  - 예를 들어, 해당 차원을 늘려준 후 결합


In [None]:
a = torch.randn(1,1,3,3)
b = torch.randn(1,1,3,3)
c = torch.cat((a,b),dim=0) #dim 을 지정해주어서 concatenate 할수 있음

print(c)
print(c.size())

tensor([[[[-0.7056, -1.7665, -1.8632],
          [-0.3811,  0.8098,  0.7133],
          [-1.5931, -0.6902,  0.0863]]],


        [[[-1.9890,  1.4205,  0.5822],
          [-0.2091, -0.8657, -1.1306],
          [ 1.2537,  0.3114,  1.0020]]]])
torch.Size([2, 1, 3, 3])


In [None]:
a = torch.randn(1,3,3)
b = torch.randn(1,3,3)
c = torch.cat((a,b),dim=0) #dim 을 지정해주어서 concatenate 할수 있음

print(c)
print(c.size())

tensor([[[-0.9370, -0.9296, -0.6429],
         [-0.5940, -0.2426, -0.2004],
         [-1.4836,  0.2592,  0.7819]],

        [[ 0.2822, -1.2753, -0.2925],
         [ 0.9040,  0.0501, -0.9625],
         [-0.4104, -1.3215,  1.2463]]])
torch.Size([2, 3, 3])


### chuck
- 텐서를 여러 개로 나눌 때 사용

- 몇 개의 텐서로 나눌 것이냐

In [None]:
tensor = torch.rand(3,6)
t1 , t2 , t3 = torch.chunk(tensor,3,dim=1)


print(tensor)
print(t1)
print(t2)
print(t3)

tensor([[0.5773, 0.2229, 0.2202, 0.2072, 0.8532, 0.6505],
        [0.5332, 0.8393, 0.8872, 0.6860, 0.5765, 0.0936],
        [0.8592, 0.5055, 0.2262, 0.8316, 0.1318, 0.9308]])
tensor([[0.5773, 0.2229],
        [0.5332, 0.8393],
        [0.8592, 0.5055]])
tensor([[0.2202, 0.2072],
        [0.8872, 0.6860],
        [0.2262, 0.8316]])
tensor([[0.8532, 0.6505],
        [0.5765, 0.0936],
        [0.1318, 0.9308]])


### split
- `chunck`와 동일한 기능이지만 조금 다름

- 하나의 텐서당 크기가 얼마이냐

In [None]:
tensor = torch.rand(3,6)
t1 , t2  = torch.split(tensor,3,dim=1)

print(tensor)
print(t1)
print(t2)
print(t3)

tensor([[0.7512, 0.9504, 0.1773, 0.9781, 0.8651, 0.8278],
        [0.6173, 0.9983, 0.9145, 0.2377, 0.3308, 0.7939],
        [0.6366, 0.9929, 0.0241, 0.8770, 0.3329, 0.0469]])
tensor([[0.7512, 0.9504, 0.1773],
        [0.6173, 0.9983, 0.9145],
        [0.6366, 0.9929, 0.0241]])
tensor([[0.9781, 0.8651, 0.8278],
        [0.2377, 0.3308, 0.7939],
        [0.8770, 0.3329, 0.0469]])
tensor([[0.8532, 0.6505],
        [0.5765, 0.0936],
        [0.1318, 0.9308]])


### torch ↔ numpy
- Torch Tensor(텐서)를 Numpy array(배열)로 변환 가능

  - `numpy()` tensor -> numpy
  - `from_numpy()` numpy -> tensor

- (참고)
  - Tensor가 CPU상에 있다면 Numpy 배열은 메모리 공간을 공유하므로 하나가 변하면, 다른 하나도 변함

In [None]:
a = torch.ones(7)
print(a)

tensor([1., 1., 1., 1., 1., 1., 1.])


In [None]:
b = a.numpy()

In [None]:
a.add_(1)
print(a)
print(b)

tensor([2., 2., 2., 2., 2., 2., 2.])
[2. 2. 2. 2. 2. 2. 2.]


In [None]:
import numpy as np

a = np.ones(7)
b = torch.from_numpy(a)
np.add(a, 1, out = a)

print(a)
print(b)


[2. 2. 2. 2. 2. 2. 2.]
tensor([2., 2., 2., 2., 2., 2., 2.], dtype=torch.float64)


## CUDA Tensors
- `.to` 메소드를 사용하여 텐서를 어떠한 장치로도 옮길 수 있음
  - 예) cpu, gpu

In [None]:
import torch

In [None]:
x = torch.rand(1)
print(x)
print(x.item())
print(x.dtype)


tensor([0.7422])
0.7422164678573608
torch.float32


In [None]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

y = torch.ones_like(x, device=device)
x = x.to(device)
z = x + y

print(device)
print(z)
print(z.to("cpu", torch.double))

cuda
tensor([1.7422], device='cuda:0')
tensor([1.7422], dtype=torch.float64)


## AUTOGRAD (자동미분)
- autograd 패키지는 Tensor의 모든 연산에 대해 **자동 미분** 제공

- 이는 코드를 어떻게 작성하여 실행하느냐에 따라 역전파가 정의된다는 뜻

- backprop를 위한 미분값을 자동으로 계산

### Tensor

- data: tensor형태의 데이터

- grad: data가 겨쳐온 layer에 대한 미분값 저장

- grad_fn: 미분값을 계산한 함수에 대한 정보 저장 (어떤 함수에 대해서 backprop 했는지)

- `requires_grad` 속성을 `True`로 설정하면, 해당 텐서에서 이루어지는 모든 연산들을 추적하기 시작

- 계산이 완료된 후, `.backward()`를 호출하면 자동으로 `gradient`를 계산할 수 있으며, `.grad` 속성에 누적됨

- 기록을 추적하는 것을 중단하게 하려면, `.detach()`를 호출하여 연산기록으로부터 분리

- 기록을 추적하는 것을 방지하기 위해 코드 블럭을 `with torch.no_grad():`로 감싸면 `gradient`는 필요없지만, `requires_grad=True`로 설정되어 학습 가능한 매개변수를 갖는 모델을 평가(evaluate)할 때 유용

- Autograd 구현에서 매우 중요한 클래스 : `Function` 클래스

In [None]:
import torch

In [None]:
x = torch.ones(3,3, requires_grad=True)
print(x)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], requires_grad=True)


In [None]:
y = x + 5

print(y)


tensor([[6., 6., 6.],
        [6., 6., 6.],
        [6., 6., 6.]], grad_fn=<AddBackward0>)


In [None]:
print(y.grad_fn)

<AddBackward0 object at 0x7f4ca8538750>


In [None]:
z = y * y *2
out = z.mean()

print(z, out)

tensor([[72., 72., 72.],
        [72., 72., 72.],
        [72., 72., 72.]], grad_fn=<MulBackward0>) tensor(72., grad_fn=<MeanBackward0>)


- `requires_grad_(...)`는 기존 텐서의 `requires_grad`값을 바꿔치기(`in-place`)하여 변경

In [None]:
a = torch.rand(3,3)
a = ((a * 3) / (a-1))
print(a.requires_grad)

a.requires_grad_(True)
print(a.requires_grad)

b= (a*a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x7f4ca43e9810>


### 기울기(Gradient)
- 역전파: `.backward()`를 통해 역전파 계산 가능

In [None]:
print(x.grad)

tensor([[2.6667, 2.6667, 2.6667],
        [2.6667, 2.6667, 2.6667],
        [2.6667, 2.6667, 2.6667]])


In [None]:
x = torch.randn(3, requires_grad=True)

y = x * 2
while y.data.norm()< 1000:
  y = y*2

print(y)

tensor([-1173.2238,  1140.1097,  -165.1249], grad_fn=<MulBackward0>)


In [None]:
v = torch.tensor([0.1,1.0,0.0001],dtype=torch.float)
y.backward(v)
print(x.grad)

tensor([1.0240e+02, 1.0240e+03, 1.0240e-01])


- `with torch.no_grad()`를 사용하여 gradient의 업데이트를 하지 않음

In [None]:
print(x.requires_grad)
print((x**2).requires_grad)

with torch.no_grad():
  print((x**2).requires_grad)

True
True
False


- `detach()`: 내용물(content)은 같지만 require_grad가 다른 새로운 Tensor를 가져올 때

In [None]:
print(x.requires_grad)
y = x.detach()
print(y.requires_grad)
print(x.eq(y).all())


True
False
tensor(True)


### 자동 미분 흐름 다시 보기(1)
- 계산 흐름  
  $a \rightarrow b  \rightarrow c  \rightarrow out $

<br>

## $\quad \frac{\partial out}{\partial a} = ?$
- `backward()`를 통해  
  $a \leftarrow b  \leftarrow c  \leftarrow out $을 계산하면  
    $\frac{\partial out}{\partial a}$값이 `a.grad`에 채워짐


In [None]:
import torch

In [None]:
a = torch.ones(2,2)
print(a)

tensor([[1., 1.],
        [1., 1.]])


In [None]:
a = torch.ones(2,2, requires_grad=True)
print(a)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)


In [None]:
print("a.data:",a)
print("a.grad:", a.grad)
print("a.grad:", a.grad_fn)

a.data: tensor([[1., 1.],
        [1., 1.]], requires_grad=True)
a.grad: None
a.grad: None


- $b = a + 2$

In [None]:
b = a + 2

print(b)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)


- $c = b^2$ 

In [None]:
c = b**2
print(c)

tensor([[9., 9.],
        [9., 9.]], grad_fn=<PowBackward0>)


In [None]:
out = c.sum()
print(out)

tensor(36., grad_fn=<SumBackward0>)


In [None]:
print(out)
out.backward()

tensor(36., grad_fn=<SumBackward0>)


- a의 `grad_fn`이 None인 이유  
  직접적으로 계산한 부분이 없었기 때문

In [None]:
print("a.data:",a.data)
print("a.grad:", a.grad)
print("a.grad:", a.grad_fn)

a.data: tensor([[1., 1.],
        [1., 1.]])
a.grad: tensor([[6., 6.],
        [6., 6.]])
a.grad: None


In [None]:
print("b.data:",b.data)
print("b.grad:", b.grad)
print("b.grad:", b.grad_fn)

b.data: tensor([[3., 3.],
        [3., 3.]])
b.grad: None
b.grad: <AddBackward0 object at 0x7f4ca1bfba90>


  return self._grad


In [None]:
print("c.data:",c.data)
print("c.grad:", c.grad)
print("c.grad:", c.grad_fn)

c.data: tensor([[9., 9.],
        [9., 9.]])
c.grad: None
c.grad: <PowBackward0 object at 0x7f4ca847fc10>


  return self._grad


In [None]:
print("out.data:",out.data)
print("out.grad:", out.grad)
print("out.grad:", out.grad_fn)

out.data: tensor(36.)
out.grad: None
out.grad: <SumBackward0 object at 0x7f4ca1c2e8d0>


  return self._grad


### 자동 미분 흐름 다시 보기(2)
- `grad`값을 넣어서 `backward`

- 아래의 코드에서 `.grad`값이 None은 gradient값이 필요하지 않기 때문

In [None]:
x = torch.ones(3 , requires_grad=True)
y = (x**2)
z = y ** 2 + x
out = z.sum()
print(out)

tensor(6., grad_fn=<SumBackward0>)


In [None]:
grad = torch.Tensor([0.1,1,100])
z.backward(grad)

In [None]:
print("x.data:",x.data)
print("x.grad:", x.grad)
print("x.grad:", x.grad_fn)

x.data: tensor([1., 1., 1.])
x.grad: tensor([  0.5000,   5.0000, 500.0000])
x.grad: None


In [None]:
print("y.data:",y.data)
print("y.grad:", y.grad)
print("y.grad:", y.grad_fn)

y.data: tensor([1., 1., 1.])
y.grad: None
y.grad: <PowBackward0 object at 0x7f4ca1b76810>


  return self._grad


In [None]:
print("z.data:",z.data)
print("z.grad:", z.grad)
print("z.grad:", z.grad_fn)

z.data: tensor([2., 2., 2.])
z.grad: None
z.grad: <AddBackward0 object at 0x7f4ca1bfbcd0>


  return self._grad


## nn & nn.functional

- 두 패키지가 같은 기능이지만 방식이 조금 다름

- 위의 `autograd` 관련 작업들을 두 패키지를 통해 진행할 수 있음

- 텐서를 직접 다룰 때 `requires_grad`와 같은 방식으로 진행할 수 있음

- 결론적으로, `torch.nn`은 attribute를 활용해 state를 저장하고 활용하고,  
  `torch.nn.functional`로 구현한 함수의 경우에는 인스턴스화 시킬 필요 없이 사용이 가능
 


### nn 패키지

- 주로 가중치(weights), 편향(bias)값들이 내부에서 자동으로 생성되는 레이어들을 사용할 때  
  - 따라서, `weight`값들을 직접 선언 안함

- 예시
  - Containers

  - Convolution Layers

  - Pooling layers

  - Padding Layers

  - Non-linear Activations (weighted sum, nonlinearity)

  - Non-linear Activations (other)

  - Normalization Layers

  - Recurrent Layers

  - Transformer Layers

  - Linear Layers

  - Dropout Layers

  - Sparse Layers

  - Distance Functions

  - Loss Functions

  - ..
- https://pytorch.org/docs/stable/nn.html



- Convolution Layer 예시 (1)


### nn.functional 패키지

- 가중치를 직접 선언하여 인자로 넣어줘야함

- 예시)
  - Convolution functions

  - Pooling functions
  
  - Non-linear activation functions

  - Normalization functions

  - Linear functions

  - Dropout functions
  
  - Sparse functions
  
  - Distance functions

  - Loss functions
  - ..

- https://pytorch.org/docs/stable/nn.functional.html

- Convolution Layer 예시 (2)

## Torchvision

- `transforms`: 전처리할 때 사용하는 메소드

- `transforms`에서 제공하는 클래스 이외에  
  일반적으로 클래스를 따로 만들어 전처리 단계를 진행
  
  - 아래의 코드에서 다양한 전처리 기술 확인  
    https://pytorch.org/docs/stable/torchvision/transforms.html


- 예시)
  - `DataLoader`의 인자로 들어갈 `transform`을 미리 정의할 수 있음

  - `Compose`를 통해 리스트 안에 순서대로 전처리 진행

  - 대표적인 예로, `ToTensor`()를 하는 이유는  
   <u>torchvision이 PIL Image형태로만 입력을 받기 때문에</u> 데이터 처리를 위해서 Tensor형으로 변환해야함

## utils.data

- `Dataset`에는 다양한 데이터셋이 존재  
  - MNIST, CIFAR10, ...

- `DataLoader`, `Dataset`을 통해  
  `batch_size`, `train`여부, `transform`등을 인자로 넣어 데이터를 어떻게 load할 것인지 정해줄 수 있음

- `batch_size`만큼 데이터를 하나씩 가져옴

<u>**(중요) torch에서는 channel(채널)이 앞에 옴**</u>

- `channel first`

- tensorflow, keras 등에서는 channel이 뒤에 옴(`channel last`)

### 데이터 확인

## 각 Layer 설명

### nn.Conv2d

- `in_channels`: channel의 갯수

- `out_channels`: 출력 채널의 갯수

- `kernel_size`: 커널(필터) 사이즈

- 텐서플로우, 케라스와 다르게 레이어의 `input`인자에도 값을 집어 넣어줘야함

- `wegiht`확인

- `weight`는 `detach()`를 통해 꺼내줘야 `numpy()`변환이 가능

### Pooling
- `F.max_pool2d` 
  - `stride`

  - `kernel_size`

- `torch.nn.MaxPool2d` 도 많이 사용

- MaxPool Layer는 weight가 없기 때문에 바로 `numpy()`변환 가능

### Linear
- 1d만 가능 `.view()`를 통해 1D로 펼쳐줘야함

### Softmax

### F.relu

- ReLU 함수를 적용하는 레이어

- `nn.ReLU`로도 사용 가능

## Optimizer

- `import torch.optim as optim`

- `model`의 파라미터를 업데이트

- 예시)
  ```python
  optimizer = torch.optim.Adam(model.parameters(), lr=1e-4, weight_decay=1e-5)
  optimizer = optim.SGD(model.parameters(), lr=0.001)
  ```

- `.zero_grad()`로 초기화
- `.step()`으로 업데이트

