# Intro

[PyTorch](https://pytorch.org/)는 매우 강력한 머신러닝 프레임워크입니다. PyTorch의 핵심은 행렬을 더 높은 순위로 일반화 한 [텐서(tensor)](https://pytorch.org/docs/stable/tensors.html)입니다. 텐서의 직관적인 예는 세 가지 색상 채널이 있는 이미지입니다. 너비가 64 픽셀이고 높이가 64 픽셀인 3 채널 (빨간색, 녹색, 파란색) 이미지는 $ 3 \times 64 \times 64 $ 텐서입니다. 다른 모든 import 문과 함께 코드 상단 근처에 `import torch` 를 작성하여 PyTorch 프레임워크에 액세스 할 수 있습니다.

이 가이드는 PyTorch의 기능을 소개하는 데 도움이 되지만 기억하는 것에 대해 너무 걱정하지 마십시오. 과제는 필요한 경우 관련 문서로 연결됩니다.

In [2]:
# !pip install torch
import torch

# Why PyTorch?

질문 할 가치가 있는 한 가지 중요한 질문은 PyTorch가 이 과정에 사용되는 이유입니다. 오늘날 머신러닝 프레임워크의 상태를 살펴 보는 [the Gradient](https://thegradient.pub/state-of-ml-frameworks-2019-pytorch-dominates-research-tensorflow-dominates-industry/) 에 의해 크게 분류되었습니다. 부분적으로 기사에서 강조한 바와 같이, PyTorch는 대체 프레임 워크보다 일반적으로 더 파이썬적이고 디버깅하기 쉬우며 기계 학습 연구에서 가장 많이 사용되는 언어입니다. PyTorch의 주요 대안인 Tensorflow가 PyTorch의 많은 기능을 통합하려고 시도했지만 Tensorflow의 구현에는 기사에서 강조된 몇 가지 고유한 제한이 있습니다.

특히 PyTorch의 산업 사용량이 증가했지만 Tensorflow는 여전히 (현재) 산업에서 약간의 인기를 얻고 있습니다. 실제로 PyTorch를 연구에 매력적으로 만드는 기능은 교육에도 매력적이며, PyTorch에 대한 기계 학습 연구 및 실습의 일반적인 추세는 보다 적극적인 선택이 됩니다.

# 텐서 속성

목록이나 배열에서 텐서를 만드는 한 가지 방법은 `torch.Tensor` 를 사용하는 것입니다. 이 노트북에서 예제를 설정하는 데 사용되지만 코스에서 사용할 필요는 없습니다. 실제로 필요하다고 생각되면 정답이 아닐 수 있습니다.

In [3]:
example_tensor = torch.Tensor(
    [
     [[1, 2], [3, 4]], 
     [[5, 6], [7, 8]], 
     [[9, 0], [1, 2]]
    ]
)

간단히 출력하여 노트북에서 텐서를 볼 수 있습니다 (일부 더 큰 텐서는 잘릴 수 있음).

In [4]:
example_tensor

tensor([[[1., 2.],
         [3., 4.]],

        [[5., 6.],
         [7., 8.]],

        [[9., 0.],
         [1., 2.]]])

## Tensor 속성 : Device

하나의 중요한 속성은 텐서의 device 입니다. 이 노트북 전체에서 CPU에 있는 텐서를 고수하게 됩니다. 그러나 과정 내내 GPU (즉, 과정에 사용할 수 있도록 제공되는 그래픽 카드)에서 텐서를 사용하게 됩니다. 텐서의 장치를 보려면`example_tensor.device` 만 작성하면 됩니다. 텐서를 새 장치로 이동하려면`new_tensor = example_tensor.to(device)`를 작성하면 됩니다. 여기서 device는`cpu` 또는`cuda` 입니다.

In [5]:
example_tensor.device

device(type='cpu')

## Tensor 속성 : Shape

그리고 numpy를 사용했다면 익숙한 `example_tensor.shape`를 사용하여 텐서의 모양을 인쇄하여 각 차원의 요소 수를 얻을 수 있습니다. 예를 들어, 이 텐서는 $3\times2\times2$ 텐서입니다. 3 개의 요소가 있고 각 요소는 $2\times2$ 입니다.

In [5]:
example_tensor.shape

torch.Size([3, 2, 2])

`example_tensor.shape[n]` 또는 이와 동등한 `example_tensor.size(n)` 를 사용하여 특정 차원 $n$의 크기를 얻을 수도 있습니다.

In [6]:
print("shape[0] =", example_tensor.shape[0])
print("size(1) =", example_tensor.size(1))

shape[0] = 3
size(1) = 2


마지막으로 차원 수(rank) 또는 요소의 수를 가져 오는 것이 유용한 경우가 있습니다. 다음과 같이 수행 할 수 있습니다.

In [7]:
print("Rank =", len(example_tensor.shape))
print("Number of elements =", example_tensor.numel())

Rank = 3
Number of elements = 12


# 인덱싱 텐서

numpy와 마찬가지로 특정 요소 또는 텐서 요소의 하위 집합에 액세스 할 수 있습니다. $n$-번째 요소에 액세스하려면 `example_tensor[n]`을 작성하면 됩니다. 일반적으로 Python과 마찬가지로 이러한 차원은 0-부터 시작하는 인덱스입니다.

In [8]:
example_tensor[1]

tensor([[5., 6.],
        [7., 8.]])

또한 $i$ 번째 예제의 $j$ 번째 차원에 액세스하려면 `example_tensor [i, j]`를 작성할 수 있습니다.

In [9]:
example_tensor[1, 1, 0]

tensor(7.)

텐서에서 Python 스칼라 값을 얻으려면 `example_scalar.item()`을 사용할 수 있습니다.

In [7]:
example_tensor[1, 1, 0].item()

7.0

또한 `x [:, i]`를 사용하여 열의 i 번째 요소를 인덱싱 할 수 있습니다. 예를 들어 `example_tensor` 에 있는 각 요소의 왼쪽 상단 요소(각 행렬의 `0, 0` 요소)를 원하면 다음과 같이 작성할 수 있습니다.

In [11]:
example_tensor[:, 0, 0]

tensor([1., 5., 9.])

# 텐서 초기화

PyTorch 에서 새 텐서를 만드는 방법은 여러 가지가 있지만, 이 과정에서 가장 중요한 방법은 다음과 같습니다.

[`torch.ones_like`](https://pytorch.org/docs/master/generated/torch.ones_like.html) :`example_tensor`와 모양과 장치가 동일하며, 모든 요소가 1인 텐서를 만듭니다.

In [12]:
torch.ones_like(example_tensor)

tensor([[[1., 1.],
         [1., 1.]],

        [[1., 1.],
         [1., 1.]],

        [[1., 1.],
         [1., 1.]]])

[`torch.zeros_like`](https://pytorch.org/docs/master/generated/torch.zeros_like.html): `example_tensor`와 모양과 장치가 동일하며, 모든 요소가 0인 텐서를 생성합니다.

In [8]:
torch.zeros_like(example_tensor)

tensor([[[0., 0.],
         [0., 0.]],

        [[0., 0.],
         [0., 0.]],

        [[0., 0.],
         [0., 0.]]])

[`torch.randn_like`](https://pytorch.org/docs/stable/generated/torch.randn_like.html): `example_tensor`와 모양과 장치가 동일한 [Normal (또는 Gaussian) 분포](https://en.wikipedia.org/wiki/Normal_distribution)에서 샘플링 된 모든 요소로 텐서를 생성합니다.

In [14]:
torch.randn_like(example_tensor)

tensor([[[ 0.8422,  0.2482],
         [-0.5304,  1.0010]],

        [[ 0.7214,  0.5954],
         [ 0.1338, -0.0621]],

        [[-0.6337,  0.6675],
         [ 1.2811, -0.0149]]])

때로는 (예상보다 덜 자주), `ones_like` 또는 `randn_like`에 대한 참조 용 텐서없이 모양과 장치만 알고 있는 텐서를 초기화해야 할 수도 있습니다. 이 경우 다음과 같이 $2x2$ 텐서를 만들 수 있습니다.

In [9]:
torch.randn(2, 2, device='cpu') # Alternatively, for a GPU tensor, you'd use device='cuda'

tensor([[1.4556, 0.3286],
        [1.4494, 1.0598]])

# 기본 함수

PyTorch 를 사용하기 위해 알아야 할 몇 가지 기본 함수다 있습니다. numpy 에 익숙하다면 일반적으로 사용되는 모든 함수가 PyTorch 에 존재하며 일반적으로 동일한 이름을 사용합니다. 단순히 `c * example_tensor`를 작성하여 스칼라 $c$ 로 요소 별 곱셈/나눗셈을 수행하고 `example_tensor + c` 를 작성하여 스칼라별로 요소 별 덧셈/빼기를 수행 할 수 있습니다.

대부분의 연산은 PyTorch에서 제자리에 있지 않습니다. 즉, 원래 변수의 데이터를 변경하지 않는다는 의미입니다 (그러나 원하는 경우 변경된 데이터에 동일한 변수 이름을 다시 할당 할 수 있습니다 (예 : `example_tensor = example_tensor + 1`))

In [10]:
(example_tensor - 5) * 2

tensor([[[ -8.,  -6.],
         [ -4.,  -2.]],

        [[  0.,   2.],
         [  4.,   6.]],

        [[  8., -10.],
         [ -8.,  -6.]]])

[`example_tensor.mean()`](https://pytorch.org/docs/stable/generated/torch.mean.html) 또는 [`example_tensor.std()`](https://pytorch.org/docs/stable/generated/torch.std.html)를 사용하여 텐서의 평균 또는 표준 편차를 계산할 수 있습니다. `.

In [11]:
print("Mean:", example_tensor.mean())
print("Stdev:", example_tensor.std())

Mean: tensor(4.)
Stdev: tensor(2.9848)


특정 차원을 따라 평균 또는 표준 편차를 찾을 수도 있습니다. 이렇게 하려면 해당 차원에 해당하는 숫자를 함수에 간단히 전달할 수 있습니다. 예를 들어, $ 3 \times 2 \times 2 $ `example_tensor`의 평균 $ 2 \times 2 $ 행렬을 얻으려면 다음과 같이 작성할 수 있습니다.

In [12]:
example_tensor.mean(0)

# Equivalently, you could also write:
# example_tensor.mean(dim=0)
# example_tensor.mean(axis=0)
# torch.mean(example_tensor, 0)
# torch.mean(example_tensor, dim=0)
# torch.mean(example_tensor, axis=0)

tensor([[5.0000, 2.6667],
        [3.6667, 4.6667]])

PyTorch는 다른 많은 강력한 함수들을 가지고 있지만, 신경망 모듈 (`torch.nn`) 외부에서 이 과정에 필요한 모든 PyTorch 함수들이 이것들 입니다.

# PyTorch 신경망 모듈 (`torch.nn`)

PyTorch는`torch.nn` 모듈에 강력한 클래스가 많이 있습니다 (보통 단순히`nn`로 가져옴). 이러한 클래스를 사용하면 특정 방식으로 텐서를 변환하는 새 함수를 만들 수 있으며, 종종 여러 번 호출 될 때 정보를 유지합니다.

In [13]:
import torch.nn as nn

## `nn.Linear`

선형 레이어를 만들려면 입력 차원 수와 출력 차원 수를 전달해야 합니다. `nn.Linear(10, 2)`로 초기화 된 선형 객체는 $ n \times 10 $ 행렬을 받아 $ n \times 2 $ 행렬을 반환합니다. 여기서 모든 $ n $ 요소는 동일한 선형 변환을 수행했습니다. 예를 들어 $ Ax + b $ 작업을 수행하는 선형 층을 초기화 할 수 있습니다. 여기서 $ A $ 및 $ b $는 [`nn.Linear()`](https://pytorch.org/docs/stable/generated/torch.nn.Linear.html) 객체.

In [14]:
linear = nn.Linear(10, 2)
example_input = torch.randn(3, 10)
example_output = linear(example_input)
example_output

tensor([[ 0.6986, -0.6680],
        [ 0.3313, -0.6365],
        [-1.1942,  0.5160]], grad_fn=<AddmmBackward>)

## `nn.ReLU`

[`nn.ReLU()`](https://pytorch.org/docs/stable/generated/torch.nn.ReLU.html)는 텐서를받을 때 ReLU 활성화 함수을 수행 할 객체를 생성합니다. 이것은 강의에서 더 검토 될 것이지만 본질적으로 ReLU 비선형성은 텐서의 모든 음수를 0 으로 설정합니다. 일반적으로 가장 단순한 신경망은 일련의 선형 변환으로 구성되며 각 변환은 활성화 함수가 뒤 따릅니다.

In [15]:
relu = nn.ReLU()
relu_output = relu(example_output)
relu_output

tensor([[0.6986, 0.0000],
        [0.3313, 0.0000],
        [0.0000, 0.5160]], grad_fn=<ReluBackward0>)

## `nn.BatchNorm1d`

[`nn.BatchNorm1d`](https://pytorch.org/docs/stable/generated/torch.nn.BatchNorm1d.html) 는 배치 간에 일관된 평균 및 표준 편차를 갖도록 $ n $ 입력 배치의 크기를 조정하는 정규화 기술입니다.

이름에 '1d'로 표시된 것처럼 이는 입력 세트가 예상되는 상황을 위한 것이며, 각 입력은 단순한 숫자 목록입니다. 즉, 각 입력은 행렬이나 고차원 텐서가 아닌 벡터입니다. 각각 고차원 텐서인 이미지 세트의 경우 [`nn.BatchNorm2d`](https://pytorch.org/docs/stable/generated/torch.nn.BatchNorm2d.html)를 사용합니다. 이 페이지의 뒷부분에서 설명합니다.

`nn.BatchNorm1d`는 배치에 있는 각 객체의 입력 차원 수(각 예제 벡터의 크기) 인수를 받습니다.

In [16]:
batchnorm = nn.BatchNorm1d(2)
batchnorm_output = batchnorm(relu_output)
batchnorm_output

tensor([[ 1.2452, -0.7070],
        [-0.0421, -0.7070],
        [-1.2031,  1.4141]], grad_fn=<NativeBatchNormBackward>)

## `nn.Sequential`

[`nn.Sequential`](https://pytorch.org/docs/stable/generated/torch.nn.Sequential.html) 는는 일련의 작업을 수행하는 단일 작업을 만듭니다. 예를 들어 다음과 같이 배치 정규화를 사용하여 신경망 계층을 작성할 수 있습니다.

In [17]:
mlp_layer = nn.Sequential(
    nn.Linear(5, 2),
    nn.BatchNorm1d(2),
    nn.ReLU()
)

test_example = torch.randn(5,5) + 1
print("input: ")
print(test_example)
print("output: ")
print(mlp_layer(test_example))

input: 
tensor([[ 0.9555,  1.8611,  0.4448,  1.0188,  1.3745],
        [ 0.7405,  1.8937,  1.2454,  0.3093, -0.2776],
        [ 2.1763,  0.1092,  0.9367, -1.3304,  0.6947],
        [ 0.0491,  0.4316,  2.4480,  0.8016,  1.5365],
        [ 0.6871,  1.3320,  1.6170, -0.4543,  0.9606]])
output: 
tensor([[0.0000, 1.5562],
        [1.6356, 0.0000],
        [0.5181, 0.0000],
        [0.0000, 0.7430],
        [0.0000, 0.0000]], grad_fn=<ReluBackward0>)


# 최적화

본질적으로 모든 기계 학습 프레임 워크의 가장 중요한 측면 중 하나는 자동 미분 라이브러리입니다.

## 최적화 도구

PyTorch에서 최적화도구를 생성하려면 종종`optim`으로 가져 오는`torch.optim` 모듈을 사용해야합니다. [`optim.Adam`](https://pytorch.org/docs/stable/optim.html#torch.optim.Adam)은 Adam 최적화 프로그램에 해당합니다. 옵티마이저 객체를 생성하려면 최적화 할 매개 변수와 학습률 `lr` 및 옵티마이저와 관련된 기타 매개 변수를 전달해야 합니다.

모든 `nn` 객체의 경우 다음과 같이 `parameters()`메서드를 사용하여 매개 변수에 목록으로 액세스 할 수 있습니다.

In [18]:
import torch.optim as optim
adam_opt = optim.Adam(mlp_layer.parameters(), lr=1e-1)

## 훈련 루프

PyTorch의 (기본) 교육 단계는 네 가지 기본 부분으로 구성됩니다.


1. `opt.zero_grad()`를 사용하여 모든 그라디언트를 0으로 설정
2.  손실 `loss` 계산
3. `loss.backward()`를 사용하여 손실에 대한 기울기를 계산
4. `opt.step()`을 사용하여 최적화 중인 매개 변수를 업데이트

다음 코드와 같이 보일 수 있습니다 (여러 번 실행하면 손실이 줄어듭니다).

In [19]:
train_example = torch.randn(100,5) + 1
adam_opt.zero_grad()

# We'll use a simple loss function of mean distance from 1
# torch.abs takes the absolute value of a tensor
cur_loss = torch.abs(1 - mlp_layer(train_example)).mean()

cur_loss.backward()
adam_opt.step()
print(cur_loss)

tensor(0.7513, grad_fn=<MeanBackward0>)


## `requires_grad_()`

또한 PyTorch에`example_tensor.requires_grad_()`라고 말하여 생성한 텐서에 대한 그래디언트를 계산해야 한다고 말할 수 있습니다. 즉, PyTorch가 일반적으로 특정 텐서에 대한 `grad`를 저장하지 않더라도 지정된 텐서에 대한 `grad`를 저장합니다.

## `with torch.no_grad():`

PyTorch는 일반적으로 텐서에 대한 일련의 작업을 진행하면서 그래디언트를 계산합니다. 특히 평가를 수행하는 경우에는 종종 불필요한 계산과 메모리를 차지할 수 있습니다. 그러나 코드 조각에서 그라디언트가 계산되지 않도록 `with torch.no_grad()`로 코드를 감쌀 수 있습니다.


## `detach():`

때로는 그라디언트를 계산하지 않고 텐서의 값을 계산하고 사용하기도 합니다. 예를 들어, A와 B라는 두 개의 모델이 있고 B를 통한 기울기를 계산하지 않고 B의 출력과 관련하여 A의 매개 변수를 직접 최적화하려는 경우 B의 분리된 출력을 A에 공급할 수 있습니다. 효율성 또는 주기적 종속성 (즉, A가 B에 종속됨)을 포함하여 이를 수행하려는 여러 가지 이유가 있습니다.

# 새로운`nn` 클래스

`nn` 모듈을 확장하는 새 클래스를 만들 수도 있습니다. 이러한 클래스의 경우`self.layer` 또는 `self.param`과 같은 모든 클래스 속성은 자체가 `nn` 객체이거나 다음으로 초기화되는 `nn.Parameter`에 감싸진 텐서인 경우 자동으로 매개 변수로 처리됩니다. 클래스.

`__init__` 함수는 객체가 생성 될 때 일어날 일을 정의합니다. 예를 들어`WellNamedClass`와 같은 클래스의 init 함수의 첫 번째 줄은`super (WellNamedClass, self).__init__()`여야합니다.

`forward` 함수는`model(x)`에서와 같이 객체 `model`을 만들고 텐서 `x`를 전달하면 실행되는 것을 정의합니다. 함수 시그니처 `(self, x)`를 선택하면 forward 함수를 호출 할 때마다 두 가지 정보가 제공됩니다. 모든 매개 변수에 액세스 할 수있는 객체에 대한 참조 인 `self`, 그리고 `y`를 반환하려는 현재 텐서인 `x`.

한 클래스는 다음과 같이 보일 수 있습니다.

In [22]:
class ExampleModule(nn.Module):
    def __init__(self, input_dims, output_dims):
        super(ExampleModule, self).__init__()
        self.linear = nn.Linear(input_dims, output_dims)
        self.exponent = nn.Parameter(torch.tensor(1.))

    def forward(self, x):
        x = self.linear(x)

        # This is the notation for element-wise exponentiation, 
        # which matches python in general
        x = x ** self.exponent 
        
        return x

그리고 다음과 같이 매개 변수를 볼 수 있습니다.

In [23]:
example_model = ExampleModule(10, 2)
list(example_model.parameters())

[Parameter containing:
 tensor(1., requires_grad=True),
 Parameter containing:
 tensor([[ 0.2790, -0.2090,  0.2901,  0.1242, -0.1559,  0.2492, -0.2658,  0.2615,
          -0.1367,  0.0855],
         [ 0.0518, -0.0859, -0.1407,  0.2637, -0.1023,  0.1330,  0.2676, -0.0827,
           0.1091, -0.1994]], requires_grad=True),
 Parameter containing:
 tensor([0.0294, 0.2475], requires_grad=True)]

다음과 같이 이름도 인쇄 할 수 있습니다.

In [24]:
list(example_model.named_parameters())

[('exponent',
  Parameter containing:
  tensor(1., requires_grad=True)),
 ('linear.weight',
  Parameter containing:
  tensor([[ 0.2790, -0.2090,  0.2901,  0.1242, -0.1559,  0.2492, -0.2658,  0.2615,
           -0.1367,  0.0855],
          [ 0.0518, -0.0859, -0.1407,  0.2637, -0.1023,  0.1330,  0.2676, -0.0827,
            0.1091, -0.1994]], requires_grad=True)),
 ('linear.bias',
  Parameter containing:
  tensor([0.0294, 0.2475], requires_grad=True))]

다음은 실행 중인 클래스의 예입니다.

In [25]:
input = torch.randn(2, 10)
example_model(input)

tensor([[ 0.0133,  0.4761],
        [ 0.0348, -0.2413]], grad_fn=<PowBackward1>)

# 2D 연산

첫 번째 강의에서는 이러한 항목이 필요하지 않으며, 각각의 이론은 이후 강의에서 더 많이 검토되지만 다음은 빠른 참조입니다.


* 2D 컨볼루션 : [`nn.Conv2d`](https://pytorch.org/docs/master/generated/torch.nn.Conv2d.html)에는 입력 및 출력 채널 수와 커널 크기가 필요합니다.
* 2D 전치 컨볼루션 (일명 디컨볼루션) : [`nn.ConvTranspose2d`](https://pytorch.org/docs/master/generated/torch.nn.ConvTranspose2d.html) 에는 다음과 같이 커널 크기와 함께 입력 및 출력 채널 수도 필요합니다.
* 2D 배치 정규화 : [`nn.BatchNorm2d`](https://pytorch.org/docs/stable/generated/torch.nn.BatchNorm2d.html)에는 입력 차원 수가 필요합니다.
* 이미지 크기 조정 : [`nn.Upsample`](https://pytorch.org/docs/master/generated/torch.nn.Upsample.html)에는 최종 크기 또는 배율이 필요합니다. 또는 [`nn.functional.interpolate`](https://pytorch.org/docs/stable/nn.functional.html#torch.nn.functional.interpolate)는 동일한 인수를 사용합니다.