[파이토치 튜토리얼] http://tutorials.pytorch.kr/

# 파이토치(PyTorch)

- **텐서**(Tensor)를 사용
- GPU를 이용한 텐서 조작 및 **동적 신경망 구축이 가능**
- 파이썬답게 만들어졌고, **유연**하면서도 **가속화된 계산 속도**를 제공

## 파이토치의 구성요소

- `torch`: 메인 네임스페이스, 텐서 등의 다양한 수학 함수가 포함
- `torch.autograd`: 자동 미분 기능을 제공하는 라이브러리
- `torch.nn`: 신경망 구축을 위한 데이터 구조나 레이어 등의 라이브러리
- `torch.multiprocessing`: 병럴처리 기능을 제공하는 라이브러리
- `torch.optim`: SGD(Stochastic Gradient Descent)를 중심으로 한 파라미터 최적화 알고리즘 제공
- `torch.utils`: 데이터 조작 등 유틸리티 기능 제공
- `torch.onnx`: ONNX(Open Neural Network Exchange), 서로 다른 프레임워크 간의 모델을 공유할 때 사용

## Datatype(dtype)

| Data type | dtype | CPU tensor | GPU tensor |
| ------ | ------ | ------ | ------ |
| 32-bit floating point | `torch.float32` or `torch.float` |`torch.FloatTensor` | `torch.cuda.FloatTensor` |
| 64-bit floating point | `torch.float64` or `torch.double` |`torch.DoubleTensor` | `torch.cuda.DoubleTensor` |
| 16-bit floating point | `torch.float16` or `torch.half` |`torch.HalfTensor` | `torch.cuda.HalfTensor` |
| 8-bit integer(unsinged) | `torch.uint8` |`torch.ByteTensor` | `torch.cuda.ByteTensor` |
| 8-bit integer(singed) | `torch.int8` |`torch.CharTensor` | `torch.cuda.CharTensor` |
| 16-bit integer(signed) | `torch.int16` or `torch.short` |`torch.ShortTensor` | `torch.cuda.ShortTensor` |
| 32-bit integer(signed) | `torch.int32` or `torch.int` |`torch.IntTensor` | `torch.cuda.IntTensor` |
| 64-bit integer(signed) | `torch.int64` or `torch.long` |`torch.LongTensor` | `torch.cuda.LongTensor` |

- unit8 : 양수로만 표현 가능 / 2^8개수 만큼 표현 가능 / 0~255

## 텐서(Tensor)

- 데이터를 담기 위한 컨테이너
- 일반적으로 수치형 데이터를 저장
- 넘파이의 ndarray와 유사
- GPU를 사용한 연산 가속 가능

In [5]:
pip install torch

Collecting torch
  Downloading torch-1.13.1-cp39-cp39-win_amd64.whl (162.5 MB)
Installing collected packages: torch
Successfully installed torch-1.13.1
Note: you may need to restart the kernel to use updated packages.


In [6]:
import torch
torch.__version__

'1.13.1+cpu'

### 텐서 초기화

#### 데이터로부터 직접(directly) 생성하기
데이터의 자료형은 자동으로 유추

In [7]:
data = [[1,2], [3,4]]
x_data = torch.tensor(data)

In [8]:
x_data

tensor([[1, 2],
        [3, 4]])

#### Numpy 배열로부터 생성하기

텐서는 넘파이 배열로 생성할 수 있음(그 반대도 가능)

In [10]:
import numpy as np

In [21]:
np_array = np.array(data)
print(np_array)
print(np_array.dtype)

[[1 2]
 [3 4]]
int32


In [22]:
x_np = torch.from_numpy(np_array)
print(x_np)
print(x_np.dtype)

tensor([[1, 2],
        [3, 4]], dtype=torch.int32)
torch.int32


#### 다른 텐서로부터 생성하기

명시적으로 재정의(override)하지 않는다면, 인자로 주어진 텐서의 속성(shape, datatype)을 유지함

In [25]:
x_ones = torch.ones_like(x_data) # x_data의 속성을 유지
print(f'Ones Tensor: \n {x_ones} \n')
print(x_ones.dtype)

Ones Tensor: 
 tensor([[1, 1],
        [1, 1]]) 

torch.int64


In [26]:
x_rand = torch.rand_like(x_data, dtype = torch.float) # x_data의 속성을 덮어씀
print(f'Random Tensor: \n {x_rand} \n')
print(x_rand.dtype)

Random Tensor: 
 tensor([[0.6359, 0.3512],
        [0.2378, 0.1141]]) 

torch.float32


#### 무작위(random) 또는 상수(constant) 값 사용하기

**shape**은 텐서의 차원(dim)을 나타내는 튜플로, 아래 함수에서는 **출력 텐서의 차원을 결정**함

In [27]:
shape = (2,3)
rand_tensor = torch.rand(shape)
ones_tensor = torch.ones(shape)
zeros_tensor = torch.zeros(shape)

print(rand_tensor)
print(ones_tensor)
print(zeros_tensor)

tensor([[0.5504, 0.6215, 0.8119],
        [0.8856, 0.3666, 0.8521]])
tensor([[1., 1., 1.],
        [1., 1., 1.]])
tensor([[0., 0., 0.],
        [0., 0., 0.]])


#### 텐서 크기 확인하기

In [43]:
x = torch.tensor([3, 2.3])

In [44]:
x.size()

torch.Size([2])

In [41]:
x_data

tensor([[1, 2],
        [3, 4]])

In [40]:
x_data.size()

torch.Size([2, 2])

#### 기타

In [35]:
x = torch.tensor([3, 2.3])
print(x)
x = x.new_ones(2, 4, dtype = torch.double) # 2x4, double 타입, 1로 채워진 텐서
print(x)

tensor([3.0000, 2.3000])
tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.]], dtype=torch.float64)


In [36]:
x = torch.randn_like(x, dtype = torch.float) # randn : 정규분포, _like : 사이즈를 입력한(기존에 있는) 텐서 사이즈로
x

tensor([[ 2.4941,  0.5298,  1.0660, -0.6103],
        [ 0.8343,  0.1886, -0.9385,  0.8051]])

In [37]:
x = torch.randn(5) # 평균이 0이고 표준 편차가 1인 가우시안 정규분포를 이용하여 생성
x

tensor([ 2.0332, -0.0122, -0.2926, -0.1663, -1.6763])

## Q1.  
  
가우시안 정규분포를 이용해 생성했던 객체를 다시 평균과 표준편차를 구했을 때 0과 1이 나오지 않는다.  
  
왜?  
  
- 확률이라는 변수의 영향이 크기 때문에
- 정규분포에서 뽑아 왔지만 너무 적게 뽑아 왔기 때문에
- 뽑아오는 샘플 수를 늘리면 점진적으로 근사

## CUDA Tensors
- NVIDIA가 만든 병렬 컴퓨팅 플랫폼 및 API 모델
- GPU의 가상 명령어셋을 사용할 수 있도록 만들어주는 소프트웨어 레이어
- NVIDIA가 만든 CUDA 코어가 장착된 GPU에서 작동

In [45]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(device)

cpu


### 텐서의 속성(Attribute)

In [28]:
t = torch.rand(3,4)

In [29]:
t.shape # 모양

torch.Size([3, 4])

In [30]:
t.dtype # 자료형

torch.float32

In [31]:
t.device # 어느 장치에 저장되는지

device(type='cpu')

### 텐서의 연산(Operations)

텐서에 대한 수학 연산, 삼각 함수, 비트 연산, 비교 연산, 집계 등 제공

In [50]:
import math

In [51]:
a = torch.randn(1,2) * 2 - 1
a

tensor([[-1.7914, -1.8692]])

In [53]:
torch.abs(a) # 절댓값

tensor([[1.7914, 1.8692]])

In [54]:
torch.ceil(a) # 천장

tensor([[-1., -1.]])

In [55]:
torch.floor(a) # 바닥

tensor([[-2., -2.]])

In [61]:
torch.min(a) # 최솟값

tensor(-1.8692)

In [62]:
torch.max(a) # 최댓값

tensor(-1.7914)

In [63]:
torch.mean(a) # 평균값

tensor(-1.8303)

In [64]:
torch.std(a) # 표준 편차

tensor(0.0550)

In [66]:
torch.prod(a) # 곱셈

tensor(3.3484)

In [69]:
torch.unique(torch.tensor([1,2,3,1,2,1])) # 중복 제외한 값 출력

tensor([1, 2, 3])

In [56]:
torch.clamp(a, -0.5, 0.5)

tensor([[-0.5000, -0.5000]])

#### clamp 

input이 min < x(input) < max 이면 그대로 나오지만, min 보다 작으면 min 값이, max 보다 크면 max 값 출력  

설명 참고 : https://aigong.tistory.com/178

In [57]:
b = torch.randn(2,3) * 2 - 1
b

tensor([[ 0.1901, -1.0838, -3.7662],
        [-1.1350, -3.5017, -3.0075]])

In [58]:
torch.clamp(b, -0.2, 0.2)

tensor([[ 0.1901, -0.2000, -0.2000],
        [-0.2000, -0.2000, -0.2000]])

> max 와 min은 dim 인자를 줄 경우 argmax와 argmin도 함께 리턴한다.  
  
    - argmax : 최댓값을 가진 인덱스  
    - argmin : 최솟값을 가진 인덱스

In [70]:
x = torch.rand(2,2)
x

tensor([[0.2687, 0.3613],
        [0.7295, 0.6420]])

In [71]:
x.max(dim=0)

torch.return_types.max(
values=tensor([0.7295, 0.6420]),
indices=tensor([1, 1]))

In [73]:
x.max(dim=1)

torch.return_types.max(
values=tensor([0.3613, 0.7295]),
indices=tensor([1, 0]))

> 결과 텐서를 인자로 제공하기  

In [92]:
result = torch.empty(2,4)
print(result)

tensor([[6.8664e-44, 7.5670e-44, 1.1771e-43, 6.8664e-44],
        [6.7262e-44, 8.1275e-44, 7.1466e-44, 7.8473e-44]])


In [93]:
torch.add(x, y, out = result)
print(result)

tensor([[0.9062, 1.0222],
        [0.8512, 1.0816]])


  torch.add(x, y, out = result)


In [97]:
x = torch.rand(2,2)
y = torch.rand(2,2)

In [98]:
print(x+y)
print(torch.add(x,y)) # 덧셈

tensor([[0.7341, 1.5138],
        [0.6537, 0.4285]])
tensor([[0.7341, 1.5138],
        [0.6537, 0.4285]])


In [99]:
print(x-y)
print(torch.sub(x,y)) # 뺄셈

tensor([[-0.0777,  0.3585],
        [ 0.3066, -0.2378]])
tensor([[-0.0777,  0.3585],
        [ 0.3066, -0.2378]])


#### in-place
- 텐서의 값을 변경하는 연산 뒤에는 "_"가 붙음
- 예) x.copy_(y), x.t_()

In [100]:
x

tensor([[0.3282, 0.9362],
        [0.4801, 0.0954]])

In [101]:
y

tensor([[0.4059, 0.5777],
        [0.1736, 0.3332]])

In [102]:
print(x+y)

tensor([[0.7341, 1.5138],
        [0.6537, 0.4285]])


In [103]:
y.add_(x) # y에 x를 더한 값을 y에 할당

tensor([[0.7341, 1.5138],
        [0.6537, 0.4285]])

In [104]:
y

tensor([[0.7341, 1.5138],
        [0.6537, 0.4285]])

In [107]:
print(x * y)
print(torch.mul(x,y)) # 곱셈
print(x.mul(y))

tensor([[0.2409, 1.4172],
        [0.3138, 0.0409]])
tensor([[0.2409, 1.4172],
        [0.3138, 0.0409]])
tensor([[0.2409, 1.4172],
        [0.3138, 0.0409]])


In [108]:
print(x / y)
print(torch.div(x,y)) # 나눗셈
print(x.div(y))

tensor([[0.4471, 0.6184],
        [0.7345, 0.2225]])
tensor([[0.4471, 0.6184],
        [0.7345, 0.2225]])
tensor([[0.4471, 0.6184],
        [0.7345, 0.2225]])


In [110]:
x = torch.randn(1,2)
y = torch.randn(2,3)

In [111]:
print(torch.matmul(x,y)) # 내적, 점곱(dot, dot product)
print(torch.mm(x,y))

tensor([[2.4062, 1.2434, 0.3095]])
tensor([[2.4062, 1.2434, 0.3095]])


#### SVD, 특이값 분해

Singular Value Decomposition  
: 임의의 m x n 차원의 행렬 A에 대하여 다음과 같이 행렬을 분해할 수 있다는 '**행렬 분해**(decomposition)'방법 중 하나  
A = U 시그마 VT

In [113]:
z = torch.mm(x,y)
print(torch.svd(z))

torch.return_types.svd(
U=tensor([[-1.]]),
S=tensor([2.7261]),
V=tensor([[-0.8826],
        [-0.4561],
        [-0.1135]]))


### 텐서 조작(Manipulations)

In [114]:
x = torch.Tensor([[1,2],
                  [3,4]])
x

tensor([[1., 2.],
        [3., 4.]])

In [115]:
# indexing
print(x[0,0])
print(x[0,1])
print(x[1,0])
print(x[1,1])

# slicing
print(x[:,0])
print(x[:,1])
print(x[0,:])
print(x[1,:])

tensor(1.)
tensor(2.)
tensor(3.)
tensor(4.)
tensor([1., 3.])
tensor([2., 4.])
tensor([1., 2.])
tensor([3., 4.])


---
º **랜덤한 값을 가지는 텐서 생성**

torch.rand() : 0과 1 사이의 숫자를 균등하게 생성

torch.rand_like() : 사이즈를 입력한 기존의 텐서 사이즈로 정의

torch.randn() : 평균이 0이고 표준편차가 1인 가우시안 정규분포를 이용해 생성

torch.randn_like() : 사이즈를 튜플로 입력하지 않고 기존의 텐서로 정의

torch.randint() : 주어진 범위 내의 **정수**를 균등하게 생성

torch.randint_like() : 사이즈를 입력한 기존의 텐서 사이즈로 정의

torch.randperm() : 주어진 범위 내의 **정수**를 랜덤하게 생성

º **특정한 값을 가지는 텐서 생성**

torch.arange() : 주어진 범위 내의 **정수**를 **순서대로** 생성

torch.ones() : 주어진 사이즈의 1로 이루어진 텐서 생성

torch.zeros() : 주어진 사이즈의 0으로 이루어진 텐서 생성

torch.ones_like() : 사이즈를 (튜플로 입력하지 않고) 기존의 텐서로 정의

torch.zeros_like() : 사이즈를 (튜플로 입력하지 않고) 기존의 텐서로 정의

torch.linspace() : 시작점과 끝점을 주어진 개수만큼 **균등하게 나눈** 간격점을 **행 벡터로 출력**

torch.logspace() : 시작점과 끝점을 주어진 개수만큼 **로그간격**으로 나눈 간격점을 **행벡터로 출력**

[참고] https://bigdatadiary0819.tistory.com/60

---

**Q. 지수 함수와 로그 함수는 어떤 관계? **

- 지수 함수 : 갈수록 급격하게 증가
- 로그 함수 : 갈수록 완만해짐

=> 서로 역의 관계

로그 변환은 특징을 잡아내기 위해 극단적인 데이터를 펼쳐주는 느낌

In [116]:
x = torch.randn(4,5)
x

tensor([[ 0.8835,  1.2542, -2.2687, -1.3863,  1.0390],
        [ 1.3568, -0.4574, -1.1859,  0.1415, -0.6103],
        [-0.6822, -1.9978,  0.9217,  0.6573, -0.3092],
        [-1.5381, -1.2871, -0.8804, -0.3245,  0.9686]])

In [117]:
x.shape

torch.Size([4, 5])

In [118]:
x.size()

torch.Size([4, 5])

In [125]:
x = torch.FloatTensor([
    [1,2],
    [3,4],
    [5,6],
    [7,8]
])
x

tensor([[1., 2.],
        [3., 4.],
        [5., 6.],
        [7., 8.]])

In [126]:
x.size()

torch.Size([4, 2])

In [127]:
x.shape

torch.Size([4, 2])

In [128]:
x.dim()

2

In [135]:
x.size(dim = 0)

4

In [136]:
x.shape[0]

4

#### view()

- 텐서의 크기(size)나 모양(shape)을 변경, reshape와 유사한 기능
- '-1'로 설정하면 계산을 통해 해당 크기 값을 유추

In [137]:
x = torch.randn(4,5)
x

tensor([[ 0.5957,  0.1530,  0.6742,  2.1633, -0.8518],
        [ 1.6314,  0.1742,  0.1011, -2.0100,  1.3221],
        [-0.7088, -1.4634, -0.4054, -0.1133, -0.4072],
        [ 2.5957,  0.6276, -0.2501, -1.7958,  0.2987]])

In [138]:
y = x.view(5,-1)
y

tensor([[ 0.5957,  0.1530,  0.6742,  2.1633],
        [-0.8518,  1.6314,  0.1742,  0.1011],
        [-2.0100,  1.3221, -0.7088, -1.4634],
        [-0.4054, -0.1133, -0.4072,  2.5957],
        [ 0.6276, -0.2501, -1.7958,  0.2987]])

#### .item()
- 안에 있는 내용을 별도로 출력
- 스칼라 값 하나만 존재해야 출력 가능

In [140]:
a = torch.randn(1)
print(a)
print(a.item())
print(a.dtype)

tensor([0.1660])
0.1660282462835312
torch.float32


In [141]:
a = torch.randn(2)
print(a)
print(a.item())

tensor([-1.1308,  0.9480])


ValueError: only one element tensors can be converted to Python scalars

#### squeeze
차원을 축소(제거)

In [142]:
tensor = torch.rand(1,3,3)
tensor

tensor([[[0.2950, 0.2918, 0.0174],
         [0.2824, 0.2599, 0.5837],
         [0.7900, 0.9243, 0.3085]]])

In [143]:
tensor.shape

torch.Size([1, 3, 3])

In [144]:
tensor.size()

torch.Size([1, 3, 3])

In [145]:
t = tensor.squeeze()
t

tensor([[0.2950, 0.2918, 0.0174],
        [0.2824, 0.2599, 0.5837],
        [0.7900, 0.9243, 0.3085]])

In [146]:
t.shape

torch.Size([3, 3])

#### unsqueeze
차원을 증가(생성)

In [151]:
t = torch.rand(3,3)
t

tensor([[0.5266, 0.8089, 0.2853],
        [0.6115, 0.5413, 0.8346],
        [0.8892, 0.1913, 0.1151]])

In [152]:
t.shape

torch.Size([3, 3])

In [153]:
t1 = t.unsqueeze(dim=0)
t1.shape

torch.Size([1, 3, 3])

In [154]:
t2 = t.unsqueeze(dim=1)
t2.shape

torch.Size([3, 1, 3])

In [155]:
t3 = t.unsqueeze(dim=2)
t3.shape

torch.Size([3, 3, 1])

#### stack
텐서 간 결합

In [157]:
x = torch.FloatTensor([1,4])
x

tensor([1., 4.])

In [158]:
y = torch.FloatTensor([2,5])
y

tensor([2., 5.])

In [159]:
z = torch.FloatTensor([3,6])
z

tensor([3., 6.])

In [160]:
torch.stack([x,y,z])

tensor([[1., 4.],
        [2., 5.],
        [3., 6.]])

In [161]:
torch.stack([x,y,z], dim=1)

tensor([[1., 2., 3.],
        [4., 5., 6.]])

#### cat
텐서를 결합하는 메서드(concatenate)

- 넘파이의 stack과 유사하지만, **쌓을 dim이 존재해야 함**
- 해당 차원을 늘려준 후 결합

In [166]:
a = torch.randn(1,3,3)
print(a)
b = torch.randn(1,3,3)
print(b)
c = torch.cat((a,b), dim = 0)
print(c)
print(c.shape)

tensor([[[-0.3583, -0.6649, -0.7699],
         [ 0.2770, -0.7271, -0.1938],
         [-0.6789,  1.1264,  0.5664]]])
tensor([[[ 0.2721, -0.6726,  0.3970],
         [-0.5247, -0.7592,  2.1368],
         [ 0.7761,  0.9803,  0.5567]]])
tensor([[[-0.3583, -0.6649, -0.7699],
         [ 0.2770, -0.7271, -0.1938],
         [-0.6789,  1.1264,  0.5664]],

        [[ 0.2721, -0.6726,  0.3970],
         [-0.5247, -0.7592,  2.1368],
         [ 0.7761,  0.9803,  0.5567]]])
torch.Size([2, 3, 3])


In [165]:
a = torch.randn(1,3,3)
print(a)
b = torch.randn(1,3,3)
print(b)
c = torch.cat((a,b), dim = 1)
print(c)
print(c.shape)

tensor([[[-1.1733e-03, -4.3239e-01, -1.3567e+00],
         [ 3.0471e+00, -4.4636e-03,  2.2223e+00],
         [-1.9951e+00, -9.5557e-02,  5.6744e-01]]])
tensor([[[ 1.7928, -0.4607, -1.4824],
         [-1.0256,  1.5199, -0.5202],
         [ 0.5470,  1.2833, -0.9503]]])
tensor([[[-1.1733e-03, -4.3239e-01, -1.3567e+00],
         [ 3.0471e+00, -4.4636e-03,  2.2223e+00],
         [-1.9951e+00, -9.5557e-02,  5.6744e-01],
         [ 1.7928e+00, -4.6075e-01, -1.4824e+00],
         [-1.0256e+00,  1.5199e+00, -5.2025e-01],
         [ 5.4697e-01,  1.2833e+00, -9.5030e-01]]])
torch.Size([1, 6, 3])


#### chunk
- 텐서를 여러 개로 나눌 때 사용
- **몇 개로 나눌 것인가?**

In [167]:
t = torch.rand(3,6)
t

tensor([[0.3689, 0.1062, 0.2107, 0.5015, 0.1940, 0.4208],
        [0.3150, 0.0374, 0.9178, 0.3048, 0.2871, 0.1266],
        [0.5462, 0.0909, 0.7775, 0.6377, 0.5235, 0.3855]])

In [168]:
t1, t2, t3 = torch.chunk(t, 3, dim = 1) # 열 방향으로 텐서를 3개로 나눠라
print(t1)
print(t2)
print(t3)

tensor([[0.3689, 0.1062],
        [0.3150, 0.0374],
        [0.5462, 0.0909]])
tensor([[0.2107, 0.5015],
        [0.9178, 0.3048],
        [0.7775, 0.6377]])
tensor([[0.1940, 0.4208],
        [0.2871, 0.1266],
        [0.5235, 0.3855]])


In [170]:
t1, t2, t3 = torch.chunk(t, 3, dim = 0)
print(t1)
print(t2)
print(t3)

tensor([[0.3689, 0.1062, 0.2107, 0.5015, 0.1940, 0.4208]])
tensor([[0.3150, 0.0374, 0.9178, 0.3048, 0.2871, 0.1266]])
tensor([[0.5462, 0.0909, 0.7775, 0.6377, 0.5235, 0.3855]])


#### split
- 텐서를 n개로 나눌 때 사용
- 텐서의 크기를 **최대 몇으로 나눌지** 지정
- chunk와 동일한 기능이지만 조금 다름

In [175]:
tensor = torch.rand(3,6)

In [176]:
t1, t2, t3 = torch.split(tensor, 2, dim = 1) # 열 방향으로 텐서의 크기가 최대 2를 갖게 나눠라

print(tensor)
print(t1)
print(t2)
print(t3)

tensor([[0.3863, 0.7543, 0.2620, 0.9993, 0.2195, 0.6585],
        [0.1030, 0.0539, 0.6367, 0.7879, 0.3090, 0.5036],
        [0.3409, 0.8318, 0.6962, 0.3251, 0.9718, 0.7740]])
tensor([[0.3863, 0.7543],
        [0.1030, 0.0539],
        [0.3409, 0.8318]])
tensor([[0.2620, 0.9993],
        [0.6367, 0.7879],
        [0.6962, 0.3251]])
tensor([[0.2195, 0.6585],
        [0.3090, 0.5036],
        [0.9718, 0.7740]])


In [177]:
t1, t2 = torch.split(tensor, 3, dim = 1) # 열 방향으로 텐서의 크기가 최대 3를 갖게 나눠라

print(tensor)
print(t1)
print(t2)

tensor([[0.3863, 0.7543, 0.2620, 0.9993, 0.2195, 0.6585],
        [0.1030, 0.0539, 0.6367, 0.7879, 0.3090, 0.5036],
        [0.3409, 0.8318, 0.6962, 0.3251, 0.9718, 0.7740]])
tensor([[0.3863, 0.7543, 0.2620],
        [0.1030, 0.0539, 0.6367],
        [0.3409, 0.8318, 0.6962]])
tensor([[0.9993, 0.2195, 0.6585],
        [0.7879, 0.3090, 0.5036],
        [0.3251, 0.9718, 0.7740]])


**torch ↔ numpy**
- numpy() : 넘파이 어레이로 변환
- from_numpy() : 반대 즉, 다시 텐서로 변환

In [178]:
a = torch.ones(7)
a

tensor([1., 1., 1., 1., 1., 1., 1.])

In [179]:
b = a.numpy()
print(b)
print(type(b))

[1. 1. 1. 1. 1. 1. 1.]
<class 'numpy.ndarray'>


In [180]:
c = torch.from_numpy(b)
print(c)
print(type(c))

tensor([1., 1., 1., 1., 1., 1., 1.])
<class 'torch.Tensor'>


- Tensor가 CPU 상에 있다면 Numpy 배열을 메모리 공간을 공유하므로, 하나가 변하면 다른 하나도 변함

In [181]:
a.add_(1) # a값에 1을 더해 줌
print(a)
print(type(a))
print(b)
print(type(b))

tensor([2., 2., 2., 2., 2., 2., 2.])
<class 'torch.Tensor'>
[2. 2. 2. 2. 2. 2. 2.]
<class 'numpy.ndarray'>


In [182]:
import numpy as np

a = np.ones(7)
print(a)

[1. 1. 1. 1. 1. 1. 1.]


In [183]:
b = torch.from_numpy(a)
np.add(a, 1, out = a) # a에 1을 더해서 a를 출력
print(a)
print(b) # cpu에서 메모리 공유

[2. 2. 2. 2. 2. 2. 2.]
tensor([2., 2., 2., 2., 2., 2., 2.], dtype=torch.float64)


In [184]:
b = b.numpy()
np.add(b, 2, out = b)

array([4., 4., 4., 4., 4., 4., 4.])

## 역전파 / 경사 하강법
### 역전파
: Backpropagation, 순전파와 반대 방향으로 손실정보를 전달해주는 역할
    - 손실정보를 출력층부터 입력층까지 전달하여 각 가중치를 얼마나 업데이트 해야할지를 결정하는 알고리즘
    
![image](https://velog.velcdn.com/images%2Fssulee0206%2Fpost%2Fd6bc8faf-16f5-408b-b0ca-fb7b2e9880be%2F1.png)

### 경사하강법
: gradient descent, iteration 마다 구해진 손실을 줄이는 방향으로 가중치를 업데이트함, 손실을 줄이는 방향으로 결정
    - 해당 함수의 최솟값 위치를 찾기 위해 비용 함수의 경사 반대 방향으로 정의한 step size를 가지고 조금씩 움직여 가면서 최적의 파라미터를 찾으려는 방법
    
![image](https://velog.velcdn.com/images%2Fssulee0206%2Fpost%2Fffc5f127-6098-4e5f-aa21-05eb1e821941%2F3.png)

    - 학습률이 너무 작을 경우 알고리즘이 수렴하기 위해 반복해야 하는 값이 많으므로 학습 시간이 오래걸리고 지역 최소값(local minimum)에 수렴할 수 있음
    - 반대로 학습률이 너무 클 경우 학습 시간은 적게 걸리나, 스텝이 너무 커서 전역 최소값(global minimum)을 가로질러 반대편으로 건너뛰어 최소값에서 멀어질 수 있음

![image](https://velog.velcdn.com/images%2Fssulee0206%2Fpost%2F4ef41a21-fa5d-4c3b-9150-f037b4e772d8%2F4.png)

### 확률적 경사 하강법
(Stochastic Gradient Descent, SGD)
- 전체 데이터에서 하나의 데이터를 뽑아 신경망에 입력한 후 손실을 계산
- 손실 정보를 역전파하여 신경망의 가중치를 업데이트
- 장점: 1개의 데이터만 사용하여 손실을 계산하기 때문에 가중치를 빠르게 업데이트 할 수 있음
- 단점 : 1개의 데이터만 사용하기 때문에 학습 과정에서 불안정한 경사 하강을 보임

![images](https://velog.velcdn.com/images%2Fssulee0206%2Fpost%2Fbcfe6cb7-e91e-40a6-9ffd-a6ae642a57d5%2F6.png)

### 미니 배치 경사 하강법
(Mini-Batch Gradient Descent)
- 확률적 경사하강법 + 경사하강법을 적절히 융화한 방법
- n개의 데이터로 미니 배치를 구성하여 해당 미니 배치를 신경망에 입력 후 결과를 바탕으로 가중치를 업데이트
- 일반적으로 가장 많이 사용

![image](https://velog.velcdn.com/images%2Fssulee0206%2Fpost%2Ff286ede0-8eb5-426f-a7d2-79325a1d3920%2F7.png)

### 옵티마이저
: 지역 최적점에 빠지게 되는 문제를 방지하기 위한 여러 가지 방법 중 하나로, 경사를 내려가는 방법을 결정하는 알고리즘

![image](https://velog.velcdn.com/images%2Fssulee0206%2Fpost%2F33555fbd-1588-4b68-95c9-89afdde2e12f%2F55.png)

출처 및 참고 : https://velog.io/@ssulee0206/%EC%97%AD%EC%A0%84%ED%8C%8C-%EA%B2%BD%EC%82%AC%ED%95%98%EA%B0%95%EB%B2%95

## [Autograd(자동미분)]

- autograd 패키지는 Tensor로 수행한 모든 연산에 대하여 자동-미분(Autimatic differentiation) 기능을 제공함
- autograd는 실행 시점에 정의되는(define-by-run) 프레임워크임
- 이것은 코드가 어떻게 실행되는가에 따라서 역전파(backprop)가 정의됨을 의미
- 즉, 반복마다 역전파가 달라질 수 있음

TORCH.AUTOGRAD를 사용한 자동 미분 참고 : https://tutorials.pytorch.kr/beginner/basics/autogradqs_tutorial.html

## requires_grad
- **requires_grad=True** 
    - autograd 에 모든 연산(operation)들을 추적
    - 텐서를 생성할 때 설정하거나, 나중에 x.requires_grad_(True) 메소드를 사용하여 나중에 설정할 수 있음
    - requires_grad(...)는 기존 텐서의 requires_grad 값을 바꿔치기(in-place)하여 변경
- **.detach()** : 기록을 추적하는 것을 중단시키며, 연산 기록으로부터 분리
  


In [None]:
a = torch.rand(3,3)
# ,requires_grad=True
a = a*3
print(a)
print(a.requires_grad)