# Tensor 생성
- 파이토치에서 데이터를 저장하는 자료구조
- 넘파이의 ndarray와 성격, 사용법이 유사하다.

> **pytorch의 tensor는 숫자 데이터 타입만 지원한다.**

##  원하는 형태(shape) 텐서 생성
- **torch.tensor(자료구조 \[, dtype\])**
    - 지정한 dtype(Data type)에 맞는 Tensor객체를 생성해서 반환한다.
      
## 특정 타입의 Tensor를 직접 생성
- torch.tensor()로 생성하면서 dtype을 지정하면 아래 타입의 Tensor객체가 생성된다.
- 원하는 Type의 Tensor클래스를 이용해 직접 생성해도 된다.
- **torch.FloatTensor(자료구조)**
    - float32 타입 텐서 생성
- **torch.LongTensor(자료구조)**
    - int64 타입 텐서생성
- 그외
    - BoolTensor(bool), CharTensor(int8), ShortTensor(int16), IntTensor(int32), DoubleTensor(float64)
    
## tensor 상태 조회
- **tensor.shape, tensor.size(\[축번호\])**
    -  tensor의 shape조회
- **tensor.dtype, tensor.type()**
    - tensor 원소들의 데이터타입 조회
    - dtype은 **data type**을 type()은 tensor **객체의 클래스 타입**을 반환한다.
- **tensor.ndim, tensor.dim()**  : tensor 차원
- **tensor.numel()**: 전체 원소 개수 (= 넘파이의 .size())



In [1]:
import torch
import numpy as np

In [2]:
# numpy에서 타입지정하여 배열만들기 예시
np.array([1, 2, 3], dtype=np.int8) # 파이토치는 이 방식으로만 가능. numpy 처럼 문자열로 직접 넣기 불가능
# np.array([1, 2, 3], dtype="int8") # numpy는 이렇게 문자열로 직접 넣어 써주는 것도 가능

array([1, 2, 3], dtype=int8)

In [3]:
print('torch Data types')
print("float", torch.float16, torch.float32, torch.float64, torch.float, torch.double)  #torch.float: float32
print("int:", torch.int8, torch.int16, torch.int32, torch.int64, torch.short, torch.int, torch.long)# 가능
print("uint:", torch.uint8, torch.uint16, torch.uint32, torch.uint64)
print("bool:", torch.bool)

torch Data types
float torch.float16 torch.float32 torch.float64 torch.float32 torch.float64
int: torch.int8 torch.int16 torch.int32 torch.int64 torch.int16 torch.int32 torch.int64
uint: torch.uint8 torch.uint16 torch.uint32 torch.uint64
bool: torch.bool


In [4]:
a = torch.tensor([[1,2],[3,4]], dtype=torch.float32) # dtype을 설정 안해주면, int64로 나옴.


print("shape:", a.shape, a.size())
print("0축 크기:", a.shape[0], a.size(0))
print("type:", a.type(), a.dtype)  # type(): Tensor 객체 타입. dtype: data type => 둘은 좀 다르다.
print('차원크기:', a.dim(), a.ndim)
print('원소개수:', a.numel())
print("device:", a.device)
# tensor를 다루는 processor(메모리위치) - cpu, cuda(gpu). 지금 tensor가 CPU가 사용하는 RAM과 GPU가 사용하는 VRAM 중 어딨는지 알려준다!
# 연산을 할때 피연산자들이 모두 같은 메모리 공간에 있어야 연산이 가능하기 때문에 이러한 메서드로 확인 필요.

shape: torch.Size([2, 2]) torch.Size([2, 2])
0축 크기: 2 2
type: torch.FloatTensor torch.float32
차원크기: 2 2
원소개수: 4
device: cpu


In [5]:
aa = torch.tensor(range(10))
print(aa)
aa.type() # .tensor()함수 썼지만, LongTensor의 타입이 생성됨 확인

tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])


'torch.LongTensor'

In [6]:
#Float, Double(32, 64bit 실수)/Int, Long(32, 64 bit 정수) type Tensor
b = torch.FloatTensor([1,3,7])  #float32
print(b.dtype)
c = torch.IntTensor([10,20,30])    # int32
print(c.dtype)
d = torch.DoubleTensor([1, 2, 3])  # float64
print(d.dtype)
e = torch.LongTensor([10, 20, 30]) # int64
print(e.dtype)

torch.float32
torch.int32
torch.float64
torch.int64


## 동일한 값을 원소로 가지는 Tensor 생성
- **torch.zeros(\*size), zeros_like(텐서)**: 0으로 구성된 tensor 생성
- **torch.ones(\*size), ones_like(텐서)**: 1로 구성된 tensor생성
- **torch.full(size, fill_value), full_like(텐서, fill_value)**: 지정한 값으로 구성된 tensor생성
  - size
    - shape을 지정한다.
    - zeros, ones는 가변인자이므로 축별 size를 순서대로 서정
    - full 은 tuple/list로 shape을 지정한다.
    

In [9]:
a = torch.zeros(3,2,3) # 3 x 2 x 3
a.dtype
a = torch.ones(2,3)  # 2 X 3
a.shape
a = torch.full([3,2], fill_value=100) # 3 x 2
a


tensor([[100, 100],
        [100, 100],
        [100, 100]])

In [15]:
# 특정 배열과 동일한 shape의 tensor 생성.
a = torch.tensor([[1, 2],[3, 4]]) # 2 x 2

print(a.shape)
# b = torch.zeros_like(a)  # a와 같은 shape, dtype 으로 생성.
# b = torch.ones_like(a)
b = torch.full_like(a, 20)
print(b.shape, b.dtype)
b

torch.Size([2, 2])
torch.Size([2, 2]) torch.int64


tensor([[20, 20],
        [20, 20]])

## 동일한 간격으로 떨어진 값들로 구성된 배열생성
- **torch.arange(start=0, end, step=1)** : end는 default 없으니, 무조건 적어줘야한다.
- **torch.linspace(start, end, steps,)** : steps - 원소개수

In [17]:
# torch.arange(10)  # end. 0 ~ 10-1 1씩 증가
# torch.arange(0, 1, 0.1) # 0 ~ 1-0.1, 0.1
torch.arange(10, 1, -1) # 10 ~ 1-(-1), -1

tensor([10,  9,  8,  7,  6,  5,  4,  3,  2])

In [19]:
# torch.linspace(0, 10, 5) # 0 ~ 10, 5개원소
torch.linspace(0, 1, 11)


tensor([0.0000, 0.1000, 0.2000, 0.3000, 0.4000, 0.5000, 0.6000, 0.7000, 0.8000,
        0.9000, 1.0000])

## 빈 tensor 생성
- **torch.empty(\*size)**

In [12]:
torch.empty(3,2,7) # 3 X 2 X 7
# 실제로 비워놓을 수 없고, 0에 가까운 값들을 무작위로 채워 놓는다.

tensor([[[0.0000e+00, 0.0000e+00, 1.8788e+31, 1.7220e+22, 2.1715e-18,
          8.4023e+20, 8.3575e+20],
         [1.3149e+22, 1.0739e-05, 1.9968e+20, 1.3029e-11, 6.7510e-07,
          1.6618e+22, 4.2291e-05]],

        [[2.1707e-18, 4.5447e+30, 7.0062e+22, 2.1715e-18, 4.5447e+30,
          7.0062e+22, 2.1707e-18],
         [1.9284e+31, 3.2314e-18, 6.0397e-07, 3.4164e+21, 1.2915e-11,
          2.1041e+23, 2.1122e+20]],

        [[3.3554e-06, 1.9990e+20, 4.1542e+21, 2.6196e+20, 2.4153e-18,
          3.1360e+27, 7.0800e+31],
         [3.1095e-18, 4.7851e+22, 2.8826e+32, 4.4248e+30, 7.2442e+22,
          2.3086e-12, 7.2646e+22]]])

## 난수를 이용한 생성

- **torch.rand(\*size)**: 0 ~ 1사이 실수로 구성된 배열을 생성. 각 값은 균등분포를 따른다.
- **torch.randn(\*size)**: 표준정규분포(평균:0, 표준편차:1)를 따르는 실수로 구성된 배열 생성
- **torch.randint(low=0, high, size)**: 지정한 범위의 정수로 구성된 배열 생성
- **torch.randperm(n)**: 0 ~ n-1 사이의 정수를 랜덤하게 섞은 값을 원소로 가지는 배열 생성

In [61]:
# torch.manual_seed(42)  # seed 설정
torch.rand(2, 3, 5) # 2 x 3 x 5
torch.randn(30, 3) # 30 X 3
torch.randint(1, 10, (3, 3, 6))
torch.randperm(100) # 0 ~ 99 를 섞어서 구성. 인덱스넘버가 99까지 있는 100개의 데이터를 섞을때 사용

tensor([15, 24, 78, 85, 19, 34,  8, 48,  9, 54, 59,  7, 47, 36, 42, 12, 65, 73,
        50, 43, 62, 18, 58, 17, 64, 75, 32, 97, 57, 56, 53, 80,  5, 74, 51, 70,
        83, 79, 76, 89, 84, 33, 16, 86, 41, 69, 67, 37, 29,  3, 81, 93, 82, 20,
        39, 90, 52,  6, 77, 55, 91, 71, 98, 27, 22, 68, 49,  2, 92, 30, 21,  4,
        88, 26, 10, 99, 28, 38, 44, 96, 63, 46, 72, 14, 23, 25, 13, 40, 94, 66,
        60, 95, 11,  1, 31, 45,  0, 87, 61, 35])

In [74]:
# torch.manual_seed(42)
a = torch.arange(100)
print(a, a.dtype)

# a 섞기
idx = torch.randperm(100) # 0 ~ 99 섞어서 반환. -> index
print(idx)

b = a[idx]
print(b) # 섞인 결과 확인

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
        18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
        36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53,
        54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71,
        72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89,
        90, 91, 92, 93, 94, 95, 96, 97, 98, 99]) torch.int64
tensor([38, 73,  3,  7, 55, 27, 92, 49, 23, 57, 20, 25, 30, 35, 81, 29,  1, 99,
        47, 24, 54,  0, 16, 26, 65, 85, 74, 39, 34, 11, 84, 60,  9, 36, 69, 41,
        75, 78, 10, 61, 97, 93, 80, 13, 77, 62,  5, 45, 89, 71, 83, 87, 95, 66,
        76, 88, 52, 94, 67, 44, 50, 64, 33, 21, 22, 48, 96, 82, 58, 42, 31, 98,
        56,  4,  2, 63, 86, 53, 40, 72, 15, 17, 14, 59, 43, 32,  8,  6, 12, 68,
        90, 19, 28, 46, 18, 70, 91, 51, 79, 37])
tensor([38, 73,  3,  7, 55, 27, 92, 49, 23, 57, 20, 25, 30, 35, 81, 29,  1, 99,
        47

## Tensor gpu/cpu 메모리로 옮기기

- pytorch는 데이터셋인 tensor를 cpu메모리와 gpu 메모리로 서로 옮길 수 있다.
    - 데이터에 대한 연산처리를 어디서 하느냐에 따라 메모리를 선택한다.
    - 장치는 문자열로 설정한다.
        - CPU 사용: "cpu"
        - nvida GPU: "cuda"
        - Apple m1: "mps"
            - pytorch 1.12 부터 지원
- 옮기기
    - tensor 생성시 `device` 파라미터를 이용해 설정
    - `tensor.to(device)`를 이용해 설정
- 현재 실행환경에서 어떤 장비를 사용할 수 있는지 확인
    - nvidia gpu 사용가능확인 (True가 나오면 사용가능)
        - `torch.cuda.is_available()` - nvida gpu 사용가능 여부
        - `torch.backends.mps.is_available()` - M1 사용가능 여부

In [76]:
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu' # device에 True가 나오면 'cuda'를 저장, False가 나오면 'cpu'를 저장.

# device = 'mps' if torch.backends.mps.is_available() else 'cpu'
# device = 'cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu'
device

'cpu'

In [77]:
t = torch.tensor([1, 2, 3], dtype=torch.float32, device=device) # 생성할 때 device 지정. device를 지정하지 않으면 default로 cpu에 저장.
print(t, t.device) # tensor가 어느 device에 있는지 확인

tensor([1., 2., 3.]) cpu


In [78]:
t2 = t.to("cpu")  # 다른 device로 옮기기.
print(t2, t2.device)

tensor([1., 2., 3.]) cpu


## tensor를 상수로 변환
- torch.Tensor객체를 파이썬 상수로 변환.
- tensor객체.item()
    - Scalar(상수) 또는 원소가 하나인 tensor를 python 상수로 변환

In [83]:
print(torch.tensor(30)) # 리스트에 넣지 않았으므로 그냥 0차원 텐서.

tensor(30)


In [84]:
a = torch.tensor(10)  # 상수(scalar) => 0차원 Tensor
print(a, a.ndim)
print(a.item())
print(type(a), type(a.item())) # a의 타입은 'torch.Tensor'

tensor(10) 0
10
<class 'torch.Tensor'> <class 'int'>


In [85]:
b = torch.tensor([[20]]) # 원소가 하나인 N차원 배열
print(b, b.dim())
print(b.item()) #원소가 하나인 배열(텐서) 변환 가능

tensor([[20]]) 2
20


In [None]:
c = torch.tensor([1, 10, 100])
print(c)
print(c.item()) # 원소가 여러개일 경우 Exception발생

tensor([  1,  10, 100])


RuntimeError: a Tensor with 3 elements cannot be converted to Scalar

In [89]:
d = torch.tensor([10], device='cpu')
print(d)
print(d.item())

tensor([10])
10


## ndarray 호환

- ndarray를 tensor로 생성
    - **torch.tensor(ndarray)**
    - **torch.from_numpy(ndarray)**
- tensor를 ndarray로 변환
    - **tensor.numpy()**
    - tensor가 gpu에 있을 경우 cpu로 옮긴 뒤 변환해야 한다. 넘파이는 GPU학습을 지원하지 않기 때문.

In [90]:
import numpy as np
import torch

In [None]:
# ndarray -> tensor
arr = np.arange(1,10)
arr


array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [103]:
torch.tensor(arr, dtype=torch.float32)

tensor([1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [105]:
x = torch.from_numpy(arr)
print(x, x.dtype)


tensor([1, 2, 3, 4, 5, 6, 7, 8, 9]) torch.int64


In [109]:
# tensor -> ndarray
t = torch.randn(3,3)
print(t)
t.to("cpu").numpy()

tensor([[-0.7602,  0.9779,  0.8190],
        [-0.5434, -1.8404,  0.0295],
        [-0.4190,  0.0199, -0.4336]])


array([[-0.7601913 ,  0.9779031 ,  0.8189598 ],
       [-0.5433799 , -1.84043   ,  0.02946267],
       [-0.4189947 ,  0.01988029, -0.4336317 ]], dtype=float32)

In [110]:
# GPU 환경으로 바꾸고 numpy 변환하려고하면 안된다. cpu only!
t2 = torch.randn(2,2, device="cuda")
t2

AssertionError: Torch not compiled with CUDA enabled

In [111]:
t2.numpy()
# t2.to("cpu").numpy()

array([1., 2., 3.], dtype=float32)

# 원소 조회및 변경

## indexing/slicing

- 대부분 Numpy 와 동일
    - **slicing에서 step을 <u>음수로 지정할 수 없다.</u>** >> 역순 조회가 안된다!!
    - 그외엔 numpy와 동일


In [112]:
t = torch.randint(-10, 10, (100, ))
t

tensor([  0,   9,  -8,   6,   7,  -6,  -4,  -8,   1,  -9,  -7,   8, -10,   3,
          6,   2,  -5,   1,  -6,   8, -10,  -9,   3,   3,  -3,  -6,   9,  -7,
         -9,  -9,   5,   2,  -4,   1,   2,  -5,   3,  -2,  -8,   3,  -1,   7,
          6,  -3,   3,  -3,   8,  -1,  -5,   8,  -5,   9, -10,  -7,  -2,  -2,
          9,  -7,   5,  -3,  -8,  -1, -10,  -3,   5,   9,   8,  -3,   5,  -7,
          7,   4,  -7, -10,   2, -10,   8,   0,  -2,   1,   8,   2,   6,  -3,
         -9,   0,  -7,  -2,  -6,   9,   8,   7,  -5,  -6,  -4,  -1,  -4,  -4,
          2,  -1])

In [116]:
t[0],\
t[[1, 5, -1]] # 여러개 조회-> fancy indexing

(tensor(0), tensor([ 9, -6, -1]))

In [None]:
t[:5],\
t[10:15],\
t[90:],\
t[3:30:3]

(tensor([ 0,  9, -8,  6,  7]),
 tensor([ -7,   8, -10,   3,   6]),
 tensor([ 8,  7, -5, -6, -4, -1, -4, -4,  2, -1]),
 tensor([  6,  -4,  -9, -10,   2,  -6,  -9,  -3,  -7]))

In [121]:
####### step 음수 안된다. 그래서 reverse(역순 조회)가 안됨. reverse하려면 flip() 사용
# t[10:1:-2]
t[1:10:2], t[1:10:2].flip(dims=(0,)) #reverse

(tensor([ 9,  6, -6, -8, -9]), tensor([-9, -8, -6,  6,  9]))

## boolean index
- 논리 연산은 &, |, ~ 을 사용한다.

In [126]:
# boolean index
t, t[t > 0] # True인 애들만 조회.

(tensor([  0,   9,  -8,   6,   7,  -6,  -4,  -8,   1,  -9,  -7,   8, -10,   3,
           6,   2,  -5,   1,  -6,   8, -10,  -9,   3,   3,  -3,  -6,   9,  -7,
          -9,  -9,   5,   2,  -4,   1,   2,  -5,   3,  -2,  -8,   3,  -1,   7,
           6,  -3,   3,  -3,   8,  -1,  -5,   8,  -5,   9, -10,  -7,  -2,  -2,
           9,  -7,   5,  -3,  -8,  -1, -10,  -3,   5,   9,   8,  -3,   5,  -7,
           7,   4,  -7, -10,   2, -10,   8,   0,  -2,   1,   8,   2,   6,  -3,
          -9,   0,  -7,  -2,  -6,   9,   8,   7,  -5,  -6,  -4,  -1,  -4,  -4,
           2,  -1]),
 tensor([9, 6, 7, 1, 8, 3, 6, 2, 1, 8, 3, 3, 9, 5, 2, 1, 2, 3, 3, 7, 6, 3, 8, 8,
         9, 9, 5, 5, 9, 8, 5, 7, 4, 2, 8, 1, 8, 2, 6, 9, 8, 7, 2]))

In [124]:
# boolean index 처리 함수.
t.masked_select(t > 0)

tensor([9, 6, 7, 1, 8, 3, 6, 2, 1, 8, 3, 3, 9, 5, 2, 1, 2, 3, 3, 7, 6, 3, 8, 8,
        9, 9, 5, 5, 9, 8, 5, 7, 4, 2, 8, 1, 8, 2, 6, 9, 8, 7, 2])

In [123]:
t[(t > 0) & (t < 5)]

tensor([1, 3, 2, 1, 3, 3, 2, 1, 2, 3, 3, 3, 4, 2, 1, 2, 2])

In [125]:
t

tensor([  0,   9,  -8,   6,   7,  -6,  -4,  -8,   1,  -9,  -7,   8, -10,   3,
          6,   2,  -5,   1,  -6,   8, -10,  -9,   3,   3,  -3,  -6,   9,  -7,
         -9,  -9,   5,   2,  -4,   1,   2,  -5,   3,  -2,  -8,   3,  -1,   7,
          6,  -3,   3,  -3,   8,  -1,  -5,   8,  -5,   9, -10,  -7,  -2,  -2,
          9,  -7,   5,  -3,  -8,  -1, -10,  -3,   5,   9,   8,  -3,   5,  -7,
          7,   4,  -7, -10,   2, -10,   8,   0,  -2,   1,   8,   2,   6,  -3,
         -9,   0,  -7,  -2,  -6,   9,   8,   7,  -5,  -6,  -4,  -1,  -4,  -4,
          2,  -1])

In [127]:
# 변경
t[0] = 100
t

tensor([100,   9,  -8,   6,   7,  -6,  -4,  -8,   1,  -9,  -7,   8, -10,   3,
          6,   2,  -5,   1,  -6,   8, -10,  -9,   3,   3,  -3,  -6,   9,  -7,
         -9,  -9,   5,   2,  -4,   1,   2,  -5,   3,  -2,  -8,   3,  -1,   7,
          6,  -3,   3,  -3,   8,  -1,  -5,   8,  -5,   9, -10,  -7,  -2,  -2,
          9,  -7,   5,  -3,  -8,  -1, -10,  -3,   5,   9,   8,  -3,   5,  -7,
          7,   4,  -7, -10,   2, -10,   8,   0,  -2,   1,   8,   2,   6,  -3,
         -9,   0,  -7,  -2,  -6,   9,   8,   7,  -5,  -6,  -4,  -1,  -4,  -4,
          2,  -1])

In [128]:
t = torch.arange(1, 10).reshape(3,3)
t

tensor([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]])

In [129]:
# t[ 0축, 1축 ]
t[1, 2].item(),\
t[0, 2].item()

(6, 3)

In [130]:
t[[1,0], [2,2]]  #(1,2), (0,2)
# t[[첫번째값, 두번째값]-0축, [첫번째값, 두번째값]-1축]

tensor([6, 3])

# Reshape

## shape 변경
- tensor객체.reshape(\*shape) / view(\*shape) 이용
    - 변환만 했을 경우, 원본에는 변화 없음
    - ex a가 1차원 12개인경우. b = a.reshape(3,4)라면, >> b라는 데이터가 새로 생긴게 아니라, a에 대한 접근을 3x4로 다르게 접하는것이다. 결국 둘은 같은 데이터! 따라서 b의 값을 바꾸면 a의 값도 바뀐다.
    - 즉, 변환 후 값을 변경하면 원본 배열의 값도 같이 바뀐다.
 > tensor.clone(): tensor를 복제한다.

In [159]:
a=torch.rand(12)
a2 = a.reshape(3, 4)
a3 = a.reshape((3, 2, 2))
a4 = a.reshape((3, 2, -1))  #한 개 axis는 -1로 설정가능하고 그럼 계산해서 알아서 설정해 준다.
print(a.shape, a2.size(), a3.shape, a4.shape)

torch.Size([12]) torch.Size([3, 4]) torch.Size([3, 2, 2]) torch.Size([3, 2, 2])


In [138]:
a5 = a.view(3,4)
a6 = a.view((3,2,2))
a7 = a.view((3,2,-1))  #한개 axis는 -1로 설정가능
print(a.shape, a5.size(), a6.shape, a7.shape)

torch.Size([12]) torch.Size([3, 4]) torch.Size([3, 2, 2]) torch.Size([3, 2, 2])


In [160]:
a,a2,a3,a4

(tensor([0.6549, 0.4128, 0.5845, 0.3557, 0.6965, 0.6978, 0.6343, 0.3051, 0.9266,
         0.4278, 0.3053, 0.8132]),
 tensor([[0.6549, 0.4128, 0.5845, 0.3557],
         [0.6965, 0.6978, 0.6343, 0.3051],
         [0.9266, 0.4278, 0.3053, 0.8132]]),
 tensor([[[0.6549, 0.4128],
          [0.5845, 0.3557]],
 
         [[0.6965, 0.6978],
          [0.6343, 0.3051]],
 
         [[0.9266, 0.4278],
          [0.3053, 0.8132]]]),
 tensor([[[0.6549, 0.4128],
          [0.5845, 0.3557]],
 
         [[0.6965, 0.6978],
          [0.6343, 0.3051]],
 
         [[0.9266, 0.4278],
          [0.3053, 0.8132]]]))

In [140]:
# a5[0, 0] = 12.1
print(a2)
a2[0, 1] = 15.1 # 변환 후 값을 변경하면 원본도 바뀜
print(a2)

tensor([[0.4245, 0.4086, 0.1574, 0.5412],
        [0.5497, 0.4367, 0.5693, 0.3018],
        [0.6301, 0.6886, 0.2366, 0.0042]])
tensor([[4.2452e-01, 1.5100e+01, 1.5738e-01, 5.4119e-01],
        [5.4969e-01, 4.3669e-01, 5.6932e-01, 3.0182e-01],
        [6.3013e-01, 6.8857e-01, 2.3663e-01, 4.2105e-03]])


In [142]:
# tensor복사: clone() 메소드. 변환 후 값 변경시 원본 바뀌므로, clone을 통해 원본을 저장해둔다.
r = a.reshape(3, 4).clone()
r[0,0] = 100.1
print(a, r)

tensor([4.2452e-01, 1.5100e+01, 1.5738e-01, 5.4119e-01, 5.4969e-01, 4.3669e-01,
        5.6932e-01, 3.0182e-01, 6.3013e-01, 6.8857e-01, 2.3663e-01, 4.2105e-03]) tensor([[1.0010e+02, 1.5100e+01, 1.5738e-01, 5.4119e-01],
        [5.4969e-01, 4.3669e-01, 5.6932e-01, 3.0182e-01],
        [6.3013e-01, 6.8857e-01, 2.3663e-01, 4.2105e-03]])


## dummy 축 늘리기

- None을 이용 (numpy의 newaxis 대신 None을 사용한다.)
- unsqueeze(dim=축번호)

In [143]:
import torch
a = torch.tensor([[10,20],[10,20]])
print(a.shape)

a1, a2 = a[None, :], a.unsqueeze(dim=0) # dim=정수만가능. 어느 차원에 더미축을 추가할지 적는 것.
# 앞에 더미축을 넣을때는 위와 같이 None과 : 하나만으로 해결가능
print(a1.shape, a2.shape)

a3, a4 = a[:, :, None], a.unsqueeze(dim=-1)
# 뒤에 더미축을 넣을때는 앞에 존재했던 축들마다 :를 넣어줘야함. 그래서 unsqueeze쓰는게 나음
a[:, None] # 0축 :, 1축 None, 2번축 지정안함 -> 원래대로 그래서 (2, 1, 2) 가됨.
print(a3.shape, a4.shape)

a5, a6 = a3[:,None,:,:, None],  a3.unsqueeze(dim=1)  # unsqueeze(): dim=정수만가능 (한번에 dummy축은 하나만 추가가능.)
print(a5.shape, a6.shape)

torch.Size([2, 2])
torch.Size([1, 2, 2]) torch.Size([1, 2, 2])
torch.Size([2, 2, 1]) torch.Size([2, 2, 1])
torch.Size([2, 1, 2, 1, 1]) torch.Size([2, 1, 2, 1])


## dummy 축 제거
- squeeze(\[dim=축번호\]) 이용

In [146]:
t = torch.rand(3, 1, 4, 1, 5, 1)
print(t.shape)

r1 = t.squeeze()  #축을 명시 하지 않으면 모두 제거
print(r1.shape)

r2 = t.squeeze(dim=1) # 특정 axis 제거
print(r2.shape)

r3 = t.squeeze(dim=[1,3]) # 여러 axis의 dummy 축 제거
print(r3.shape)

torch.Size([3, 1, 4, 1, 5, 1])
torch.Size([3, 4, 5])
torch.Size([3, 4, 1, 5, 1])
torch.Size([3, 4, 5, 1])


# tensor 합치기
torch.cat([tensorA, tensorB, ...], dim=0) : 기준축 default 는 0.

-합치려는 방향의 축을 제외한 나머지 축들의 size가 같아야한다.
- ex (3,4,5,6) 과 (5,4,5,6)을 0번축을 기준으로 합치면? 나머지 4,5,6이 같으므로 합칠 수 있다. 결과 >> (8,4,5,6)이 만들어짐
- but 1번축을 기준으로 하여 합친다면? 1번축 4를 제외한 나머지중, 0번축이 3과 5가 다르므로 합칠 수 없다.

In [148]:
a = torch.arange(10).reshape(2,5)
b = torch.arange(10,20).reshape(2,5)
c = torch.arange(20,30).reshape(2,5)
d = torch.arange(10,19).reshape(3,3)
a,b,c,d

(tensor([[0, 1, 2, 3, 4],
         [5, 6, 7, 8, 9]]),
 tensor([[10, 11, 12, 13, 14],
         [15, 16, 17, 18, 19]]),
 tensor([[20, 21, 22, 23, 24],
         [25, 26, 27, 28, 29]]),
 tensor([[10, 11, 12],
         [13, 14, 15],
         [16, 17, 18]]))

In [149]:
torch.cat([a, b], dim=0) # 0번방향이므로, 2,5 와 2,5 가 합쳐져서 4,5 됨(즉, a아래에 b가 그대로 붙는 것.)

tensor([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]])

In [150]:
torch.cat([a, b, c], dim=0)

tensor([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19],
        [20, 21, 22, 23, 24],
        [25, 26, 27, 28, 29]])

In [151]:
torch.cat([a, b], axis=1) # dim 대신 axis사용가능

tensor([[ 0,  1,  2,  3,  4, 10, 11, 12, 13, 14],
        [ 5,  6,  7,  8,  9, 15, 16, 17, 18, 19]])

In [152]:
torch.cat([a, b, c], axis=1)

tensor([[ 0,  1,  2,  3,  4, 10, 11, 12, 13, 14, 20, 21, 22, 23, 24],
        [ 5,  6,  7,  8,  9, 15, 16, 17, 18, 19, 25, 26, 27, 28, 29]])

In [153]:
torch.cat([a, b], axis=-1)  # -1: 마지막 axis

tensor([[ 0,  1,  2,  3,  4, 10, 11, 12, 13, 14],
        [ 5,  6,  7,  8,  9, 15, 16, 17, 18, 19]])

In [155]:
a.shape, d.shape
# 합치는 기준축 이외의 축 size는 같아야 한다.
torch.cat([a, d])  #dim=0, Error  1축 size가 달라서 Error

RuntimeError: Sizes of tensors must match except in dimension 0. Expected size 5 but got size 3 for tensor number 1 in the list.

# 값의 위치(index) 변경
- tensor 원소의 index의 위치를 바꾼다.
- `tensor.transpose(axis1, axis2)`
    - 두 축의 자리만 변경 할 수 있다.
- `tensor.permute(axis1, axis2, axis3, ..)`
    - 두 개 이상의 축 자리를 변경한다.

In [157]:
X = torch.arange(24).reshape(2, 3, 4)
print(X.shape)

y = X.transpose(1, 2)
print(y.shape)

z = X.permute(2, 0, 1) # 0,1,2 축에 각각 2,0,1번축을 넣는다.
print(z.shape)



print('-'*50)
print(X) # reshape과는 다르다! 값들 자체가 달라짐
print('-'*50)
print(y)
print('-'*50)
print(z)

torch.Size([2, 3, 4])
torch.Size([2, 4, 3])
torch.Size([4, 2, 3])
--------------------------------------------------
tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])
--------------------------------------------------
tensor([[[ 0,  4,  8],
         [ 1,  5,  9],
         [ 2,  6, 10],
         [ 3,  7, 11]],

        [[12, 16, 20],
         [13, 17, 21],
         [14, 18, 22],
         [15, 19, 23]]])
--------------------------------------------------
tensor([[[ 0,  4,  8],
         [12, 16, 20]],

        [[ 1,  5,  9],
         [13, 17, 21]],

        [[ 2,  6, 10],
         [14, 18, 22]],

        [[ 3,  7, 11],
         [15, 19, 23]]])


# tensor 연산 및 주요 함수

## element-wise 연산
- tensor와 상수 연산시, tensor와 tensor간 연산시 원소별로 처리한다.
- 행렬곱 연산을 제외하고 tensor간 연산시 피연산자 tensor간에 shape이 같아야 한다.
    - shape이 다를 경우 조건이 맞으면 broadcasting을 한 뒤에 연산한다. (size가 다른 축의 경우 한개의 피연산자 size가 1일 경우 복사하여 shape을 맞춘다.)
    

In [161]:
import torch

a = torch.arange(10).reshape(2,5)
b = torch.arange(10,20).reshape(2,5)
c = torch.arange(50, 55)

print(a)
print(b)
print(c)

tensor([[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]])
tensor([[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]])
tensor([50, 51, 52, 53, 54])


In [162]:
print(a + 100)
print(a - 100)
print(a < 5)

tensor([[100, 101, 102, 103, 104],
        [105, 106, 107, 108, 109]])
tensor([[-100,  -99,  -98,  -97,  -96],
        [ -95,  -94,  -93,  -92,  -91]])
tensor([[ True,  True,  True,  True,  True],
        [False, False, False, False, False]])


In [None]:
print(a + b)
print(a == b)

tensor([[10, 12, 14, 16, 18],
        [20, 22, 24, 26, 28]])
tensor([[False, False, False, False, False],
        [False, False, False, False, False]])


In [None]:
a.size(), c.size()

(torch.Size([2, 5]), torch.Size([5]))

In [171]:
# broadcasting
# 사이즈가 달라도 broadcasting이 일어남. c -> [[50, 51, 52, 53, 54], [50, 51, 52, 53, 54]] 를 한다음에 a의 각 행과 더함.
print(f"{a}\n{c}\n{a + c}")

tensor([[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]])
tensor([50, 51, 52, 53, 54])
tensor([[50, 52, 54, 56, 58],
        [55, 57, 59, 61, 63]])


## 주요 연산함수

### 주요 상수
#### 자연상수 E

In [173]:
torch.e, np.e, torch.pi, np.pi

(2.718281828459045, 2.718281828459045, 3.141592653589793, 3.141592653589793)

In [174]:
print("e값")
print(torch.e, np.e)

print("pi값")
print(torch.pi, np.pi)

e값
2.718281828459045 2.718281828459045
pi값
3.141592653589793 3.141592653589793


#### torch.nan, torch.inf
- nan: Not a Number, 주로 결측치를 표현한다.
- inf: infinit 무한.
    - torch.inf: 양의 무한
    - -torch.inf: 음의 무한
- torch.isnan(tensor)
    - 원소별 결측치 확인. tensor 안에서 nan인 부분이 true
- torch.isinf(tensor)    
    - 원소별 inf 확인. tensor 안에서 inf인 부분이 true

In [None]:
print(torch.inf > 10000000000000000, torch.inf < 10000000000)
print(-torch.inf < -1000000000000000000000, -torch.inf > 10)


True False
True False


In [175]:
print(torch.log(torch.tensor(-1))) # nan (계산결과가 없으므로-없는값-nan 반환). log(x)에서 x>0이어야하므로 x=-1에서는 값이 없다.
print(torch.isnan(torch.tensor([1,2,torch.nan,3,4])))  # nan 여부 확인
print(torch.isinf(torch.tensor([1,2,3,4,torch.inf])))  # inf 여부 확인

tensor(nan)
tensor([False, False,  True, False, False])
tensor([False, False, False, False,  True])


## 주요 연산 함수

In [184]:
x=torch.arange(-4, 5).reshape(3,3)
print(x)
print(torch.abs(x))					# 절대값
print(torch.sqrt(torch.abs(x)))		# 제곱근
print(torch.exp(x))					# torch.e**x
print(torch.log(torch.abs(x)))
print(torch.log(torch.exp(torch.tensor(1))))	# torch.log() 밑이 e인 로그계산
print(torch.log10(torch.tensor(10)))         	# torch.log10() 밑이 10인 로그계산
print(torch.log2(torch.tensor(4)))           	# torch.log2() 밑이 2인 로그계산

tensor([[-4, -3, -2],
        [-1,  0,  1],
        [ 2,  3,  4]])
tensor([[4, 3, 2],
        [1, 0, 1],
        [2, 3, 4]])
tensor([[2.0000, 1.7321, 1.4142],
        [1.0000, 0.0000, 1.0000],
        [1.4142, 1.7321, 2.0000]])
tensor([[1.8316e-02, 4.9787e-02, 1.3534e-01],
        [3.6788e-01, 1.0000e+00, 2.7183e+00],
        [7.3891e+00, 2.0086e+01, 5.4598e+01]])
tensor([[1.3863, 1.0986, 0.6931],
        [0.0000,   -inf, 0.0000],
        [0.6931, 1.0986, 1.3863]])
tensor(1.)
tensor(1.)
tensor(2.)


In [185]:
y = x + torch.randn((3,3))
print(y)
print(torch.round(y)) # 반올림
print(torch.round(y, decimals=2)) # 소수점 둘째자리 이하에서 반올림
print(torch.floor(y)) # 내림
print(torch.ceil(y)) # 올림

tensor([[-5.7978, -2.0591, -2.8445],
        [ 0.0215, -0.4218,  2.7699],
        [ 1.4423,  2.5698,  4.2302]])
tensor([[-6., -2., -3.],
        [ 0., -0.,  3.],
        [ 1.,  3.,  4.]])
tensor([[-5.8000, -2.0600, -2.8400],
        [ 0.0200, -0.4200,  2.7700],
        [ 1.4400,  2.5700,  4.2300]])
tensor([[-6., -3., -3.],
        [ 0., -1.,  2.],
        [ 1.,  2.,  4.]])
tensor([[-5., -2., -2.],
        [ 1., -0.,  3.],
        [ 2.,  3.,  5.]])


### 행렬곱
- `@` 연산자 또는 `torch.matmul(tensor1, tensor2)` 함수 이용

In [186]:
import torch

In [189]:
x = torch.FloatTensor([[1, 2],[3, 4],[5, 6]])

y = torch.FloatTensor([[1, 2],[1, 2],])
x, y, x.size(), y.shape

(tensor([[1., 2.],
         [3., 4.],
         [5., 6.]]),
 tensor([[1., 2.],
         [1., 2.]]),
 torch.Size([3, 2]),
 torch.Size([2, 2]))

In [188]:
z1 = x @ y
z2 = torch.matmul(x, y)
print(z1.shape, z2.shape)
print(z1)
print(z2)

torch.Size([3, 2]) torch.Size([3, 2])
tensor([[ 3.,  6.],
        [ 7., 14.],
        [11., 22.]])
tensor([[ 3.,  6.],
        [ 7., 14.],
        [11., 22.]])


In [190]:
# Batch 행렬곱(Batch matrix muliplication) - bmm() >>> 행렬곱은 2차원끼리의 연산인데, 3차원 행렬의 행렬곱은?
# 피연산자로 두개의 3차원 tensor를 axis (1, 2)를 기준으로 행렬곱을 처리한다. >>> (3,4,2)의 경우, (4,2)짜리 행렬이 3개 있다고 생각하고 계산한다.
# 따라서 피연산자의 axis=0축의 값은 같아야한다.
import torch
x = torch.FloatTensor(3,4,2)
y = torch.FloatTensor(3,2,5)
z = torch.bmm(x, y)
z.shape


torch.Size([3, 4, 5])

## 기술통계함수

In [191]:
X=torch.randn(3,4)
print(X)

tensor([[-2.0610, -0.3149,  0.2939, -0.2752],
        [-1.4370, -0.6643, -2.1156, -0.2468],
        [-0.7320,  0.2601, -1.4236, -1.7884]])


In [192]:
print(torch.sum(X))							# default: 전체기준으로 계산. dim=None
print(torch.sum(X, dim=1))					# dim/axis 지정: 지정한 axis의 index가 다른 값끼리 계산.
print(torch.sum(X, dim=1, keepdims=True))	# 기술통계함수들을 실행하면 차원이 줄어든다. keepdims=True로 하면 차원유지(shape을 유지하는게 아니다.)
print(torch.sum(X, dim=0, keepdims=True))	# 차원유지하면서, dim값에 따른 sum 방향을 보여준다.

tensor(-10.5049)
tensor([-2.3573, -4.4637, -3.6839])
tensor([[-2.3573],
        [-4.4637],
        [-3.6839]])
tensor([[-4.2300, -0.7191, -3.2453, -2.3105]])


In [193]:
print(torch.mean(X))
print(torch.mean(X, dim=0))
print(torch.mean(X, dim=0, keepdims=True))

tensor(-0.8754)
tensor([-1.4100, -0.2397, -1.0818, -0.7702])
tensor([[-1.4100, -0.2397, -1.0818, -0.7702]])


In [195]:
print(torch.std(X)) # standard deviation 표준 편차
print(torch.var(X)) # variance 분산
print(torch.var(X, dim=0))

tensor(0.8626)
tensor(0.7440)
tensor([0.4421, 0.2179, 1.5390, 0.7778])


In [196]:
# tensor.메소드()
print(X.sum(dim=1, keepdims=True))
print(X.mean(dim=1, keepdims=True))
print(X.std())

tensor([[-2.3573],
        [-4.4637],
        [-3.6839]])
tensor([[-0.5893],
        [-1.1159],
        [-0.9210]])
tensor(0.8626)


In [214]:
X # 3x4

tensor([[-2.0610, -0.3149,  0.2939, -0.2752],
        [-1.4370, -0.6643, -2.1156, -0.2468],
        [-0.7320,  0.2601, -1.4236, -1.7884]])

In [208]:
print(torch.max(X)) # 전체 기준 max값 계산.
print(x.shape)
print()
# 0축방향(3개)중에 max 구하기? >> dim=0  ///  1축방향(4개)중에 max 구하기? dim=1
print(torch.max(X, dim=0))  # 축을 지정하면 return_types.max 타입객체로 반환. max값과 max값의 index를 묶어서 반환
print()
print(torch.max(X, dim=1))
print()
print(torch.max(X, dim=1).values, torch.max(X, dim=1).indices, sep=" || ")
# 값이 필요하면 .values를 붙이고, 인덱스가 필요하면 .indices 붙인다.
print()
print()
print(torch.max(X, dim=0, keepdims=True))  #keepdims=True : 차원(rank)를 유지
print()
print(torch.max(X, dim=1, keepdims=True))

tensor(0.2939)
torch.Size([3, 4, 2])

torch.return_types.max(
values=tensor([-0.7320,  0.2601,  0.2939, -0.2468]),
indices=tensor([2, 2, 0, 1]))

torch.return_types.max(
values=tensor([ 0.2939, -0.2468,  0.2601]),
indices=tensor([2, 3, 1]))

tensor([ 0.2939, -0.2468,  0.2601]) || tensor([2, 3, 1])


torch.return_types.max(
values=tensor([[-0.7320,  0.2601,  0.2939, -0.2468]]),
indices=tensor([[2, 2, 0, 1]]))

torch.return_types.max(
values=tensor([[ 0.2939],
        [-0.2468],
        [ 0.2601]]),
indices=tensor([[2],
        [3],
        [1]]))


In [220]:
print(f"{X}\n{torch.min(X)}\n")
print(torch.min(X, dim=0)) # return_types.min 타입객체로 반환. min값과 min값의 index를 묶어서 반환
print(torch.min(X, dim=1))

tensor([[-2.0610, -0.3149,  0.2939, -0.2752],
        [-1.4370, -0.6643, -2.1156, -0.2468],
        [-0.7320,  0.2601, -1.4236, -1.7884]])
-2.1155636310577393

torch.return_types.min(
values=tensor([-2.0610, -0.6643, -2.1156, -1.7884]),
indices=tensor([0, 1, 1, 2]))
torch.return_types.min(
values=tensor([-2.0610, -2.1156, -1.7884]),
indices=tensor([0, 2, 3]))


In [None]:
print(torch.argmax(X))			# 전체 중 가장 큰 값의 index >> flatten(1차원으로 변환)한 뒤 index를 반환
print(torch.argmax(X, dim=0))	# 각 열에서 가장 큰 애가 존재하는 인덱스
print(torch.argmax(X, dim=1))	# 각 행에서 가장 큰 애가 존재하는 인덱스

tensor(2)
tensor([2, 2, 0, 1])
tensor([2, 3, 1])


In [222]:
a = torch.max(X, dim=0)
print(a.values)
print(a.indices)

tensor([-0.7320,  0.2601,  0.2939, -0.2468])
tensor([2, 2, 0, 1])


# autograd(자동미분)   >>>>>>>>> 사실상 여기서부터 중요하다.
- 자동 미분을 이용해 gradient(미분계수)를 계산하는 pytorch system.
- 추론할 때 y_hat을 구하면서 동시에 도함수를 저장한다. 이후 backword() 메서드를 통해 파라미터를 업데이트함.
- 딥러닝 모델에서 weight와 bias tensor들(Parameter)은 backpropagation(역전파)를 이용해 gradient를 구해서 loss가 줄어드는 방향으로 update를 하게된다.
- pytorch는 이런 미분 수행을 자동으로 처리해 준다.
    - gradient(기울기)를 구한다는 것은 미분을 한다는 것을 말한다.
- tensor가 미분 가능하려면(gradient 계산 대상 변수) `requires_grad=True` 로 설정되 있어야 한다(default: False). gradient를 계산해야하는 대상이라는 것임을 설정하는 것.

> - **미분**
>   -  (순간) 변화율을 계산한다.
>   - $$\frac{\partial y}{\partial x}$$
>       - x에 대한 y의 변화율. 즉 x가 변하면 y는 얼마나 변할까?

In [44]:
import torch

In [235]:
x = torch.tensor([1.0])
print(x.requires_grad) # gradient를 계산해야하는 대상인지에 대한 여부 확인.
# false >> 나중에 gradient를 계산할 일 없다는 의미
# true >> x를 이용한 계산을 할 때 gradient함수(도함수)를 정의해서 저장한다.

False


In [236]:
x = torch.tensor([1.0], requires_grad=True) # True로 설정.

In [237]:
# 위 Tensor의 속성을 알아보자

## data >>> Tensor가 가지는 값들을 저장하는 변수(속성)
print(x.data) # 최초에 x에 대해 tensor만들때 [1.0] 넣어준 것이 확인된다.

## grad >>> Gradient 값을 저장하는 변수(속성)
print(x.grad) # 아직 저장한게 없어 None

tensor([1.])
None


In [238]:
y = x**2 # 이하, 원함수
y
# grad_fn의 의미? 도함수. x는 requires_grad=True 였으므로, gradient 계산함수(도함수)가 저장된 변수(속성)를 의미한다. 그 도함수(dy/dx)의 정보가 y에 저장된 것.
# 위의 내용의 경우, 원함수(x**2)의 도함수인 2x가 grad_fn에 저장됨
# 제곱에 대한 도함수라서 Power backward라고 나옴

tensor([1.], grad_fn=<PowBackward0>)

In [239]:
# gradient 계산
# .backward() method? >>> 자동으로 미분을 수행하고, 연결된 각 텐서의 .grad 속성에 기울기 값을 저장
y.backward() # dy/dx (x=1.0) 계산 >> 계산한 도함수에 처음에 설정한 x=1.0을 대입하여 나온 그 도함수값을 x.grad에 저장

In [240]:
# x.data : 최초에 x에 대해 tensor만들때 [1.0]을 넣어 주어 그대로 x값은 1.0으로 출력
# x.grad : .backward() 메서드에 의해, x=1일때의 도함수(y=2x)값인 2.0이 x.grad에 저장되어 출력
# y.grad_fn : 상기 y를 호출했을때 나온 도함수에 대한 정보 출력
x.data, x.grad, y.grad_fn

(tensor([1.]), tensor([2.]), <PowBackward0 at 0x1b7a106e650>)

In [241]:
a = torch.tensor([2.0], requires_grad=True)
b = torch.tensor([3.2]) # r_grad=False
y = a - b + 3 # grad_fn 정의
y.backward() # grad를 계산 - a에 대해서만 계산함 b는 requires_gfrad = False 이기때문

In [242]:
a.data, a.grad, y.grad_fn

# 덧셈이다보니, 도함수 정보 addbackward 나옴.
# y에 대한 a의 편미분함수 >>> dy/da = 1
# 따라서 a.grad를 호출하면 1.0이 나온다.

(tensor([2.]), tensor([1.]), <AddBackward0 at 0x1b7a1071e10>)

In [243]:
# 간단한 경사하강법 구현

input_data = torch.tensor([30.2]) # x
output_data = torch.tensor([10.5]) # y

weight = torch.tensor([0.2], requires_grad=True) # parameter

y_pred = weight * input_data # 모델예측값.

print(y_pred.grad_fn) # 곱셈이라 도함수 정보는 mul backward
loss = (output_data - y_pred) ** 2 # 오차계산-MSE

<MulBackward0 object at 0x000001B7A106EE90>


In [232]:
y_pred, loss, y_pred.grad_fn, loss.grad_fn
# y_pred를 구성하는 weight의 requires_grad가 True이므로 y_pred의 requires_grad도 True다.
# y_pred에 대한 weight의 도함수 정보가 y_pred에 grad_fn로 저장된다.
# loss에 대한 y_pred의 도함수 정보가 loss에 grad_fn으로 저장된다.

(tensor([6.0400], grad_fn=<MulBackward0>),
 tensor([19.8916], grad_fn=<PowBackward0>),
 <MulBackward0 at 0x1b7a0fe2b60>,
 <PowBackward0 at 0x1b7a0fe1c90>)

In [244]:
loss.backward()
# 최종적인 목적은, loss.backward()하여 weight.grad(도함수값. 즉, weight의 변화율)를 구하고 그걸 기존의 weight에 빼서 새로운 weight를 찾는 것.
# 따라서 loss와 weight와의 수식을 통해 d(loss)/dw를 구해야하는 것인데, w로 직접적으로 구성된 loss함수가 없다. 다만 아래의 두 함수가 합성함수관계로 연결되어있음
# y_pred=f(w) : y_pred = weight *input_data             >>> 여기서 d(y_pred)/dw 를 구하고
# loss=g(y_pred) : loss = (output_data - y_pred)**2     >>> 여기서 d(loss)/d(y_pred)를 구하고 위의 변화율을 곱한다.
# 두개의 변화율을 곱하여 d(loss)/dw 구하는 것이 loss.backward()'
# 결과적으로 합성함수가 연결되어있어도 우리는 loss.backward()만 해주면 컴퓨터가 알아서 연결된 함수관계에서 weight.grad를 계산하여 저장한다.

In [245]:
# weight.grad 호출하여 확인
weight.grad

tensor([-269.3840])

In [246]:
new_weight = weight.data - weight.grad * 0.0001 # 0.0001 = 학습률
new_weight # 최초의 weight는 0.2 였는데 0.2269로 커진 것을 알 수 있다. 이렇게 새로구한 weight를 위로 올라가 weight 자리에 넣고 다시 새롭게 loss를 구하면 loss가 줄어든걸 알 수 있다.

tensor([0.2269])

## torch.no_grad()
- no_grad()를 with 구문에서 연산을 할 경우 with block 내에서 requires_grad=True로 설정된 변수를 이용한 계산식이 있더라도 grad_fn을 생성하지 않는다. 즉 gradient를 계산하지 않는다.
- 딥러닝 모델을 평가 하거나 추론을 할 때는 gradient를 계산할 필요가 없기 때문에 no_grad 구문을 사용한다.
- 성능 평가가 다 끝난 뒤에 서비스를 하고자 할땐, 더이상 도함수를 구하는 연산을 할 필요 없으므로, 그때는 추론만하도록 한다.

In [247]:
x = torch.tensor([1.0], requires_grad=True)
y = x**2
print("결과:", y.data)
print("grad_fn", y.grad_fn)

결과: tensor([1.])
grad_fn <PowBackward0 object at 0x000001B7A0FE3580>


In [254]:
print(x.requires_grad)
with torch.no_grad(): # 출력결과를 보면, y.data는 그대로 갖고있지만, 도함수(grad_fn)는 None으로써 gradient를 계산하지 않음을 알 수 있다.
  y=x**2
  print("결과 :", y.data)
  print("grad_fn :", y.grad_fn)

True
결과 : tensor([1.])
grad_fn : None


## gradient 값 초기화
- backward() 에서 계산되어 저장된 gradient값을 초기화한다.
- 반복 학습을 할 경우 gradient가 누적되는 문제가 발생한다. 그래서 한번 학습이 끝나면 다음 학습 전에 초기화하는 작업을 해야 한다.

In [255]:
x = torch.tensor([1.0], requires_grad=True)
print(x.grad)
y = x**2

y.backward()
print(x.grad)

# y.backward() 하기 전의 print(x.grad)은 아직 도함수값 저장하기 전이므로 None 출력
# y.backward() 함으로써, x에 대한 도함수가 y에 저장되고, x=1.0 일때 도함수값 2가 x.grad에 저장

None
tensor([2.])


In [256]:
# x를 이용한 새로운 계산

z = x**3
z.backward()

# z에 대한 x의 도함수 >>> dz/dx = 3x >>> 따라서 x=1.0이므로 도함수값은 3.0

In [257]:
print(x.grad)

# 새로운 계산을 하기 전에 x.grad값을 2라고 저장해놨다. 이후 새로운 계산을 할때 x.grad값에 새로운 계산값인 3.0을 넣는 과정에서, 기존의 값과 더해져 5라고 출력된다.
# 따라서 먼저 계산했던 grad값을 초기화시켜주는 과정이 필요함
# 아래와 같이 x.grad = None 한줄 적어주면 된다.

tensor([5.])


In [258]:
# x를 이용한 새로운 계산
x.grad = None # 초기화
z = x**3
z.backward()
print(x.grad) # x도함수값 3.0 인 것 확인

tensor([3.])
