<a href="https://colab.research.google.com/github/Youngmi-Park/pytorch-study/blob/main/Basic/Pytorch_Basic1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PyTorch Basic

##. 1. Import packages
필요한 패키지를 설치하고 import한다.
colab에서 pytorch를 사용하려면 런타임 유형을 변경해야한다.
타임의 유형을 변경해줍니다.

상단 메뉴 [런타임]→[런타임유형변경]→[하드웨어가속기]→[GPU]

변경 이후 아래의 cell을 실행 시켰을 때, torch.cuda.is_avialable()이 True가 나와야 한다.

In [None]:
import torch
print(torch.__version__)
print(torch.cuda.is_available())

1.13.1+cu116
True


## 2. 벡터, 행렬, 텐서
- 벡터(Vector): 1차원으로 구성된 값
- 행렬(Matrix): 2차원으로 구성된 값
- 텐서(Tensor): 3차원으로 구성된 값

4차원 이상 부터는 3차원의 텐서를 위로 쌓아올린 모습으로 볼 수 있다.
또한 주로 3차원 이상을 텐서라고 하긴 하지만, 1차원 벡터나 2차원인 행렬도 텐서라고 표현하기도 한다.
- 벡터 = 1차원 텐서, 2차원 행렬 = 2차원 텐서. 그리고 3차원 텐서, 4차원 텐서, 5차원 텐서 등...

PyTorch에서는 텐서를 사용하여 모델의 입력과 출력뿐만 아니라 모델의 파라미터를 나타낸다.

GPU나 다른 연산 가속을 위한 특수한 하드웨어에서 실행할 수 있다는 점을 제외하면, 텐서는 NumPy의 ndarray와 매우 유사하다. 


-  2D Tensor(Typical Simple Setting)

  - |t| = (batch size, dim)

- 3D Tensor(Typical Computer Vision) - 비전 분야에서의 3차원 텐서

  - |t| = (batch size, width, height)

* 3D Tensor(Typical Natural Language Processing) - NLP 분야에서의 3차원 텐서

  - |t| = (batch size, length, dim)

## 3. Pytorch 텐서 선언하기
직접 생성하기

In [None]:
t1 = torch.FloatTensor([0., 1., 2., 3., 4., 5., 6.]) # 1D Tensor(vector)
t2 = torch.FloatTensor([[1, 2],[1, 2]])
print(t1)
print(t2)

tensor([0., 1., 2., 3., 4., 5., 6.])
tensor([[1., 2.],
        [1., 2.]])


데이터로 부터 생성하기

In [None]:
data = [[1, 2],[3, 4]]
x = torch.tensor(data)
x

tensor([[1, 2],
        [3, 4]])

In [None]:
import numpy as np

np_array = np.array(data) 
x = torch.from_numpy(np_array)
x

tensor([[1, 2],
        [3, 4]])

Tensor에서 Numpy array로 변환하기

In [None]:
x.numpy()

array([[1, 2],
       [3, 4]])

다른 텐서와 같은 모양의 텐서 초기화하기

In [None]:
x_ones = torch.ones_like(x) # x와 모양은 같고 원소가 1
print(f"Ones Tensor: \n {x_ones} \n")

x_rand = torch.rand_like(x, dtype=torch.float) # x와 모양은 같고 원소가 랜덤
print(f"Random Tensor: \n {x_rand} \n")

Ones Tensor: 
 tensor([[1, 1],
        [1, 1]]) 

Random Tensor: 
 tensor([[0.9781, 0.2812],
        [0.1179, 0.1258]]) 



주어진 shape으로 초기화하기

In [None]:
shape = (1,4)
rand_tensor = torch.rand(shape)
ones_tensor = torch.ones(shape)
zeros_tensor = torch.zeros(shape)

print(f"Random Tensor: \n {rand_tensor} \n")
print(f"Ones Tensor: \n {ones_tensor} \n")
print(f"Zeros Tensor: \n {zeros_tensor}")

Random Tensor: 
 tensor([[0.4701, 0.7573, 0.8374, 0.5718]]) 

Ones Tensor: 
 tensor([[1., 1., 1., 1.]]) 

Zeros Tensor: 
 tensor([[0., 0., 0., 0.]])


## 4. 텐서의 속성 - 차원, 크기, 자료형
- dim(): 텐서의 차원
- shape(), size(): 텐서의 모양 및 크기
- datatype(): 텐서의 자료형

In [None]:
print(f"Dim of tensor: {t1.dim()}")  # rank. 즉, 차원, 1차원
print(f"Shape of tensor: {t1.shape}")  # shape, 7개 원소
print(f"Shape of tensor: {t1.size()}") # shape
print(f"Datatype of tensor: {t1.dtype}")

Dim of tensor: 1
Shape of tensor: torch.Size([7])
Shape of tensor: torch.Size([7])
Datatype of tensor: torch.float32


In [None]:
print(f"Dim of tensor: {t2.dim()}")  # rank. 즉, 차원, 1차원
print(f"Shape of tensor: {t2.shape}")  # shape, 7개 원소
print(f"Shape of tensor: {t2.size()}") # shape
print(f"Datatype of tensor: {t2.dtype}")

Dim of tensor: 2
Shape of tensor: torch.Size([2, 2])
Shape of tensor: torch.Size([2, 2])
Datatype of tensor: torch.float32


cpu에 할당되어 있는 tensor를 gpu에 옮길 수 있다.







In [None]:
device = torch.device('cuda')
t1 = t1.to(device)
print(f"Device tensor is stored on: {t1.device}")

Device tensor is stored on: cuda:0


## 5. 텐서의 연산


In [None]:
tensor = torch.ones(3, 4)
tensor[:,1] = 0
print(tensor)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


### 1) 텐서 합치기(Concatenate)

In [None]:
t1 = torch.cat([tensor, tensor, tensor], dim=0) # 가장 큰 차원에서 부터 0, 행
print(t1)

tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


In [None]:
t1 = torch.cat([tensor, tensor, tensor], dim=1)
print(t1)

tensor([[1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1.]])


*이탤릭체 텍스트*### 2) 텐서 곱하기 
### - Matrix Multiplication
텐서를 곱하는 방법 중에서 행렬곱 연산

In [None]:
print(f"tensor.matmul(tensor.T) \n {tensor.matmul(tensor.T)} \n")
print(f"tensor @ tensor.T \n {tensor @ tensor.T}")

tensor.matmul(tensor.T) 
 tensor([[3., 3., 3.],
        [3., 3., 3.],
        [3., 3., 3.]]) 

tensor @ tensor.T 
 tensor([[3., 3., 3.],
        [3., 3., 3.],
        [3., 3., 3.]])


### - Element-wise Product
행렬의 요소별 곱 연산

In [None]:
print(f"tensor.mul(tensor) \n {tensor.mul(tensor)} \n")
print(f"tensor * tensor \n {tensor * tensor}")

tensor.mul(tensor) 
 tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]]) 

tensor * tensor 
 tensor([[1., 0., 1., 1.],
        [1., 0., 1., 1.],
        [1., 0., 1., 1.]])


### 3) 평균 (Mean)
기본적으로 모든 원소의 평균을 구한다. dim. 즉, 차원(dimension)을 인자로 주는 경우 해당 차원을 제거한다는 의미이다.

In [None]:
t2

tensor([[1., 2.],
        [1., 2.]])

In [None]:
print(t2.mean()) # 전체원소의 평균
print(t2.mean(dim=0)) # 첫 번째 차원 제거, 0은 행을 의미, 행을 제거함, 열에 대한 평균
print(t2.mean(dim=1)) # 두 번째 차원 제거, 1은 열을 의미, 열을 제거함, 행에 대한 평균
print(t2.mean(dim=-1)) # 마지막 차원 제거, 열을 제거함, 행에 대한 평균

tensor(1.5000)
tensor([1., 2.])
tensor([1.5000, 1.5000])
tensor([1.5000, 1.5000])


### 4) 덧셈 (Sum)
평균과 연산 방법이나 인자가 의미하는 바가 동일하다.

In [None]:
print(t2.sum()) # 전체원소의 덧셈셈
print(t2.sum(dim=0)) # 첫 번째 차원 제거, 0은 행을 의미, 행을 제거함, 열에 대한 덧셈
print(t2.sum(dim=1)) # 두 번째 차원 제거, 1은 열을 의미, 열을 제거함, 행에 대한 덧셈
print(t2.sum(dim=-1)) # 마지막 차원 제거, 열을 제거함, 행에 대한 덧셈

tensor(6.)
tensor([2., 4.])
tensor([3., 3.])
tensor([3., 3.])


### 5) 최대(Max), 아그맥스(ArgMax)
- 최대: 원소의 최댓값을 리턴
- 아그맥스: 최댓값을 가진 원소의 인덱스를 리턴

In [None]:
t = torch.FloatTensor([[1, 2], [3, 4]])
print(t)

tensor([[1., 2.],
        [3., 4.]])


In [None]:
print(t.max())
print(t.argmax())

tensor(4.)
tensor(3)


dim = 0을 인자로 주면 첫번째 차원을 제거한다
행의 차원을 제거한다는 의미이므로 (1, 2) 텐서를 만든다. 그리고 max 에 dim인자를 주면 argmax도 함께 리턴한다.
첫번째 열에서 0번 인덱스는 1, 1번 인덱스는 3이고 두번째 열에서 0번 인덱스는 2, 1번 인덱스는 4이다.
다시 말해 3과 4의 인덱스는 [1, 1]이다.

In [None]:
print(t.max(dim=0)) # Returns two values: max and argmax

torch.return_types.max(
values=tensor([3., 4.]),
indices=tensor([1, 1]))


### 6) 브로드캐스팅(Broadcasting)
두 행렬을 연산할 때 덧셈과 뺄셈은 행렬의 크기가 같아야하고 곱셈에서는 A, B를 곱할 때 A의 마지막 차원과 B의 첫번째 차원이 일치해야한다.

하지만, 딥러닝을 하다보면 크기가 다른 행렬 또는 텐서에 대해서 연산을 수행해야하는 경우가 생긴다. 이를 위해서 자동으로 크기를 맞춰서 연산을 수행하는 것이 브로드캐스팅이라는 기능이다.

In [None]:
# 벡터와 스칼라의 덧셈 연산
m1 = torch.FloatTensor([1, 2])
m2 = torch.FloatTensor([3]) # 스칼라, [3] → [3, 3]
print(m1 + m2)

tensor([4., 5.])


In [None]:
# 모양이 다른 두 벡터 연산
m1 = torch.FloatTensor([1, 2]) #  →  [[1, 2], [1, 2]]
m2 = torch.FloatTensor([[3], [4]]) #  → [[3, 3], [4, 4]]
print(m1 + m2)

tensor([[4., 5.],
        [5., 6.]])


브로드캐스팅은 편리하지만, 자동으로 실행되는 기능이므로 사용자 입장에서 굉장히 주의해서 사용해야 한다. 예를 들어 A 텐서와 B 텐서가 있을 때, 사용자는 이 두 텐서의 크기가 같다고 착각하고 덧셈 연산을 수행했다고 가정했을 때 실제로 이 두 텐서의 크기는 달랐고 브로드캐스팅이 수행되어 덧셈 연산이 수행되었다. 만약, 두 텐서의 크기가 다르다고 에러를 발생시킨다면 사용자는 이 연산이 잘못되었음을 바로 알 수 있지만 브로드캐스팅은 자동으로 수행되므로 사용자는 나중에 원하는 결과가 나오지 않았더라도 어디서 문제가 발생했는지 찾기가 굉장히 어려울 수 있다.

