![torchman](imgs/torchman.jpg)

이번 차례에는 머신러닝 파이프라인을 살펴보고 데이터를 어떻게 텐서를 통해 표현하는지 살펴보겠습니다  

# Deep learning pipeline

![dlpl](imgs/pipelin.png)

In [4]:
import torch as th

저희가 지금까지 배운 수 체계에는 스칼라, 벡터, 행렬, 텐서가 있었습니다.  
그리고 많은 머신러닝 책에서는 아래와 같이 표기합니다.  
여러 모듈과 메소드를 통해 파이토치에서 어떻게 텐서를 조작하는지 알아보겠습니다  

$${스칼라 : x\quad 0 \ (0차원) \\ 
벡터 : \mathbf x \quad n \ (1차원) \\ 
행렬 : \mathbf X \quad m \times n \ (2차원) \\
텐서 : \mathcal {X} \quad l \times m \times n \times \dots \  (3차원 이상) }$$

먼저 들어가기 앞서서 프로그래밍 초반에 배우는 데이터의 타입을 떠올려보겠습니다.  
대표적으로 다음과 같습니다. 
1. Int  
2. Double  
3. Float  

일반적으로 torch의 여러가지 텐서모듈을 통해 위의 데이터타입을 가지는 텐서를 생성할 수 있습니다 

In [5]:
from torch import tensor
from torch import FloatTensor as ftensor
from torch import DoubleTensor as dtensor

텐서 객체는 다음과 같은 형태로 할당하게 됩니다.  
tensor = tensor(data, dtype=float32, device='cpu')  
텐서 객체를 생성하기 위한 파라미터와 인자는 data, dtype, device가 있습니다.  


## 1. 스칼라

dtype과 device를 지정하지 않으면 자동으로 dtype을 식별하고 device는 cpu로 할당하게 됩니다.   

In [13]:
scalar = tensor(3)
print(scalar)
print(scalar.dtype)
print(scalar.device)

scalar2 = tensor(99.99, dtype=float)
print(scalar2)
print(scalar2.dtype)
print(scalar2.device)

# 텐서 오브젝트의 dtype과 device는 모두 통일시켜야 한다!!
# 즉, 입력 인풋의 데이터타입과 모델 가중치의 데이터 타입이 같아야 한다. 
# 또한, 입력 인풋과 모델 가중치의 계산장치가 같아야 한다.

tensor(3)
torch.int64
cpu
tensor(99.9900, dtype=torch.float64)
torch.float64
cpu


In [14]:
print(scalar2.item())

# Loss를 plotting 할 때 많이 사용.

99.99


.item()을 통하여 텐서 객체 내의 단일 스칼라 값을 뽑아낼 수 있습니다. item 메소드는 반드시 스칼라 텐서에서 호출해야 합니다

## 2. 벡터

In [16]:
import numpy as np

In [18]:
# 벡터, 텐서
# numpy에서는 시퀀스 데이터(리스트, 튜플)을 넣어서 벡터나 텐서를 표현함.
vec = np.array([1, 2, 3, 4])
print(vec)

[1 2 3 4]


data에 들어갈 수 있는 컨테이너는 List, Tuple, Numpy array입니다.  
파이토치에서 텐서 객체를 만드는 방법은 기존의 numpy와 매우 유사합니다.  

In [21]:
vec1 = ftensor([1.0, -1.1, 3.9]) # list input
vec2 = dtensor((1.0, -1.1, 3.9)) # Tuple data
vec3 = tensor(np.array([1, 2, 3, 4])) # numpy ary input
vec4 = tensor([1.0, -1.1, 3.9], dtype=int)

print(vec1)
print(vec1.dtype)
print(vec2)
print(vec3)
print(vec4)

tensor([ 1.0000, -1.1000,  3.9000])
torch.float32
tensor([ 1.0000, -1.1000,  3.9000], dtype=torch.float64)
tensor([1, 2, 3, 4], dtype=torch.int32)
tensor([ 1, -1,  3])


## 3. 행렬

이제 행렬 텐서를 만들어보겠습니다.  
데이터타입을 행렬로 다루기 시작한다면 device를 gpu로 지정하는게 좋습니다.  
이제 데이터를 일일히 생성하기 힘드므로 rand를 사용하겠습니다.  
rand를 잘 활용하기 위해 시드를 고정하겠습니다.  

In [25]:
th.manual_seed(1) # torch.manual_seed(seed) 랜덤 생성 시드를 seed로 고정한다.
#mat = th.rand([2, 2], device='cuda:0')
#mat = th.rand([2, 2], device='cuda:1')
mat = th.rand([2, 2], device='cpu')
print(mat)
print(mat.device)

# 라인에서 ctrl + c 복사
# ctrl + shift + left 단어선택

tensor([[0.7576, 0.2793],
        [0.4031, 0.7347]])
cpu


![tensor](imgs/tensor.png)

## 4. 텐서  
이제 3차원 이상의 텐서를 만들어보겠습니다.  

In [27]:
th.manual_seed(2)

# 라인에서 Ctrl + / 주석처리
# T = th.rand([64, 64, 3], device='cuda:0')
T = th.rand([64, 64, 3], device='cpu')
T = T * 256
# to() : 텐서 내의 메소드로 원하는 데이터 타입, 원하는 디바이스의 텐서를 반환해준다.
T = T.to(int) 
print(T)
print(T.dtype)

# 퀴즈 : T 텐서의 디바이스를 cuda로 변경해서 device를 출력하세요
T = T.to(device='cuda:0')
print(T)
print(T.dtype)

tensor([[[157,  97, 163],
         [121, 182, 158],
         [113,  24, 157],
         ...,
         [162,   7,  53],
         [ 82, 175, 242],
         [185, 176,  19]],

        [[210, 173,  86],
         [ 66, 164,  58],
         [179, 225,  43],
         ...,
         [188,  41,  52],
         [115, 211, 193],
         [ 41,  37, 171]],

        [[118, 141, 131],
         [ 36, 106,  87],
         [105, 208,   7],
         ...,
         [167,  45, 163],
         [ 20, 190, 208],
         [ 66, 150, 208]],

        ...,

        [[ 96,  34,   8],
         [196, 131, 241],
         [176, 213, 125],
         ...,
         [122, 118, 116],
         [165,  25, 201],
         [ 80, 188, 161]],

        [[198,  54, 237],
         [ 96, 153,  38],
         [ 63, 126, 239],
         ...,
         [ 92,  67, 253],
         [  1,  17, 229],
         [184, 142,   5]],

        [[122, 200, 158],
         [244, 198, 146],
         [ 36,  74, 244],
         ...,
         [241, 237,  16],
        

# 퀴즈 (Easy)  
1) !nvidia-smi 를 통해 현재 gpu의 메모리 사용량을 확인하세요
2) 크기가 (100, 100, 100)인 3차원 랜덤 텐서를 gpu 메모리에 할당하세요
3) 다시 !nvidia-smi를 통해 gpu 메모리 사용량이 얼마나 늘었는지 계산해보세요

In [28]:
!nvidia-smi

'nvidia-smi' is not recognized as an internal or external command,
operable program or batch file.


In [29]:
th.cuda.is_available()

False

In [40]:
th.manual_seed(2)
# T = th.rand([100, 100, 100], device='cuda:0')
T = th.rand([100, 100, 100], device='cpu')

# 퀴즈 리스트 컴프리헨션으로 100개의 텐서를 리스트에 넣으세요
# a = []
# for i in range(100):
#     a.append(T)
    
a = [th.rand([100, 100, 100], device='cpu') for i in range(100)]

In [34]:
!nvidia-smi

'nvidia-smi' is not recognized as an internal or external command,
operable program or batch file.


텐서를 자유자재로 조작하기

In [41]:
import numpy as np

In [None]:
# 멤버접근 연산자 . 치고 탭 누르면 클래스 멤버들을 볼 수 있다!