## 표준 프레임워크
- PyTorch와 TensorFlow
- 원래는 Keras / Tensorflow / Pytorch 세가지였음
- Keras(사용자 친화적)가 Tensorflow에 흡수됨

### Pytorch - 실행시점에서 그래프 생성 (Define by run)
- define by run의 장점
    1. 즉시 확인 가능 $\rightarrow$ pythoinc code
    2. GPU 지원, 좋은 API, 커뮤니티
    3. 다양한 형태의 딥러닝 함수 지원
        - Numpy 구조를 가지는 tensor 객체로 배열 표현
        - 자동미분 지원(DL연산)
        
### Tensorflow - 그래프를 먼저 정의하고 실행시점에 데이터를 넣어줌(Define and run)
- define and run의 장점: production과 scalability (생산성과 확장성)

## **Pytorch Autograd**

### Tensor
- 다차원 배열들을 표현하는 pytorch 클래스
- numpy.ndarray와 동일
- tensor를 생성하는 함수도 거의 동일

In [None]:
#numpy.ndarray
import numpy as np
n_array=np.arange(10).reshape(2,5)
print(n_array)
print(n_array.ndim, n_array.shape)

# pytorch -tensor
import torch
t_array=torch.FloatTensor(n_array)
print(t_array)
print(t_array.ndim, t_array.shape)

[[0 1 2 3 4]
 [5 6 7 8 9]]
2 (2, 5)
tensor([[0., 1., 2., 3., 4.],
        [5., 6., 7., 8., 9.]])
2 torch.Size([2, 5])


In [None]:
#data to tensor
data=[[3,5],[10,5]]
print(torch.tensor(data))

tensor([[ 3,  5],
        [10,  5]])


In [None]:
#ndarray to tensor
nd_array_ex=np.array(data)
print(torch.from_numpy(nd_array_ex))

tensor([[ 3,  5],
        [10,  5]])


In [None]:
x_data=torch.tensor([[3,5,20],[10,5,50],[1,5,10]])
#pytorch tensor GPU에 올리기
if torch.cuda.is_available():
  x_data_cuda=x_data.to('cuda')
x_data_cuda.device

device(type='cuda', index=0)

## Tensor handling
- view, squeeze, unsqueeze 등으로 tensor 조정
  - view: reshape과 동일 (view는 contiguity 보장, reshape은 안해줌) → **view를 써라!!**
  - squeeze: 차원의 개수가 1인 차원을 삭제 (압축)
  - unsqueeze: 차원의 개수가 1인 차원 추가

In [None]:
tensor_ex=torch.rand(size=(2,3,2))
tensor_ex

tensor([[[0.3317, 0.7010],
         [0.3162, 0.1788],
         [0.5712, 0.6569]],

        [[0.6871, 0.2009],
         [0.7494, 0.0994],
         [0.2335, 0.5540]]])

In [None]:
tensor_ex.view([-1,6])

tensor([[0.3317, 0.7010, 0.3162, 0.1788, 0.5712, 0.6569],
        [0.6871, 0.2009, 0.7494, 0.0994, 0.2335, 0.5540]])

In [None]:
tensor_ex.reshape([-1,6]) #view랑 같음

tensor([[0.3317, 0.7010, 0.3162, 0.1788, 0.5712, 0.6569],
        [0.6871, 0.2009, 0.7494, 0.0994, 0.2335, 0.5540]])

In [None]:
# b가 다름
a = torch.zeros(3, 2) 
b = a.view(2, 3) 
a.fill_(1) #a를1로 채우면 b도 1임
print(b) #contiguity 보장
a = torch.zeros(3, 2) 
b = a.t().reshape(6) # transpose 연산을 거치면서 자료 저장 순서가 원래 방향과 어긋남
a.fill_(1) #a를1로 채워도 b는 0임
print(b) # transpoe 연산을 거치면서 contiguity가 깨지고, 보장이 깨지는 순간 copy를 하게됨

tensor([[1., 1., 1.],
        [1., 1., 1.]])
tensor([0., 0., 0., 0., 0., 0.])


In [None]:
tensor_ex=torch.rand(size=(2,1,2))
tensor_ex.squeeze() #차원 삭제

tensor([[0.3695, 0.4177],
        [0.3476, 0.0666]])

In [None]:
tensor_ex=torch.rand(size=(2,2))
print(tensor_ex.unsqueeze(0).shape) #차원 추가
print(tensor_ex.unsqueeze(1).shape)
print(tensor_ex.unsqueeze(2).shape)

torch.Size([1, 2, 2])
torch.Size([2, 1, 2])
torch.Size([2, 2, 1])


## Tensor operations
- 기본적인 tensor의 연산은 numpy와 동일
- 한가지 다른 것은 **행렬 곱셈** → dot 아닌 mm 사용
- matmul (matrix 곱셈)은 broadcasting을 자동 지원

In [None]:
n1=np.arange(10).reshape(2,5)
t1=torch.FloatTensor(n1)
n2=np.arange(10).reshape(5,2)
t2=torch.FloatTensor(n2)
t1.mm(t2)

tensor([[ 60.,  70.],
        [160., 195.]])

In [None]:
a=torch.rand(5,2,3)
b=torch.rand(3)
a.matmul(b)

tensor([[0.1750, 0.5866],
        [0.7481, 0.6300],
        [0.3880, 0.6939],
        [0.6531, 0.6105],
        [0.4382, 0.1671]])

## Tensor operations for ML/DL formula
- nn.functional 모듈을 통해 다양한 수식 변환 지원

In [None]:
import torch
import torch.nn.functional as F

tensor= torch.FloatTensor([0.5,0.7,0.1])
h_tensor=F.softmax(tensor,dim=0) #softmax
h_tensor

tensor([0.3458, 0.4224, 0.2318])

In [None]:
y=torch.randint(5,(10,5))
y_label=y.argmax(dim=1) #argmax
F.one_hot(y_label) #one hot 벡터

tensor([[0, 0, 1, 0, 0],
        [0, 1, 0, 0, 0],
        [1, 0, 0, 0, 0],
        [0, 1, 0, 0, 0],
        [0, 0, 0, 1, 0],
        [1, 0, 0, 0, 0],
        [0, 0, 0, 0, 1],
        [1, 0, 0, 0, 0],
        [1, 0, 0, 0, 0],
        [0, 1, 0, 0, 0]])

## **AutoGrad**
- Pytorch의 핵심 (자동 미분)
- backward 함수 사용

$$y=w^2$$
$$z=10y+25$$
$$z=10w^2+25$$

In [None]:
#w=2일때 미분값 구하기
w=torch.tensor(2.0,requires_grad=True) #미분의 대상이 되는 변수를 requires_grad=True로 설정해줌
y=w**2
z=10*y+25
z.backward() #미분
w.grad #미분 값

tensor(40.)

$$Q=3a^3-b^2$$
$$\frac{\partial Q}{\partial a}=9a^2$$
$$\frac{\partial Q}{\partial b}=-2b$$

In [None]:
a=torch.tensor([2.,3.],requires_grad=True) #a에 대해 미분 a=[2, 3]
b=torch.tensor([6.,4.],requires_grad=True) #b에 대해 미분 b=[6, 4]
Q=3*a**3-b**2
external_grad=torch.tensor([1.,1.])
Q.backward(gradient=external_grad)
print(a.grad) #a에 대해 미분
print(b.grad) #b에 대해 미분

tensor([36., 81.])
tensor([-12.,  -8.])


forward pass를 계산하고 PyTorch autograd를 사용하여 그래디언트를 계산하기

In [None]:
import torch
import math

dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda:0")  # Uncomment this to run on GPU

# Create Tensors to hold input and outputs.
# By default, requires_grad=False, which indicates that we do not need to
# compute gradients with respect to these Tensors during the backward pass.
x = torch.linspace(-math.pi, math.pi, 2000, device=device, dtype=dtype)
y = torch.sin(x)

# Create random Tensors for weights. For a third order polynomial, we need
# 4 weights: y = a + b x + c x^2 + d x^3
# Setting requires_grad=True indicates that we want to compute gradients with
# respect to these Tensors during the backward pass.
a = torch.randn((), device=device, dtype=dtype, requires_grad=True)
b = torch.randn((), device=device, dtype=dtype, requires_grad=True)
c = torch.randn((), device=device, dtype=dtype, requires_grad=True)
d = torch.randn((), device=device, dtype=dtype, requires_grad=True)

learning_rate = 1e-6
for t in range(2000):
    # Forward pass: compute predicted y using operations on Tensors.
    y_pred = a + b * x + c * x ** 2 + d * x ** 3

    # Compute and print loss using operations on Tensors.
    # Now loss is a Tensor of shape (1,)
    # loss.item() gets the scalar value held in the loss.
    loss = (y_pred - y).pow(2).sum()
    if t % 100 == 99:
        print(t, loss.item())

    # Use autograd to compute the backward pass. This call will compute the
    # gradient of loss with respect to all Tensors with requires_grad=True.
    # After this call a.grad, b.grad. c.grad and d.grad will be Tensors holding
    # the gradient of the loss with respect to a, b, c, d respectively.
    loss.backward()

    # Manually update weights using gradient descent. Wrap in torch.no_grad()
    # because weights have requires_grad=True, but we don't need to track this
    # in autograd.
    with torch.no_grad():
        a -= learning_rate * a.grad
        b -= learning_rate * b.grad
        c -= learning_rate * c.grad
        d -= learning_rate * d.grad

        # Manually zero the gradients after updating weights
        a.grad = None
        b.grad = None
        c.grad = None
        d.grad = None

print(f'Result: y = {a.item()} + {b.item()} x + {c.item()} x^2 + {d.item()} x^3')

99 339.5775451660156
199 242.1921844482422
299 173.51095581054688
399 125.06243133544922
499 90.87954711914062
599 66.75736999511719
699 49.731815338134766
799 37.713050842285156
899 29.227426528930664
999 23.235429763793945
1099 19.003686904907227
1199 16.014694213867188
1299 13.903253555297852
1399 12.411544799804688
1499 11.357565879821777
1599 10.612792015075684
1699 10.086457252502441
1799 9.714466094970703
1899 9.4515380859375
1999 9.265680313110352
Result: y = 0.022273151203989983 + 0.8590679168701172 x + -0.003842489328235388 x^2 + -0.09366139769554138 x^3


### 새롭게 알게된점
- view와 reshape의 차이점 contiguity 관점에서 차이가 나며 reshape은 contiguity를 보장해주지 않으므로 view 사용을 권장한다는 것!
- unsqueeze와 squeeze의 차이점
- tensor에서는 행렬곱셈에 dot이 아닌 mm을 쓴다는 것
- matmul은 broadcasting을 지원한다는 것
- nn.functional 모듈의 다양한 함수
- autograd 과정