<a href="https://colab.research.google.com/github/decoz/mlclass/blob/master/8_pytorch_intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import torch as tc

#PyTorch Start

파이토치는 페이스북 AI 리서치 랩이 만들고 2016년 공개한 오픈소스 머신 라이브러리이다. 인공지능 라이브러리로서는 케라스, 텐서플로등에 비해 늦게 합류하였으나 상당히 빠른 속도와 함게 다양한 형태의 모델의 개발이 자유롭기 때문에 점점 사용자가 늘어나고 있다. 

## Tensor 

파이토치는 텐서라는 매트릭스 데이터를 기반으로 이뤄져있다는 점에서 Numpy 와 매우 유사하다.  하지만 GPU 연산을 지원한다는 점과 딥러닝을 위한 자동미분모듈을 사용할 수 있다는 점등에서 딥러닝용으로 차별화된다. 또한 텐서 연산을 이용한 저수준 모델 구성이 가능할 뿐만 아니라 부터 케라스와 유사한 다양한 표준 모델등이 지원된다. 


### Tensor 와 Numpy

그러면 이제 텐서의 선언을 한번 보자. 

In [3]:
t = tc.FloatTensor([1,2,3])
t = tc.tensor([1.0, 2.0, 3.0])
t

tensor([1., 2., 3.])

Numpy 를 연상시키는 익숙한 코드일 것이다. 물론 Numpy 의 리스트로도 만들 수 있다. 

In [4]:
import numpy as np
n = np.array([[3,4],[5,6]])
t  = tc.FloatTensor(n)
print(t)

tensor([[3., 4.],
        [5., 6.]])


다음 코드는 Numpy 가 Torch 에 끼친 영향을 느낄 수 있다. size 라는 자체 배열의 정보를 제공하는 함수가 있지만 Numpy 와 같은 shape 도 사용이 가능하다. 

In [5]:
print( t.dim() )
print( t.size() )
print( t.shape )

2
torch.Size([2, 2])
torch.Size([2, 2])


또한 로우 칼럼 연산도 Numpy 와 유사하게 지원한다. 

In [6]:
import torch as tc 

t1,t2 = tc.FloatTensor([[1,2,3,4]]),tc.FloatTensor([[1],[2],[3]])
print(t1 * t2)



tensor([[ 1.,  2.,  3.,  4.],
        [ 2.,  4.,  6.,  8.],
        [ 3.,  6.,  9., 12.]])


### mean,max,min, argmax

Torch 는 Numpy에서 지원하는 함수와 같은 함수를 지원하는 경우가 많다. 아래 몇몇 연산을 한번 알아보자 먼저 평균을 구하는 함수이다. 


In [7]:
a = np.array([1,2,3])
print(a.mean())

t = tc.FloatTensor([1,2,3])
print(t.mean())

2.0
tensor(2.)


미묘한 차이를 발견할 수 있다. np는 그 결과가 일반 정수로 리턴되는데 tc 는 그 결과값도 텐서임을 알 수 있다. 이는 모든 계산이 gpu 상에서 연속적으로 이뤄져야하기 때문이다. 

또한 배열단위의 연산의 경우 Numpy 와 유사하게 기준축을 설정할 수 있다. 

In [12]:
t = t1 + t2
print(t)
print( t.mean() )
print( t.mean(dim = 0) )

tensor([[2., 3., 4., 5.],
        [3., 4., 5., 6.],
        [4., 5., 6., 7.]])
tensor(4.5000)
tensor([3., 4., 5., 6.])


min, max 는 최소 최대값을 구하는 함수이다. 

In [8]:
print( t )
print( t.max() )
print( t.min(dim = 0))


tensor([1., 2., 3.])
tensor(3.)
torch.return_types.min(
values=tensor(1.),
indices=tensor(0))


argmax, argmin 은 최대, 최소값의 인덱스를 알려준다. 

In [9]:
print( t.argmax() )
print( t.argmin(dim = 0))

tensor(2)
tensor(0)


### view

Numpy 에서 reshape 가 중요한 역할을 했던걸 기억할 것이다 Tensor 는 이와 유사한 역할을 하는 함수로 view 를 제공한다. 

In [13]:


print(t)
print( t.view([4,3]) )
print( t.view(2,6) )

tensor([[2., 3., 4., 5.],
        [3., 4., 5., 6.],
        [4., 5., 6., 7.]])
tensor([[2., 3., 4.],
        [5., 3., 4.],
        [5., 6., 4.],
        [5., 6., 7.]])
tensor([[2., 3., 4., 5., 3., 4.],
        [5., 6., 4., 5., 6., 7.]])


In [14]:
t.view([-1,2])


tensor([[2., 3.],
        [4., 5.],
        [3., 4.],
        [5., 6.],
        [4., 5.],
        [6., 7.]])

### Squeeze , Unsqueeze

의외로 종종 등장하는 함수로서 squeeze 와 Unsqueeze 라는 함수가 있다. Squeeze 는 축을 하나 없애는 역할을 하고 Unsueeze 는 축을 추가하는 역할을 한다. 물론 view 를 사용하는 방법도 있지만 이를 쓰는 경우도 있으니 알아두자. 

In [15]:
t = tc.IntTensor([1,2,3,4,5])
t = t.view(1,1,5,1)
print(t)


print( t.squeeze().shape )
print( t.squeeze(0).shape )
print( t.squeeze(1).shape )
print( t.squeeze(2).shape ) # 해당 차원의 크기가 1이 아니면 아무일도 일어나지 안는다
print( t.squeeze(3).shape )
print( t.squeeze(-1).shape ) # 제일 뒤 차원

tensor([[[[1],
          [2],
          [3],
          [4],
          [5]]]], dtype=torch.int32)
torch.Size([5])
torch.Size([1, 5, 1])
torch.Size([1, 5, 1])
torch.Size([1, 1, 5, 1])
torch.Size([1, 1, 5])
torch.Size([1, 1, 5])


In [16]:
t = tc.IntTensor([1,2,3,4,5])
print( t.unsqueeze(-1).shape  ) # -1 은 가장 뒤 차원을 의미
print( t.unsqueeze(-1) )
print()
print( t.unsqueeze(0).shape  )
print( t.unsqueeze(0) ) 

torch.Size([5, 1])
tensor([[1],
        [2],
        [3],
        [4],
        [5]], dtype=torch.int32)

torch.Size([1, 5])
tensor([[1, 2, 3, 4, 5]], dtype=torch.int32)


### Cat, Stack

두 데이터를 하나의 데이터로 합치는 방법으롤 cat 과 stack 이 있다. cat 은 numpy의 concatenate 와 마찬가지로 두 데이터를 합친다.

In [17]:
t1,t2 = tc.FloatTensor([1,2,3]),tc.FloatTensor([4,5,6])

print( tc.cat([t1,t2]), "\n" )


tensor([1., 2., 3., 4., 5., 6.]) 



1개 이상의 축을 가진 배열이라면 디폴트값은 첫 축을 기준으로 수행된다.  특정 축을 지정할때는 Numpy와 유사하게 dim 옵션을 사용한다.

In [18]:
t1,t2 = tc.FloatTensor([[1,2,3]]),tc.FloatTensor([[4,5,6]])
print( tc.cat([t1,t2]) )
print( tc.cat([t1,t2], dim = 1) )

tensor([[1., 2., 3.],
        [4., 5., 6.]])
tensor([[1., 2., 3., 4., 5., 6.]])


stack 의 경우 cat 과 유사하지만 데이터를 합칠대 축을 추가한다. 

In [19]:

t1,t2 = tc.FloatTensor([1,2,3]),tc.FloatTensor([4,5,6])

print(tc.stack([t1,t2]) )
print(tc.stack([t1,t2], dim = 1) )



tensor([[1., 2., 3.],
        [4., 5., 6.]])
tensor([[1., 4.],
        [2., 5.],
        [3., 6.]])


### zeros_like, ones_like

np.zeros(), np.ones() 와 유사하게 tc 에서도 0이나 1로 가득찬 텐서를 생성할 수 있다.  

In [20]:
print( tc.zeros((2,2)) ) 
print( tc.ones(4))

tensor([[0., 0.],
        [0., 0.]])
tensor([1., 1., 1., 1.])


하지만 특정 텐서와 같은 형태를 만들 수도 있는데 zeros_like, ones_like 이라는 함수가 있다. 


In [21]:
print(t)

print(tc.zeros_like(t))
print(tc.ones_like(t))

tensor([1, 2, 3, 4, 5], dtype=torch.int32)
tensor([0, 0, 0, 0, 0], dtype=torch.int32)
tensor([1, 1, 1, 1, 1], dtype=torch.int32)


In [22]:
print( np.ones(4) )

[1. 1. 1. 1.]


### inplace operation

어떤 텐서에 특정 값을 더하는 연산은 t = t + 3 이라고 할 수도 있지만 이는 메모리상에 t+3 이라는 배열을 생성한 후에 이를 대처하는 과정을 갖는다. 텐서의 크기가 거대할 경우 이는 속도에 무시못할 영향을 미친다. 어떤 값을 더하거나 교체할 경우 gpu 상에서는 이런 과정 없이 현재의 텐서상에 바로 업데이트를 할 필요가 있다. 이를 inploace operation 이라고 한다. 

예를 들어 t라는 텐서에 대해 t.mul(2) 은 t * 2 의 배열을 새로 생성한다. 만일 이를 다른 곳에 대입하지 안으면 그 후에 소멸되고 만다. 하지만 t.mul_ 는 inplace 연산으로서 연산 자체가 t 의 값을 업데이트해준다.  이는 메모리나 속도상에 큰 이점이 있으므로 특정 텐서를 업데이트 할때는 이 연산을 사용하는데 익숙해져야한다. 

In [23]:
print(t.mul(2) ) 
print(t)
print() 
print(t.mul_(2))
print(t)

tensor([ 2,  4,  6,  8, 10], dtype=torch.int32)
tensor([1, 2, 3, 4, 5], dtype=torch.int32)

tensor([ 2,  4,  6,  8, 10], dtype=torch.int32)
tensor([ 2,  4,  6,  8, 10], dtype=torch.int32)


In [25]:
t = tc.tensor([1.0,2.0,3.0])
print(t)

t.add_(1)
print(t)

t.sub_(10)
print(t)

t.div_(10)
print(t)

tensor([1., 2., 3.])
tensor([2., 3., 4.])
tensor([-8., -7., -6.])
tensor([-0.8000, -0.7000, -0.6000])


### Numpy <-> Torch

torch 가 많은 numpy 의 기능을 제공하지만 그럼에도 그 목적이 다르기 때문에 보다 광범위한 numpy 의 연산을 사용해 초기 데이터를 생성할 수 있다. 이를 위해서는 numpy와 torch 사이의 데이터 변형이 필요할 수 있다.  

아래는 numpy -> torch 로의 데이터 변환을 보여준다.

In [None]:
n = np.array([1,2,3,4,5], dtype = 'float')

t = tc.from_numpy(n)
print(n)
print(t)



torch 를 numpy로 변환하는 경우 텐서에 .numpy() 메소드를 제공한다. 

In [None]:
print(t.numpy())
print( type( t.numpy() ) )

## Autograd

파이토치가 단순한 행렬 연산라이브러리가 아닌 이유는 모든 연산에 대한 추적이 가능하기 때문이다. 특히 특정 변수가 결과를 도출하는 연산을 추적해 그 변수값의 미분값을 계산해준다. 이런 기능을 autograd 라고 한다. 

이를 위해서 텐서에 다음과 같이 선언한다. 

In [27]:
w = tc.tensor(1.0, requires_grad = True)

이제 이를 통한 연산을 한번 만들어보도록 하겠다. 

In [31]:
y = w * 2 
print(y)

tensor(2., grad_fn=<MulBackward0>)


이 연산에 대한 w 의 미분은 2이다. 이것을 하기 위해 이제 역추적 명령을 실행한다. 

In [29]:
y.backward()

이젠 w 의 미분값을 확인해보도록 하겠다. 

In [32]:
print( w.grad )

tensor(2.)



이제 위의 과정을 합쳐서 좀더 복잡한 연산의 미분값을 확인해보도록 하겠다. 

In [33]:

w = tc.tensor(1.0, requires_grad = True)
y = 3 * w ** 2  + 2 * w

y.backward()
print(w.grad)

tensor(8.)


이러한 미분값이 무슨 의미가 있을까?  하는 생각이 들 것이다.  회귀분석에서 우리가 수행했던 

> $ w \times x + b $ 

에서 w 값을 변경할때 

> $ w' = lr \times x \times d$

라는 공식을 사용한 기억이 날 것이다. 신경망에서 찾아야 하는 답은 입력값 x 가 아니라 x 값에 대해 오차를 최소화하는 w 이다. 그리고 x 는 w 입장에서 미분 계수가 된다. sigmoid 함수에서는 sigp 라는 미분 함수를 쓴 기억이 날 것이다. 이 역시 x 에 대한 미분을 사용하는 효과가 있다. 요컨데 모든 경우 미분계수를 사용하여 오차를 줄이는 방향과 양을 결정할 수 있다. 

그러면 이제 이것을 활용하여 회귀문제를 풀어보도록 하겠다. 우선 전에 다뤘던 방식과 조금 차이가 필요하다. 

- epoch 를 한번에 처리해야 하기 때문에 오차는 제곱오차를 사용한다. 
- 미분을 사용하면 따로 d 값을 곱하지 안아도 된다. 

epoch 단위의 오차의 합산을 구할 시에는 음수오차와 양수오차가 서로 0을 만들 수가 있다. 이를 방지하기 위해서는 절대값이 필요한데 절대값은 미분계수를 구하기 어렵기 때문에 간편한 제곱을 사용하는 것이 좋다. 

또한 미분 자체가 기울기에서 d 의 크기를 어느정도 반영하게 된다. 특히 제곱오차의 경우 d 값이 너무 커서 미분계수를 아주 작게 잡지 안으면 쉽게 발산하므로 d 값 자체를 사용하지 안도록 하겠다. 

그리고 텐서의 값을 출력하기 위해서는 .item()을 사용해야 일반적인 실수 출력을 얻을 수 있다. 


In [None]:
import numpy as np 
xn = np.arange(10)
yn = xn * 2 + np.random.normal(0,0.3,10)

x = tc.FloatTensor(xn)
y = tc.FloatTensor(yn)
print(x,y)

w = tc.rand(1, requires_grad = True)
print(w)

for step in range(100):
 
  o = x * w
  d = (y - o).pow(2).mean() 
  print("{:.3f}".format( w.item()) )

  d.backward()
  with tc.no_grad(): # 왠지 모르지만 grad 를 연산에 사용하려면 필요
    w -= 0.01 * w.grad 
    w.grad.zero_()





In [56]:
xn = np.arange(10)
yn = xn * 7 + 3 + np.random.normal(0,0.3,10)

x = tc.FloatTensor(xn)
y = tc.FloatTensor(yn)
print(x,y)

w = tc.rand(1, requires_grad = True)
b = tc.rand(1, requires_grad = True)
for step in range(1000):
  o = w * x + b
  d = (y - o).pow(2).mean() 
  d.backward()

  with tc.no_grad() :
    w -= w.grad * 0.01
    b -= b.grad * 0.01 
    if step % 100  == 0 : 
      print("w:{:.3f} b:{:.3f} d:{:.3f}".format( w.item() , b.item(), d.item()) )
    w.grad.zero_()
    b.grad.zero_()

tensor([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.]) tensor([ 2.8360, 10.0360, 16.9785, 24.3624, 31.4605, 37.6662, 45.3071, 51.4092,
        58.7535, 65.5807])
w:4.428 b:1.306 d:1310.980
w:7.079 b:2.356 d:0.282
w:7.024 b:2.703 d:0.154
w:6.992 b:2.901 d:0.112
w:6.974 b:3.012 d:0.099
w:6.964 b:3.076 d:0.095
w:6.959 b:3.112 d:0.093
w:6.955 b:3.133 d:0.093
w:6.953 b:3.144 d:0.093
w:6.952 b:3.151 d:0.093


### <font color = 'red'> 연습문제 : grad 사용해보기
위의 문제에 bias 를 추가해 $ y = 2\times x + 3$ 을 해결해보세요
</font>


In [None]:
import numpy as np 
xn = np.arange(10)
yn = xn * 2 + 3 +  np.random.normal(0,0.3,10)
# 연습문제 코드 작성하기 


## Optimizer 
 
autograd 는 오차값을 최소화시켜주는 w의 변경값을 위한 미분값을 찾아주지만 그럼에도 신경망이 복잡하고 계층이 깊어지면 이런 모든 작업을 직접 하는 것은 상당히 골치아픈 일이다.  다행히 torch 에는 이런 과정을 자동화하는 기능을 지원한다.  이를 Optimizer 라고 한다. 

이를 위해서는 다음 서브라이브러리를 호출해야한다. 

In [57]:
import torch.optim as optim

그리고 먼저 optimizer 를 생성한다. 여기서는 가장 기본적은 경사하강법(SGD) 을 사용하도록 하겠다.  이때 첫번째 인자로는 최적화 변수들을 선택해야 한다. 이 변수들은 반드시 requires_grad 설정이 되어있어야 한다. 


In [None]:
optimizer = optim.SGD([w], lr = 0.1)

학습은 다음과 같은 과정으로 이뤄진다. 

- 오차 계산
- optimizer.zero_grad() : grad 초기화 
- d.backward()  : grad 계산
- optimizer.step() : w 값 업데이트

그러면 위의 문제를 optimizer 를 사용해 풀어보도록 하겠다. 먼저 x,y 를 만들고 w 를 초기화 한 후에 optimizer 를 생성한다. 


In [59]:
# 데이터 초기화 
xn = np.arange(10)
yn = xn * 2 + np.random.normal(0,0.3,10)

x = tc.FloatTensor(xn)
y = tc.FloatTensor(yn)
w = tc.rand(1, requires_grad = True)

# 옵티마이저 생성
optimizer = optim.SGD([w], lr = 0.01)



이제 다음의 과정을 반복한다. 

In [None]:
for step in range(100):
  o = w * x 
  d = ( y - o ).mean() 

  optimizer.zero_grad()
  d.backward()
  optimizer.step() 

  print("w:{:.3f} err:{:.3f}".format(w.item(), d.item()) )


? 어 그런데 반복할수록 오히려 w 가 기하급수적으로 커지고 큰 수치로 마이너스로 떨어지며 수렴하지 안는것을 볼 수 있을것이다.  이는 

>  경사하강법은 오차를 최소화하는 방향으로 작동한다. 

요컨데 - 라도 최소화면 가능하면 그 방향으로 움직인다는 것이다.  이를 해결하기 위해서는 d 를 계산할때 제곱을 해주면 된다. 

In [77]:
o = w * x 
d = ( y - o ).pow(2).mean() 

optimizer.zero_grad()
d.backward()
optimizer.step() 

print("w:{:.3f} err:{:.3f}".format(w.item(), d.item()) )


w:3.933 err:574.994


### <font color = 'red'> 연습문제 : Optimizer 활용
위의 예를 반복해서 d 의 값이 0.01 이하로 떨어질때까지 작동하는 반복문을 작성하고  해당 step을 출력하세요
</font>


In [104]:

xn = np.arange(10)
yn = xn * 2 + 4 + np.random.normal(0,0.1,10)

x = tc.FloatTensor(xn)
y = tc.FloatTensor(yn)
w = tc.rand(1, requires_grad = True)
b = tc.rand(1, requires_grad = True)

optimizer = optim.SGD([w,b], lr = 0.01)
## 연습문제의 코드를 작성하세요
for step in range(10000):
  o = x * w + b
  d = (y - o).pow(2).mean()
  optimizer.zero_grad()
  d.backward() 
  optimizer.step()    
  if d <= 0.01 :
    print("{:d}step : w:{:.3f}, b:{:.3f}, err:{:.3f}".\
          format(step, w.item(), b.item(), d.item()))
    break
print("final step:", step )


549step : w:2.018, b:3.853, err:0.010
final step: 549


### <font color = 'red'> 연습문제 : Optimizer 에 bias 적용
이번에는 bias 를 적용해보세요
</font>


In [None]:
xn = np.arange(10)
yn = xn * 4 - 3 + np.random.normal(0,0.3,10)

x = tc.FloatTensor(xn)
y = tc.FloatTensor(yn)
w = tc.rand(1, requires_grad = True)

## 연습문제의 코드를 작성하세요

