In [1]:
import torch

In [2]:
import torchvision
from torch.autograd import Variable 

# Pytorch #
- Tensorflow와 비교되는 가장 큰 장점
    - Graph의 Dynamic한 설정 ( <-> Tensorflow는 Graph를 설정한 후 Session을 돌려 계산해야하므로, 그래프가 수시로 바뀌는 경우에는 적합하지 않다
- ## Pytorch 의 특징 ##
    - numpy와 비슷하지만 GPU에서 동작하는 n차원 Tensor
        - 개념상 numpy와 완전히 동일함.
    - 뉴럴넷의 자동 빌드와 학습
- ## Pytorch 의 컨셉 ##
    - ### Autograd ###
    ~~~~
    from torch.autograd import Variable
    ~~~~
        -Backward Differentiation의 자동화.
        -Autograd를 사용하면 network에의 forward pass는 computational graph를 정의하는데, 이 그래프의 각 node가 Tensor, Edge가 input으로부터 output tensor를 만드는 function이 된다.
        
 
        -Tensor를 Variable 객체로 Warp한다
        -Variable은 그래프의 Node가 된다.
        -만일 **x** 가 **Variable** 이라면, **x.data** 는 **Tensor** 가 된다.
       

# nn module #
- 텐서플로우에서의 Keras와 같이, 뉴럴넷을 더욱 추상화하여 제공하는 인터페이스.
- ** nn package ** 는 몇 개의 module을 정의하는데, 각 모듈은 대략 한 개씩의 Layer를 의미한다.
> model = torch.nn.Sequential(
>    torch.nn.Linear(D_in, H),
>    torch.nn.ReLU(),
>    torch.nn.Linear(H, D_out),
)
    
- 한 개의 모듈은 Input, Output, Hidden state(학습가능한 Variable 값)를 갖는다.
- ** nn package ** 는 여러 가지 쓸모있는 loss function도 제공한다.


## optim module ##
- nn module을 활용하여 우리는 .data를 Learnable parameter를 갖고 있는 Varaible로 변환시킴으로써 Layer의 weight를 학습하였다.
- SGD Algorithm과 같이 간단한 최적화 알고리즘은 별 문제가 안되지만, 우리는 실제 상황에서 **Adam, AdaGrad, RMSProp** 등과 같은 복잡하고 어려운 최적화 기법을 사용해야한다.
- ** optim ** package는 이러한 알고리즘을 추상화한 모듈을 제공한다.
- nn module로 model을 define하고, optim module로 이러한 model을 최적화한다.


In [3]:
# CPU Run
dtype = torch.FloatTensor

# GPU Run
# dtype = torch.cuda.FloatTensor

# N : Batch size, D_in, D_out : I/O dimension
# H ; Hidden dimension 
N, D_in, H, D_out = 64, 1000, 100, 10

In [8]:
from collections import OrderedDict
class MyModel(torch.nn.Module):
    def __init__(self, D_in, H, D_out):
        super(MyModel, self).__init__()
        self.net = torch.nn.Sequential(OrderedDict(
        [
            ('layer1', torch.nn.Linear(D_in, H)),
            ('ReLU 1', torch.nn.ReLU()),
            ('layer2', torch.nn.Linear(H,D_out))
        ])
        )
    def forward(self, x):
        return self.net(x)
    

In [9]:
x = Variable(torch.randn(N, D_in).type(dtype))
y = Variable(torch.randn(N, D_out).type(dtype), requires_grad=False)

In [10]:
#w1 = Variable(torch.randn(D_in, H).type(dtype), requires_grad=True)
#w2 = Variable(torch.randn(H, D_out).type(dtype), requires_grad=True)
mymodel = MyModel(D_in, H, D_out)

In [12]:
learning_rate = 1e-4
criterion = torch.nn.MSELoss(size_average=False)
optimizer = torch.optim.SGD(mymodel.parameters(), lr=learning_rate)


In [14]:
for step in range(500):
    y_pred = mymodel(x)
    loss = criterion(y_pred, y)
    print(step, loss[0])
    
    # Zero gradient 
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

0 Variable containing:
 660.8212
[torch.FloatTensor of size 1]

1 Variable containing:
 609.5247
[torch.FloatTensor of size 1]

2 Variable containing:
 565.1561
[torch.FloatTensor of size 1]

3 Variable containing:
 526.4247
[torch.FloatTensor of size 1]

4 Variable containing:
 492.2836
[torch.FloatTensor of size 1]

5 Variable containing:
 461.7029
[torch.FloatTensor of size 1]

6 Variable containing:
 434.0302
[torch.FloatTensor of size 1]

7 Variable containing:
 408.8206
[torch.FloatTensor of size 1]

8 Variable containing:
 385.5237
[torch.FloatTensor of size 1]

9 Variable containing:
 363.9130
[torch.FloatTensor of size 1]

10 Variable containing:
 343.7212
[torch.FloatTensor of size 1]

11 Variable containing:
 324.7186
[torch.FloatTensor of size 1]

12 Variable containing:
 306.8974
[torch.FloatTensor of size 1]

13 Variable containing:
 290.0514
[torch.FloatTensor of size 1]

14 Variable containing:
 274.1606
[torch.FloatTensor of size 1]

15 Variable containing:
 259.0939
[

147 Variable containing:
 0.2056
[torch.FloatTensor of size 1]

148 Variable containing:
 0.1967
[torch.FloatTensor of size 1]

149 Variable containing:
 0.1883
[torch.FloatTensor of size 1]

150 Variable containing:
 0.1802
[torch.FloatTensor of size 1]

151 Variable containing:
 0.1725
[torch.FloatTensor of size 1]

152 Variable containing:
 0.1651
[torch.FloatTensor of size 1]

153 Variable containing:
 0.1581
[torch.FloatTensor of size 1]

154 Variable containing:
 0.1514
[torch.FloatTensor of size 1]

155 Variable containing:
 0.1450
[torch.FloatTensor of size 1]

156 Variable containing:
 0.1389
[torch.FloatTensor of size 1]

157 Variable containing:
 0.1331
[torch.FloatTensor of size 1]

158 Variable containing:
 0.1275
[torch.FloatTensor of size 1]

159 Variable containing:
 0.1222
[torch.FloatTensor of size 1]

160 Variable containing:
 0.1171
[torch.FloatTensor of size 1]

161 Variable containing:
 0.1123
[torch.FloatTensor of size 1]

162 Variable containing:
 0.1076
[torch.

325 Variable containing:
1.00000e-04 *
  2.9106
[torch.FloatTensor of size 1]

326 Variable containing:
1.00000e-04 *
  2.8160
[torch.FloatTensor of size 1]

327 Variable containing:
1.00000e-04 *
  2.7247
[torch.FloatTensor of size 1]

328 Variable containing:
1.00000e-04 *
  2.6362
[torch.FloatTensor of size 1]

329 Variable containing:
1.00000e-04 *
  2.5507
[torch.FloatTensor of size 1]

330 Variable containing:
1.00000e-04 *
  2.4680
[torch.FloatTensor of size 1]

331 Variable containing:
1.00000e-04 *
  2.3881
[torch.FloatTensor of size 1]

332 Variable containing:
1.00000e-04 *
  2.3107
[torch.FloatTensor of size 1]

333 Variable containing:
1.00000e-04 *
  2.2359
[torch.FloatTensor of size 1]

334 Variable containing:
1.00000e-04 *
  2.1636
[torch.FloatTensor of size 1]

335 Variable containing:
1.00000e-04 *
  2.0936
[torch.FloatTensor of size 1]

336 Variable containing:
1.00000e-04 *
  2.0260
[torch.FloatTensor of size 1]

337 Variable containing:
1.00000e-04 *
  1.9606
[tor