## 레이어 : 신경망 기본 블록

In [33]:
import torch
from torch.nn import Linear, ReLU
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import numpy as np
from torch.autograd import Variable

inp = Variable(torch.randn(1, 10))
myLayer = Linear(in_features = 10, out_features = 5, bias = True)
myLayer(inp)

tensor([[ 0.3268,  0.7230, -0.8878, -0.9035,  0.9234]],
       grad_fn=<AddmmBackward>)

In [34]:
myLayer.weight

Parameter containing:
tensor([[-0.1555,  0.2783, -0.1104,  0.2111, -0.1713,  0.1628,  0.0208,  0.0108,
          0.1317, -0.0281],
        [ 0.1309, -0.1047, -0.3161,  0.1030,  0.2256,  0.1964, -0.0815,  0.2205,
          0.0485, -0.2344],
        [ 0.3144,  0.2842, -0.2152,  0.2442, -0.0612, -0.0852, -0.2895,  0.0346,
          0.2849,  0.2720],
        [ 0.0226,  0.0822,  0.0213, -0.0293, -0.2137, -0.2067,  0.0245, -0.0666,
          0.0003,  0.3121],
        [ 0.1038, -0.1302,  0.2279,  0.0508,  0.0448,  0.1945,  0.2233,  0.0618,
         -0.1023,  0.2084]], requires_grad=True)

In [35]:
myLayer.bias

Parameter containing:
tensor([-0.0798, -0.2746, -0.2636,  0.0992, -0.0061], requires_grad=True)

* ##### 선형 레이어 쌓기

In [36]:
myLayer1 = Linear(10, 5)
myLayer2 = Linear(5, 2)
myLayer2(myLayer1(inp))

tensor([[-0.4252,  0.1094]], grad_fn=<AddmmBackward>)

* ##### PyTorch 비선형 활성함수

In [37]:
sample_data = Variable(torch.Tensor([[1, 2, -1, -1]]))
myRelu = ReLU()
myRelu(sample_data)

tensor([[1., 2., 0., 0.]])

In [38]:
f = F.relu(sample_data)
f

tensor([[1., 2., 0., 0.]])

위 두 셀 중 아래 셀의 코드가 더 간단하다.

* ##### 신경망

In [39]:
class MyFirstNetwork(nn.Module):

    def __init__(self, input_size, hidden_size, output_size):
        super(MyFirstNetwork, self).__init__()
        self.layer1 = nn.Linear(input_size, hidden_size)
        self.layer2 = nn.Linear(hidden_size, output_size)

    def forward(self, input):
        out = self.layer1(input)
        out = nn.ReLU(out)
        out = self.layer2(out)

        return out

* ##### 오차 함수(Loss Function)


In [40]:
loss = nn.MSELoss()
input = Variable(torch.randn(3, 5), requires_grad = True)
target = Variable(torch.randn(3, 5))
output = loss(input, target)
output.backward()

* ##### 교차 엔트로피

In [41]:
def cross_entropy(true_label, prediction):
    if true_label == 1:
        return -log(prediction)
    else:
        return -log(1 - prediction)

In [42]:
loss = nn.CrossEntropyLoss()
input = Variable(torch.randn(3, 5), requires_grad = True)
target = Variable(torch.LongTensor(3).random_(5))
output = loss(input, target)
output.backward()

교차 엔트로피는 예측이 정확할수록 오차가 낮아진다.

* 파이토치 오차 함수

**L1 Loss** : 정규화에 주로 사용

**MSE Loss** : 회귀 문제에서 주로 사용

**Cross-entropy Loss** : 이진 분류와 다중 분류 문제에서 주로 사용

**NLL Loss** : 분류 문제에서 특정 가중치를 사용해 데이터셋 불균형을 처리할 때 사용

**NLL Loss2d** : 이미지 분할과 관련된 문제에서 픽셀 단위 분류에 사용

* ##### Optimizer

```
optimizer = optim.SGD(model.parameters(), lr = 0.01)

for input, target in dataset:
    optimizer.zero_grad()
    output = model(input)
    loss = loss_fn(output, target)
    loss.backward() # 기울기 계산
    optimizer.step() # 학습 파라미터 변경
```

Optimizer 객체를 생성한 후 `zero_grad()`를 호출해야 한다.

`zero_grad()`로 기울기를 초기화해주어야 이전에 Optimizer를 호출하는 과정에서 기울기가 누락되지 않는다.