# Multi-layer Perceptron

- `AND`, `OR` 연산에 대해서는 하나의 선으로 분류를 할 수 있었지만, `XOR`에서는 불가능함
- `XOR`은 두 입력이 서로 다르면 1, 같으면 0을 반환한다. 
- 이는 하나의 선을 그리는 `perceptron`으로는 해결할 수 없는 문제이다. 
- 두개 이상의 perceptron을 이용하면 해결할 수 있다. 
- 그렇다면 이걸 어떻게 학습시킬 수 있을까? 기존의 `Neural Network`로는 학습시킬 수 없었다. 
- 그래서 `Backpropagation`이 만들어졌다.  

## Backpropagation(역전파)

- 입력 x가 들어왔을 떄, 결과값이 O와 실제 답인 GT간의 loss값을 최소화되게 가중치 w를 초기화시키는 방법
- 그렇다면 loss값이 최소화된 w를 어떻게 구할까? -> loss를 w에 대해 미분했을 때, 그 값이 0이라면(기울기가 0이라면) 최대, 최소중 하나이다.

### 예제

f = wx + b라는 수식에서 wx 를 g로 선언한다면, 
f = g + b, g = w * x로 만들 수 있다. 

이 때 f에 w, x, b가 미치는 영향을 알기 위해서, f를 각 변수로 미분해준 값이 된다(gradient)

이 때 실제 학습 데이터에서 가져온 값을 그래프에 입력시키는 forward propagation, 
이번에 학습한 back propagation이 진행된다. 

예시로 w = -2, x = 5, b = 3이라는 값을 입력받았다고 가정해보자. 

forward propagation = -2 * 5 + 3 = -7 로 구할 수 있다. 

back propagation을 위해 미분하고 입력값을 대입해보자. 
f를 미분한다 했을 때, 
w로 미분 -> f` = x -> 5
x로 미분 -> f` = w -> -2
b로 미분 -> f` = 1
g로 미분 -> f` = 1


아무리 복잡한 것들이더라도, 미분한 단순값만을 이용하게 된다. 

미분을 통해 알 수 있는 것이 무엇일까?
> gradient이다. 이를 통해 loss를 줄이기 위해 각 변수를 얼마나 조정해야 할 지 알 수 있게 된다. 



In [1]:
import torch
import random

In [2]:
device = 'cuda' if torch.cuda.is_available() else 'cpu'

random.seed(777)
torch.manual_seed(777)
if device == 'cuda':
    torch.cuda.manual_seed_all(777)

In [3]:
X = torch.FloatTensor([[0, 0], [0, 1], [1, 0], [1, 1]]).to(device)
Y = torch.FloatTensor([[0], [1], [1], [0]]).to(device)

- 여태까지 모델 학습을 할 때 따라적었던 backward, step을 썼던 것이 여기서 나온 것이다. 
- backward : backward propagation을 자동화시켜준다. 
- step : backward를 통해 나온 loss를 보고 lr에 맞게 w를 초기화시켜준다. 

In [4]:
linear1 = torch.nn.Linear(2, 2, bias=True)
linear2 = torch.nn.Linear(2, 1, bias=True)

sigmoid = torch.nn.Sigmoid()

model = torch.nn.Sequential(linear1, sigmoid, linear2, sigmoid).to(device)

In [6]:
criterion = torch.nn.BCELoss().to(device)
optimizer = torch.optim.SGD(model.parameters(), lr=1)

for step in range(10001):
    optimizer.zero_grad()
    hypothesis = model(X)
    cost = criterion(hypothesis, Y)
    cost.backward()
    optimizer.step()
    if step % 100 == 0:
        print(step, cost.item())

0 0.7434073090553284
100 0.693165123462677
200 0.6931577920913696
300 0.6931517124176025
400 0.6931463479995728
500 0.6931411027908325
600 0.6931357383728027
700 0.6931294798851013
800 0.6931220889091492
900 0.6931126117706299
1000 0.6930999755859375
1100 0.693082332611084
1200 0.6930569410324097
1300 0.6930190324783325
1400 0.6929606199264526
1500 0.6928660273551941
1600 0.6927032470703125
1700 0.6923960447311401
1800 0.6917302012443542
1900 0.6899653673171997
2000 0.6838315725326538
2100 0.6561667919158936
2200 0.4311023950576782
2300 0.1348935067653656
2400 0.06630442291498184
2500 0.04216821491718292
2600 0.0304538793861866
2700 0.023665910586714745
2800 0.01927776262164116
2900 0.01622404158115387
3000 0.013983809389173985
3100 0.012273937463760376
3200 0.010928120464086533
3300 0.009842473082244396
3400 0.00894902739673853
3500 0.008201329968869686
3600 0.007566755171865225
3700 0.007021681405603886
3800 0.006548586301505566
3900 0.006134215742349625
4000 0.005768367554992437
410

- Layer를 더 많게 한 상태에서 MLP를 동작시키면 어떨까?

In [None]:
linear1 = torch.nn.Linear(2, 10, bias=True)
linear2 = torch.nn.Linear(10, 10, bias=True)
linear3 = torch.nn.Linear(10, 10, bias=True)
linear4 = torch.nn.Linear(10, 1, bias=True)

sigmoid = torch.nn.Sigmoid()

model = torch.nn.Sequential(linear1, sigmoid, linear2, sigmoid, linear3, sigmoid, linear4, sigmoid).to(device)

criterion = torch.nn.BCELoss().to(device)
optimizer = torch.optim.SGD(model.parameters(), lr=1)

for step in range(10001):
    optimizer.zero_grad()
    hypothesis = model(X)
    cost = criterion(hypothesis, Y)
    cost.backward()
    optimizer.step()
    if step % 100 == 0:
        print(step, cost.item())

ValueError: Using a target size (torch.Size([4, 1])) that is different to the input size (torch.Size([4, 10])) is deprecated. Please ensure they have the same size.