In [1]:
import torch
import torch.nn as nn

![Alt text](../images/xor_gate_graph.PNG)

[인공신경망 그림그리기 사이트](http://alexlenail.me/NN-SVG/index.html)

### 단층 퍼셉트론으로는 XOR 이진분류 문제를 해결할 수 없음

In [None]:
# 단층 퍼셉트론, 2->1 :  XOR 문제 구현
# XOR문제는, 아래 X,Y에 정의된 것처럼, 이진분류 문제인데,  [0,0] -> 0, [0,1] -> 1, [1,0] -> 1, [1,1] -> 0 으로 분류하는 문제이다.

# 하지만, 위 사진에서 볼 수 있듯이, 이 데이터는 직선 1개로는 분류가 불가능하다. ( 단층 퍼셉트론은 직선 1개로 분류하는 모델이다. )
# 결과적으로, cost는 0.7 정도로 줄어들지 않는다. 

torch.manual_seed(777)

# 입,출력 데이터 행렬이다. 우리는 W,b행렬에 대해서 최적화 및 미분을 수행하므로, 여기에서는 requires_grad=True로 설정하지 않는다.
X = torch.FloatTensor([[0, 0], [0, 1], [1, 0], [1, 1]]) 
Y = torch.FloatTensor([[0], [1], [1], [0]])


# nn.Linear에 자동으로 requires_grad=True가 설정된다.
linear = nn.Linear(in_features=2, out_features= 1, bias=True)  # input_dim : dim of x = 2, output_dim : dim of y = 1 , Linear TF contains bias  

# define sigmoid function
sigmoid = nn.Sigmoid()

# 입력노드 2개 출력노드1개이고, activation function으로 sigmoid를 사용하는 모델을 정의
model = nn.Sequential(linear, sigmoid)


# define cost/loss & optimizer
cost = nn.BCELoss()  # Binary Cross Entropy Loss : 이진분류문제이므로, Bernoulli Distribution을 따르는 Binary Cross Entropy Loss 사용

optimizer = torch.optim.SGD(model.parameters(), lr=1)  # Stochastic Gradient Descent method 사용


for step in range(10001):
    optimizer.zero_grad()
    hypothesis = model(X)

    # cost/loss function
    cost_val = cost(hypothesis, Y)
    cost_val.backward()
    optimizer.step()

    if step % 100 == 0:
        print(step, cost_val.item())

# 결과적으로, cost는 0.7 정도로 줄어들지 않는다.


0 0.7273973822593689
100 0.6931476593017578
200 0.6931471824645996
300 0.6931471824645996
400 0.6931471824645996
500 0.6931471824645996
600 0.6931471824645996
700 0.6931471824645996
800 0.6931471824645996
900 0.6931471824645996
1000 0.6931471824645996
1100 0.6931471824645996
1200 0.6931471824645996
1300 0.6931471824645996
1400 0.6931471824645996
1500 0.6931471824645996
1600 0.6931471824645996
1700 0.6931471824645996
1800 0.6931471824645996
1900 0.6931471824645996
2000 0.6931471824645996
2100 0.6931471824645996
2200 0.6931471824645996
2300 0.6931471824645996
2400 0.6931471824645996
2500 0.6931471824645996
2600 0.6931471824645996
2700 0.6931471824645996
2800 0.6931471824645996
2900 0.6931471824645996
3000 0.6931471824645996
3100 0.6931471824645996
3200 0.6931471824645996
3300 0.6931471824645996
3400 0.6931471824645996
3500 0.6931471824645996
3600 0.6931471824645996
3700 0.6931471824645996
3800 0.6931471824645996
3900 0.6931471824645996
4000 0.6931471824645996
4100 0.6931471824645996
4200

#### 다층퍼셉트론(MLP) 로 XOR 이진분류 문제 해결

In [6]:
# 다층 퍼셉트론으로 XOR 문제 해결하기; MLP (Multi Layer Perceptron)


# 먼저 nn.Sequential()을 사용하여, 다층 퍼셉트론의 레이어를 쉽게 쌓을 수 있다.
model = nn.Sequential(
    # 1st layer
    nn.Linear(2, 10, bias=True),  # input_layer = 2, hidden_layer1 = 10
    nn.Sigmoid(),

    # 2nd layer
    nn.Linear(10, 10, bias=True),  # hidden_layer1 = 10, hidden_layer2 = 10
    nn.Sigmoid(),

    # 3rd layer
    nn.Linear(10, 10, bias=True),  # hidden_layer2 = 10, hidden_layer3 = 10
    nn.Sigmoid(),

    # 4th layer
    nn.Linear(10, 1, bias=True),  # hidden_layer3 = 10, output_layer = 1
    nn.Sigmoid()
)


![Alt text](../images/MLP_xor.PNG)

In [7]:
# 다층 퍼셉트론에서 사용할 cost function과 optimizer를 정의
cost_mlp = nn.BCELoss()
optimizer_mlp = torch.optim.SGD(model.parameters(), lr=1)

# 학습 진행
for step in range(10001):

    # gradient 초기화 : zero_grad()를 호출하지 않으면, 이전 에포크에서의 gradient가 누적되어 학습이 되지 않는다.
    optimizer_mlp.zero_grad()

    # 데이터 X를 신경망 모델의 forward 연산에 전달한다.
    hypothesis = model(X)

    # cost/loss function
    cost_val_mlp = cost_mlp(hypothesis, Y)
    cost_val_mlp.backward()
    optimizer_mlp.step()

    if step % 100 == 0:
        print(step, cost_val_mlp.item())

# 결과적으로, cost는 0.0001 정도로 줄어들었다. 즉, 다층 퍼셉트론으로 XOR 문제를 해결할 수 있었다.

0 0.6940630078315735
100 0.6931129693984985
200 0.6931090950965881
300 0.6931048035621643
400 0.6930999755859375
500 0.6930946707725525
600 0.6930886507034302
700 0.6930818557739258
800 0.6930739879608154
900 0.6930649876594543
1000 0.6930544376373291
1100 0.6930420398712158
1200 0.6930272579193115
1300 0.6930093765258789
1400 0.6929875612258911
1500 0.6929603815078735
1600 0.6929258704185486
1700 0.6928809881210327
1800 0.6928214430809021
1900 0.6927394866943359
2000 0.6926223039627075
2100 0.6924464106559753
2200 0.6921651363372803
2300 0.6916764974594116
2400 0.6907237768173218
2500 0.6885190010070801
2600 0.6817606091499329
2700 0.6487736701965332
2800 0.5389859080314636
2900 0.3458298146724701
3000 0.0177101269364357
3100 0.0074298689141869545
3200 0.004491740837693214
3300 0.0031569942366331816
3400 0.0024083692114800215
3500 0.0019341467414051294
3600 0.001608923077583313
3700 0.0013730265200138092
3800 0.0011946671875193715
3900 0.0010554117616266012
4000 0.0009439234854653478


### 다층 퍼셉트론에서, 모델 출력값, 예측값, 실제값, 정확도 계산하기


##### pytorch 의 자동미분(autograd)와 computational graph 이해하기

파이토치에서 텐서에 requires_grad = True 설정을 통해서, 각 에포크 마다 gradient 를 추적한다.
이 설정을 하게되면, torch.autograd 에서 autograd backward graph를 생성하게 되고, 이 연산 그래프를 통해서 미분을 수행한다. ( DAG: Directed Acyclic Graph)

[pytorch Autograd and graph tutorial](https://youtu.be/MswxJw-8PvE?si=JyUjf56ws6ZDxGsw)

In [15]:
# with torch.no_grad()를 하면, gradient 계산을 수행하지 않는다. 즉, 모델의 학습 파라미터가 업데이트되지 않는다.


with torch.no_grad():
    hypothesis = model(X)
    predicted = (hypothesis > 0.5).float()  # elementwise comparison 이후, bool->float로 변환
    
    # Y랑 같은 값들을 비교해서 맞으면 1, 틀리면 0으로 변환 후 평균을 구하면 정확도가 된다.
    # 정확도 = (맞은 개수) / (전체 개수) = 1/n * sum(1 or 0)
    accuracy = (predicted == Y).float().mean() 

    # convert pytorch tensor to numpy array ( .detach().numpy() )
    # .detach() : .numpy() 호출전에 그래프에서 분리시키는 역할을 한다. 
    # hypothesis는 requires_grad=True로 설정되어 있으므로, pytorch에서 computation graph에 포함되어 있다. 
    # 이를 파이썬 리스트로 변환하기 위해서( .numpy()) 먼저 .detach()를 호출하여, 그래프에서 분리시킨다.
    print('모델의 출력값(Hypothesis):\n ', hypothesis.detach().numpy())
    print('모델의 예측값(Predicted):\n ', predicted.detach().numpy())
    print('실제값(Y):\n ', Y.numpy())
    print('정확도(Accuracy): ', accuracy.item())


모델의 출력값(Hypothesis):
  [[9.5467069e-05]
 [9.9987733e-01]
 [9.9988163e-01]
 [1.1770295e-04]]
모델의 예측값(Predicted):
  [[0.]
 [1.]
 [1.]
 [0.]]
실제값(Y):
  [[0.]
 [1.]
 [1.]
 [0.]]
정확도(Accuracy):  1.0
