## Pytorch : XOR Problem

### 1. XOR Dataset

In [1]:
import torch
import torch.nn as nn

device = 'cuda' if torch.cuda.is_available() else 'cpu'

In [2]:
X = torch.FloatTensor([[0, 0],
                      [0, 1],
                      [1, 0],
                      [1, 1]]).to(device)

y = torch.FloatTensor([[0],
                       [1],
                       [1],
                       [0]]).to(device)

In [3]:
X.shape

torch.Size([4, 2])

In [4]:
y.shape

torch.Size([4, 1])

### 2. Perceptron 학습

In [14]:
linear = nn.Linear(2, 1, bias=True) # input 2개, output 1개
sigmoid = nn.Sigmoid()
model = nn.Sequential(linear, sigmoid)

In [15]:
criterion = torch.nn.BCELoss().to(device) # binary cross entropy 손실함수
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

In [16]:
for epoch in range(10000):
    y_pred = model(X)
    loss = criterion(y_pred, y)

    loss.backward()
    optimizer.step()
    optimizer.zero_grad()

    if epoch % 1000 == 0:
        print(epoch, loss.item())

0 0.823107898235321
1000 0.6931472420692444
2000 0.6931471824645996
3000 0.6931471824645996
4000 0.6931471824645996
5000 0.6931471824645996
6000 0.6931471824645996
7000 0.6931471824645996
8000 0.6931471824645996
9000 0.6931471824645996


In [17]:
# prediction
with torch.no_grad():
    y_hat = (y_pred > 0.5).float()
    accuracy = (y_hat == y).float().mean()
    print(accuracy.item())

0.5


In [18]:
y_hat.detach()

tensor([[0.],
        [0.],
        [0.],
        [0.]])

In [19]:
y.detach()

tensor([[0.],
        [1.],
        [1.],
        [0.]])

결과가 제대로 안나오는 것을 볼 수 있다 -> 멀티레이어

### Multi-layered perceptron 해결

In [32]:
model = nn.Sequential(
    nn.Linear(2, 4, bias=True), # input layer
    nn.Sigmoid(),
    nn.Linear(4, 1, bias=True),  # hidden layer
    nn.Sigmoid()).to(device)  # output layer 

In [33]:
criterion = torch.nn.BCELoss().to(device) # binary cross entropy 손실함수
# optimizer = torch.optim.SGD(model.parameters(), lr=0.1)
optimizer = torch.optim.Adam(model.parameters(), lr=0.1)

In [34]:
for epoch in range(10000):
    # 모델에 입력 데이터 X를 전달하여 예측값 y_pred를 얻습니다.
    y_pred = model(X)
    
    # 손실 함수를 사용하여 예측값 y_pred와 실제 값 y 사이의 손실을 계산합니다.
    loss = criterion(y_pred, y)
    
    # 역전파 수행: 손실을 이용하여 모델의 가중치에 대한 그래디언트를 계산합니다.
    loss.backward()
    
    # 옵티마이저를 사용하여 모델의 가중치를 업데이트합니다.
    optimizer.step()
    
    # 모델의 가중치 그래디언트를 초기화합니다.
    optimizer.zero_grad()


    if epoch % 1000 == 0:
        print(epoch, loss.item())

0 0.7046576142311096
1000 0.0005913331406190991
2000 0.00017510214820504189
3000 7.748350617475808e-05
4000 3.9843638660386205e-05
5000 2.2032825654605404e-05
6000 1.2659225831157528e-05
7000 7.424205250572413e-06
8000 4.437784809852019e-06
9000 2.649388306963374e-06


In [35]:
# prediction
with torch.no_grad():
    y_hat = (y_pred > 0.5).float()
    accuracy = (y_hat == y).float().mean()
    print(accuracy.item())

1.0


In [36]:
y_hat.detach()

tensor([[0.],
        [1.],
        [1.],
        [0.]])

In [37]:
y.detach()

tensor([[0.],
        [1.],
        [1.],
        [0.]])