# 다층 퍼셉트론으로 XOR 문제를 해결 

In [1]:
import torch                    # pythorch 기본 라이브러리 ( 텐서 연산, 자동 미분 등)
import torch.nn as nn           # 신경망 레이어, 활성화/손실함수
import torch.optim as optim     # 가중치 업데이트 (최적화 알고리즘)


In [2]:
# 데이터 정의
X = [[0, 0], [0, 1], [1, 0], [1, 1]]  # 입력값 shape (4, 2)
y = [[0], [1], [1], [0]]  # 출력값 shape (4, 1)


In [3]:
X = torch.FloatTensor(X)  # 입력 데이터 Tensor
y = torch.FloatTensor(y)  # 정답 레이블 데이터 Tensor

print(X.shape)
print(y.shape)

torch.Size([4, 2])
torch.Size([4, 1])


In [None]:
# 모델 정의 (다층 퍼셉트론)
model = nn.Sequential(
    nn.Linear(2, 4),  # 입력 2개 -> 은닉층 4개
    nn.Tanh(),         # 은닉층 활성화함수 (Tanh는 신경망에 비선형성을 추가해준다.)
    nn.Linear(4, 1),  # 은닉층 4개 -> 출력층 1개    
    nn.Sigmoid()      # 출력층 활성화함수 (sigmoid는 0과 1 사이의 값을 출력한다.)
)

손실함수 BCELoss() : 이진 분류용 손실함수 Sigmoid 출력과 함께 사용

In [40]:
# 손실함수와 옵티마이저 설정
criterion = nn.BCELoss()

optimizer = optim.SGD(  # 확률적 경사하강법 SGD
    model.parameters(), # 학습할 가중치와 편향
    lr = 0.1            # 학습률
)

In [41]:
# 학습 루프 
for epoch in range(10000):
    optimizer.zero_grad()               # 이전 step에서 계산된 gradient를 0으로 초기화
    output = model(X)                   # 순전파 (foward pass) : 입력 x값을 모델에 통과시켜 예측값 계산
    loss = criterion(output, y)         # 예측값(output)과 실제값(y)의 차이 측정 = 손실 계산
    loss.backward()                     # 역전파(backpropagation) : 손실을 기준으로 각 파라미터 gradient 계산
    optimizer.step()                    # 가중치 업데이트 : 계산된 gradient를 사용해 파라미터 업데이트
    
    if epoch % 1000 == 0 :
        print(f"Epoch {epoch}, Loss : {loss.item() : .4f}")

# 결과 확인
with torch.no_grad():                   # 평가 단계에서는 gradient 계산 하지않음 (메모리 절약, 속도 향상)
    prediction = model(X).round()       # 모델 출력이 0~1 확률 값. round()는 반올림
    print("최종 예측 :", prediction)

Epoch 0, Loss :  0.7282
Epoch 1000, Loss :  0.0766
Epoch 2000, Loss :  0.0195
Epoch 3000, Loss :  0.0109
Epoch 4000, Loss :  0.0076
Epoch 5000, Loss :  0.0058
Epoch 6000, Loss :  0.0047
Epoch 7000, Loss :  0.0039
Epoch 8000, Loss :  0.0034
Epoch 9000, Loss :  0.0029
최종 예측 : tensor([[0.],
        [1.],
        [1.],
        [0.]])


```
XOR 정도 되는 비선형 문제를 해결하려면 은닉층 노드 수가 최소 2개 이상이어야 한다.
relu  활성화함수 대신 tanh 함수 사용 : 초기 학습 안정성에 도움이 된다.
출력층 sigmoid + BCE 손실함수 : 이진 분류에 매우 적합
```