## 다층 퍼셉트론으로 XOR문제를 해결 

In [19]:
import torch                        # 텐서 및 기본 연산 지원
import torch.nn as nn               # 신경망 모델 구성 도(nn.Linear, nn.Sequential 등)
import torch.optim as optim         # 최적화 알고리즘 (SGD, Adam 등)

In [20]:
X = [[0, 0], [0, 1], [1, 0], [1, 1]]
y = [[0], [1], [1], [0]]


In [21]:
X = torch.FloatTensor(X)            # 입력 데이터 Tensor 
y = torch.FloatTensor(y)            # 정답 레이블 데이터 tensor

print(X.shape)
print(y.shape)

torch.Size([4, 2])
torch.Size([4, 1])


In [22]:
# 모델 정의( 다층 퍼셉트론)
model = nn.Sequential(
    nn.Linear(2, 4),        # 입력 2개 -> 은닉층 4개
    nn.Tanh(),              # 은닉층 활성화 함수 (tanh는 신경망에 비선형성을 추가해준다) 
    nn.Linear(4, 1),        # 은닉층 4개 -> 출력 1개
    nn.Sigmoid()            # 출력층 활성화 함수(출력값을 0~1 확률로 변환)
)




손실함수 BCELoss() : 이진 분류용 손실함수 Sigmoid 출력과 함께 사용

In [23]:
# 손실함수와 옵티마이저 설정
criterion = nn.BCELoss()


optimizer = optim.SGD(      # 확률적 경사 하강법 SGD
    model.parameters(),     # 학습할 가중치와 편향
    lr = 0.1                # 학습률
)

In [24]:
# 학습 루트
for epoch in range(10000):
    optimizer.zero_grad()           # 이전 step 에서 계산된 gradient 를 0으로 초기화
    output = model(X)               # 순전파(forward pass) : 입력 X값을 모델에 통과시켜 예측값 계산
    loss = criterion(output, y)     # 예측값(output)과 실제값(y)의 차이 측정 =손실 계산
    loss.backward()                 # 역전파 (backpropagation) : 손실을 기준으로 각 마라미터 gradient 계산
    optimizer.step()                # 가중치 업데이트 : 계산된 gradient 를 사용해 파라미터 업데이트

    if epoch % 1000 == 0 : 
         print(f"Epoch{epoch}: loss={loss.item():.4f}") # 소수점 4자리의 지수표현식으로 표현

# 결과 확인
with torch.no_grad():               # 평가 단계에서는 gradient 계산 하지않음 (메모리 절약, 속도 향상)
     prediction = model(X).round()  # 모델 출력이 0~1 확률 값. round()는 반올림 (0.5기준으로 0/1반환)
     print("최종 예측:",prediction)

Epoch0: loss=0.6938
Epoch1000: loss=0.1124
Epoch2000: loss=0.0203
Epoch3000: loss=0.0105
Epoch4000: loss=0.0070
Epoch5000: loss=0.0052
Epoch6000: loss=0.0042
Epoch7000: loss=0.0034
Epoch8000: loss=0.0029
Epoch9000: loss=0.0026
최종 예측: tensor([[0.],
        [1.],
        [1.],
        [0.]])


XOR 정도 되는 비선형 문제를 해결할려면 은닉층 노드 수가 최소 2개 이상이어야 한다.

relu 활성화 함수 대신 tanh 함수 사용: 초기 학습 안정성에 도움이 된다.

출력층 Sigmoid 활성화 함수 + BCE 손실함수 : 이진분류에 매우 적합
