In [None]:
#실험 적용 전 모델
class MLP(nn.Module):
    def __init__(self, input_size=784, hidden_size=589, num_classes=10):
        super(MLP, self).__init__()
        self.layers = nn.Sequential(
            nn.Linear(input_size, hidden_size),
            nn.ReLU()
            nn.Linear(hidden_size, num_classes)
        )
    
    def forward(self, x):
        """
        순전파 함수 // forward propagation
        x: 입력 텐서 (batch_size, 784)
        return: 출력 텐서 (batch_size, 10)
        """
        return self.layers(x)

# 모델 생성 및 구조 확인
model = MLP()
print("모델 구조:")
print(model)

# 파라미터 개수 계산
total_params = sum(p.numel() for p in model.parameters())
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f"\n총 파라미터 수: {total_params:,}")
print(f"학습 가능한 파라미터 수: {trainable_params:,}")

# 각 레이어별 파라미터 수 확인
print("\n레이어별 파라미터:")
for name, param in model.named_parameters():
    print(f"{name}: {param.shape} ({param.numel():,} 개)")

In [None]:
#실험 적용 후 모델
class MLP(nn.Module):
    def __init__(self, input_size=784, hidden_size1=589, hidden_size2=256, hidden_size3=128, num_classes=10):
        super(MLP, self).__init__()
        self.layers = nn.Sequential(
            # First hidden layer
            nn.Linear(input_size, hidden_size1),
            nn.BatchNorm1d(hidden_size1),   # normalize layer outputs
            nn.LeakyReLU(),                 # activation
            nn.Dropout(p=0.3),         # 30% dropout
            
            # Second hidden layer
            nn.Linear(hidden_size1, hidden_size2),
            nn.BatchNorm1d(hidden_size2),
            nn.Tanh(),                 # try tanh here
            nn.Dropout(p=0.3),
            
            # Third hidden layer
            nn.Linear(hidden_size2, hidden_size3),
            nn.BatchNorm1d(hidden_size3),
            nn.LeakyReLU(),                 # back to ReLU
            nn.Dropout(p=0.3),
            
            # Output layer
            nn.Linear(hidden_size3, num_classes)
        )
    
    def forward(self, x):
        """
        순전파 함수 // forward propagation
        x: 입력 텐서 (batch_size, 784)
        return: 출력 텐서 (batch_size, 10)
        """
        return self.layers(x)

# 모델 생성 및 구조 확인
model = MLP()
print("모델 구조:")
print(model)

# 파라미터 개수 계산
total_params = sum(p.numel() for p in model.parameters())
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f"\n총 파라미터 수: {total_params:,}")
print(f"학습 가능한 파라미터 수: {trainable_params:,}")

# 각 레이어별 파라미터 수 확인
print("\n레이어별 파라미터:")
for name, param in model.named_parameters():
    print(f"{name}: {param.shape} ({param.numel():,} 개)")