In [2]:
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensor

# 정리하자면:

# DataLoader: 데이터 배치를 관리하고, 모델에 데이터를 공급하는 역할.
# datasets: 다양한 데이터셋을 쉽게 로드할 수 있도록 도와주는 모듈.
# ToTensor: 데이터를 PyTorch 텐서로 변환하는 전처리 과정.

# 이 세 가지를 활용해 데이터셋을 불러오고, 이를 텐서로 변환한 후, 모델 학습을 위한 배치 단위로 관리할 수 있습니다.

# DataLoader:

#     DataLoader는 모델 학습에 사용되는 데이터셋을 쉽게 관리하고, 배치(batch) 단위로 나눠 모델에 공급할 수 있도록 도와줍니다.
#     주된 역할은 데이터를 여러 개의 작은 배치로 나누고, 순차적으로 모델에 전달하여 효율적인 학습을 할 수 있게 하는 것입니다.
#     주요 기능:
#         데이터를 배치 크기대로 나눔 (batching).
#         데이터셋을 섞음 (shuffling).
#         멀티스레딩을 이용해 데이터 로딩 속도를 향상 (병렬 처리).
#         이터레이터처럼 동작해 쉽게 데이터를 순차적으로 불러옴.

# datasets:

#     PyTorch에서 다양한 미리 정의된 데이터셋을 제공하는 모듈입니다. 
#         예를 들어, datasets.MNIST, datasets.CIFAR10 같은 유명한 데이터셋을 쉽게 불러올 수 있습니다.
#     일반적으로 datasets 모듈을 이용해 데이터를 다운로드하고, 이를 바로 모델에 사용할 수 있는 형태로 변환할 수 있습니다.
#     PyTorch는 다양한 이미지, 텍스트, 오디오 등의 데이터셋을 지원하며, 직접 데이터를 정의하는 것도 가능합니다.

# ToTensor:

#     ToTensor는 PIL 이미지 또는 NumPy 배열을 PyTorch 텐서(Tensor)로 변환하는 전처리 작업을 수행하는 변환(transform)입니다.
#     특히 이미지를 모델에 입력할 수 있는 텐서 형태로 변환하고, 픽셀 값을 0과 1 사이로 정규화(255로 나누어)하는 작업을 수행합니다.
#     보통 transforms 모듈과 함께 사용되며, 데이터 전처리 파이프라인의 일부분으로 사용됩니다.


In [3]:
train_data = datasets.FashionMNIST(
    root="data", # 데이터를 저장할 root 디렉토리
    train=True, # 훈련용 데이터 설정
    download=True, # 다운로드
    transform=ToTensor() # 이미지 변환. 여기서는 TorchTesnor로 변환시킵니다.
)

test_data = datasets.FashionMNIST(
    root="data",
    train=False,
    download=True,
    transform=ToTensor()
)

# train=True: 모델을 학습하기 위한 데이터셋을 로드.

# 훈련용 데이터셋을 가져옵니다.
# 모델의 학습에 사용됩니다.
# 데이터는 일반적으로 레이블과 함께 제공되며, 모델이 데이터를 학습하면서 가중치(weight)를 업데이트할 수 있도록 합니다.
# 데이터셋에 **데이터 증강(augmentation)**과 같은 전처리 작업을 적용할 수 있습니다. 이는 모델이 더 일반화될 수 있도록 돕습니다.
# 보통 에폭(epoch) 단위로 여러 번 반복해서 모델이 데이터셋을 학습합니다.

# train=False: 학습된 모델의 성능을 평가하기 위한 테스트 데이터셋을 로드.

# 테스트용 데이터셋을 가져옵니다.
# 모델의 학습이 완료된 후, 성능을 평가하기 위해 사용됩니다.
# 테스트 데이터는 모델이 본 적 없는 데이터로, 모델의 일반화 능력을 평가하는 데 중요합니다.
# 테스트 과정에서는 가중치가 업데이트되지 않으며, 단지 모델의 예측 성능을 확인하는 데 사용됩니다.
# 보통 **데이터 증강(augmentation)**을 적용하지 않습니다. 테스트 데이터는 모델의 성능을 정확하게 평가하기 위한 기준이기 때문에, 가능한 원본 데이터 그대로 사용하는 것이 일반적입니다.


# **데이터 증강(Data Augmentation)**은 기존의 데이터셋을 인위적으로 변형하여 새로운 데이터를 생성함으로써 모델이 더 다양한 상황을 학습하도록 돕는 방법입니다. 
# 특히 컴퓨터 비전 분야에서 많이 사용되며, 데이터를 증강하면 모델의 일반화 성능을 향상시킬 수 있습니다.


In [4]:
train_dataloader = DataLoader(train_data, batch_size=64, shuffle=True)
test_dataloader  = DataLoader(test_data, batch_size=64, shuffle=False)

In [5]:
from torch import nn

class NeuralNetwork(nn.Module):

    def __init__(self):
        super(NeuralNetwork, self).__init__()

        self.flatten = nn.Flatten()

        # nn.Sequential을 이용해 연속되는 레이어의 구조를 구성: 리스트처럼 여러 레이어 또는 연산을 전달받아, 전달된 순서대로 입력 데이터에 대해 연산을 수행
            # 각 레이어나 연산을 일일이 호출하지 않고도 한 번에 처리할 수 있기 때문에, 간단한 모델을 정의할 때 매우 유용합니다.
            # 모델의 forward 메서드에서 따로 연산을 정의할 필요 없이, 자동으로 순차적으로 진행됩니다.
        self.linear_relu_stack = nn.Sequential(
            nn.Linear(28*28, 128),
            nn.ReLU(),
            nn.Dropout(0.2),
            nn.Linear(128, 10),
        )

    def forward(self, x):
        x = self.flatten(x)
        y = self.linear_relu_stack(x)

        return y

In [6]:
import torch

# MPS 지원 여부 확인
if torch.backends.mps.is_available():
    device = 'mps'  # MPS 사용
elif torch.cuda.is_available():
    device = 'cuda'  # CUDA 사용 가능 시
else:
    device = 'cpu'  # 그 외에는 CPU 사용

model = NeuralNetwork().to(device)
# PyTorch에서 모델을 특정 장치(device)로 옮기는 코드입니다. 
# 여기서 device는 CPU, CUDA(GPU), 또는 Apple Silicon의 MPS 등을 가리킬 수 있습니다.

# PyTorch에서는 CPU와 GPU 간의 연산이 엄격하게 구분되어 있기 때문에, 모델과 데이터를 동일한 장치에 있어야 합니다. 
# 즉, 모델이 GPU에 있으면 입력 데이터도 GPU에 있어야 하고, 모델이 CPU에 있으면 데이터도 CPU에 있어야 합니다. 
# 따라서 .to(device)를 사용하여 모델을 원하는 장치로 옮기는 것이 필요합니다.

print(f"Model running on: {device}")

print("==========================================================================")

print(model)

Model running on: mps
NeuralNetwork(
  (flatten): Flatten(start_dim=1, end_dim=-1)
  (linear_relu_stack): Sequential(
    (0): Linear(in_features=784, out_features=128, bias=True)
    (1): ReLU()
    (2): Dropout(p=0.2, inplace=False)
    (3): Linear(in_features=128, out_features=10, bias=True)
  )
)


### 위 코드까지는 모두 03. PyTorch Modeling ⭐️(240923) 내용에서 배운 코드


# 모델 훈련

파이토치의 모델 훈련을 위해서는 손실함수, 최적화 함수를 등록해야 합니다. 특히 최적화 함수를 사용하기 위해서는 `model.parameters()` 메소드를 이용해 최적화 대상 파라미터를 지정해주면 됩니다.

In [7]:
# 짱짱 중요함
loss_fn = nn.CrossEntropyLoss()

# optimizer : 경사하강법을 수행하기 위한 함수. 경사하강법은 어디에 수행해? W, b -> parameters
# model에서 파라미터를 꺼내다가 최적화 함수에 등록

# nn.CrossEntropyLoss()는 내부적으로 소프트맥스와 NLL 손실을 결합하여, 로지츠에서 바로 손실을 계산합니다. 
# 그렇기 때문에 별도의 소프트맥스 함수를 적용할 필요가 없습니다. 모델 출력(로지츠)을 그대로 입력으로 넣어주면 됩니다.

optimizer = torch.optim.Adam(model.parameters(), lr=0.0001)

In [8]:
# 훈련 과정(훈련 루프 정의)
#  1. dataloader에서 데이터를 꺼낸다.
#  2. 데이터를 모델에 통과시킨다. (순전파를 통한 추론 - prediction(inference))
#  3. 얻어낸 예측값을 이용해서 loss를 계산
#  4. 역전파를 통한 미분값을 계산
#  5. 얻어낸 미분 값으로 경사하강법을 수행(최적화)

def train_loop(dataloader, model, loss_fn, optimizer):
    # 데이터 로더에 있는 데이터 세트의 길이 가져오기
    size = len(dataloader.dataset)
    # 중요! model을 훈련 모드로 설정. ⭐️
    model.train()

        # **model.train()**을 호출하면, 드롭아웃과 배치 정규화 같은 레이어들이 학습에 맞는 방식으로 동작합니다.
            # 드롭아웃: 일부 뉴런을 무작위로 비활성화.
            # 배치 정규화: 각 배치의 평균과 분산을 사용.
        
        # 반대로, **model.eval()**은 평가(추론) 모드로, 이러한 레이어들이 학습이 아닌 정확한 추론을 수행하는 데 맞춰 동작합니다.
            # 드롭아웃: 모든 뉴런을 사용.
            # 배치 정규화: 학습 중 계산된 평균과 분산을 사용.

    # 데이터 꺼내기. for문을 사용하면 자동으로 next(iter(dataloader))가 실행 된다.
    for  batch, (X, y) in enumerate(dataloader):
        # 현재 데이터 로더에 있는 데이터는 cpu에 존재하고 있기 때문에 이 데이터들을 gpu로 옮긴다.
        #   모델이 위치한 곳과 데이터가 위치한 곳을 동일하게 맞춰준다.
        X, y = X.to(device), y.to(device)

        # 순전파 수행
        pred = model(X)

        # 손실 계산
        loss = loss_fn(pred, y) # 자동으로 소프트맥스가 적용됨.

        # 역전파 수행(미분값 얻어내기)
        optimizer.zero_grad() # 기존에 남아있던 기울기를 제거( 이전 배치의 기울기가 남아있으면 정확한 기울기를 구해내기가 힘들어요)
        loss.backward() # 역전파. loss가 Leaf
        optimizer.step() # 구한 미분값을 토대로 최적화를 수행(경사하강법)

        # 배치가 100번 돌 때마다 화면에 출력
        if batch % 100 == 0:
            loss, current = loss.item(), batch * len(X)
            print(f"Train Loss : {loss:>7f} [ {current:>5d} / {size:>5d} ]")

>전체 흐름 요약

1. 모델을 훈련 모드로 설정 (model.train())


2. 배치 단위로 데이터를 로딩 (dataloader)


3. 입력 데이터를 장치(GPU/CPU)로 이동 (X.to(device), y.to(device))


4. 모델에 입력 데이터를 전달해 예측 (model(X))


5. 예측 값과 실제 값 간의 손실 계산 (loss_fn(pred, y))


6. 이전 배치의 기울기를 초기화 (optimizer.zero_grad())


7. 오차 역전파로 기울기 계산 (loss.backward())


8. 최적화 알고리즘을 통해 가중치 업데이트 (optimizer.step())


9. 100번째 배치마다 손실을 출력하여 학습 과정을 모니터링


이 과정을 여러 에폭(epoch) 동안 반복하여 모델의 가중치를 점진적으로 업데이트하고, 성능을 향상시킵니다.

In [9]:
# 추론을 위한 테스트 과정(테스트 루프) 정의
# 1. 테스트 데이터 로더에서 데이터 꺼내기
# 2. 데이터를 모델에 통과(순전파)시켜서 예측값 얻어내기
# 3. 성능(metric) 계산. - Loss, Accuracy 계산
#   - Loss는 배치 별 평균 성능 계산
#   - Accuracy는 전체 데이터에 대한 성능을 계산

def test_loop(dataloader, model, loss_fn):
    size = len(dataloader.dataset)
    test_loss, correct = 0, 0

    # 중요! 평가모드(추론모드) 설정
    model.eval()

    # 추론 과정은 기울기를 구할 필요가 없어요
    with torch.no_grad():
        for X, y in dataloader:

            # 모델과 데이터는 항상 같은 환경에서 사용되어야 한다.
            X, y = X.to(device), y.to(device)

            # 예측
            pred = model(X)

            # Loss 계산
            test_loss += loss_fn(pred, y).item()

            # 맞춘거 개수 합치기
            correct += (pred.argmax(1) == y).type(torch.float).sum().item()

    # 배치 개수 구하기
    num_batches = len(dataloader)

    # 배치 별 loss, accuracy의 평균 구하기
    test_loss /= num_batches
    correct /= size

    print(f"Test Error : \n Accuracy : {(100*correct):>0.1f}%, Avg Loss : {test_loss:>8f}\n")

> 전체 흐름 요약:

1. 모델을 평가 모드로 설정 (model.eval())


2. 기울기 계산을 하지 않도록 설정 (torch.no_grad())


3. 배치 단위로 데이터를 로딩 (dataloader)


4. 입력 데이터를 장치(GPU/CPU)로 이동 (X.to(device), y.to(device))


5. 모델에 입력 데이터를 전달해 예측 (model(X))


6. 예측 값과 실제 값 간의 손실 계산 (loss_fn(pred, y))


7. 정확도를 계산하여 맞춘 개수 합산 (pred.argmax(1) == y)


8. 전체 배치가 끝난 후 손실과 정확도의 평균을 계산


9. 결과 출력: 평균 손실과 정확도 표시

이 과정을 통해 모델의 성능(손실과 정확도)을 평가하고, 훈련된 모델이 테스트 데이터에서 얼마나 잘 동작하는지 확인합니다.

In [10]:
epochs = 10

for i in range(epochs):
    print(f"Epochs {i + 1}\n-------------------------------------------")
    train_loop(train_dataloader, model, loss_fn, optimizer)
    test_loop(test_dataloader, model, loss_fn)

print("Done!!!")

Epochs 1
-------------------------------------------
Train Loss : 2.307013 [     0 / 60000 ]
Train Loss : 1.529820 [  6400 / 60000 ]
Train Loss : 1.096999 [ 12800 / 60000 ]
Train Loss : 0.981642 [ 19200 / 60000 ]
Train Loss : 0.891455 [ 25600 / 60000 ]
Train Loss : 0.653020 [ 32000 / 60000 ]
Train Loss : 0.736131 [ 38400 / 60000 ]
Train Loss : 0.648572 [ 44800 / 60000 ]
Train Loss : 0.699619 [ 51200 / 60000 ]
Train Loss : 0.646846 [ 57600 / 60000 ]
Test Error : 
 Accuracy : 77.9%, Avg Loss : 0.648243

Epochs 2
-------------------------------------------
Train Loss : 0.616934 [     0 / 60000 ]
Train Loss : 0.792737 [  6400 / 60000 ]
Train Loss : 0.681527 [ 12800 / 60000 ]
Train Loss : 0.848099 [ 19200 / 60000 ]
Train Loss : 0.814480 [ 25600 / 60000 ]
Train Loss : 0.618155 [ 32000 / 60000 ]
Train Loss : 0.719694 [ 38400 / 60000 ]
Train Loss : 0.451992 [ 44800 / 60000 ]
Train Loss : 0.578987 [ 51200 / 60000 ]
Train Loss : 0.386426 [ 57600 / 60000 ]
Test Error : 
 Accuracy : 81.2%, Avg Los