## 06. PyTorch Experiment Tracking

- https://github.com/mrdbourke/pytorch-deep-learning/blob/main/07_pytorch_experiment_tracking.ipynb

Different ways to track machine learning experiments

![Alt text](image-3.png)

![Alt text](image-4.png)

### 0. Getting setup

In [1]:
# try:
#     import torch
#     import torchvision
#     assert int(torch.__version__.split(".")[1]) >= 12, "torch version should be 1.12+"
#     assert int(torchvision.__version__.split(".")[1]) >= 13, "torchvision version should be 0.13+"
#     print(f"torch version: {torch.__version__}")
#     print(f"torchvision version: {torchvision.__version__}")
# except:
#     print(f"[INFO] torch/torchvision versions not as required, installing nightly versions.")
#     !pip3 install -U torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113
#     import torch
#     import torchvision
#     print(f"torch version: {torch.__version__}")
#     print(f"torchvision version: {torchvision.__version__}")

In [2]:
import matplotlib.pyplot as plt
import torch
import torchvision

from torch import nn
from torchvision import transforms

# Try to get torchinfo, install it if it doesn't work
try:
    from torchinfo import summary
except:
    print("[INFO] Couldn't find torchinfo... installing it.")
    !pip install -q torchinfo
    from torchinfo import summary

In [3]:
import sys
import os

In [4]:
os.getcwd()

'/Users/sguys99/Desktop/project/pytorch-study/zero-to-mastery'

In [5]:
from going_modular import data_setup, engine

  from .autonotebook import tqdm as notebook_tqdm


In [6]:
device = "cuda" if torch.cuda.is_available() else "cpu"
device

'cpu'

In [7]:
def set_seeds(seed: int=42):
    """Sets random sets for torch operations.

    Args:
        seed (int, optional): Random seed to set. Defaults to 42.
    """
    # Set the seed for general torch operations
    torch.manual_seed(seed)
    # Set the seed for CUDA torch operations (ones that happen on the GPU)
    torch.cuda.manual_seed(seed)

### 1. Get data

In [8]:
import os
import zipfile

from pathlib import Path

import requests

def download_data(source: str, 
                  destination: str,
                  remove_source: bool = True) -> Path:
    """Downloads a zipped dataset from source and unzips to destination.

    Args:
        source (str): A link to a zipped file containing data.
        destination (str): A target directory to unzip data to.
        remove_source (bool): Whether to remove the source after downloading and extracting.
    
    Returns:
        pathlib.Path to downloaded data.
    
    Example usage:
        download_data(source="https://github.com/mrdbourke/pytorch-deep-learning/raw/main/data/pizza_steak_sushi.zip",
                      destination="pizza_steak_sushi")
    """
    # Setup path to data folder
    data_path = Path("data/")
    image_path = data_path / destination

    # If the image folder doesn't exist, download it and prepare it... 
    if image_path.is_dir():
        print(f"[INFO] {image_path} directory exists, skipping download.")
    else:
        print(f"[INFO] Did not find {image_path} directory, creating one...")
        image_path.mkdir(parents=True, exist_ok=True)
        
        # Download pizza, steak, sushi data
        target_file = Path(source).name
        with open(data_path / target_file, "wb") as f:
            request = requests.get(source)
            print(f"[INFO] Downloading {target_file} from {source}...")
            f.write(request.content)

        # Unzip pizza, steak, sushi data
        with zipfile.ZipFile(data_path / target_file, "r") as zip_ref:
            print(f"[INFO] Unzipping {target_file} data...") 
            zip_ref.extractall(image_path)

        # Remove .zip file
        if remove_source:
            os.remove(data_path / target_file)
    
    return image_path

image_path = download_data(source="https://github.com/mrdbourke/pytorch-deep-learning/raw/main/data/pizza_steak_sushi.zip",
                           destination="pizza_steak_sushi")
image_path

[INFO] data/pizza_steak_sushi directory exists, skipping download.


PosixPath('data/pizza_steak_sushi')

### 2. Create Datasets and DataLoaders

앞에서 만든 create_dataloaders() 함수를 사용할 것이다.   
여기서  torchvision.models를 사용하여 전이학습을 진행할 예정이기 때문에 모델에 맡는 변환 작업을 진행해야한다.   

이미지 텐서를 변환하는 방법은 두가지가 있다.  
- Manually created transforms using torchvision.transforms.
- Automatically created transforms using torchvision.models.MODEL_NAME.MODEL_WEIGHTS.DEFAULT.transforms().
    - Where MODEL_NAME is a specific torchvision.models architecture, MODEL_WEIGHTS is a specific set of pretrained weights and DEFAULT means the "best available weights".

위 방법은 06 챕터에서 실시한 것이다.  

먼저 torchvision.transforms 파이프라인을 수동으로 생성하는 예제를 살펴보겠습니다(이 방법으로 생성하면 다양한 사용자 정의가 가능하지만 변환 결과가 전이학습 모델과 일치하지 않으면 잠재적으로 성능이 저하될 수 있습니다).

우리가 확인해야 할 주요 수동 변환은 모든 이미지가 ImageNet 형식으로 정규화되어 있는지 여부입니다(이는 사전 학습된 torchvision.models가 모두 ImageNet에서 사전 학습되었기 때문입니다).

예를 들어 다음과 같이 말이다. 

```python
normalize = transforms.Normalize(mean=[0.485, 0.456, 0.406],
                                 std=[0.229, 0.224, 0.225])
```

#### 2.1 Create DataLoaders using manually created transforms

In [9]:
# Setup directories
train_dir = image_path / "train"
test_dir = image_path / "test"

# Setup ImageNet normalization levels (turns all images into similar distribution as ImageNet)
normalize = transforms.Normalize(mean=[0.485, 0.456, 0.406],
                                 std=[0.229, 0.224, 0.225])

# Create transform pipeline manually
manual_transforms = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    normalize
])           
print(f"Manually created transforms: {manual_transforms}")

# Create data loaders
train_dataloader, test_dataloader, class_names = data_setup.create_dataloaders(
    train_dir=train_dir,
    test_dir=test_dir,
    transform=manual_transforms, # use manually created transforms
    batch_size=32
)

train_dataloader, test_dataloader, class_names

Manually created transforms: Compose(
    Resize(size=(224, 224), interpolation=bilinear, max_size=None, antialias=warn)
    ToTensor()
    Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
)


(<torch.utils.data.dataloader.DataLoader at 0x176c8b490>,
 <torch.utils.data.dataloader.DataLoader at 0x176c8b040>,
 ['pizza', 'steak', 'sushi'])

#### 2.2 Create DataLoaders using automatically created transforms

In [10]:
# Setup dirs
train_dir = image_path / "train"
test_dir = image_path / "test"

# Setup pretrained weights (plenty of these available in torchvision.models)
weights = torchvision.models.EfficientNet_B0_Weights.DEFAULT

# Get transforms from weights (these are the transforms that were used to obtain the weights)
automatic_transforms = weights.transforms() 
print(f"Automatically created transforms: {automatic_transforms}")

# Create data loaders
train_dataloader, test_dataloader, class_names = data_setup.create_dataloaders(
    train_dir=train_dir,
    test_dir=test_dir,
    transform=automatic_transforms, # use automatic created transforms
    batch_size=32
)

train_dataloader, test_dataloader, class_names

Automatically created transforms: ImageClassification(
    crop_size=[224]
    resize_size=[256]
    mean=[0.485, 0.456, 0.406]
    std=[0.229, 0.224, 0.225]
    interpolation=InterpolationMode.BICUBIC
)


(<torch.utils.data.dataloader.DataLoader at 0x176c43310>,
 <torch.utils.data.dataloader.DataLoader at 0x176c8b820>,
 ['pizza', 'steak', 'sushi'])

### 3. Getting a pretrained model, freezing the base layers and changing the classifier head

여러 모델링 실험을 실행하고 추적하기 전에 하나의 실험을 실행하고 추적하는 것이 어떤지 살펴봅시다.

데이터가 준비되었으므로 다음으로 필요한 것은 모델입니다.

torchvision.models.efficientnet_b0() 모델을 다운로드하여, 우리 데이터로 사용할 수 있도록  준비해보자.

In [11]:
# Note: This is how a pretrained model would be created in torchvision > 0.13, it will be deprecated in future versions.
# model = torchvision.models.efficientnet_b0(pretrained=True).to(device) # OLD 

# Download the pretrained weights for EfficientNet_B0
weights = torchvision.models.EfficientNet_B0_Weights.DEFAULT # NEW in torchvision 0.13, "DEFAULT" means "best weights available"

# Setup the model with the pretrained weights and send it to the target device
model = torchvision.models.efficientnet_b0(weights=weights).to(device)

# View the output of the model
# model

In [12]:
model

EfficientNet(
  (features): Sequential(
    (0): Conv2dNormActivation(
      (0): Conv2d(3, 32, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
      (1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (2): SiLU(inplace=True)
    )
    (1): Sequential(
      (0): MBConv(
        (block): Sequential(
          (0): Conv2dNormActivation(
            (0): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=32, bias=False)
            (1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
            (2): SiLU(inplace=True)
          )
          (1): SqueezeExcitation(
            (avgpool): AdaptiveAvgPool2d(output_size=1)
            (fc1): Conv2d(32, 8, kernel_size=(1, 1), stride=(1, 1))
            (fc2): Conv2d(8, 32, kernel_size=(1, 1), stride=(1, 1))
            (activation): SiLU(inplace=True)
            (scale_activation): Sigmoid()
          )
          (2): Conv2dNormActivat

이제 사전 학습된 모델을 특징 extractor 모델로 전환해 보겠습니다.  
기본적으로 모델의 기본 레이어를 고정하고(입력 이미지에서 특징을 추출하는 데 사용할 것입니다) 작업 중인 클래스의 수에 맞게 분류기 헤드(출력 레이어)를 변경합니다(피자, 스테이크, 초밥의 세 가지 클래스가 있습니다).

참고: 특징 추출기 모델을 만드는 아이디어(여기서 하는 일)는 06편에서 더 자세히 다루었습니다.

In [13]:
for param in model.features. parameters():
    param.requires_grad = False
    
set_seeds()

model.classifier = torch.nn.Sequential(
    nn.Dropout(p = 0.2, inplace=True),
    nn.Linear(in_features=1280,
              out_features = len(class_names),
              bias = True).to(device)) 

In [14]:
model

EfficientNet(
  (features): Sequential(
    (0): Conv2dNormActivation(
      (0): Conv2d(3, 32, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
      (1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (2): SiLU(inplace=True)
    )
    (1): Sequential(
      (0): MBConv(
        (block): Sequential(
          (0): Conv2dNormActivation(
            (0): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=32, bias=False)
            (1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
            (2): SiLU(inplace=True)
          )
          (1): SqueezeExcitation(
            (avgpool): AdaptiveAvgPool2d(output_size=1)
            (fc1): Conv2d(32, 8, kernel_size=(1, 1), stride=(1, 1))
            (fc2): Conv2d(8, 32, kernel_size=(1, 1), stride=(1, 1))
            (activation): SiLU(inplace=True)
            (scale_activation): Sigmoid()
          )
          (2): Conv2dNormActivat

In [15]:
from torchinfo import summary

# Get a summary of the model (uncomment for full output)
summary(model, 
        input_size=(32, 3, 224, 224), # make sure this is "input_size", not "input_shape" (batch_size, color_channels, height, width)
        verbose=0,
        col_names=["input_size", "output_size", "num_params", "trainable"],
        col_width=20,
        row_settings=["var_names"]
)

Layer (type (var_name))                                      Input Shape          Output Shape         Param #              Trainable
EfficientNet (EfficientNet)                                  [32, 3, 224, 224]    [32, 3]              --                   Partial
├─Sequential (features)                                      [32, 3, 224, 224]    [32, 1280, 7, 7]     --                   False
│    └─Conv2dNormActivation (0)                              [32, 3, 224, 224]    [32, 32, 112, 112]   --                   False
│    │    └─Conv2d (0)                                       [32, 3, 224, 224]    [32, 32, 112, 112]   (864)                False
│    │    └─BatchNorm2d (1)                                  [32, 32, 112, 112]   [32, 32, 112, 112]   (64)                 False
│    │    └─SiLU (2)                                         [32, 32, 112, 112]   [32, 32, 112, 112]   --                   --
│    └─Sequential (1)                                        [32, 32, 112, 112]   [32, 

![Alt text](image-5.png)

### 4. Train model and track results

이제 손실함수와 옵티마이저를 준비하자.

In [16]:
loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr = 0.001)

#### Adjust train() function to track results with SummaryWriter()¶

이전에는 모델마다 하나씩 여러 개의 파이썬 딕셔너리를 사용하여 모델링 실험을 추적했습니다.

하지만 실험을 몇 개 이상 실행하는 경우 이 작업이 복잡해질 수 있다는 것을 상상할 수 있습니다.

걱정하지 마세요. 더 나은 옵션이 있으니까요!   

PyTorch의 torch.utils.tensorboard.SummaryWriter() 클래스를 사용하여 모델 학습 진행 상황의 다양한 부분을 파일에 저장할 수 있습니다.
기본적으로 SummaryWriter() 클래스는 모델에 대한 다양한 정보를 log_dir 매개변수로 설정된 파일에 저장합니다.
log_dir의 기본 위치는 runs/CURRENT_DATETIME_HOSTNAME 아래에 있으며, 여기서 호스트 이름은 사용자 컴퓨터 이름입니다.
물론 실험이 추적되는 위치를 변경할 수 있습니다(파일 이름은 원하는 대로 사용자 지정 가능).

SummaryWriter()의 출력은 TensorBoard 형식으로 저장됩니다.
TensorBoard는 TensorFlow 딥 러닝 라이브러리의 일부로, 모델의 다양한 부분을 시각화하는 데 탁월한 방법입니다.
모델링 실험 추적을 시작하기 위해 기본 SummaryWriter() 인스턴스를 만들어 보겠습니다.

In [17]:
from torch.utils.tensorboard import SummaryWriter

writer = SummaryWriter()

이제 writer를 사용하려면 새로운 훈련 루프를 작성하거나 05에서 만든 기존 train() 함수를 조정할 수 있습니다.  
후자를 선택하겠습니다.  

engine.py에서 train() 함수를 가져와서 writer를 사용하도록 조정하겠습니다.   
구체적으로, train() 함수에 모델의 훈련 및 테스트 손실과 정확도 값을 기록하는 기능을 추가하겠습니다.  
writer.add_scalars(main_tag, tag_scalar_dict)를 사용하여 이 작업을 수행할 수 있습니다:  

- main_tag(string): 추척할 스칼라의 이름(ex: 'Accuracy')
- tag_scalar_dict(dict): 추적할 딕셔너리 값(ex: {"train_loss": 0.3454})
* 손실 및 정확도 값은 일반적으로 스칼라(단일 값)이기 때문에 이 메서드를 add_scalars()라고 합니다.

값 추적이 끝나면 writer.close()를 호출하여 추적할 값 찾기를 중단하라고 지시합니다.

train() 수정을 시작하기 위해 engine.py에서 train_step() 및 test_step()도 임포트합니다.

참고: 코드의 거의 모든 곳에서 모델에 대한 정보를 추적할 수 있습니다. 하지만 모델이 훈련하는 동안(훈련/테스트 루프 내에서) 실험을 추적하는 경우가 많습니다.

또한, torch.utils.tensorboard.SummaryWriter() 클래스에는 모델의 계산 그래프를 추적하는 add_graph()와 같이 모델/데이터에 대한 다양한 정보를 추적하는 여러 가지 메서드가 있습니다. 더 많은 옵션은 SummaryWriter() 설명서를 참조하세요.   

In [18]:
from typing import Dict, List
from tqdm.auto import tqdm

from going_modular.engine import train_step, test_step

In [19]:
def train(
    model: torch.nn.Module,
    train_dataloader: torch.utils.data.DataLoader,
    test_dataloader: torch.utils.data.DataLoader,
    optimizer: torch.optim.Optimizer,
    loss_fn: torch.nn.Module,
    epochs: int,
    device: torch.device) -> Dict[str, List]:
    
    results = {"train_loss": [],
               "train_acc": [],
               "test_loss": [],
               "test_acc": []
    }
    
    for epoch in tqdm(range(epochs)):
        train_loss, train_acc = train_step(model = model,
                                           dataloader=train_dataloader,
                                           loss_fn=loss_fn,
                                           optimizer=optimizer,
                                           device=device
                                           )
        
        test_loss, test_acc = test_step(model = model,
                                        dataloader=test_dataloader,
                                        loss_fn = loss_fn,
                                        device=device
                                        )
        
        # Print out what's happening
        print(
          f"Epoch: {epoch+1} | "
          f"train_loss: {train_loss:.4f} | "
          f"train_acc: {train_acc:.4f} | "
          f"test_loss: {test_loss:.4f} | "
          f"test_acc: {test_acc:.4f}"
        )

        # Update results dictionary
        results["train_loss"].append(train_loss)
        results["train_acc"].append(train_acc)
        results["test_loss"].append(test_loss)
        results["test_acc"].append(test_acc)
        
        
        ### New: Experiment tracking ###
        # Add loss results to SummaryWriter
        writer.add_scalars(main_tag="Loss", 
                           tag_scalar_dict={"train_loss": train_loss,
                                            "test_loss": test_loss},
                           global_step=epoch)

        # Add accuracy results to SummaryWriter
        writer.add_scalars(main_tag="Accuracy", 
                           tag_scalar_dict={"train_acc": train_acc,
                                            "test_acc": test_acc}, 
                           global_step=epoch)
        
        # Track the PyTorch model architecture
        writer.add_graph(model=model, 
                         # Pass in an example input
                         input_to_model=torch.randn(32, 3, 224, 224).to(device))
    
    writer.close()
    
    return results

5 epochs 만 시도해보자.

In [20]:
set_seeds()
results = train(model=model,
                train_dataloader=train_dataloader,
                test_dataloader=test_dataloader,
                optimizer=optimizer,
                loss_fn=loss_fn,
                epochs=5,
                device=device)

  0%|          | 0/5 [00:00<?, ?it/s]

Epoch: 1 | train_loss: 1.0883 | train_acc: 0.4180 | test_loss: 0.8914 | test_acc: 0.6818


 20%|██        | 1/5 [00:39<02:36, 39.19s/it]

Epoch: 2 | train_loss: 0.8937 | train_acc: 0.6641 | test_loss: 0.8082 | test_acc: 0.7746


 40%|████      | 2/5 [01:18<01:58, 39.37s/it]

Epoch: 3 | train_loss: 0.7450 | train_acc: 0.8438 | test_loss: 0.7433 | test_acc: 0.7538


 60%|██████    | 3/5 [01:57<01:18, 39.12s/it]

Epoch: 4 | train_loss: 0.7797 | train_acc: 0.6992 | test_loss: 0.6849 | test_acc: 0.8040


 80%|████████  | 4/5 [02:37<00:39, 39.34s/it]

Epoch: 5 | train_loss: 0.6322 | train_acc: 0.7695 | test_loss: 0.6428 | test_acc: 0.8362


100%|██████████| 5/5 [03:17<00:00, 39.47s/it]


In [21]:
results

{'train_loss': [1.0882934033870697,
  0.8936692476272583,
  0.7449564561247826,
  0.7797180041670799,
  0.6321721002459526],
 'train_acc': [0.41796875, 0.6640625, 0.84375, 0.69921875, 0.76953125],
 'test_loss': [0.8914492925008138,
  0.808230459690094,
  0.7433455586433411,
  0.6849219004313151,
  0.6428378224372864],
 'test_acc': [0.6818181818181818,
  0.774621212121212,
  0.7537878787878788,
  0.8039772727272728,
  0.8361742424242425]}

### 5. View our model's results in TensorBoard

SummaryWriter() 클래스는 기본적으로 모델 결과를 runs/라는 디렉터리에 TensorBoard 형식으로 저장합니다.
TensorBoard는 모델과 데이터에 대한 정보를 보고 검사하기 위해 TensorFlow 팀에서 만든 시각화 프로그램입니다.
여러 가지 방법으로 TensorBoard를 볼 수 있습니다:

![image.png](attachment:image.png)

### 6. Create a helper function to build SummaryWriter() instances

SummaryWriter() 클래스는 다양한 정보를 log_dir 매개변수로 지정된 디렉터리에 기록합니다.

실험별로 사용자 정의 디렉터리를 생성하는 도우미 함수를 만드는 것은 어떨까요?

본질적으로 각 실험은 자체 로그 디렉터리를 갖게 됩니다.

- Experiment date/timestamp - when did the experiment take place?
- Experiment name - is there something we'd like to call the experiment?
- Model name - what model was used?
- Extra - should anything else be tracked?

In [22]:
def create_writer(experiment_name: str, 
                  model_name: str,
                  extra: str=None
                  )-> torch.utils.tensorboard.writer.SummaryWriter():
    from datetime import datetime
    import os
    
    timestamp = datetime.now().strftime("%Y-%m-%d")
    
    if extra:
        log_dir = os.path.join('runs', timestamp, experiment_name, model_name, extra)
    else:
        log_dir = os.path.join('runs', timestamp, experiment_name, model_name)
        
    print(f"[INFO] Created SummaryWriter, saving to: {log_dir}...")
    return SummaryWriter(log_dir=log_dir)

In [23]:
# Create an example writer
example_writer = create_writer(experiment_name="data_10_percent",
                               model_name="effnetb0",
                               extra="5_epochs")

[INFO] Created SummaryWriter, saving to: runs/2023-10-24/data_10_percent/effnetb0/5_epochs...


#### 6.1 Update the train() function to include a writer parameter

train() 함수에 writer 매개변수를 받을 수 있는 기능을 추가하여 train() 함수를 호출할 때마다 사용 중인 SummaryWriter() 인스턴스를 능동적으로 업데이트하는 것은 어떨까요?

예를 들어, 여러 가지 다른 모델에 대해 train()을 여러 번 호출하는 일련의 실험을 실행한다고 가정할 때, 각 실험마다 다른 라이터를 사용하면 좋을 것입니다.

실험당 하나의 작성자 = 실험당 하나의 로그 디렉터리.

train() 함수를 조정하기 위해 함수에 writer 매개 변수를 추가한 다음, 작가가 있는지 확인하고 작가가 있는 경우 해당 정보를 추적하는 코드를 추가하겠습니다.

In [24]:
from typing import Dict, List
from tqdm.auto import tqdm

# Add writer parameter to train()
def train(model: torch.nn.Module, 
          train_dataloader: torch.utils.data.DataLoader, 
          test_dataloader: torch.utils.data.DataLoader, 
          optimizer: torch.optim.Optimizer,
          loss_fn: torch.nn.Module,
          epochs: int,
          device: torch.device, 
          writer: torch.utils.tensorboard.writer.SummaryWriter # new parameter to take in a writer
          ) -> Dict[str, List]:
    """Trains and tests a PyTorch model.

    Passes a target PyTorch models through train_step() and test_step()
    functions for a number of epochs, training and testing the model
    in the same epoch loop.

    Calculates, prints and stores evaluation metrics throughout.

    Stores metrics to specified writer log_dir if present.

    Args:
      model: A PyTorch model to be trained and tested.
      train_dataloader: A DataLoader instance for the model to be trained on.
      test_dataloader: A DataLoader instance for the model to be tested on.
      optimizer: A PyTorch optimizer to help minimize the loss function.
      loss_fn: A PyTorch loss function to calculate loss on both datasets.
      epochs: An integer indicating how many epochs to train for.
      device: A target device to compute on (e.g. "cuda" or "cpu").
      writer: A SummaryWriter() instance to log model results to.

    Returns:
      A dictionary of training and testing loss as well as training and
      testing accuracy metrics. Each metric has a value in a list for 
      each epoch.
      In the form: {train_loss: [...],
                train_acc: [...],
                test_loss: [...],
                test_acc: [...]} 
      For example if training for epochs=2: 
              {train_loss: [2.0616, 1.0537],
                train_acc: [0.3945, 0.3945],
                test_loss: [1.2641, 1.5706],
                test_acc: [0.3400, 0.2973]} 
    """
    # Create empty results dictionary
    results = {"train_loss": [],
               "train_acc": [],
               "test_loss": [],
               "test_acc": []
    }

    # Loop through training and testing steps for a number of epochs
    for epoch in tqdm(range(epochs)):
        train_loss, train_acc = train_step(model=model,
                                          dataloader=train_dataloader,
                                          loss_fn=loss_fn,
                                          optimizer=optimizer,
                                          device=device)
        test_loss, test_acc = test_step(model=model,
          dataloader=test_dataloader,
          loss_fn=loss_fn,
          device=device)

        # Print out what's happening
        print(
          f"Epoch: {epoch+1} | "
          f"train_loss: {train_loss:.4f} | "
          f"train_acc: {train_acc:.4f} | "
          f"test_loss: {test_loss:.4f} | "
          f"test_acc: {test_acc:.4f}"
        )

        # Update results dictionary
        results["train_loss"].append(train_loss)
        results["train_acc"].append(train_acc)
        results["test_loss"].append(test_loss)
        results["test_acc"].append(test_acc)


        ### New: Use the writer parameter to track experiments ###
        # See if there's a writer, if so, log to it
        if writer:
            # Add results to SummaryWriter
            writer.add_scalars(main_tag="Loss", 
                               tag_scalar_dict={"train_loss": train_loss,
                                                "test_loss": test_loss},
                               global_step=epoch)
            writer.add_scalars(main_tag="Accuracy", 
                               tag_scalar_dict={"train_acc": train_acc,
                                                "test_acc": test_acc}, 
                               global_step=epoch)

            # Close the writer
            writer.close()
        else:
            pass
    ### End new ###

    # Return the filled results at the end of the epochs
    return results

### 7. Setting up a series of modelling experiments

이전에는 다양한 실험을 실행하고 그 결과를 하나씩 검사했습니다.

하지만 여러 실험을 실행한 다음 결과를 한꺼번에 검사할 수 있다면 어떨까요?

#### 7.1 What kind of experiments should you run?

실행할 수 있는 실험에는 실제로 제한이 없기 때문입니다.

이러한 자유로움은 머신러닝이 흥미로우면서도 두려운 이유이기도 합니다.

바로 이 지점에서 과학자 코트를 입고 머신 러닝 실무자의 모토인 '실험, 실험, 실험'을 기억해야 합니다!

모든 하이퍼파라미터는 다른 실험을 위한 출발점이 됩니다:

- 에포크 수를 변경합니다.
- 레이어/숨겨진 단위 수를 변경합니다.
- 데이터 양을 변경합니다.
- 학습 속도를 변경합니다.
- 다양한 종류의 데이터 증강을 시도합니다.
- 다른 모델 아키텍처를 선택합니다.

연습하고 다양한 실험을 실행하다 보면 무엇이 모델에 도움이 될지 직관적으로 알 수 있게 됩니다.  

일부러 '그럴 수도 있다'고 말한 이유는 장담할 수 없기 때문입니다.  

하지만 일반적으로 쓰라린 교훈(AI 세계에서 중요한 에세이이므로 두 번이나 언급했습니다)에 비추어 볼 때 일반적으로 모델이 클수록(학습 가능한 매개변수가 많을수록), 데이터가 많을수록(학습할 기회가 많을수록) 성능이 더 좋아집니다.  

하지만 머신 러닝 문제에 처음 접근하는 경우, 작은 규모로 시작하여 효과가 있으면 규모를 확장하세요.  

첫 번째 실험 배치는 실행하는 데 몇 초에서 몇 분 이상 걸리지 않아야 합니다.  

실험을 빠르게 진행할수록 무엇이 작동하지 않는지 더 빨리 파악할 수 있고, 결과적으로 무엇이 작동하는지 더 빨리 파악할 수 있습니다.  

#### 7.2 What experiments are we going to run?

우리의 목표는 FoodVision Mini를 구동하는 모델을 개선하는 것입니다.    

본질적으로 우리의 이상적인 모델은 높은 수준의 테스트 세트 정확도(90% 이상)를 달성하면서도 추론(예측)을 훈련/수행하는 데 너무 오래 걸리지 않는 것입니다.

다양한 옵션이 있지만 간단하게 해보는 것은 어떨까요?  

다음의 조합을 시도해 보겠습니다:  

- 다른 데이터 양(피자, 스테이크, 스시의 10% 대 20%)
- 다른 모델(torchvision.models.efficientnet_b0 vs. torchvision.models.efficientnet_b2)
- 다른 훈련 시간(5 에포크 대 10 에포크)   
   
이를 세분화하면 다음과 같습니다:

![image.png](attachment:image.png)

천천히 규모를 확장하는 과정을 주목하세요.  

실험을 진행할 때마다 데이터의 양, 모델 크기, 훈련 기간을 천천히 늘립니다.  

마지막 실험 8에서는 실험 1에 비해 두 배의 데이터, 두 배의 모델 크기, 두 배의 훈련 기간을 사용하게 됩니다.  

#### 7.3 Download different datasets

일련의 실험을 시작하기 전에 데이터 세트가 준비되었는지 확인해야 합니다.  

두 가지 형태의 훈련 세트가 필요합니다:

- Food101 피자, 스테이크, 스시 이미지 데이터의 10%가 포함된 훈련 세트(위에서 이미 만들었지만 완성도를 위해 다시 만들겠습니다).
- Food101 피자, 스테이크, 스시 이미지 데이터의 20%가 포함된 훈련 세트입니다.

일관성을 위해 모든 실험에서는 동일한 테스트 데이터 세트(10% 데이터 분할의 데이터 세트)를 사용합니다.

앞서 만든 download_data() 함수를 사용하여 필요한 다양한 데이터 세트를 다운로드하는 것으로 시작하겠습니다.

두 데이터 세트는 모두 코스 GitHub에서 사용할 수 있습니다:


In [25]:
# Download 10 percent and 20 percent training data (if necessary)
data_10_percent_path = download_data(source="https://github.com/mrdbourke/pytorch-deep-learning/raw/main/data/pizza_steak_sushi.zip",
                                     destination="pizza_steak_sushi")

data_20_percent_path = download_data(source="https://github.com/mrdbourke/pytorch-deep-learning/raw/main/data/pizza_steak_sushi_20_percent.zip",
                                     destination="pizza_steak_sushi_20_percent")

[INFO] data/pizza_steak_sushi directory exists, skipping download.
[INFO] data/pizza_steak_sushi_20_percent directory exists, skipping download.


데이터가 다운로드되었습니다!

이제 다양한 실험에 사용할 데이터의 파일 경로를 설정해 보겠습니다.

서로 다른 훈련 디렉터리 경로를 만들겠지만 모든 실험에서 동일한 테스트 데이터 세트(피자, 스테이크, 초밥 10%의 테스트 데이터 세트)를 사용하므로 테스트 디렉터리 경로는 하나만 필요합니다.

In [26]:
# Setup training directory paths
train_dir_10_percent = data_10_percent_path / "train"
train_dir_20_percent = data_20_percent_path / "train"

# Setup testing directory paths (note: use the same test dataset for both to compare the results)
test_dir = data_10_percent_path / "test"

# Check the directories
print(f"Training directory 10%: {train_dir_10_percent}")
print(f"Training directory 20%: {train_dir_20_percent}")
print(f"Testing directory: {test_dir}")

Training directory 10%: data/pizza_steak_sushi/train
Training directory 20%: data/pizza_steak_sushi_20_percent/train
Testing directory: data/pizza_steak_sushi/test


#### 7.4 Transform Datasets and create DataLoaders

In [27]:
from torchvision import transforms

# Create a transform to normalize data distribution to be inline with ImageNet
normalize = transforms.Normalize(mean=[0.485, 0.456, 0.406], # values per colour channel [red, green, blue]
                                 std=[0.229, 0.224, 0.225]) # values per colour channel [red, green, blue]

# Compose transforms into a pipeline
simple_transform = transforms.Compose([
    transforms.Resize((224, 224)), # 1. Resize the images
    transforms.ToTensor(), # 2. Turn the images into tensors with values between 0 & 1
    normalize # 3. Normalize the images so their distributions match the ImageNet dataset 
])

In [28]:
BATCH_SIZE = 32

# Create 10% training and test DataLoaders
train_dataloader_10_percent, test_dataloader, class_names = data_setup.create_dataloaders(train_dir=train_dir_10_percent,
    test_dir=test_dir, 
    transform=simple_transform,
    batch_size=BATCH_SIZE
)

# Create 20% training and test data DataLoders
train_dataloader_20_percent, test_dataloader, class_names = data_setup.create_dataloaders(train_dir=train_dir_20_percent,
    test_dir=test_dir,
    transform=simple_transform,
    batch_size=BATCH_SIZE
)

# Find the number of samples/batches per dataloader (using the same test_dataloader for both experiments)
print(f"Number of batches of size {BATCH_SIZE} in 10 percent training data: {len(train_dataloader_10_percent)}")
print(f"Number of batches of size {BATCH_SIZE} in 20 percent training data: {len(train_dataloader_20_percent)}")
print(f"Number of batches of size {BATCH_SIZE} in testing data: {len(train_dataloader_10_percent)} (all experiments will use the same test set)")
print(f"Number of classes: {len(class_names)}, class names: {class_names}")

Number of batches of size 32 in 10 percent training data: 8
Number of batches of size 32 in 20 percent training data: 15
Number of batches of size 32 in testing data: 8 (all experiments will use the same test set)
Number of classes: 3, class names: ['pizza', 'steak', 'sushi']


#### 7.5 Create feature extractor models