# 12.4 병든 잎사귀 식별 경진대회 성능 개선
- [병든 잎사귀 식별 경진대회 링크](https://www.kaggle.com/c/plant-pathology-2020-fgvc7)
- [모델링 코드 참고 링크](https://www.kaggle.com/akasharidas/plant-pathology-2020-in-pytorch)

In [1]:
import torch # 파이토치 
import random
import numpy as np
import os

# 시드값 고정
seed = 50
os.environ['PYTHONHASHSEED'] = str(seed)
random.seed(seed)
np.random.seed(seed)
torch.manual_seed(seed)
torch.cuda.manual_seed(seed)
torch.cuda.manual_seed_all(seed)
torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False
torch.backends.cudnn.enabled = False

In [2]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

In [3]:
import pandas as pd

# 데이터 경로
data_path = '/kaggle/input/plant-pathology-2020-fgvc7/'

train = pd.read_csv(data_path + 'train.csv')
test = pd.read_csv(data_path + 'test.csv')
submission = pd.read_csv(data_path + 'sample_submission.csv')

In [4]:
from sklearn.model_selection import train_test_split

# 훈련 데이터, 검증 데이터 분리
train, valid = train_test_split(train, 
                                test_size=0.1,
                                stratify=train[['healthy', 'multiple_diseases', 'rust', 'scab']],
                                random_state=50)

In [5]:
import cv2
from torch.utils.data import Dataset # 데이터 생성을 위한 클래스
import numpy as np

class ImageDataset(Dataset):
    # 초기화 메서드(생성자)
    def __init__(self, df, img_dir='./', transform=None, is_test=False):
        super().__init__() # 상속받은 Dataset의 __init__() 메서드 호출
        self.df = df
        self.img_dir = img_dir
        self.transform = transform
        self.is_test = is_test
    
    # 데이터셋 크기 반환 메서드 
    def __len__(self):
        return len(self.df)
    
    # 인덱스(idx)에 해당하는 데이터 반환 메서드
    def __getitem__(self, idx):
        img_id = self.df.iloc[idx, 0]             # 이미지 ID
        img_path = self.img_dir + img_id + '.jpg' # 이미지 파일 경로
        image = cv2.imread(img_path)              # 이미지 파일 읽기
        image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) # 이미지 색상 보정
        # 이미지 변환 
        if self.transform is not None:
            image = self.transform(image=image)['image']
        # 테스트 데이터면 이미지 데이터만 반환, 그렇지 않으면 타깃값도 반환 
        if self.is_test:
            return image # 테스트용일 때
        else:
            # 타깃값 4개 중 가장 큰 값의 인덱스 
            label = np.argmax(self.df.iloc[idx, 1:5]) 
            return image, label # 훈련/검증용일 때

In [6]:
# 이미지 변환을 위한 모듈
import albumentations as A
from albumentations.pytorch import ToTensorV2

# 훈련 데이터용 변환기
transform_train = A.Compose([
    A.Resize(450, 650),       # 이미지 크기 조절 
    A.RandomBrightnessContrast(brightness_limit=0.2, # 밝기 대비 조절
                               contrast_limit=0.2, p=0.3),
    A.VerticalFlip(p=0.2),    # 상하 대칭 변환
    A.HorizontalFlip(p=0.5),  # 좌우 대칭 변환 
    A.ShiftScaleRotate(       # 이동, 스케일링, 회전 변환
        shift_limit=0.1,
        scale_limit=0.2,
        rotate_limit=30, p=0.3),
    A.OneOf([A.Emboss(p=1),   # 양각화, 날카로움, 블러 효과
             A.Sharpen(p=1),
             A.Blur(p=1)], p=0.3),
    A.PiecewiseAffine(p=0.3), # 어파인 변환 
    A.Normalize(),            # 정규화 변환 
    ToTensorV2()              # 텐서로 변환
])

# 검증 및 테스트 데이터용 변환기
transform_test = A.Compose([
    A.Resize(450, 650), # 이미지 크기 조절 
    A.Normalize(),      # 정규화 변환
    ToTensorV2()        # 텐서로 변환
])

In [7]:
img_dir = '/kaggle/input/plant-pathology-2020-fgvc7/images/'

dataset_train = ImageDataset(train, img_dir=img_dir, transform=transform_train)
dataset_valid = ImageDataset(valid, img_dir=img_dir, transform=transform_test)

In [8]:
def seed_worker(worker_id):
    worker_seed = torch.initial_seed() % 2**32
    np.random.seed(worker_seed)
    random.seed(worker_seed)
    
g = torch.Generator()
g.manual_seed(0)

<torch._C.Generator at 0x7ff5ddbf1c10>

In [9]:
from torch.utils.data import DataLoader # 데이터 로더 클래스

batch_size = 4

loader_train = DataLoader(dataset_train, batch_size=batch_size, 
                          shuffle=True, worker_init_fn=seed_worker,
                          generator=g, num_workers=2)
loader_valid = DataLoader(dataset_valid, batch_size=batch_size, 
                          shuffle=False, worker_init_fn=seed_worker,
                          generator=g, num_workers=2)

In [10]:
!pip install efficientnet-pytorch==0.7.1

Collecting efficientnet-pytorch==0.7.1
  Downloading efficientnet_pytorch-0.7.1.tar.gz (21 kB)
Building wheels for collected packages: efficientnet-pytorch
  Building wheel for efficientnet-pytorch (setup.py) ... [?25l- \ done
[?25h  Created wheel for efficientnet-pytorch: filename=efficientnet_pytorch-0.7.1-py3-none-any.whl size=16446 sha256=c832f1751c9e88f786d1ead4834d0e3445f945ea49ed84ac19b1fc5aa150b251
  Stored in directory: /root/.cache/pip/wheels/0e/cc/b2/49e74588263573ff778da58cc99b9c6349b496636a7e165be6
Successfully built efficientnet-pytorch
Installing collected packages: efficientnet-pytorch
Successfully installed efficientnet-pytorch-0.7.1


In [11]:
from efficientnet_pytorch import EfficientNet # EfficientNet 모델

# 사전 훈련된 efficientnet-b7 모델 불러오기
model = EfficientNet.from_pretrained('efficientnet-b7', num_classes=4) 

model = model.to(device) # 장비 할당

Downloading: "https://github.com/lukemelas/EfficientNet-PyTorch/releases/download/1.0/efficientnet-b7-dcc49843.pth" to /root/.cache/torch/hub/checkpoints/efficientnet-b7-dcc49843.pth


  0%|          | 0.00/254M [00:00<?, ?B/s]

Loaded pretrained weights for efficientnet-b7


In [12]:
import torch.nn as nn # 신경망 모듈

# 손실 함수
criterion = nn.CrossEntropyLoss()

In [13]:
# 옵티마이저
optimizer = torch.optim.AdamW(model.parameters(), lr=0.00006, weight_decay=0.0001)

## 12.4.1 모델 훈련 및 성능 검증

### 스케줄러 설정

In [14]:
from transformers import get_cosine_schedule_with_warmup

epochs = 39 # 총 에폭

# 스케줄러 생성
scheduler = get_cosine_schedule_with_warmup(optimizer, 
                                            num_warmup_steps=len(loader_train)*3, 
                                            num_training_steps=len(loader_train)*epochs)

2022-03-07 23:54:27.178697: I tensorflow/stream_executor/platform/default/dso_loader.cc:49] Successfully opened dynamic library libcudart.so.11.0


### 훈련 및 성능 검증

In [15]:
from sklearn.metrics import roc_auc_score # ROC AUC 점수 계산 함수
from tqdm.notebook import tqdm # 진행률 표시 막대

# 총 에폭만큼 반복
for epoch in range(epochs):
    # == [ 훈련 ] ==============================================
    model.train()        # 모델을 훈련 상태로 설정
    epoch_train_loss = 0 # 에폭별 손실값 초기화 (훈련 데이터용)
    
    # '반복 횟수'만큼 반복 
    for images, labels in tqdm(loader_train):
        # 이미지, 레이블(타깃값) 데이터 미니배치를 장비에 할당 
        images = images.to(device)
        labels = labels.to(device)
        
        # 옵티마이저 내 기울기 초기화
        optimizer.zero_grad()
        # 순전파 : 이미지 데이터를 신경망 모델의 입력값으로 사용해 출력값 계산
        outputs = model(images)
        # 손실 함수를 활용해 outputs와 labels의 손실값 계산
        loss = criterion(outputs, labels)
        # 현재 배치에서의 손실 추가 (훈련 데이터용)
        epoch_train_loss += loss.item() 
        loss.backward()  # 역전파 수행
        optimizer.step() # 가중치 갱신
        scheduler.step() # 스케줄러 학습률 갱신
        
    # 훈련 데이터 손실값 출력
    print(f'에폭 [{epoch+1}/{epochs}] - 훈련 데이터 손실값 : {epoch_train_loss/len(loader_train):.4f}')
    
    # == [ 검증 ] ==============================================
    model.eval()          # 모델을 평가 상태로 설정 
    epoch_valid_loss = 0  # 에폭별 손실값 초기화 (검증 데이터용)
    preds_list = []       # 예측 확률값 저장용 리스트 초기화
    true_onehot_list = [] # 실제 타깃값 저장용 리스트 초기화
    
    with torch.no_grad(): # 기울기 계산 비활성화
        # 미니배치 단위로 검증
        for images, labels in loader_valid:
            images = images.to(device)
            labels = labels.to(device)
            
            outputs = model(images)
            loss = criterion(outputs, labels)
            epoch_valid_loss += loss.item()
            
            preds = torch.softmax(outputs.cpu(), dim=1).numpy() # 예측 확률값
            # 실제값 (원-핫 인코딩 형식)
            true_onehot = torch.eye(4)[labels].cpu().numpy() 
            # 예측 확률값과 실제값 저장
            preds_list.extend(preds)
            true_onehot_list.extend(true_onehot)
    # 검증 데이터 손실값 및 ROC AUC 점수 출력 
    print(f'에폭 [{epoch+1}/{epochs}] - 검증 데이터 손실값 : {epoch_valid_loss/len(loader_valid):.4f} / 검증 데이터 ROC AUC : {roc_auc_score(true_onehot_list, preds_list):.4f}')  

  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [1/39] - 훈련 데이터 손실값 : 1.2793
에폭 [1/39] - 검증 데이터 손실값 : 0.6695 / 검증 데이터 ROC AUC : 0.9153


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [2/39] - 훈련 데이터 손실값 : 0.5753
에폭 [2/39] - 검증 데이터 손실값 : 0.2973 / 검증 데이터 ROC AUC : 0.9640


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [3/39] - 훈련 데이터 손실값 : 0.3759
에폭 [3/39] - 검증 데이터 손실값 : 0.2376 / 검증 데이터 ROC AUC : 0.9354


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [4/39] - 훈련 데이터 손실값 : 0.2551
에폭 [4/39] - 검증 데이터 손실값 : 0.2354 / 검증 데이터 ROC AUC : 0.9760


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [5/39] - 훈련 데이터 손실값 : 0.2295
에폭 [5/39] - 검증 데이터 손실값 : 0.1814 / 검증 데이터 ROC AUC : 0.9679


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [6/39] - 훈련 데이터 손실값 : 0.1428
에폭 [6/39] - 검증 데이터 손실값 : 0.2000 / 검증 데이터 ROC AUC : 0.9710


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [7/39] - 훈련 데이터 손실값 : 0.1069
에폭 [7/39] - 검증 데이터 손실값 : 0.1537 / 검증 데이터 ROC AUC : 0.9889


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [8/39] - 훈련 데이터 손실값 : 0.0905
에폭 [8/39] - 검증 데이터 손실값 : 0.2256 / 검증 데이터 ROC AUC : 0.9768


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [9/39] - 훈련 데이터 손실값 : 0.0807
에폭 [9/39] - 검증 데이터 손실값 : 0.1685 / 검증 데이터 ROC AUC : 0.9830


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [10/39] - 훈련 데이터 손실값 : 0.0559
에폭 [10/39] - 검증 데이터 손실값 : 0.1420 / 검증 데이터 ROC AUC : 0.9921


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [11/39] - 훈련 데이터 손실값 : 0.0549
에폭 [11/39] - 검증 데이터 손실값 : 0.1410 / 검증 데이터 ROC AUC : 0.9793


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [12/39] - 훈련 데이터 손실값 : 0.0635
에폭 [12/39] - 검증 데이터 손실값 : 0.1753 / 검증 데이터 ROC AUC : 0.9739


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [13/39] - 훈련 데이터 손실값 : 0.0369
에폭 [13/39] - 검증 데이터 손실값 : 0.1256 / 검증 데이터 ROC AUC : 0.9871


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [14/39] - 훈련 데이터 손실값 : 0.0305
에폭 [14/39] - 검증 데이터 손실값 : 0.1672 / 검증 데이터 ROC AUC : 0.9813


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [15/39] - 훈련 데이터 손실값 : 0.0341
에폭 [15/39] - 검증 데이터 손실값 : 0.2381 / 검증 데이터 ROC AUC : 0.9802


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [16/39] - 훈련 데이터 손실값 : 0.0297
에폭 [16/39] - 검증 데이터 손실값 : 0.1717 / 검증 데이터 ROC AUC : 0.9885


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [17/39] - 훈련 데이터 손실값 : 0.0278
에폭 [17/39] - 검증 데이터 손실값 : 0.2181 / 검증 데이터 ROC AUC : 0.9820


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [18/39] - 훈련 데이터 손실값 : 0.0394
에폭 [18/39] - 검증 데이터 손실값 : 0.2685 / 검증 데이터 ROC AUC : 0.9721


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [19/39] - 훈련 데이터 손실값 : 0.0241
에폭 [19/39] - 검증 데이터 손실값 : 0.1819 / 검증 데이터 ROC AUC : 0.9828


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [20/39] - 훈련 데이터 손실값 : 0.0209
에폭 [20/39] - 검증 데이터 손실값 : 0.1837 / 검증 데이터 ROC AUC : 0.9747


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [21/39] - 훈련 데이터 손실값 : 0.0223
에폭 [21/39] - 검증 데이터 손실값 : 0.2198 / 검증 데이터 ROC AUC : 0.9716


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [22/39] - 훈련 데이터 손실값 : 0.0092
에폭 [22/39] - 검증 데이터 손실값 : 0.2200 / 검증 데이터 ROC AUC : 0.9671


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [23/39] - 훈련 데이터 손실값 : 0.0106
에폭 [23/39] - 검증 데이터 손실값 : 0.2495 / 검증 데이터 ROC AUC : 0.9663


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [24/39] - 훈련 데이터 손실값 : 0.0103
에폭 [24/39] - 검증 데이터 손실값 : 0.2227 / 검증 데이터 ROC AUC : 0.9780


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [25/39] - 훈련 데이터 손실값 : 0.0178
에폭 [25/39] - 검증 데이터 손실값 : 0.1997 / 검증 데이터 ROC AUC : 0.9800


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [26/39] - 훈련 데이터 손실값 : 0.0127
에폭 [26/39] - 검증 데이터 손실값 : 0.2174 / 검증 데이터 ROC AUC : 0.9733


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [27/39] - 훈련 데이터 손실값 : 0.0154
에폭 [27/39] - 검증 데이터 손실값 : 0.1792 / 검증 데이터 ROC AUC : 0.9780


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [28/39] - 훈련 데이터 손실값 : 0.0059
에폭 [28/39] - 검증 데이터 손실값 : 0.1967 / 검증 데이터 ROC AUC : 0.9819


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [29/39] - 훈련 데이터 손실값 : 0.0061
에폭 [29/39] - 검증 데이터 손실값 : 0.1968 / 검증 데이터 ROC AUC : 0.9884


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [30/39] - 훈련 데이터 손실값 : 0.0107
에폭 [30/39] - 검증 데이터 손실값 : 0.2147 / 검증 데이터 ROC AUC : 0.9857


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [31/39] - 훈련 데이터 손실값 : 0.0076
에폭 [31/39] - 검증 데이터 손실값 : 0.2058 / 검증 데이터 ROC AUC : 0.9872


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [32/39] - 훈련 데이터 손실값 : 0.0103
에폭 [32/39] - 검증 데이터 손실값 : 0.1975 / 검증 데이터 ROC AUC : 0.9882


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [33/39] - 훈련 데이터 손실값 : 0.0045
에폭 [33/39] - 검증 데이터 손실값 : 0.1817 / 검증 데이터 ROC AUC : 0.9870


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [34/39] - 훈련 데이터 손실값 : 0.0117
에폭 [34/39] - 검증 데이터 손실값 : 0.1753 / 검증 데이터 ROC AUC : 0.9864


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [35/39] - 훈련 데이터 손실값 : 0.0042
에폭 [35/39] - 검증 데이터 손실값 : 0.1753 / 검증 데이터 ROC AUC : 0.9874


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [36/39] - 훈련 데이터 손실값 : 0.0034
에폭 [36/39] - 검증 데이터 손실값 : 0.1723 / 검증 데이터 ROC AUC : 0.9876


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [37/39] - 훈련 데이터 손실값 : 0.0051
에폭 [37/39] - 검증 데이터 손실값 : 0.1731 / 검증 데이터 ROC AUC : 0.9871


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [38/39] - 훈련 데이터 손실값 : 0.0028
에폭 [38/39] - 검증 데이터 손실값 : 0.1729 / 검증 데이터 ROC AUC : 0.9875


  0%|          | 0/410 [00:00<?, ?it/s]

에폭 [39/39] - 훈련 데이터 손실값 : 0.0047
에폭 [39/39] - 검증 데이터 손실값 : 0.1718 / 검증 데이터 ROC AUC : 0.9866


## 12.4.2 예측

### TTA(테스트 단계 데이터 증강)

In [16]:
# 테스트 데이터 원본 데이터셋 및 데이터 로더
dataset_test = ImageDataset(test, img_dir=img_dir, 
                            transform=transform_test, is_test=True)
loader_test = DataLoader(dataset_test, batch_size=batch_size, 
                         shuffle=False, worker_init_fn=seed_worker,
                         generator=g, num_workers=2)

# TTA용 데이터셋 및 데이터 로더
dataset_TTA = ImageDataset(test, img_dir=img_dir, 
                           transform=transform_train, is_test=True)
loader_TTA = DataLoader(dataset_TTA, batch_size=batch_size, 
                        shuffle=False, worker_init_fn=seed_worker,
                        generator=g, num_workers=2)

### 예측

In [17]:
model.eval() # 모델을 평가 상태로 설정 

preds_test = np.zeros((len(test), 4)) # 예측값 저장용 배열 초기화

with torch.no_grad():
    for i, images in enumerate(loader_test):
        images = images.to(device)
        outputs = model(images)
        # 타깃 예측 확률
        preds_part = torch.softmax(outputs.cpu(), dim=1).squeeze().numpy()
        preds_test[i*batch_size:(i+1)*batch_size] += preds_part

In [18]:
submission_test = submission.copy() # 제출 샘플 파일 복사

submission_test[['healthy', 'multiple_diseases', 'rust', 'scab']] = preds_test

In [19]:
num_TTA = 7 # TTA 횟수

preds_tta = np.zeros((len(test), 4)) # 예측값 저장용 배열 초기화 (TTA용)

# TTA를 적용해 예측
for i in range(num_TTA):
    with torch.no_grad():
        for i, images in enumerate(loader_TTA):
            images = images.to(device)
            outputs = model(images)
            # 타깃 예측 확률
            preds_part = torch.softmax(outputs.cpu(), dim=1).squeeze().numpy()
            preds_tta[i*batch_size:(i+1)*batch_size] += preds_part

In [20]:
preds_tta /= num_TTA 

In [21]:
submission_tta = submission.copy() 

submission_tta[['healthy', 'multiple_diseases', 'rust', 'scab']] = preds_tta

### 제출 파일 생성

In [22]:
submission_test.to_csv('submission_test.csv', index=False)
submission_tta.to_csv('submission_tta.csv', index=False)

### 레이블 스무딩

In [23]:
def apply_label_smoothing(df, target, alpha, threshold):
    # 타깃값 복사
    df_target = df[target].copy()
    k = len(target) # 타깃값 개수
    
    for idx, row in df_target.iterrows():
        if (row > threshold).any():         # 임계값을 넘는 타깃값인지 여부 판단
            row = (1 - alpha)*row + alpha/k # 레이블 스무딩 적용  
            df_target.iloc[idx] = row       # 레이블 스무딩을 적용한 값으로 변환
    return df_target # 레이블 스무딩을 적용한 타깃값 반환

In [24]:
alpha = 0.001 # 레이블 스무딩 강도
threshold = 0.999 # 레이블 스무딩을 적용할 임계값

# 레이블 스무딩을 적용하기 위해 DataFrame 복사
submission_test_ls = submission_test.copy()
submission_tta_ls = submission_tta.copy()

target = ['healthy', 'multiple_diseases', 'rust', 'scab'] # 타깃값 열 이름

# 레이블 스무딩 적용
submission_test_ls[target] = apply_label_smoothing(submission_test_ls, target, 
                                                   alpha, threshold)
submission_tta_ls[target] = apply_label_smoothing(submission_tta_ls, target, 
                                                  alpha, threshold)

submission_test_ls.to_csv('submission_test_ls.csv', index=False)
submission_tta_ls.to_csv('submission_tta_ls.csv', index=False)