In [1]:
from pytorch_grad_cam import GradCAM, AblationCAM
from pytorch_grad_cam.utils.model_targets import ClassifierOutputTarget
from pytorch_grad_cam.utils.image import show_cam_on_image
import numpy as np
import torch
from torchvision.transforms import Compose, Normalize, ToTensor
import torchvision.models as models
import os
import time
from PIL import Image
from torchvision import transforms
import torch.nn as nn
from torchvision.datasets import ImageFolder
import matplotlib.pyplot as plt
import torch.nn.functional as F # 소프트맥스 활성화를 위해 추가


### 가중치 학습된 모델 불러오기

In [3]:
weights = torch.load("model/lr1e4_512best_efficientB0_model_pretrained_weights827.pth", map_location=torch.device('cpu'))
model = models.efficientnet_b0(pretrained=False)
model.classifier[1] = nn.Linear(in_features=1280, out_features=13, bias=True)
model.load_state_dict(weights)
model



EfficientNet(
  (features): Sequential(
    (0): Conv2dNormActivation(
      (0): Conv2d(3, 32, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
      (1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (2): SiLU(inplace=True)
    )
    (1): Sequential(
      (0): MBConv(
        (block): Sequential(
          (0): Conv2dNormActivation(
            (0): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=32, bias=False)
            (1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
            (2): SiLU(inplace=True)
          )
          (1): SqueezeExcitation(
            (avgpool): AdaptiveAvgPool2d(output_size=1)
            (fc1): Conv2d(32, 8, kernel_size=(1, 1), stride=(1, 1))
            (fc2): Conv2d(8, 32, kernel_size=(1, 1), stride=(1, 1))
            (activation): SiLU(inplace=True)
            (scale_activation): Sigmoid()
          )
          (2): Conv2dNormActivat

### 풀 데이터 셋 가져오기

In [5]:
full_datasets = ImageFolder(root='data/Dataset_project4')
class_names = full_datasets.classes
class_names

['금속캔알루미늄캔',
 '금속캔철캔',
 '비닐',
 '스티로폼',
 '유리병갈색',
 '유리병녹색',
 '유리병투명',
 '종이',
 '페트병무색단일',
 '페트병유색단일',
 '플라스틱PE',
 '플라스틱PP',
 '플라스틱PS']

#### 데이터 전처리 코드 가져오기

In [6]:
transforms_train = transforms.Compose([
    #transforms.Resize((224,224)),
    transforms.RandomHorizontalFlip(p=0.5),
    transforms.RandomRotation(15),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

transforms_test = transforms.Compose([
    #transforms.Resize((224,224)),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

#### 데이터 학습시켰을때랑 똑같은 random 값 줘서 쪼개기

In [7]:
from sklearn.model_selection import train_test_split
# 데이터 크기와 target 저장 
total_size = len(full_datasets)
targets = full_datasets.targets

train_indices, test_indices = train_test_split(
    np.arange(total_size),
    test_size=0.2,
    stratify=targets,
    random_state=42   
)

train_dataset = torch.utils.data.Subset(full_datasets, train_indices)
test_dataset = torch.utils.data.Subset(full_datasets, test_indices)

print("\n데이터셋 분할 완료.")
print(f"총 데이터 수: {total_size}")
print(f"학습용 데이터 수: {len(train_dataset)}")
print(f"검증용 데이터 수: {len(test_dataset)}")


데이터셋 분할 완료.
총 데이터 수: 69898
학습용 데이터 수: 55918
검증용 데이터 수: 13980


전처리 적용

In [8]:
test_dataset.dataset.transform = transforms_test

In [9]:
img, label = test_dataset[0]

print(img.shape)
print(label)
print(len(test_dataset))

torch.Size([3, 512, 512])
0
13980


#### 그래드 캠에 쓸 타겟 레이어 설정

In [10]:
target_layer = model.features[-1][0]
target_layer

Conv2d(320, 1280, kernel_size=(1, 1), stride=(1, 1), bias=False)

#### 그래드캠 정의

In [None]:
cam = GradCAM(model=model, target_layers=[target_layer])
cam.batch_size = 1

#### 원본 이미지 제대로 보기위해 역정규화

In [None]:
# ImageNet 표준 정규화 값 (모델 학습 시 사용한 값과 일치해야 함)
# 만약 다른 값으로 정규화했다면 이 값을 변경해야 합니다.
NORM_MEAN = [0.485, 0.456, 0.406]
NORM_STD = [0.229, 0.224, 0.225]

def denormalize_image(tensor_image, mean=NORM_MEAN, std=NORM_STD):
    """
    정규화된 이미지 텐서를 역정규화하여 0-1 범위의 NumPy 배열로 변환합니다.
    """
    for t, m, s in zip(tensor_image, mean, std):
        t.mul_(s).add_(m) # t = t * s + m
    
    # 텐서를 NumPy 배열로 변환하고 채널 순서를 (H, W, C)로 변경
    np_image = tensor_image.numpy().transpose((1, 2, 0))
    
    # 픽셀 값을 0-1 범위로 클리핑하여 유효한 이미지 범위 유지
    np_image = np.clip(np_image, 0, 1)
    
    return np_image


### 갈색 유리병 특징맵이 잘 찾는지

In [None]:
# 라벨 4인 이미지를 저장할 리스트
label_4_images_info = []
count = 0

# test_dataset에서 라벨이 4인 이미지 최대 100개를 찾습니다.
for i, (img, label) in enumerate(test_dataset):
    if label == 4:
        label_4_images_info.append((img, label, i)) # (이미지 텐서, 실제 라벨, 원본 인덱스)
        count += 1
        if count >= 100:
            break

In [None]:
# 모델을 평가 모드로 설정
model.eval()

if not label_4_images_info:
    print("라벨이 4인 이미지를 찾을 수 없습니다.")
else:
    print(f"라벨이 4인 이미지 {len(label_4_images_info)}개를 찾았습니다. 시각화를 시작합니다.")

    # 각 이미지에 대해 Grad-CAM과 예측을 시각화
    for k, (original_img_tensor, actual_label, original_idx) in enumerate(label_4_images_info):
        # Grad-CAM을 적용하기 위해 이미지 차원을 확장합니다 (배치 크기 1).
        input_tensor = original_img_tensor.unsqueeze(0)
        
        # 모델 예측 수행
        with torch.no_grad():
            output = model(input_tensor)
            probabilities = F.softmax(output, dim=1) # 소프트맥스로 확률 변환
            predicted_prob, predicted_label = torch.max(probabilities, 1) # 가장 높은 확률과 해당 라벨
        
        # Grad-CAM 인스턴스에 적용할 타겟을 지정합니다. 여기서는 라벨 4에 대한 CAM을 계산합니다.
        # 실제 예측된 라벨에 대한 CAM을 보고 싶다면 targets = [ClassifierOutputTarget(predicted_label.item())] 로 변경
        targets = [ClassifierOutputTarget(4)] 
        
        # Grad-CAM을 계산합니다.
        grayscale_cam = cam(input_tensor=input_tensor, targets=targets)
        
        # 결과를 이미지에 덧입히기 위해 CAM 값을 첫 번째 차원을 제거합니다.
        grayscale_cam = grayscale_cam[0, :]

        # 원본 이미지 텐서를 역정규화하고 NumPy 배열로 변환
        denormalized_rgb_img = denormalize_image(original_img_tensor.cpu())
        
        # CAM 히트맵을 역정규화된 원본 이미지에 덧씌웁니다.
        visualization = show_cam_on_image(denormalized_rgb_img, grayscale_cam, use_rgb=True)

        # 결과 시각화
        plt.figure(figsize=(8, 4)) # 이미지 크기 조정
        
        plt.subplot(1, 2, 1)
        plt.imshow(denormalized_rgb_img)
        plt.title(f"Original Image (Actual: {actual_label})")
        plt.axis('off')

        plt.subplot(1, 2, 2)
        plt.imshow(visualization)
        plt.title(f"Grad-CAM (Predicted: {predicted_label.item()}, Prob: {predicted_prob.item():.2f})")
        plt.axis('off')
        
        plt.suptitle(f"Image {k+1}/{len(label_4_images_info)} (Dataset Index: {original_idx})")
        plt.show()
        
        # 3장만 우선 보고 싶다면, 여기서 break
        if k >= 100: 
           break

### 플라스틱PS 특징맵이 잘 찾는지

In [None]:
# 라벨 4인 이미지를 저장할 리스트
label_12_images_info = []
count = 0

# test_dataset에서 라벨이 4인 이미지 최대 100개를 찾습니다.
for i, (img, label) in enumerate(test_dataset):
    if label == 12:
        label_12_images_info.append((img, label, i)) # (이미지 텐서, 실제 라벨, 원본 인덱스)
        count += 1
        if count >= 100:
            break

In [None]:
# 모델을 평가 모드로 설정
model.eval()

if not label_12_images_info:
    print("라벨이 12인 이미지를 찾을 수 없습니다.")
else:
    print(f"라벨이 12인 이미지 {len(label_12_images_info)}개를 찾았습니다. 시각화를 시작합니다.")

    # 각 이미지에 대해 Grad-CAM과 예측을 시각화
    for k, (original_img_tensor, actual_label, original_idx) in enumerate(label_12_images_info):
        # Grad-CAM을 적용하기 위해 이미지 차원을 확장합니다 (배치 크기 1).
        input_tensor = original_img_tensor.unsqueeze(0)
        
        # 모델 예측 수행
        with torch.no_grad():
            output = model(input_tensor)
            probabilities = F.softmax(output, dim=1) # 소프트맥스로 확률 변환
            predicted_prob, predicted_label = torch.max(probabilities, 1) # 가장 높은 확률과 해당 라벨
        
        # Grad-CAM 인스턴스에 적용할 타겟을 지정합니다. 여기서는 라벨 4에 대한 CAM을 계산합니다.
        # 실제 예측된 라벨에 대한 CAM을 보고 싶다면 targets = [ClassifierOutputTarget(predicted_label.item())] 로 변경
        targets = [ClassifierOutputTarget(12)] 
        
        # Grad-CAM을 계산합니다.
        grayscale_cam = cam(input_tensor=input_tensor, targets=targets)
        
        # 결과를 이미지에 덧입히기 위해 CAM 값을 첫 번째 차원을 제거합니다.
        grayscale_cam = grayscale_cam[0, :]

        # 원본 이미지 텐서를 역정규화하고 NumPy 배열로 변환
        denormalized_rgb_img = denormalize_image(original_img_tensor.cpu())
        
        # CAM 히트맵을 역정규화된 원본 이미지에 덧씌웁니다.
        visualization = show_cam_on_image(denormalized_rgb_img, grayscale_cam, use_rgb=True)

        # 결과 시각화
        plt.figure(figsize=(8, 4)) # 이미지 크기 조정
        
        plt.subplot(1, 2, 1)
        plt.imshow(denormalized_rgb_img)
        plt.title(f"Original Image (Actual: {actual_label})")
        plt.axis('off')

        plt.subplot(1, 2, 2)
        plt.imshow(visualization)
        plt.title(f"Grad-CAM (Predicted: {predicted_label.item()}, Prob: {predicted_prob.item():.2f})")
        plt.axis('off')
        
        plt.suptitle(f"Image {k+1}/{len(label_4_images_info)} (Dataset Index: {original_idx})")
        plt.show()
        
        # 3장만 우선 보고 싶다면, 여기서 break
        if k >= 100: 
           break

In [None]:
# # 라벨 4인 첫 번째 이미지와 그 인덱스를 찾습니다.
# label_4_image = None
# label_4_index = -1
# for i, (img, label) in enumerate(test_dataset):
#     if label == 7:
#         label_4_image = img
#         label_4_index = i
#         break

# if label_4_image is None:
#     print("라벨이 4인 이미지를 찾을 수 없습니다.")
# else:
#     print(f"라벨 4인 이미지 발견! 인덱스: {label_4_index}")
    
#     # Grad-CAM을 적용하기 위해 이미지 차원을 확장합니다 (배치 크기 1).
#     input_tensor = label_4_image.unsqueeze(0)
    
#     # Grad-CAM 인스턴스에 적용할 타겟을 지정합니다. 여기서는 라벨 4에 대한 CAM을 계산합니다.
#     targets = [ClassifierOutputTarget(4)]
    
#     # Grad-CAM을 계산합니다.
#     grayscale_cam = cam(input_tensor=input_tensor, targets=targets)

#     # 결과를 이미지에 덧입히기 위해 CAM 값을 첫 번째 차원을 제거합니다.
#     grayscale_cam = grayscale_cam[0, :]

#     # 원본 이미지를 시각화를 위해 NumPy 배열로 변환합니다.
#     rgb_img = np.float32(label_4_image) / 255
#     rgb_img = np.transpose(rgb_img, (1,2,0))
    
#     # CAM 히트맵을 원본 이미지에 덧씌웁니다.
#     visualization = show_cam_on_image(rgb_img, grayscale_cam, use_rgb=True)

#     # 결과 시각화
#     plt.imshow(visualization)
#     plt.title(f"Grad-CAM Visualization for Label 4")
#     plt.axis('off')
#     plt.show()
