In [2]:
from ultralytics import YOLO

import torch
from ultralytics.nn.modules.block import C3k2

# 입력 텐서 생성 (배치 크기: 1, 채널 수: 64, 높이: 128, 너비: 128)
x = torch.randn(1, 64, 128, 128)

# C3k2 클래스 인스턴스 생성
# 입력 채널 수: 64, 출력 채널 수: 128, 블록 수: 3, c3k 사용 여부: True
model = C3k2(c1=64, c2=128, n=3, c3k=True)

# 모델에 입력 텐서 전달
output = model(x)

# 출력 텐서의 크기 출력
print(output.shape)

torch.Size([1, 128, 128, 128])


In [4]:
import torch
from ultralytics.nn.modules.conv import Conv

# 입력 텐서 생성 (배치 크기: 1, 채널 수: 3, 높이: 224, 너비: 224)
x = torch.randn(1, 30, 224, 224)

# Conv 클래스 인스턴스 생성
# 입력 채널 수: 3, 출력 채널 수: 64, 커널 크기: 3, 스트라이드: 1, 패딩: 자동
conv_layer = Conv(c1=30, c2=64, k=3, s=1)

# Conv 레이어에 입력 텐서 전달
output = conv_layer(x)

# 출력 텐서의 크기 출력
print(output.shape)

torch.Size([1, 64, 224, 224])


In [None]:
import torch
from ultralytics.nn.modules.block import SPPF

'''
SPPF(Spatial Pyramid Pooling - Fast) 모듈은 YOLOv5에서 사용되는 레이어로, 입력 특징 맵에 대해 공간 피라미드 풀링을 수행하여 다양한 크기의 맥스 풀링 결과를 결합합니다. 이를 통해 다양한 스케일의 정보를 효과적으로 통합할 수 있습니다. SPPF 모듈은 특히 빠른 연산을 위해 최적화되어 있습니다.

주요 역할:

다양한 스케일의 정보 통합: 서로 다른 크기의 맥스 풀링을 통해 다양한 스케일의 정보를 추출하고 이를 결합합니다.
특징 맵의 크기 유지: 입력 특징 맵의 공간적 크기를 유지하면서 채널 수를 증가시킵니다.
연산 효율성: 빠른 연산을 위해 최적화된 구조를 사용합니다.
SPPF 모듈의 구조는 다음과 같습니다:

입력 채널 수를 절반으로 줄이는 1x1 컨볼루션 레이어
5x5 맥스 풀링 레이어를 세 번 반복하여 다양한 스케일의 정보를 추출
추출된 정보를 결합한 후 출력 채널 수를 원하는 값으로 조정하는 1x1 컨볼루션 레이어
이를 통해 입력 특징 맵의 공간적 크기를 유지하면서 다양한 스케일의 정보를 효과적으로 통합할 수 있습니다.
'''
# 입력 텐서 생성 (배치 크기: 1, 채널 수: 512, 높이: 32, 너비: 32)
x = torch.randn(1, 512, 32, 32)

# SPPF 클래스 인스턴스 생성
# 입력 채널 수: 512, 출력 채널 수: 1024, 커널 크기: 5
sppf_layer = SPPF(c1=512, c2=1024, k=5)

# SPPF 레이어에 입력 텐서 전달
output = sppf_layer(x)

# 출력 텐서의 크기 출력
print(output.shape)

torch.Size([1, 1024, 32, 32])


In [5]:
import torch
from ultralytics.nn.modules.block import C2PSA

# 입력 텐서 생성 (배치 크기: 1, 채널 수: 256, 높이: 64, 너비: 64)
x = torch.randn(1, 256, 64, 64)

# C2PSA 클래스 인스턴스 생성
# 입력 채널 수: 256, 출력 채널 수: 256, 블록 수: 3, 확장 비율: 0.5
model = C2PSA(c1=256, c2=256, n=3, e=0.5)

# 모델에 입력 텐서 전달
output = model(x)

# 출력 텐서의 크기 출력
print(output.shape)

torch.Size([1, 256, 64, 64])


In [32]:
import torch
from ultralytics.nn.modules.head import Detect

# 3개의 서로 다른 크기의 특징맵 생성 
# (batch_size, channels, height, width)
feature_maps = [
    torch.randn(1, 256, 80, 80),    # P3
    torch.randn(1, 256, 40, 40),    # P4  
    torch.randn(1, 256, 20, 20)     # P5
]

# Detect 레이어 초기화
# nc: 클래스 수 80개 (COCO dataset)
# anchors: 3개의 스케일(P3,P4,P5)에 각각 3개의 앵커
# ch: 입력 특징맵의 채널 수 
detect = Detect(nc=10, ch=[256, 256, 256])

# 추론 모드로 설정
detect.eval()

# 추론 실행
with torch.no_grad():
    predictions = detect(feature_maps)

# 출력 형태 확인 
# (batch_size, num_anchors_total, num_classes + 5)
print(predictions[0].shape)


torch.Size([1, 14, 8400])


In [31]:
temp = predictions[1]
print(temp[0].shape)
print(temp[1].shape)
print(temp[2].shape)


torch.Size([1, 144, 80, 80])
torch.Size([1, 144, 40, 40])
torch.Size([1, 144, 20, 20])
