Skip to content

deepvisions yolo_baseline_top3_summary_20260406

ehdwo0427 edited this page Apr 9, 2026 · 2 revisions

YOLO Baseline Top3 비교 요약

작성일: 2026-04-06

문서 역할

한눈에 보기

  • 가장 균형적인 baseline: yolov8m_img1280_fold4
  • 가장 높은 precision: yolov8s_img1536_fold4
  • 가장 높은 AP50-95: yolov8m_img1792_fold1
  • 공통 한계: recall이 전반적으로 낮아 small object 누락 가능성이 큼

왜 이 문서를 정리하는가

이번 문서는 이전에 학습했던 YOLO 계열 모델들 중, 회사 자체 드론 데이터 기준으로 상대적으로 성능이 좋았던 모델들을 다시 비교해서 정리하기 위한 문서다.

단순히 "어떤 모델이 제일 높았는가"만 적기보다는, 당시 어떤 기준으로 모델을 봤는지, 각 모델이 어떤 성향을 보였는지, 이후에는 무엇을 더 보완해야 하는지를 남겨두는 쪽이 더 중요하다고 판단했다.

특히 모델 이름이나 입력 해상도만 보고 선택하기보다, 같은 평가 기준에서 직접 비교해보며 "왜 이 결과가 나왔는가"를 이해하는 과정이 필요하다고 느꼈다.

실험 목적

이전 YOLO 실험에서 확인하고 싶었던 핵심은 다음과 같았다.

  • WGISD 기반으로 학습한 YOLO 모델이 회사 자체 드론 데이터에도 어느 정도 일반화되는가
  • 입력 해상도와 모델 크기 차이가 실제 탐지 성능에 어떤 영향을 주는가
  • precision, recall, AP50 중 어떤 지표를 우선해서 봐야 하는가
  • 이후 Grounding DINO나 추가 재학습과 비교할 기준선으로 삼을 수 있는가

즉 이 문서는 "이전 YOLO 실험의 기준선 정리"에 가깝다.

실험 데이터 구성

학습 데이터

  • WGISD 기반 데이터로 학습
  • 학습 방식: k-fold

이번 이전 실험은 고정된 train / val / test 분할로 학습한 실험이 아니라, WGISD 기반 데이터를 fold 단위로 나누어 학습한 방식이었다. 즉, 현재 후속 실험처럼 하나의 고정된 train / valid / test 숫자를 두고 비교한 구조는 아니었다.

평가 데이터

  • 평가 데이터: 회사 자체 드론 촬영 데이터
  • test 이미지 수: 61
  • GT 박스 수: 412

train / val / test 수치에 대해

이전 YOLO baseline 실험은 k-fold 기반이어서 fold마다 train / val 구성이 달라진다. 그래서 현재 남아 있는 요약 기록 기준으로는 고정된 train / val / test 개수를 하나의 숫자로 적기보다, 아래처럼 이해하는 것이 더 정확하다.

항목 구성 방식
train WGISD의 각 fold 학습 분할 사용
val WGISD의 각 fold 검증 분할 사용
test 회사 자체 드론 데이터 61장, GT bbox 412개

추후 fold별 상세 로그를 다시 정리할 수 있으면, train / val 이미지 수와 fold별 성능도 별도 표로 보완할 예정이다.

비교 대상

이전 실험에서 상대적으로 성능이 좋았던 YOLO baseline 상위 3개는 다음과 같다.

  1. yolov8m_img1792_fold1
  2. yolov8m_img1280_fold4
  3. yolov8s_img1536_fold4

평가 비교표

순위 관점 모델 Precision Recall AP50 AP50-95 해석 포인트
AP50 우세 yolov8m_img1280_fold4 0.4749 0.1998 0.2358 0.0941 전체 균형 면에서 가장 기준선 역할을 하기 좋았음
Precision 우세 yolov8s_img1536_fold4 0.5042 0.1529 0.2028 0.0907 가장 보수적으로 예측하는 성향이 강했음
Recall 보조 비교 yolov8m_img1792_fold1 0.3065 0.1845 0.2309 0.1074 AP50-95는 가장 높았지만 precision이 상대적으로 낮았음

지표 기준 정리

같은 YOLO 계열 안에서도 어떤 지표를 우선해서 보느냐에 따라 해석이 달라졌다.

1. AP50 기준

  • 최고 성능: yolov8m_img1280_fold4
  • AP50: 0.2358

이 모델은 precision과 recall이 모두 아주 높다고 보긴 어렵지만, 이전 YOLO baseline 중에서는 전체적인 기준선으로 삼기 가장 무난한 결과였다.

2. Precision 기준

  • 최고 성능: yolov8s_img1536_fold4
  • Precision: 0.5042

이 모델은 상대적으로 보수적으로 박스를 예측하는 성향이 강했다고 볼 수 있다. 즉, 맞는 박스는 비교적 신중하게 내지만 놓치는 포도송이도 많을 가능성이 크다.

3. Recall 기준

  • 최고 성능: yolov8m_img1280_fold4
  • Recall: 0.1998

이번 Top3 중에서는 yolov8m_img1280_fold4가 recall도 가장 높았다. 다만 절대적인 recall 수치 자체는 여전히 낮은 편이어서, "놓치지 않는 탐지" 관점에서는 추가 개선이 필요하다고 판단했다.

4. AP50-95 기준

  • 최고 성능: yolov8m_img1792_fold1
  • AP50-95: 0.1074

이 결과는 IoU 기준을 더 엄격하게 봤을 때는 yolov8m_img1792_fold1이 상대적으로 나쁘지 않았다는 뜻으로 볼 수 있다. 다만 precision이 낮아 실제 운영 관점에서 어떤 성향을 보일지는 별도 해석이 필요했다.

모델별 해석

yolov8m_img1280_fold4

  • AP50 기준으로는 가장 좋은 baseline이었다.
  • precision과 recall 모두 Top3 내에서는 가장 균형적인 편이었다.
  • 이후 Grounding DINO와 비교할 때도 대표 YOLO baseline으로 삼기 좋았다.

yolov8s_img1536_fold4

  • precision이 가장 높았다.
  • 대신 recall이 가장 낮아, 실제 포도송이 누락이 많을 가능성이 있다.
  • "정밀하지만 덜 찾는 모델"에 가까운 성향으로 해석할 수 있다.

yolov8m_img1792_fold1

  • AP50는 1위는 아니었지만 AP50-95는 가장 높았다.
  • 더 엄격한 위치 정확도 기준에서는 장점이 있을 수 있다.
  • 다만 precision이 상대적으로 낮아 오탐 관리 측면은 따로 봐야 했다.

이번 비교에서 느낀 점

이번 YOLO baseline 비교를 정리하면서 느낀 점은, 같은 계열의 모델이라도 "어떤 모델이 더 낫다"를 한 문장으로 정리하기가 생각보다 어렵다는 것이었다.

처음에는 가장 높은 점수 하나만 고르면 된다고 생각했지만, 실제로는 precision이 높은 모델과 AP50이 높은 모델, 그리고 위치 정확도 쪽에서 상대적으로 나은 모델이 서로 달랐다. 그래서 단순히 최고 점수 모델을 고르는 것보다, 우리 문제에서 무엇이 더 중요한지 먼저 정해야 한다는 점이 더 분명해졌다.

특히 드론 이미지 기반 포도송이 탐지에서는 작은 객체 누락이 수확량 추정 오차로 이어질 수 있기 때문에, precision만 보기보다 recall과 실제 누락 패턴을 더 중요하게 봐야 한다고 느꼈다.

지금 시점에서의 판단

현재 기준에서 보면 이전 YOLO baseline Top3는 모두 "기준선 역할"로는 의미가 있었지만, 그대로 최종 해법이라고 보기는 어렵다.

이유는 다음과 같다.

  • recall이 전반적으로 낮아 실제 포도송이 누락이 클 가능성이 있다.
  • 입력 해상도와 모델 크기를 바꿔도 small object 환경의 한계가 크게 남아 있다.
  • 같은 YOLO 안에서도 모델별 강점이 달라, 단일 지표만으로 선택하기 어렵다.

즉 이 실험은 "YOLO가 안 된다"는 결론이라기보다, "YOLO를 우리 데이터에 맞춰 다시 학습시키면 어디를 보완해야 하는가"를 보여준 기준선이라고 보는 편이 맞다.

이후에 중점적으로 볼 부분

다음 단계에서는 단순히 이전 baseline보다 수치가 올랐는지만 보는 것이 아니라, 아래 항목을 더 중요하게 봐야 할 것 같다.

  • 우리 데이터 재학습 후 recall이 실제로 얼마나 개선되는지
  • precision을 크게 잃지 않으면서 AP50을 올릴 수 있는지
  • 누락되는 포도송이 패턴이 특정 촬영 각도나 배경에 몰려 있는지
  • 시각적으로 봤을 때 bbox 품질이 실제 카운팅 용도로 쓸 수 있을 정도인지
  • split이나 fold에 따라 결과가 과하게 흔들리지 않는지

결론

이전 YOLO baseline 비교 실험은 회사 자체 드론 데이터에 대해 어떤 YOLO 설정이 상대적으로 더 나은지 확인하기 위한 기준선 실험이었다.

현재 기록 기준으로 보면:

  • 가장 균형적인 baseline: yolov8m_img1280_fold4
  • 가장 보수적인 예측 성향: yolov8s_img1536_fold4
  • 더 엄격한 IoU 기준에서 상대적으로 강점: yolov8m_img1792_fold1

정리하면, 지금은 "정답 모델을 확정하는 단계"라기보다 "YOLO를 우리 데이터에 맞게 어떻게 다시 학습시키고, 어떤 지표를 중심으로 봐야 하는지 기준을 세우는 단계"에 더 가깝다.

그래서 추후에는 단순 성능 수치 하나보다, recall 개선과 실제 누락 감소가 함께 일어나는지를 가장 중요하게 볼 예정이다.

Woody's AI Backend Engineering Log


💼 About

Deepvisions | AI Engineer 2026.03 ~ 재직중


🚀 Projects (최신순)

CCTV 자전거 경로 & 공회전 탐지 — 한동대학교 리빙랩

2026.05 ~ | @ Deepvisions 캠퍼스 CCTV 4대 · 자전거 OCR + 차량 공회전 다중 신호

야생동물 탐지 — RPi 엣지 배포

2026.04 ~ | @ Deepvisions 포도밭 침입 탐지 (5종 multi-class · 라즈베리파이 4 실시간)

포도밭 병해충 탐지 및 수확량 예측

2026.03 ~ | @ Deepvisions 드론 이미지 기반 객체 탐지 + GSD calibration + 수확량 예측


📦 종료된 프로젝트

OnTheTop

2025.03 ~ 2025.08 | 카카오테크부트캠프 | ✅ 종료 AI 기반 데스크테리어 추천 서비스


AI Notes


About

Clone this wiki locally