-
Notifications
You must be signed in to change notification settings - Fork 0
deepvisions yolo_baseline_top3_summary_20260406
작성일: 2026-04-06
- 이 문서는 전체 YOLO 결과 중 후속 비교 가치가 높았던 baseline 3개를 좁혀서 정리한 문서다.
- 전체 맥락은 YOLO Model Comparison Summary, 계열 비교는 Grounding DINO vs YOLO Top3 비교 요약에서 이어진다.
- 가장 균형적인 baseline:
yolov8m_img1280_fold4 - 가장 높은 precision:
yolov8s_img1536_fold4 - 가장 높은 AP50-95:
yolov8m_img1792_fold1 - 공통 한계: recall이 전반적으로 낮아 small object 누락 가능성이 큼
이번 문서는 이전에 학습했던 YOLO 계열 모델들 중, 회사 자체 드론 데이터 기준으로 상대적으로 성능이 좋았던 모델들을 다시 비교해서 정리하기 위한 문서다.
단순히 "어떤 모델이 제일 높았는가"만 적기보다는, 당시 어떤 기준으로 모델을 봤는지, 각 모델이 어떤 성향을 보였는지, 이후에는 무엇을 더 보완해야 하는지를 남겨두는 쪽이 더 중요하다고 판단했다.
특히 모델 이름이나 입력 해상도만 보고 선택하기보다, 같은 평가 기준에서 직접 비교해보며 "왜 이 결과가 나왔는가"를 이해하는 과정이 필요하다고 느꼈다.
이전 YOLO 실험에서 확인하고 싶었던 핵심은 다음과 같았다.
- WGISD 기반으로 학습한 YOLO 모델이 회사 자체 드론 데이터에도 어느 정도 일반화되는가
- 입력 해상도와 모델 크기 차이가 실제 탐지 성능에 어떤 영향을 주는가
- precision, recall, AP50 중 어떤 지표를 우선해서 봐야 하는가
- 이후 Grounding DINO나 추가 재학습과 비교할 기준선으로 삼을 수 있는가
즉 이 문서는 "이전 YOLO 실험의 기준선 정리"에 가깝다.
-
WGISD기반 데이터로 학습 - 학습 방식:
k-fold
이번 이전 실험은 고정된 train / val / test 분할로 학습한 실험이 아니라, WGISD 기반 데이터를 fold 단위로 나누어 학습한 방식이었다.
즉, 현재 후속 실험처럼 하나의 고정된 train / valid / test 숫자를 두고 비교한 구조는 아니었다.
- 평가 데이터: 회사 자체 드론 촬영 데이터
- test 이미지 수:
61 - GT 박스 수:
412
이전 YOLO baseline 실험은 k-fold 기반이어서 fold마다 train / val 구성이 달라진다.
그래서 현재 남아 있는 요약 기록 기준으로는 고정된 train / val / test 개수를 하나의 숫자로 적기보다, 아래처럼 이해하는 것이 더 정확하다.
| 항목 | 구성 방식 |
|---|---|
| train |
WGISD의 각 fold 학습 분할 사용 |
| val |
WGISD의 각 fold 검증 분할 사용 |
| test | 회사 자체 드론 데이터 61장, GT bbox 412개
|
추후 fold별 상세 로그를 다시 정리할 수 있으면, train / val 이미지 수와 fold별 성능도 별도 표로 보완할 예정이다.
이전 실험에서 상대적으로 성능이 좋았던 YOLO baseline 상위 3개는 다음과 같다.
yolov8m_img1792_fold1yolov8m_img1280_fold4yolov8s_img1536_fold4
| 순위 관점 | 모델 | Precision | Recall | AP50 | AP50-95 | 해석 포인트 |
|---|---|---|---|---|---|---|
| AP50 우세 | yolov8m_img1280_fold4 |
0.4749 | 0.1998 | 0.2358 | 0.0941 | 전체 균형 면에서 가장 기준선 역할을 하기 좋았음 |
| Precision 우세 | yolov8s_img1536_fold4 |
0.5042 | 0.1529 | 0.2028 | 0.0907 | 가장 보수적으로 예측하는 성향이 강했음 |
| Recall 보조 비교 | yolov8m_img1792_fold1 |
0.3065 | 0.1845 | 0.2309 | 0.1074 | AP50-95는 가장 높았지만 precision이 상대적으로 낮았음 |
같은 YOLO 계열 안에서도 어떤 지표를 우선해서 보느냐에 따라 해석이 달라졌다.
- 최고 성능:
yolov8m_img1280_fold4 - AP50:
0.2358
이 모델은 precision과 recall이 모두 아주 높다고 보긴 어렵지만, 이전 YOLO baseline 중에서는 전체적인 기준선으로 삼기 가장 무난한 결과였다.
- 최고 성능:
yolov8s_img1536_fold4 - Precision:
0.5042
이 모델은 상대적으로 보수적으로 박스를 예측하는 성향이 강했다고 볼 수 있다. 즉, 맞는 박스는 비교적 신중하게 내지만 놓치는 포도송이도 많을 가능성이 크다.
- 최고 성능:
yolov8m_img1280_fold4 - Recall:
0.1998
이번 Top3 중에서는 yolov8m_img1280_fold4가 recall도 가장 높았다.
다만 절대적인 recall 수치 자체는 여전히 낮은 편이어서, "놓치지 않는 탐지" 관점에서는 추가 개선이 필요하다고 판단했다.
- 최고 성능:
yolov8m_img1792_fold1 - AP50-95:
0.1074
이 결과는 IoU 기준을 더 엄격하게 봤을 때는 yolov8m_img1792_fold1이 상대적으로 나쁘지 않았다는 뜻으로 볼 수 있다.
다만 precision이 낮아 실제 운영 관점에서 어떤 성향을 보일지는 별도 해석이 필요했다.
- AP50 기준으로는 가장 좋은 baseline이었다.
- precision과 recall 모두 Top3 내에서는 가장 균형적인 편이었다.
- 이후 Grounding DINO와 비교할 때도 대표 YOLO baseline으로 삼기 좋았다.
- precision이 가장 높았다.
- 대신 recall이 가장 낮아, 실제 포도송이 누락이 많을 가능성이 있다.
- "정밀하지만 덜 찾는 모델"에 가까운 성향으로 해석할 수 있다.
- AP50는 1위는 아니었지만 AP50-95는 가장 높았다.
- 더 엄격한 위치 정확도 기준에서는 장점이 있을 수 있다.
- 다만 precision이 상대적으로 낮아 오탐 관리 측면은 따로 봐야 했다.
이번 YOLO baseline 비교를 정리하면서 느낀 점은, 같은 계열의 모델이라도 "어떤 모델이 더 낫다"를 한 문장으로 정리하기가 생각보다 어렵다는 것이었다.
처음에는 가장 높은 점수 하나만 고르면 된다고 생각했지만, 실제로는 precision이 높은 모델과 AP50이 높은 모델, 그리고 위치 정확도 쪽에서 상대적으로 나은 모델이 서로 달랐다. 그래서 단순히 최고 점수 모델을 고르는 것보다, 우리 문제에서 무엇이 더 중요한지 먼저 정해야 한다는 점이 더 분명해졌다.
특히 드론 이미지 기반 포도송이 탐지에서는 작은 객체 누락이 수확량 추정 오차로 이어질 수 있기 때문에, precision만 보기보다 recall과 실제 누락 패턴을 더 중요하게 봐야 한다고 느꼈다.
현재 기준에서 보면 이전 YOLO baseline Top3는 모두 "기준선 역할"로는 의미가 있었지만, 그대로 최종 해법이라고 보기는 어렵다.
이유는 다음과 같다.
- recall이 전반적으로 낮아 실제 포도송이 누락이 클 가능성이 있다.
- 입력 해상도와 모델 크기를 바꿔도 small object 환경의 한계가 크게 남아 있다.
- 같은 YOLO 안에서도 모델별 강점이 달라, 단일 지표만으로 선택하기 어렵다.
즉 이 실험은 "YOLO가 안 된다"는 결론이라기보다, "YOLO를 우리 데이터에 맞춰 다시 학습시키면 어디를 보완해야 하는가"를 보여준 기준선이라고 보는 편이 맞다.
다음 단계에서는 단순히 이전 baseline보다 수치가 올랐는지만 보는 것이 아니라, 아래 항목을 더 중요하게 봐야 할 것 같다.
- 우리 데이터 재학습 후 recall이 실제로 얼마나 개선되는지
- precision을 크게 잃지 않으면서 AP50을 올릴 수 있는지
- 누락되는 포도송이 패턴이 특정 촬영 각도나 배경에 몰려 있는지
- 시각적으로 봤을 때 bbox 품질이 실제 카운팅 용도로 쓸 수 있을 정도인지
- split이나 fold에 따라 결과가 과하게 흔들리지 않는지
이전 YOLO baseline 비교 실험은 회사 자체 드론 데이터에 대해 어떤 YOLO 설정이 상대적으로 더 나은지 확인하기 위한 기준선 실험이었다.
현재 기록 기준으로 보면:
- 가장 균형적인 baseline:
yolov8m_img1280_fold4 - 가장 보수적인 예측 성향:
yolov8s_img1536_fold4 - 더 엄격한 IoU 기준에서 상대적으로 강점:
yolov8m_img1792_fold1
정리하면, 지금은 "정답 모델을 확정하는 단계"라기보다 "YOLO를 우리 데이터에 맞게 어떻게 다시 학습시키고, 어떤 지표를 중심으로 봐야 하는지 기준을 세우는 단계"에 더 가깝다.
그래서 추후에는 단순 성능 수치 하나보다, recall 개선과 실제 누락 감소가 함께 일어나는지를 가장 중요하게 볼 예정이다.
Deepvisions | AI Engineer 2026.03 ~ 재직중
2026.05 ~ | @ Deepvisions 캠퍼스 CCTV 4대 · 자전거 OCR + 차량 공회전 다중 신호
2026.04 ~ | @ Deepvisions 포도밭 침입 탐지 (5종 multi-class · 라즈베리파이 4 실시간)
2026.03 ~ | @ Deepvisions 드론 이미지 기반 객체 탐지 + GSD calibration + 수확량 예측
- 프로젝트 메인
- 관련 연구 종합 + 한계 (2026-05) ← 최신
- 수확량 close-up 4장 + 3-Model (2026-05-19)
- 드론 포도 수확량 예측 — 파이프라인 (2026-05)
- 드론 포도송이 탐지 — 학습 변천사 (2026-04)
- SAM3 vs Fine-tuned YOLO
- Grounding DINO vs YOLO Top3 비교 요약
- YOLO Baseline Top3 비교 요약
- YOLO Model Comparison Summary
- 포도 탐지를 위한 데이터 수집
- 포도 수확량 측정을 위한 Object Detection
2025.03 ~ 2025.08 | 카카오테크부트캠프 | ✅ 종료 AI 기반 데스크테리어 추천 서비스
- Name: Woody (이동재)
- Focus: Vision AI, LLM Integration, Backend Engineering
- GitHub: @ehdwo0427
- Email: ehdwo0427@naver.com
- 포트폴리오 : 포트폴리오