# Yolo

**YOLO(You Only Look Once)**는 객체 탐지(Object Detection)를 수행하는 실시간 딥러닝 모델로, 이미지나 비디오에서 객체의 **위치**와 **종류**를 동시에 예측할 수 있다. YOLO는 객체 탐지를 단일 신경망 패스로 수행하며, 기존의 슬라이딩 윈도우 방식이나 영역 제안(region proposal) 기반 모델에 비해 빠르고 효율적이다.

- **단일 패스 처리**: 이미지를 한 번만 보고 모든 객체를 탐지한다
- **실시간 처리**: 빠른 속도로 영상 처리가 가능하다
- **통합 네트워크**: 분류와 위치 추정을 동시에 수행한다

**작동 원리:**

**1단계: 이미지 분할**
- 입력 이미지를 그리드(grid)로 나눈다
- 예: 7x7 또는 13x13 그리드로 분할한다

**2단계: 경계 상자 예측**
- 각 그리드 셀이 여러 개의 경계 상자(bounding box)를 예측한다
- 각 상자는 (x, y, width, height, confidence) 정보를 포함한다

**3단계: 클래스 확률 계산**
- 각 그리드 셀이 객체 클래스 확률을 계산한다
- 예: 사람(0.9), 자동차(0.1), 개(0.05) 등

**4단계: 최종 결과 생성**
- 신뢰도가 높은 예측만 선택한다
- 중복된 예측은 NMS(Non-Maximum Suppression)로 제거한다


**YOLO의 주요 활용 분야:**

1. **자율주행**  
   - 차량 주변의 보행자, 차량, 도로 표지판 등을 실시간으로 감지.

2. **보안 및 감시**  
   - CCTV 영상에서 침입자 감지, 이상 행동 탐지.

3. **의료 영상 분석**  
   - X-ray나 MRI 이미지에서 병변 탐지.

4. **리테일 분석**  
   - 매장에서 고객 행동 분석, 상품 식별.

**YOLO와 다른 객체 탐지 모델 비교**

| **특징**               | **YOLO**                          | **Faster R-CNN**               | **SSD(Single Shot Detector)**   |
|------------------------|------------------------------------|---------------------------------|----------------------------------|
| **처리 속도**          | 매우 빠름 (실시간 가능)            | 느림                            | 중간                             |
| **정확도**             | 높음 (특히 최신 버전)             | 매우 높음                       | 높음                             |
| **구조**               | 단일 단계 (End-to-End)            | 두 단계 (Region Proposal + Detection) | 단일 단계                        |
| **복잡도**             | 낮음                              | 높음                            | 낮음                             |


## Yolo v11 객체탐지

https://docs.ultralytics.com/tasks/detect/


![](https://ultralytics.com/images/bus.jpg)

In [3]:
%pip install ultralytics

Note: you may need to restart the kernel to use updated packages.


In [4]:
from ultralytics import YOLO

model = YOLO('yolo11n.pt')  # 사전학습된 yolo11n 가중치 파일로 모델 로드
model

YOLO(
  (model): DetectionModel(
    (model): Sequential(
      (0): Conv(
        (conv): Conv2d(3, 16, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
        (bn): BatchNorm2d(16, eps=0.001, momentum=0.03, affine=True, track_running_stats=True)
        (act): SiLU(inplace=True)
      )
      (1): Conv(
        (conv): Conv2d(16, 32, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
        (bn): BatchNorm2d(32, eps=0.001, momentum=0.03, affine=True, track_running_stats=True)
        (act): SiLU(inplace=True)
      )
      (2): C3k2(
        (cv1): Conv(
          (conv): Conv2d(32, 32, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn): BatchNorm2d(32, eps=0.001, momentum=0.03, affine=True, track_running_stats=True)
          (act): SiLU(inplace=True)
        )
        (cv2): Conv(
          (conv): Conv2d(48, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (bn): BatchNorm2d(64, eps=0.001, momentum=0.03, affine=True, track_running_

In [5]:
# 이미지 URL을 읿력으로 객체탐지 추론 실행
results = model('https://ultralytics.com/images/bus.jpg')

# 새 창으로 이미지 열림
results[0].show()   

# 이미지 저장
results[0].save(filename='results/bus.jpg')



Found https://ultralytics.com/images/bus.jpg locally at bus.jpg
image 1/1 /Users/jy/SKN23/multimodal/01_cnn/bus.jpg: 640x480 4 persons, 1 bus, 72.5ms
Speed: 6.1ms preprocess, 72.5ms inference, 7.4ms postprocess per image at shape (1, 3, 640, 480)


'results/bus.jpg'

In [6]:
# 물체 감지의 핵심 정보
results[0].boxes

ultralytics.engine.results.Boxes object with attributes:

cls: tensor([5., 0., 0., 0., 0.])
conf: tensor([0.9402, 0.8882, 0.8783, 0.8558, 0.6219])
data: tensor([[3.8328e+00, 2.2936e+02, 7.9619e+02, 7.2841e+02, 9.4015e-01, 5.0000e+00],
        [6.7102e+02, 3.9483e+02, 8.0981e+02, 8.7871e+02, 8.8822e-01, 0.0000e+00],
        [4.7405e+01, 3.9957e+02, 2.3930e+02, 9.0419e+02, 8.7825e-01, 0.0000e+00],
        [2.2306e+02, 4.0869e+02, 3.4447e+02, 8.6044e+02, 8.5577e-01, 0.0000e+00],
        [2.1726e-02, 5.5607e+02, 6.8885e+01, 8.7236e+02, 6.2192e-01, 0.0000e+00]])
id: None
is_track: False
orig_shape: (1080, 810)
shape: torch.Size([5, 6])
xywh: tensor([[400.0137, 478.8882, 792.3618, 499.0480],
        [740.4135, 636.7728, 138.7925, 483.8793],
        [143.3527, 651.8801, 191.8959, 504.6298],
        [283.7633, 634.5622, 121.4087, 451.7471],
        [ 34.4536, 714.2139,  68.8637, 316.2906]])
xywhn: tensor([[0.4938, 0.4434, 0.9782, 0.4621],
        [0.9141, 0.5896, 0.1713, 0.4480],
        [0.17

- cls: 각 박스의 클래스 id(정수 라벨). 예: 0=person, 5=bus(보통 COCO 기준)
- conf: 각 박스의 신뢰도 점수(0~1). 높을수록 더 확신.
- data: 박스 정보를 한 번에 담은 텐서. 보통 [x1, y1, x2, y2, conf, cls] 형태로 행이 박스 1개.
- id: **트래킹(track)**을 쓸 때 객체 id가 들어감. 지금은 None(트래킹 안 함).
- is_track: 현재 결과가 트래킹 결과인지 여부. False면 단순 탐지.
- orig_shape: 원본 이미지 크기 (H, W).
- shape: data 텐서의 크기. 예: [5, 6]이면 박스 5개, 각 박스당 값 6개.
- xyxy: 박스 좌표를 (x1, y1, x2, y2)(좌상단/우하단) 픽셀 기준으로 제공.
- xywh: 박스 좌표를 (x_center, y_center, width, height) 픽셀 기준으로 제공.
- xyxyn: xyxy를 정규화(0~1) 한 값(이미지 너비/높이로 나눈 좌표).
- xywhn: xywh를 정규화(0~1) 한 값.

In [7]:
%pip install gdown

Note: you may need to restart the kernel to use updated packages.


In [8]:
# https://drive.google.com/file/d/1tMZODkkNA-ypSuxmGTZgthTG8b3JgFRD
# Google Drive 파일 ID로 파일 다운로드 실행
!gdown 1tMZODkkNA-ypSuxmGTZgthTG8b3JgFRD 

Downloading...
From: https://drive.google.com/uc?id=1tMZODkkNA-ypSuxmGTZgthTG8b3JgFRD
To: /Users/jy/SKN23/multimodal/01_cnn/Night_Day_Chase.mp4
100%|██████████████████████████████████████| 23.4M/23.4M [00:00<00:00, 34.4MB/s]


In [9]:
video_path = 'Night_Day_Chase.mp4'

# 비디오 프레임별 객체 탐지 수행 + 결과 자동 저장
results = model(video_path, save=True)  


Inference results will accumulate in RAM unless `stream=True` is passed, which can cause out-of-memory errors for large
sources or long-running streams and videos. See https://docs.ultralytics.com/modes/predict/ for help.

Example:
    results = model(source=..., stream=True)  # generator of Results objects
    for r in results:
        boxes = r.boxes  # Boxes object for bbox outputs
        masks = r.masks  # Masks object for segment masks outputs
        probs = r.probs  # Class probabilities for classification outputs

video 1/1 (frame 1/1383) /Users/jy/SKN23/multimodal/01_cnn/Night_Day_Chase.mp4: 288x640 2 persons, 1 motorcycle, 38.7ms
video 1/1 (frame 2/1383) /Users/jy/SKN23/multimodal/01_cnn/Night_Day_Chase.mp4: 288x640 2 persons, 1 motorcycle, 49.2ms
video 1/1 (frame 3/1383) /Users/jy/SKN23/multimodal/01_cnn/Night_Day_Chase.mp4: 288x640 2 persons, 1 motorcycle, 48.9ms
video 1/1 (frame 4/1383) /Users/jy/SKN23/multimodal/01_cnn/Night_Day_Chase.mp4: 288x640 2 persons, 1 motorcycl

In [13]:
import cv2                          # OpenCV 라이브러리 임포트
import numpy as np                   # numpy 라이브러리 임포트 
from ultralytics import YOLO        # YOLO 모델 라이브러리 임포트

model = YOLO('yolo11n.pt')          # 사전 학습된 YOLO11n 모델 로드

def get_colors(num_colors):         # 클래스별 고유 색상을 생성하는 함수 정의
    np.random.seed(0)               # 동일한 색상 생성을 위해 랜덤 시드 고정
    return [tuple(np.random.randint(0, 255, 3).tolist()) for _ in range(num_colors)]

class_names = model.names           # 모델의 클래스 이름 목록 가져오기
num_classes = len(class_names)      # 전체 클래스 개수 계산
colors = get_colors(num_classes)    # 클래스 개수만큼 색상 리스트 할당
print(class_names)                  # 클래스 목록 출력 확인

def detect_objects(image: np.array):                # 객체 탐지 및 시각화 함수 정의
    results = model(image, verbose=False)           # 이미지에 대해 추론 수행 (로그 미출력)
    class_names = model.names                       # 모델 클래스 이름 참조

    for result in results:                          # 탐지 결과 객체 순회
        boxes = result.boxes.xyxy                   # 바운딩 박스 좌표 (x1, y1, x2, y2)
        confs = result.boxes.conf                   # 탐지 신뢰도 점수
        cls = result.boxes.cls                       # 클래스 인덱스 번호
        
        for box, confidence, class_id in zip(boxes, confs, cls):
            x1, y1, x2, y2 = map(int, box)          # 좌표를 정수형으로 변환
            label = class_names[int(class_id)]      # 인덱스에 맞는 클래스 이름 추출
            color = colors[int(class_id)]           # 클래스 전용 색상 선택
            
            # 이미지에 객체 사각형 그리기
            cv2.rectangle(image, (x1, y1), (x2, y2), color, 2)
            
            # 이미지에 라벨 및 신뢰도 텍스트 작성
            cv2.putText(
                image, 
                f'{label} {confidence:.2f}',        # 출력 텍스트 포맷
                (x1, y1 - 10),                      # 텍스트 위치 (박스 상단)
                cv2.FONT_HERSHEY_SIMPLEX,           # 폰트 종류
                0.6, color, 2                       # 폰트 크기, 색상, 두께 설정
            )
    return image                                    # 탐지 결과가 그려진 이미지 반환

cap = cv2.VideoCapture(1)                           # 카메라 캡처 객체 생성 (장치 인덱스 1번)
if not cap.isOpened():                              # 카메라 초기화 실패 시 처리
    print('카메라를 찾을 수 없습니다.')

while cap.isOpened():                               # 카메라가 정상적으로 열려 있는 동안 반복
    ret, frame = cap.read()                         # 카메라로부터 한 프레임 읽기
    if not ret:                                     # 프레임을 읽어오지 못한 경우 종료
        break

    result_image = detect_objects(frame)            # 객체 탐지 함수 수행 및 결과 이미지 획득

    cv2.imshow('YOLO Real-time Detection', result_image) # 결과 이미지 표시

    if cv2.waitKey(1) & 0xFF == ord('q'):           # 'q' 키 입력 시 루프 종료
        break

cap.release()                                       # 비디오 캡처 객체 자원 해제
cv2.destroyAllWindows()                             # 생성된 모든 OpenCV 창 닫기
cv2.waitKey(1)                                      # 창 닫기 후 프로세스 동기화 대기

{0: 'person', 1: 'bicycle', 2: 'car', 3: 'motorcycle', 4: 'airplane', 5: 'bus', 6: 'train', 7: 'truck', 8: 'boat', 9: 'traffic light', 10: 'fire hydrant', 11: 'stop sign', 12: 'parking meter', 13: 'bench', 14: 'bird', 15: 'cat', 16: 'dog', 17: 'horse', 18: 'sheep', 19: 'cow', 20: 'elephant', 21: 'bear', 22: 'zebra', 23: 'giraffe', 24: 'backpack', 25: 'umbrella', 26: 'handbag', 27: 'tie', 28: 'suitcase', 29: 'frisbee', 30: 'skis', 31: 'snowboard', 32: 'sports ball', 33: 'kite', 34: 'baseball bat', 35: 'baseball glove', 36: 'skateboard', 37: 'surfboard', 38: 'tennis racket', 39: 'bottle', 40: 'wine glass', 41: 'cup', 42: 'fork', 43: 'knife', 44: 'spoon', 45: 'bowl', 46: 'banana', 47: 'apple', 48: 'sandwich', 49: 'orange', 50: 'broccoli', 51: 'carrot', 52: 'hot dog', 53: 'pizza', 54: 'donut', 55: 'cake', 56: 'chair', 57: 'couch', 58: 'potted plant', 59: 'bed', 60: 'dining table', 61: 'toilet', 62: 'tv', 63: 'laptop', 64: 'mouse', 65: 'remote', 66: 'keyboard', 67: 'cell phone', 68: 'microw

OpenCV: camera access has been denied. Either run 'tccutil reset Camera' command in same terminal to reset application authorization status, either modify 'System Preferences -> Security & Privacy -> Camera' settings for your application.
OpenCV: camera failed to properly initialize!


-1