### 객체탐지

#### 개요
- 딥러닝의 CNN(외 RCNN 등)와 같은 알고리즘을 통해서 물체를 인식하여 표시하는 기술
- 자동차번호판 번호 인식, 화재경보, 교통사고인지, 이상행동파악 등...
- CCTV과 같이 접목해서 활용되는 경우가 아주 많음

#### 필요 라이브러리
- OpenCV - 최초 인텔에서 개발한 오픈소스 실시간 컴퓨터 비전 라이브러리
    - C/C++을 목표로 제작. 크로스 플랫폼    
    - 파이썬에 OpenCV가 적용되면서 활성화!
    - 카메라 인식 산업에서 대부분 사용되고 있음
    - C/C++에서 기본 동작코드 2~300줄이면 파이썬에선 10줄이내로 같은 작업을 할 수 있음

- YOLO(PyTorch)
    - Not You Only Live Once, You Only Look Once! 
    - 손쉽게 사용할 수 있는 실시간 객체 탐시 시스템
    - 2015년에 출시후 현재 2024년 현재 v8.0 
    - OpenCV만 가지고 작업하던 걸, YOLO로 넘어가는 추세

In [1]:
!pip install opencv-python



In [6]:
## Window, Mac 차이가 없음
## Raspbarry Pi는 최선버전에서 사용법이 변경되었음.
import cv2

In [7]:
## 이미지 로드
## 사막여우 == Fennec Fox
img = cv2.imread('./fennec_fox.png')

cv2.imshow('Fox', img)
cv2.waitKey(0)
cv2.destroyAllWindows()

In [8]:
## 현재 웹캠이 동작 안함
video_path = './Mumbai_traffic.mp4'

cap = cv2.VideoCapture(video_path) # 0~숫자는 카메라번호
cap.set(3, 640)
cap.set(4, 480)

while (cap.isOpened()):  ## True => (cap.isOpened())
    ret, img = cap.read() # 실시간으로 화면을 캡쳐 ret(결과정보객체), img(실시간이미지)
    if ret == True:
        cv2.imshow('youtube mpeg', img) ## 내부적으로 PyQt로 생성되는 GUI창

        if cv2.waitKey(1) == ord('q'): # 키보드 q를 클릭하면
            break
    else:
        break

cap.release() # 자원 해제
cv2.destroyAllWindows()

##### 이미지 처리

In [9]:
img = cv2.imread('./fennec_fox.png')

cv2.imshow('Original', img) ## 일반 이미지
# cv2.waitKey(0) 
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
height, width = img.shape[0], img.shape[1]
## 정수입력 width/2 => float 문제
half_img = cv2.resize(gray, (int(width/2), int(height/2)))
# cv2.imshow('Gray', gray) ## 흑백 변환
cv2.imshow('half', half_img)
cv2.waitKey(0) 

cv2.destroyAllWindows()

In [10]:
video_path = './Mumbai_traffic.mp4'

cap = cv2.VideoCapture(video_path) # 0~숫자는 카메라번호
cap.set(3, 640)
cap.set(4, 480)

while (cap.isOpened()):   
    ret, img = cap.read() # 실시간으로 화면을 캡쳐 ret(결과정보객체) 보통 사용하지 않아서 _로 변경, img(실시간이미지)
    if ret == True:
        # cv2.imshow('youtube mpeg', img) ## 내부적으로 PyQt로 생성되는 GUI창
        height, width = img.shape[0], img.shape[1]
        gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)  ## 컬러 -> 흑백으로
        half = cv2.resize(gray, (int(width/2), int(height/2))) ## 사이즈를 반으로 축소
        cv2.imshow('youtube gray', half)

        if cv2.waitKey(1) == ord('q'): # 키보드 q를 클릭하면
            break
    else:
        break

cap.release() # 자원 해제
cv2.destroyAllWindows()

- 포토샵등의 이미지, 프리미어등의 동영상 처리하는 프로그램에서 사용하는 거의 대부분의 기능이 OpenCV에 포함되어 있음

In [8]:
video_path = './mbc_news.mp4'

faceCascade = cv2.CascadeClassifier('./haarcascade_frontalface_default.xml')
cap = cv2.VideoCapture(video_path) # 0~숫자는 카메라번호

while (cap.isOpened()):    
    ret, img = cap.read() # 실시간으로 화면을 캡쳐 ret(결과정보객체) 보통 사용하지 않아서 _로 변경, img(실시간이미지)
    if ret == True:
        height, width = img.shape[0], img.shape[1]

        half = cv2.resize(img, (int(width/2), int(height/2)))

        # 얼굴인식
        faces = faceCascade.detectMultiScale(
            half,
            scaleFactor=2.0,
            minNeighbors=5,
            minSize=(10,10)
        )
        ## 찾은 얼굴 위치 표시
        for (x,y,w,h) in faces:
            cv2.rectangle(half,(x,y),(x+w,y+h),(0,255,255), 2)
            roi_color = half[y:y+h, x:x+w]

        cv2.imshow('youtube mpeg', half) ## 내부적으로 PyQt로 생성되는 GUI창

        if cv2.waitKey(1) == ord('q'): # 키보드 q를 클릭하면
            break
    
    else:
        break

cap.release() # 자원 해제
cv2.destroyAllWindows()

##### YOLO
- You Only Look Once - CNN 기반으로 한 물체 감지 라이브러리
- https://www.ultralytics.com/ko
- https://github.com/ultralytics/ultralytics

In [9]:
# YOlO 설치
!pip install ultralytics

Collecting ultralytics
  Downloading ultralytics-8.2.76-py3-none-any.whl.metadata (41 kB)
Collecting pyyaml>=5.3.1 (from ultralytics)
  Downloading PyYAML-6.0.2-cp312-cp312-win_amd64.whl.metadata (2.1 kB)
Collecting scipy>=1.4.1 (from ultralytics)
  Downloading scipy-1.14.0-cp312-cp312-win_amd64.whl.metadata (60 kB)
Collecting torch>=1.8.0 (from ultralytics)
  Downloading torch-2.4.0-cp312-cp312-win_amd64.whl.metadata (27 kB)
Collecting torchvision>=0.9.0 (from ultralytics)
  Downloading torchvision-0.19.0-1-cp312-cp312-win_amd64.whl.metadata (6.1 kB)
Collecting py-cpuinfo (from ultralytics)
  Downloading py_cpuinfo-9.0.0-py3-none-any.whl.metadata (794 bytes)
Collecting ultralytics-thop>=2.0.0 (from ultralytics)
  Downloading ultralytics_thop-2.0.0-py3-none-any.whl.metadata (8.5 kB)
Collecting sympy (from torch>=1.8.0->ultralytics)
  Downloading sympy-1.13.2-py3-none-any.whl.metadata (12 kB)
Collecting networkx (from torch>=1.8.0->ultralytics)
  Downloading networkx-3.3-py3-none-any.wh

In [1]:
## 콘솔창에서 테스트하는 방법
!yolo predict model=yolov8s.pt source='https://ultralytics.com/images/bus.jpg'

Downloading https://github.com/ultralytics/assets/releases/download/v8.2.0/yolov8s.pt to 'yolov8s.pt'...
Ultralytics YOLOv8.2.76 🚀 Python-3.11.9 torch-2.4.0+cu124 CUDA:0 (NVIDIA GeForce GTX 1650, 4096MiB)
YOLOv8s summary (fused): 168 layers, 11,156,544 parameters, 0 gradients, 28.6 GFLOPs

Found https://ultralytics.com/images/bus.jpg locally at bus.jpg
image 1/1 c:\Sources\Iot-bigdata-2024\day8\bus.jpg: 640x480 4 persons, 1 bus, 28.7ms
Speed: 2.7ms preprocess, 28.7ms inference, 65.7ms postprocess per image at shape (1, 3, 640, 480)
Results saved to [1mruns\detect\predict[0m
💡 Learn more at https://docs.ultralytics.com/modes/predict



  0%|          | 0.00/21.5M [00:00<?, ?B/s]
  6%|▌         | 1.25M/21.5M [00:00<00:01, 12.5MB/s]
 12%|█▏        | 2.50M/21.5M [00:00<00:01, 12.1MB/s]
 17%|█▋        | 3.75M/21.5M [00:00<00:01, 12.0MB/s]
 23%|██▎       | 5.00M/21.5M [00:00<00:01, 11.9MB/s]
 29%|██▉       | 6.25M/21.5M [00:00<00:01, 11.8MB/s]
 35%|███▍      | 7.50M/21.5M [00:00<00:01, 11.9MB/s]
 41%|████      | 8.75M/21.5M [00:00<00:01, 11.8MB/s]
 46%|████▋     | 10.0M/21.5M [00:00<00:01, 11.8MB/s]
 52%|█████▏    | 11.2M/21.5M [00:00<00:00, 11.7MB/s]
 57%|█████▋    | 12.4M/21.5M [00:01<00:00, 11.7MB/s]
 63%|██████▎   | 13.5M/21.5M [00:01<00:00, 11.6MB/s]
 68%|██████▊   | 14.8M/21.5M [00:01<00:00, 11.7MB/s]
 74%|███████▎  | 15.9M/21.5M [00:01<00:00, 11.7MB/s]
 79%|███████▉  | 17.0M/21.5M [00:01<00:00, 11.7MB/s]
 84%|████████▍ | 18.1M/21.5M [00:01<00:00, 11.7MB/s]
 89%|████████▉ | 19.2M/21.5M [00:01<00:00, 11.6MB/s]
 95%|█████████▍| 20.4M/21.5M [00:01<00:00, 11.6MB/s]
100%|██████████| 21.5M/21.5M [00:01<00:00, 11.7MB/s]
1

In [5]:
from ultralytics import YOLO

In [4]:
# 이미지와 openCV 물체감지
model = YOLO(model='./yolov8n.pt')

result = model('./20240812_151755471.jpg')
plots = result[0].plot()
last = cv2.resize(plots, (800, 450))
cv2.imshow('yolo', last)
cv2.waitKey(0)
cv2.destroyAllWindows()

Downloading https://github.com/ultralytics/assets/releases/download/v8.2.0/yolov8n.pt to 'yolov8n.pt'...


100%|██████████| 6.25M/6.25M [00:00<00:00, 11.0MB/s]



image 1/1 c:\Sources\Iot-bigdata-2024\day8\20240812_151755471.jpg: 384x640 1 bottle, 1 cup, 1 bowl, 1 tv, 1 mouse, 32.4ms
Speed: 4.0ms preprocess, 32.4ms inference, 75.0ms postprocess per image at shape (1, 3, 384, 640)


NameError: name 'cv2' is not defined

In [20]:
!pip install git+https://github.com/ultralytics/ultralytics.git@main

Collecting git+https://github.com/ultralytics/ultralytics.git@main
  Cloning https://github.com/ultralytics/ultralytics.git (to revision main) to c:\users\user\appdata\local\temp\pip-req-build-ri2pcmja
  Resolved https://github.com/ultralytics/ultralytics.git to commit 63e26e1fc8a2f96199c9ae6ecb26c13ba880a072
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'done'
  Preparing metadata (pyproject.toml): started
  Preparing metadata (pyproject.toml): finished with status 'done'
Building wheels for collected packages: ultralytics
  Building wheel for ultralytics (pyproject.toml): started
  Building wheel for ultralytics (pyproject.toml): finished with status 'done'
  Created wheel for ultralytics: filename=ultralytics-8.2.76-py3-none-any.whl size=870460 sha256=abb5a28b2e028e259261d9421371028c63a6c16953da8dfd1928e0ea0658f3b4
  Store

  Running command git clone --filter=blob:none --quiet https://github.com/ultralytics/ultralytics.git 'C:\Users\user\AppData\Local\Temp\pip-req-build-ri2pcmja'


In [27]:
## 실시간 가능 , 동영상도 가능
classNames =["person", "bicycle", "car", "motorbike", "aeroplane", "bus", "train", "truck", "boat",
              "traffic light", "fire hydrant", "stop sign", "parking meter", "bench", "bird", "cat",
              "dog", "horse", "sheep", "cow", "elephant", "bear", "zebra", "giraffe", "backpack", "umbrella",
              "handbag", "tie", "suitcase", "frisbee", "skis", "snowboard", "sports ball", "kite", "baseball bat",
              "baseball glove", "skateboard", "surfboard", "tennis racket", "bottle", "wine glass", "cup",
              "fork", "knife", "spoon", "bowl", "banana", "apple", "sandwich", "orange", "broccoli",
              "carrot", "hot dog", "pizza", "donut", "cake", "chair", "sofa", "pottedplant", "bed",
              "diningtable", "toilet", "tvmonitor", "laptop", "mouse", "remote", "keyboard", "cell phone",
              "microwave", "oven", "toaster", "sink", "refrigerator", "book", "clock", "vase", "scissors",
              "teddy bear", "hair drier", "toothbrush"
              ]

In [35]:
video_path = './Mumbai_traffic.mp4'

cap = cv2.VideoCapture(video_path) # 0~숫자는 CCTV , 웹캠 등 실시간 영상

while (cap.isOpened()):  
    ret, img = cap.read() 
    if ret == True:
        height, width = img.shape[0], img.shape[1]
        half= cv2.resize(img,(int(width/2) , int(height/2)))
        # YOLO로 물체검출 시작 
        results = model(half, stream = True)

        # 결과표시 like OpenCV 얼굴 검출
        for result in results:
            last = result.plot()
            
        cv2.imshow('YOLOv8' , last)

        if cv2.waitKey(1) == ord('q'): # 키보드 q를 클릭하면
            break
    else:
        break

cap.release() # 자원 해제
cv2.destroyAllWindows()




0: 384x640 5 persons, 13 cars, 44 airplanes, 4 buss, 6 trains, 60 boats, 4 traffic lights, 5 fire hydrants, 10 stop signs, 7 birds, 2 cats, 6 dogs, 3 horses, 2 sheeps, 4 cows, 13 bears, 2 zebras, 6 giraffes, 12 umbrellas, 1 tie, 1 frisbee, 2 baseball gloves, 1 wine glass, 20 spoons, 8 apples, 1 orange, 3 cakes, 2 couchs, 2 potted plants, 7 beds, 42 dining tables, 2 keyboards, 207.9ms
Speed: 2.0ms preprocess, 207.9ms inference, 12.4ms postprocess per image at shape (1, 3, 384, 640)

0: 384x640 19 persons, 7 bicycles, 20 cars, 1 airplane, 5 buss, 7 trains, 1 truck, 6 boats, 11 traffic lights, 10 fire hydrants, 96 stop signs, 32 parking meters, 1 bench, 7 cows, 2 zebras, 2 umbrellas, 1 handbag, 4 ties, 2 frisbees, 5 sports balls, 1 baseball bat, 1 tennis racket, 2 bottles, 11 wine glasss, 7 forks, 1 spoon, 4 couchs, 10 mouses, 10 remotes, 1 oven, 1 sink, 10 clocks, 2 vases, 161.7ms
Speed: 4.0ms preprocess, 161.7ms inference, 12.5ms postprocess per image at shape (1, 3, 384, 640)

0: 384x6

In [34]:
## 영상으로 저장하기 

video_path = './Mumbai_traffic.mp4'

cap = cv2.VideoCapture(video_path) # 0~숫자는 카메라번호
cap.set(3, 640)
cap.set(4, 480)

while (cap.isOpened()):  ## True => (cap.isOpened())
    ret, img = cap.read() # 실시간으로 화면을 캡쳐 ret(결과정보객체), img(실시간이미지)
    if ret == True:
        cv2.imshow('youtube mpeg', img) ## 내부적으로 PyQt로 생성되는 GUI창

        if cv2.waitKey(1) == ord('q'): # 키보드 q를 클릭하면
            break
    else:
        break

cap.release() # 자원 해제
cv2.destroyAllWindows()