### 객체탐지

#### 개요
- 딥러닝의 CNN(외 RCNN 등)와 같은 알고리즘을 통해서 물체를 인식하여 표시하는 기술
- 자동차번호판 번호 인식, 화재경보, 교통사고인지, 이상행동파악 등...
- CCTV과 같이 접목해서 활용되는 경우가 아주 많음

#### 필요 라이브러리
- OpenCV - 최초 인텔에서 개발한 오픈소스 실시간 컴퓨터 비전 라이브러리
    - C/C++을 목표로 제작. 크로스 플랫폼    
    - 파이썬에 OpenCV가 적용되면서 활성화!
    - 카메라 인식 산업에서 대부분 사용되고 있음
    - C/C++에서 기본 동작코드 2~300줄이면 파이썬에선 10줄이내로 같은 작업을 할 수 있음

- YOLO(PyTorch)
    - Not You Only Live Once, You Only Look Once! 
    - 손쉽게 사용할 수 있는 실시간 객체 탐시 시스템
    - 2015년에 출시후 현재 2024년 현재 v8.0 
    - OpenCV만 가지고 작업하던 걸, YOLO로 넘어가는 추세

In [24]:
!pip install opencv-python



In [25]:
## Window, Mac 차이가 없음
## Raspbarry Pi는 최선버전에서 사용법이 변경되었음.
import cv2

In [26]:
## 이미지 로드
## 사막여우 == Fennec Fox
img = cv2.imread('./fennec_fox.png')

cv2.imshow('Fox', img)
cv2.waitKey(0)
cv2.destroyAllWindows()

In [27]:
## 현재 웹캠이 동작 안함
video_path = './Mumbai_traffic.mp4'

cap = cv2.VideoCapture(video_path) # 0~숫자는 카메라번호
cap.set(3, 640)
cap.set(4, 480)

while (cap.isOpened()):  ## True => (cap.isOpened())
    ret, img = cap.read() # 실시간으로 화면을 캡쳐 ret(결과정보객체), img(실시간이미지)
    if ret == True:
        cv2.imshow('youtube mpeg', img) ## 내부적으로 PyQt로 생성되는 GUI창

        if cv2.waitKey(1) == ord('q'): # 키보드 q를 클릭하면
            break
    else:
        break

cap.release() # 자원 해제
cv2.destroyAllWindows()

##### 이미지 처리

In [28]:
img = cv2.imread('./fennec_fox.png')

cv2.imshow('Original', img) ## 일반 이미지
# cv2.waitKey(0) 
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
height, width = img.shape[0], img.shape[1]
## 정수입력 width/2 => float 문제
half_img = cv2.resize(gray, (int(width/2), int(height/2)))
# cv2.imshow('Gray', gray) ## 흑백 변환
cv2.imshow('half', half_img)
cv2.waitKey(0) 

cv2.destroyAllWindows()

In [29]:
video_path = './Mumbai_traffic.mp4'

cap = cv2.VideoCapture(video_path) # 0~숫자는 카메라번호
cap.set(3, 640)
cap.set(4, 480)

while (cap.isOpened()):   
    ret, img = cap.read() # 실시간으로 화면을 캡쳐 ret(결과정보객체) 보통 사용하지 않아서 _로 변경, img(실시간이미지)
    if ret == True:
        # cv2.imshow('youtube mpeg', img) ## 내부적으로 PyQt로 생성되는 GUI창
        height, width = img.shape[0], img.shape[1]
        gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)  ## 컬러 -> 흑백으로
        half = cv2.resize(gray, (int(width/2), int(height/2))) ## 사이즈를 반으로 축소
        cv2.imshow('youtube gray', half)

        if cv2.waitKey(1) == ord('q'): # 키보드 q를 클릭하면
            break
    else:
        break

cap.release() # 자원 해제
cv2.destroyAllWindows()

- 포토샵등의 이미지, 프리미어등의 동영상 처리하는 프로그램에서 사용하는 거의 대부분의 기능이 OpenCV에 포함되어 있음

In [30]:
video_path = './mbc_news.mp4'

faceCascade = cv2.CascadeClassifier('./haarcascade_frontalface_default.xml')
cap = cv2.VideoCapture(video_path) # 0~숫자는 카메라번호

while (cap.isOpened()):    
    ret, img = cap.read() # 실시간으로 화면을 캡쳐 ret(결과정보객체) 보통 사용하지 않아서 _로 변경, img(실시간이미지)
    if ret == True:
        height, width = img.shape[0], img.shape[1]

        half = cv2.resize(img, (int(width/2), int(height/2)))

        # 얼굴인식
        faces = faceCascade.detectMultiScale(
            half,
            scaleFactor=2.0,
            minNeighbors=5,
            minSize=(10,10)
        )
        ## 찾은 얼굴 위치 표시
        for (x,y,w,h) in faces:
            cv2.rectangle(half,(x,y),(x+w,y+h),(0,255,255), 2)
            roi_color = half[y:y+h, x:x+w]

        cv2.imshow('youtube mpeg', half) ## 내부적으로 PyQt로 생성되는 GUI창

        if cv2.waitKey(1) == ord('q'): # 키보드 q를 클릭하면
            break
    
    else:
        break

cap.release() # 자원 해제
cv2.destroyAllWindows()

### YOLO 따라하기 
- You Only Look Once
- CNN을 기반으로 한 물체 감지 라이브러리 

- https://www.ultralytics.com/ko 참고 
- https://github.com/ultralytics/ultralytics

In [4]:
!pip install --upgrade pip




In [5]:
!pip uninstall ultralytics -y




In [32]:
# 콘솔창에서 테스트 하는 방법. 트레이닝한 이미지 처리 모델 
!yolo predict model=yolov8n.pt source='http://www.ultralytics.com/images/bus.jpg'

Ultralytics YOLOv8.2.76 🚀 Python-3.11.5 torch-2.4.0+cpu CPU (Intel Core(TM) i7-6700 3.40GHz)
YOLOv8n summary (fused): 168 layers, 3,151,904 parameters, 0 gradients, 8.7 GFLOPs

Found http://www.ultralytics.com/images/bus.jpg locally at bus.jpg
image 1/1 c:\Sources\Basic-Bigdata-2024\day08\bus.jpg: 640x480 11 persons, 7 bicycles, 42 cars, 4 motorcycles, 8 airplanes, 3 trains, 6 trucks, 62 boats, 1 traffic light, 1 fire hydrant, 3 parking meters, 9 benchs, 15 cats, 6 dogs, 11 horses, 3 sheeps, 1 cow, 10 backpacks, 4 umbrellas, 1 handbag, 10 suitcases, 3 frisbees, 1 skis, 1 snowboard, 1 surfboard, 5 knifes, 1 spoon, 2 apples, 5 donuts, 21 couchs, 28 beds, 11 dining tables, 3 mouses, 351.2ms
Speed: 6.0ms preprocess, 351.2ms inference, 32.1ms postprocess per image at shape (1, 3, 640, 480)
Results saved to [1mruns\detect\predict2[0m
💡 Learn more at https://docs.ultralytics.com/modes/predict


In [55]:
from ultralytics import YOLO

In [40]:
model = YOLO(model='./yolov8n.pt')

result = model('./KakaoTalk_20240812_151755471.jpg')
plots = result[0].plot()
height,width = plots.shape[0], plots.shape[1]
last = cv2.resize(plots,(800,450))
cv2.imshow('yolo',last)
cv2.waitKey(0)
cv2.destroyAllWindows()


image 1/1 c:\Sources\Basic-Bigdata-2024\day08\KakaoTalk_20240812_151755471.jpg: 384x640 12 persons, 1 car, 2 motorcycles, 2 airplanes, 1 truck, 6 boats, 14 stop signs, 2 parking meters, 2 benchs, 5 cats, 1 dog, 3 sheeps, 1 bear, 38 ties, 2 suitcases, 41 frisbees, 1 baseball glove, 2 bottles, 5 knifes, 2 apples, 5 pizzas, 3 donuts, 2 chairs, 10 couchs, 1 dining table, 1 laptop, 1 mouse, 2 remotes, 1 microwave, 321.0ms
Speed: 5.0ms preprocess, 321.0ms inference, 1.0ms postprocess per image at shape (1, 3, 384, 640)


안됩니다!ㅎㅎ 

In [None]:
## 실시간 기능, 동영상도 가능
classNames = [
    ["person", "bicycle", "car", "motorbike", "airplane", "bus", "train", "truck", "boat",
              "traffic light", "fire hydrant", "stop sign", "parking meter", "bench", "bird", "cat",
              "dog", "horse", "sheep", "cow", "elephant", "bear", "zebra", "giraffe", "backpack", "umbrella",
              "handbag", "tie", "suitcase", "frisbee", "skis", "snowboard", "sports ball", "kite", "baseball bat",
              "baseball glove", "skateboard", "surfboard", "tennis racket", "bottle", "wine glass", "cup",
              "fork", "knife", "spoon", "bowl", "banana", "apple", "sandwich", "orange", "broccoli",
              "carrot", "hot dog", "pizza", "donut", "cake", "chair", "sofa", "pottedplant", "bed",
              "diningtable", "toilet", "tvmonitor", "laptop", "mouse", "remote", "keyboard", "cell phone",
              "microwave", "oven", "toaster", "sink", "refrigerator", "book", "clock", "vase", "scissors",
              "teddy bear", "hair drier", "toothbrush"
              ]
]

In [47]:
import math

In [57]:
video_path = './Mumbai_traffic.mp4'

cap = cv2.VideoCapture(video_path) # 숫자는 cctv, 웹캠 등 실시간 영상 

while (cap.isOpened()):   
    ret, img = cap.read() 
    if ret == True:
        height, width = img.shape[0], img.shape[1]
        half = cv2.resize(img, (int(width/2),int(height/2)))

        #YOLO로 문제검출 시작
        result = model(half, stream=True)

        for result in result:
            boxes = result.boxes 

            for box in boxes:
                x1, y1, x2, y2 = box.xyxy[0]
                x1, y1, x2, y2 = int(x1), int(y1), int(x2), int(y2)

                cv2.rectangle(half, (x1,y1), (x2,y2), (0, 255, 255),2)


        cv2.imshow('YOLOv8', half)

        if cv2.waitKey(1) == ord('q'): 
            break
    else:
        break

cap.release()
cv2.destroyAllWindows()




0: 384x640 11 persons, 33 bicycles, 43 cars, 6 motorcycles, 1 train, 6 trucks, 3 boats, 1 traffic light, 30 fire hydrants, 12 stop signs, 16 parking meters, 13 benchs, 1 cat, 24 dogs, 18 horses, 3 sheeps, 6 cows, 8 elephants, 4 backpacks, 1 umbrella, 6 handbags, 1 suitcase, 10 frisbees, 4 sports balls, 17 surfboards, 1 bottle, 1 knife, 1 apple, 2 donuts, 5 couchs, 8 beds, 1 dining table, 1 cell phone, 2 clocks, 274.0ms
Speed: 2.0ms preprocess, 274.0ms inference, 22.0ms postprocess per image at shape (1, 3, 384, 640)

0: 384x640 19 persons, 5 bicycles, 38 cars, 14 motorcycles, 1 train, 4 boats, 3 traffic lights, 17 fire hydrants, 12 stop signs, 3 parking meters, 8 benchs, 1 bird, 42 cats, 3 dogs, 4 horses, 2 sheeps, 24 bears, 2 giraffes, 28 umbrellas, 16 handbags, 1 tie, 5 frisbees, 5 knifes, 4 bowls, 1 apple, 5 sandwichs, 1 donut, 1 potted plant, 20 beds, 3 dining tables, 1 toilet, 1 laptop, 1 mouse, 1 cell phone, 3 sinks, 1 teddy bear, 277.0ms
Speed: 2.0ms preprocess, 277.0ms inferenc