### 객체탐지

#### 개요
- 딥러닝의 CNN(외 RCNN 등 여러 알고리즘)와 같은 알고리즘을 통해서 물체를 인식하여 표시하는 기술
- 자동차번호판 번호 인식, 화재경보, 교통사고 인지, 이상행동 파악 등...
- CCTV와 같이 접목해서 활용되는 경우가 아주 많음

#### 필요 라이브러리
- OpenCV - 최초 인텔에서 개발한 오픈소스 실시간 컴퓨터 비전 라이브러리
    - C/C++을 목표로 제작. 크로스 플랫폼
    - 파이썬에 OpenCV가 적용되면서 활성화!
    - 카메라 인식 산업에서 대부분 사용되고 있음
    - C/C++에서 기본 동작코드 2~300줄이면 파이썬에선 10줄이내로 같은 작업을 할 수 있음

- YOLO(PyTorch)
    - Not You Only Live Once You Only Look Once!
    - 손쉽게 사용할 수 있는 실시간 객체 탐지 시스템
    - 2015년에 출시 후 현재 2024년 현재 V8.0
    - OpenCV만 가지고 작업하던걸, YOLO로 넘어가는 추세

In [None]:
!pip install opencv-python

In [7]:
## Window, Mac 전혀 차이가 없음
## Raspberry Pi는 최신버전에서 사용법이 변경되었음
import cv2

In [2]:
## 이미지 로드
## 사막여우는 fennec_fox
img = cv2.imread('./fennec_fox.png')

cv2.imshow('Fox', img)
cv2.waitKey(0)
cv2.destroyAllWindows()

In [None]:
## 현재 웹캠이 동작 안함
video_path = './Mumbai_trafic.mp4'

cap = cv2.VideoCapture(video_path)
cap.set(3, 640)
cap.set(4, 480)

while True:
    _, img = cap.read() # 실시간으로 화면을 캡쳐 ret(결과정보객체)은 보통 사용하지 않아서 _로 변경, img(실시간 이미지)
    cv2.imshow('youtube mpeg', img) ## 내부적으로 PyQt로 생성되는 GUI창

    if cv2.waitKey(1) == ord('q'): # 키보드 q를 클릭하면
        break

cap.release() # 자원 해제
cv2.destroyAllWindows()

#### 이미지 처리

In [None]:
img = cv2.imread('./fennec_fox.png')

cv2.imshow('Original', img) ## 일반 이미지
# cv2.waitKey(0) ## 일반 이미지
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
height, width = img.shape[0], img.shape[1]
## 정수 입력 width/2 => float 문제
half_img = cv2.resize(gray,(int(width/2), int(height/2)))
# cv2.imshow('Gray', gray) ## 흑백으로 변환
cv2.imshow('half', half_img)
cv2.waitKey(0) 

cv2.destroyAllWindows()

In [3]:
video_path = './Mumbai_trafic.mp4'

cap = cv2.VideoCapture(video_path) # 0 ~ 숫자는 카메라 번호
cap.set(3, 640)
cap.set(4, 480)

while True:
    _, img = cap.read() # 실시간으로 화면을 캡쳐 ret(결과정보객체)은 보통 사용하지 않아서 _로 변경, img(실시간 이미지)
    # cv2.imshow('youtube mpeg', img) ## 내부적으로 PyQt로 생성되는 GUI창
    height, width = img.shape[0], img.shape[1]
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) ## 컬러 -> 흑백으로
    half = cv2.resize(gray,(int(width/2), int(height/2)))   ## 사이즈를 반으로 축소
    cv2.imshow('youtube gray', half)

    if cv2.waitKey(1) == ord('q'): # 키보드 q를 클릭하면
        break

cap.release() # 자원 해제
cv2.destroyAllWindows()

- 포토샵 등의 이미지, 프리미어 등의 동영상 처리하는 프로그램에서 사용하는 거의 대부분의 기능이 OpenCV에 포함되어 있음

In [3]:
video_path = './mbc_news.mp4'

faceCascade = cv2.CascadeClassifier('./haarcascade_frontalface_default.xml')
cap = cv2.VideoCapture(video_path) # 0 ~ 숫자는 카메라 번호

while True:
    ret, img = cap.read() # 실시간으로 화면을 캡쳐 ret(결과정보객체)은 보통 사용하지 않아서 _로 변경, img(실시간 이미지)
    if not ret:
        continue
    
    height, width = img.shape[0], img.shape[1]

    half = cv2.resize(img, (int(width/2), int(height/2)))

    # 얼굴인식
    faces = faceCascade.detectMultiScale(
        half,
        scaleFactor=1.2,
        minNeighbors=5,
        minSize=(10, 10)
    )

    # 찾은 얼굴 위치 표시
    for (x,y,w,h) in faces:
        cv2.rectangle(half,(x,y),(x+w,y+h),(0,255,255), 2)
        roi_color = half[y:y+h, x:x+w]

    cv2.imshow('youtube mpeg', half) ## 내부적으로 PyQt로 생성되는 GUI창

    if cv2.waitKey(1) == ord('q'): # 키보드 q를 클릭하면
        break

cap.release() # 자원 해제
cv2.destroyAllWindows()

#### pytube
- 유튜브 컨텐츠, 메타데이터 검색 라이브러리

- 완전 스트리밍 라이브러리 python-ffmpeg-video-streaming 등은 사용 비용 발생

In [None]:
!pip install pytube

In [None]:
## pafy 설치
!pip install pafy

In [None]:
!pip install youtube_dl

In [5]:
import pafy

In [7]:
from pytube import YouTube
import os

In [8]:
def downYoutube(videourl, path):
    yt = YouTube(videourl)
    yt = yt.streams.filter(progressive=True, file_extension='mp4').order_by('resolution').desc().first()
    if not os.path.exists(path): os.makedirs(path) ## 폴더가 없으면 생성

    yt.download(path)

In [None]:
youtube_url = 'https://www.youtube.com/watch?v=zxxfvP8-lrU'
downYoutube(youtube_url, 'video')

##### YOLO
- You Only Look Once - CNN을 기반으로 한 물체 감지 라이브러리
- https://www.ultralytics.com/ko
- https://github.com/ultralytics/ultralytics

In [None]:
# YOLO 설치
!pip install ultralytics

In [None]:
## 콘솔창에서 테스트하는 방법, 트레이닝한 이미지처리 모델
!yolo predict model=yolov8n.pt source='https://ultralytics.com/images/bus.jpg'

In [5]:
from ultralytics import YOLO

In [9]:
# 이미지와 openCV 물체감지
model = YOLO(model='./yolov8n.pt')

result = model('./20240812_151755471.jpg')
plots = result[0].plot()
height, width = plots.shape[0], plots.shape[1]
last = cv2.resize(plots, (800, 450))
cv2.imshow('yolo', last)
cv2.waitKey(0)
cv2.destroyAllWindows()


image 1/1 c:\Sources\Iot-bigdata-2024\day07\20240812_151755471.jpg: 384x640 1 bottle, 1 cup, 1 bowl, 1 tv, 1 mouse, 8.9ms
Speed: 3.0ms preprocess, 8.9ms inference, 1.0ms postprocess per image at shape (1, 3, 384, 640)


In [16]:
## 실시간 가능, 동영상도 가능
classNames = [
                "person", "bicycle", "car", "motorbike", "aeroplane", "bus", "train", "truck", "boat",
                "traffic light", "fire hydrant", "stop sign", "parking meter", "bench", "bird", "cat",
                "dog", "horse", "sheep", "cow", "elephant", "bear", "zebra", "giraffe", "backpack", "umbrella",
                "handbag", "tie", "suitcase", "frisbee", "skis", "snowboard", "sports ball", "kite", "baseball bat",
                "baseball glove", "skateboard", "surfboard", "tennis racket", "bottle", "wine glass", "cup",
                "fork", "knife", "spoon", "bowl", "banana", "apple", "sandwich", "orange", "broccoli",
                "carrot", "hot dog", "pizza", "donut", "cake", "chair", "sofa", "pottedplant", "bed",
                "diningtable", "toilet", "tvmonitor", "laptop", "mouse", "remote", "keyboard", "cell phone",
                "microwave", "oven", "toaster", "sink", "refrigerator", "book", "clock", "vase", "scissors",
                "teddy bear", "hair drier", "toothbrush"
             ]

In [18]:
import math

In [None]:
video_path = './Mumbai_trafic.mp4'

cap = cv2.VideoCapture(video_path) # 숫자는 CCTV,웹캠 등 실시간 영상

while (cap.isOpened()):
    ret, img = cap.read()
    if ret == True:
        height, width = img.shape[0], img.shape[1]
        half = cv2.resize(img, (int(width/2), int(height/2)))
        # YOLO로 물체검출 시작
        results = model(half, stream=True)

        ## 결과표시 like OpenCV 얼굴검출
        for result in results:
            ## 아래의 셀의 결과가 간단
            boxes = result.boxes

            for box in boxes:
                x1, y1, x2, y2 = box.xyxy[0]
                x1, y1, x2, y2 = int(x1), int(y1), int(x2), int(y2)

                cv2.rectangle(half, (x1,y1), (x2,y2), (0,255,255), 2) # 검출된 물체 박스그리기

                ## 정확도 계산, Class name
                accuracy = (box.conf[0]/100)*100
                index = int(box.cls[0])
                # print(f'Class name : {classNames[index]} / Accuracy : {accuracy:.2f}') # 콘솔프린트는 생략
                title = f'{classNames[index]}, {accuracy:.2f}'
                ## 박스위에 종류와 정확도출력
                org = [x1, y1]
                font = cv2.FONT_HERSHEY_SIMPLEX
                fontScale = 1
                color = (0,255,255)
                thickness = 2

                cv2.putText(half, title, org, font, fontScale, color, thickness)

        cv2.imshow('YOLOv8', half)

        if cv2.waitKey(1) == ord('q'):
            break
    else:
        break

cap.release() 
cv2.destroyAllWindows()

In [None]:
video_path = './Mumbai_trafic.mp4'

cap = cv2.VideoCapture(video_path) # 숫자는 CCTV,웹캠 등 실시간 영상

while (cap.isOpened()):
    ret, img = cap.read()
    if ret == True:
        height, width = img.shape[0], img.shape[1]
        half = cv2.resize(img, (int(width/2), int(height/2)))
        results = model(half, stream=True)

        for result in results:
            last = result.plot()

        cv2.imshow('YOLOv8', last)

        if cv2.waitKey(1) == ord('q'):
            break
    else:
        break

cap.release() 
cv2.destroyAllWindows()

In [None]:
video_path = './Mumbai_trafic.mp4'

cap = cv2.VideoCapture(video_path)
out = cv2.VideoWriter('./Mumbai_traffic_result.mp4', fourcc=1446269005, fps=30, frameSize=(640, 360))

while (cap.isOpened()):
    ret, img = cap.read()
    if ret == True:
        height, width = img.shape[0], img.shape[1]
        print(int(width/2), int(height/2))
        half = cv2.resize(img, (int(width/2), int(height/2)))
        results = model(half, stream=True)

        for result in results:
            last = result.plot()

        cv2.imshow('YOLOv8', last)
        out.write(last)

        if cv2.waitKey(1) == ord('q'):
            break
    else:
        break

cap.release() 
out.release()
cv2.destroyAllWindows()