
# YOLO로 웹캠 영상 추론하기

지난 시간에는 이미지나 동영상 등

특정 파일을 YOLO 모델에 넣어 추론하는 방법을 알아보았습니다.

웹상에 올라가 있는, 예를 들면 유튜브나 비메오 비디오도

정확한 URL만 소스에 넣으면 동일하게 추론을 수행합니다.

그런데 노트북 내장 카메라나 USB카메라, IP카메라 등의 추론은

어떤 방법으로 YOLO에 넣는 것이 좋을까요?

몇 가지 방법이 있겠지만, 가장 많이 사용되는 방법은

opencv를 통해 소스에 접근하고,

매 프레임을 캡쳐해서 YOLO에 넣는 단순한 방식입니다.

(opencv의 우수한 최적화 때문에 성능도 가장 좋습니다.)

아래 코드는 opencv를 통해 웹캠 영상을 추론하는 짧은 코드입니다.

> 이제 여기에 살을 붙여나가봅시다.
 

In [2]:
from ultralytics import YOLO
import cv2

camera = cv2.VideoCapture(0)  # 0번 디바이스(노트북 전면카메라) 선택
model = YOLO("yolov8x.pt")  # 추론모델 선택

while True:
    img = camera.read()[1]
    results = model(img, show=True)
    # ↑ YOLO가 띄워주는 창이지만 내부적으로는 사실 opencv를 사용합니다.
    # 매번 results라는 객체를 새로 생성하므로, stream=True 옵션을 줄 필요가 없습니다.
    # 대신 직전까지의 추론정보는 모두 지워지고 있습니다.

    if cv2.waitKey(1) == ord('q'):  # 실행 도중 q를 입력하면 캡쳐 종료
        break

camera.release()
cv2.destroyAllWindows()


Downloading https://github.com/ultralytics/assets/releases/download/v8.1.0/yolov8x.pt to 'yolov8x.pt'...


100%|██████████| 131M/131M [00:06<00:00, 22.5MB/s] 


0: 480x640 1 person, 2377.8ms
Speed: 3.5ms preprocess, 2377.8ms inference, 3.7ms postprocess per image at shape (1, 3, 480, 640)
0: 480x640 1 person, 3135.5ms
Speed: 3.6ms preprocess, 3135.5ms inference, 4.6ms postprocess per image at shape (1, 3, 480, 640)
0: 480x640 1 person, 2251.1ms
Speed: 4.7ms preprocess, 2251.1ms inference, 3.4ms postprocess per image at shape (1, 3, 480, 640)
0: 480x640 1 person, 2040.0ms
Speed: 2.6ms preprocess, 2040.0ms inference, 2.4ms postprocess per image at shape (1, 3, 480, 640)
0: 480x640 1 person, 1965.7ms
Speed: 2.3ms preprocess, 1965.7ms inference, 3.1ms postprocess per image at shape (1, 3, 480, 640)
0: 480x640 1 person, 1935.1ms
Speed: 2.3ms preprocess, 1935.1ms inference, 2.4ms postprocess per image at shape (1, 3, 480, 640)
0: 480x640 1 person, 1895.5ms
Speed: 2.2ms preprocess, 1895.5ms inference, 2.2ms postprocess per image at shape (1, 3, 480, 640)
0: 480x640 1 person, 1963.2ms
Speed: 2.2ms preprocess, 1963.2ms inference, 3.6ms postprocess per 

![](https://i.ibb.co/yqvzz42/207.png)

만약 위 코드가 실행되지 않으면 아래 주석을 꼼꼼히 읽고

따라해주세요.

만약 문제가 없다면 넘어가셔도 돼요.

"""
ㅁ ImportError 발생시

ultralytics, supervision 및 python-opencv 설치해야 함.
> pip install ultralytics
> pip install opencv-python -i https://pypi.tuna.tsinghua.edu.cn/simple

ㅁ ffmpeg 관련 오류메시지 발생시?

ffmpeg를 설치하고 환경변수에 추가해야 함

윈도우용 다운로드 링크는 https://www.gyan.dev/ffmpeg/builds/ 에서

"ffmpeg-git-full.7z" 클릭하여 다운로드 후 임의의 폴더에 압축을 풀고

bin 폴더를 환경변수에 추가하면 됨(사용자/시스템 환경변수 무관)

리눅스의 경우에는 https://ffmpeg.org/download.html#build-linux 에서 동일하게 다운로드하면 됨

압축 푼 후 `~/.bashrc`의 PATH 관련 라인이나 마지막 라인에 PATH 환경변수에 해당 경로 추가.

만약 zsh 등 다른 터미널 실행시에는 `~/.zshrc` 등에 환경변수 추가하면 됨.

예시 : `$PATH=$PATH:~/util/ffmpeg/bin`

윈도우에서 opencv 버전 관련 오류 발생하면(4.9 이상으로 업데이트 필요)
```
pip uninstall opencv-python
pip uninstall opencv-contrib-python
pip install opencv-python -i https://pypi.tuna.tsinghua.edu.cn/simple
```
"""

# 이제 두 번째 예제를 실행해볼게요. 심호흡하시고ㅎ

이번에는 모든 추론이미지와 박스정보를 저장하는 기본명령어입니다.

위의 소스와 어디가 다른지 한 번 비교해 보시기 바랍니다.

In [None]:
"""
opencv 라이브러리를 통해
웹캠 이미지를 YOLO로 보내고
향후 분석을 위해 각각의 이미지를 저장하는 예시
"""

from ultralytics import YOLO
import cv2

camera = cv2.VideoCapture(0)
model = YOLO("yolov8n.pt")

while True:
    img = camera.read()[1]  # 사진 찍어서
    results = model.predict(
        source=img,  # 분석해.
        show=True,  # 화면에 띄워주면서
        save=True,  # 이미지파일로도 저장하고
        save_txt=True,  # 레이블정보도 txt파일로 저장해
        project="runs",  # 저장할 폴더
        name="cam_predict",  # 저장할 서브폴더
    )

    if cv2.waitKey(1) == ord('q'):  # 실행 도중에 q를 누르면
        break  # while문(추론) 종료

camera.release()  # 카메라 끄고
cv2.destroyAllWindows()  # 창 닫아.

q를 눌러 종료하고 보니 폴더가 많이 생성되었네요.

![](https://i.ibb.co/dgV659h/208.png)

프레임별로 이미지 파일은 이렇게

![](https://i.ibb.co/Hn25hzN/image0.jpg)

txt파일은 이렇게 저장돼 있네요.

`0 0.489529 0.657213 0.680193 0.682769`

스페이스 기준으로

cls, xc, yc, w, h 입니다.

조금 더 부연설명하면

`xc=0.48`이라는 뜻은 

객체의 x축 중심이 이미지 왼쪽에서부터 

전체너비의 0.48배만큼 떨어진 곳에 있다는 뜻이고,

(yc는 상단 기준으로 이미지 전체높이의 n배만큼 밑에 위치한다는 뜻입니다.)

`w=0.68`이라는 뜻은 객체의 너비가 이미지 너비의 n배라는 뜻입니다.

이 사진에서는 0.68 정도라고 하네요.

객체 높이인 'h'도 이와 비슷한 0.68 정도네요.

save, save_txt 외에도 아래와 같은 비주얼 파라미터들이 있습니다.

predict() 메서드 안에 하나씩 더하거나 빼 보세요.

![](https://i.ibb.co/jTHp6Rt/209.png)


이렇게 기본 파라미터만 조정하면서도

어느 정도 분석을 수행할 수 있는 자료들이 만들어지기는 합니다.

만약 opencv나 Pillow 등 파이썬 라이브러리를 통해

보다 디테일한 작업을 하기 위한 코드는

다음 챕터에서 보여드리겠습니다. 수고하셨습니다!

끝.



# 부록 및 심화 프로그래밍 예시

아래는 IP카메라와의 통신을 통한 YOLO 추론 예시코드입니다.

일반적으로 IP카메라는 고성능, 고해상도 제품이 많은데요.

아무리 YOLO 나노모델이라고 해도 통신속도나 추론속도 때문에

버퍼링이 발생할 수 있습니다. 이런 문제를 해결하는 방법도 같이 알려드리겠습니다.

> 참고로 안드로이드폰이나 태블릿에 IP Webcamp 이라는 어플을 설치하면
> 스마트폰을 IP카메라처럼 활용할 수 있습니다.
> 프로버전을 구매하지 않아도 사용 가능합니다.(몇 시간 후에 IP가 바뀌기는 합니다.)
> IP카메라를 가지고 계시지 않은 경우에, 테스트용으로만 활용해보세요.

![](https://i.ibb.co/f4hX5D5/Kakao-Talk-20240201-013644229.jpg)


In [2]:
from ultralytics import YOLO
import cv2

ipcam = cv2.VideoCapture(
    "rtsp://admin:yolo@172.30.1.19:8080/h264.sdp"
)
# ipcam.set(3, 320)
# ipcam.set(4, 240)

model = YOLO("yolov8n.pt")  # 추론모델 선택

while True:
    img = ipcam.read()[1]  # **opencv 내부적으로 버퍼공간이 있어 프레임이 쌓임(문제가 됨)** 
    results = model(img, show=True)
    # ↑ YOLO가 띄우는 창이지만 내부적으로는 opencv와 동일합니다.
    # 매번 results라는 객체를 새로 생성하므로, stream=True 옵션을 줄 필요는 없습니다.
    # 대신 과거에 생성된 추론정보는 모두 지워지고 있습니다.

    if cv2.waitKey(1) == ord('q'):  # 실행 도중 q를 입력하면 캡쳐 종료
        break

ipcam.release()
cv2.destroyAllWindows()

0: 384x640 1 person, 78.5ms
Speed: 2.2ms preprocess, 78.5ms inference, 1.1ms postprocess per image at shape (1, 3, 384, 640)
0: 384x640 1 person, 74.4ms
Speed: 3.2ms preprocess, 74.4ms inference, 2.2ms postprocess per image at shape (1, 3, 384, 640)
0: 384x640 1 person, 75.9ms
Speed: 1.0ms preprocess, 75.9ms inference, 1.1ms postprocess per image at shape (1, 3, 384, 640)
0: 384x640 1 person, 70.2ms
Speed: 2.2ms preprocess, 70.2ms inference, 2.1ms postprocess per image at shape (1, 3, 384, 640)
0: 384x640 1 person, 70.6ms
Speed: 2.1ms preprocess, 70.6ms inference, 2.1ms postprocess per image at shape (1, 3, 384, 640)
0: 384x640 1 person, 70.7ms
Speed: 2.0ms preprocess, 70.7ms inference, 1.0ms postprocess per image at shape (1, 3, 384, 640)
0: 384x640 1 person, 76.4ms
Speed: 2.1ms preprocess, 76.4ms inference, 1.1ms postprocess per image at shape (1, 3, 384, 640)
0: 384x640 1 person, 73.6ms
Speed: 2.1ms preprocess, 73.6ms inference, 1.0ms postprocess per image at shape (1, 3, 384, 640)



혹시 직접 실행해보셨나요? 

속도가 엄청나게 느리고 버벅거려요...

opencv가 무식하게 모든 프레임을 처리하려다 보니까

처리속도보다 프레임 쌓이는 속도가 빨라서,

화면이 느릿느릿 하다가 어느 시점에는 다운되어버립니다.

고성능카메라나 통신을 활용하는 실시간 YOLO 추론시 자주 발생할 수 있는 문제인데요.

이런 문제를 개선하기 위해 동시성 프로그래밍의 일종인 스레딩을 활용해보겠습니다.

(아래 코드는 파이썬이나 스레딩에 익숙하지 않은 분들은 읽지 않고 건너뛰셔도 무방합니다.) 


In [None]:
from ultralytics import YOLO
import cv2
from threading import Thread
import queue


class VideoStream:  # 스레딩을 위한 클래스 생성
    def __init__(self, src=0):  # 생성자 정의
        self.cap = cv2.VideoCapture(src)  # 비디오 캡쳐
        self.q = queue.Queue()  # 캡쳐정보 쌓아둘 큐(일종의 리스트)
        self.stopped = False  # 종료 시그널

        Thread(target=self.update, args=()).start()  # 큐 쌓는 별도의 스레드(update) 시작

    def update(self):  # 업데이트 로직 정의
        while True:
            if self.stopped:  # 종료시그널이 켜지면
                return  # 업데이트(스레드) 종료
            ret, frame = self.cap.read()
            if not ret:  # 프레임 읽기 실패해도
                self.stop()  # 종료 시그널 켜고
                return  # 업데이트(스레드) 종료
            if not self.q.empty():  # 큐에 프레임이 쌓여 있으면
                _ = self.q.get()  # 전부 소모해버려. (의미없는 변수 _로 다 꺼내버리기)
            self.q.put(frame)  # 방금 캡쳐한 프레임을 큐에 쌓아. 
            # (버퍼에 캡쳐 쌓이는 속도보다 소모하는 속도가 훨씬 빨라서 최신 프레임만 남게 됨) 

    def read(self):
        return self.q.get()  # (최근)프레임 읽기.

    def stop(self):
        self.stopped = True  # 종료시그널 켜기(다음 while 반복문이 종료될 것)
        self.cap.release()  # opencv 캡쳐도 중지하고.


ipcam_stream = VideoStream("rtsp://admin:yolo@172.30.1.19:8080/h264.sdp")
# 위 라인을 실행하는 시점에 update 스레드가 시작됐습니다.
# while문이 실행되면서 프로세스가 추론에 걸려 있는 동안
# 큐에 계속해서 쌓이는 프레임 정보들은 
# update스레드 안의 get()이 전부 소모해버립니다.
# 추론보다는 그냥 소모하는(버리는) 속도가 훨씬 빠르기 때문에
# 기존 프레임이 쌓여있지 않습니다.

model = YOLO("yolov8n.pt")

try:
    while True:
        img = ipcam_stream.read()  
        # 위 라인이 실행되는 시점에, 큐에 마지막에 쌓였던(put) 프레임이 img가 됨 
        results = model(img, show=True)  # , vid_stride=100)

        if cv2.waitKey(1) == ord('q'):
            break
finally:
    ipcam_stream.stop()
    cv2.destroyAllWindows()


어때요?

이제 쾌적해졌죠? 프레임을 살짝 건너뛰는 대신

제 움직임에 화면이 실시간으로 반응하니까 성능이 훨씬 높아진 느낌도 들어요.

동시성 프로그래밍은 아직 우리에게 (혹은 우리 학생들에게) 생소할 수 있는 개념이지만,

이렇게 가시적인 체감성능을 끌어올릴 수 있는 좋은 도구입니다.

일반적인 웹 애플리케이션에도 

이제 스레드나 비동기 프로그래밍은 필수가 되었습니다.

> 지금 당장 이해가 되지 않더라도 정말 괜찮습니다. 넘어가셔도 됩니다. 
> 다만, 이와 관련한 문제가 발생하거나, 필요를 느끼는 시점이 됐을 때
> 이 코드를 다시 읽어보시면서 참고해 주시기 바랍니다.

이번 챕터 부록도 끝.

![](https://i.ibb.co/cTPrkYS/212.png)
