포즈 추정(Pose Estimation) : 사람 또는 동물의 신체 구조와 자세를 추정하는 기술로 이미지나 비디오에서 사람이나 동물의 관절 위치와 연결 구조를 파악해 자세를 분석하고 추론

In [4]:
from ultralytics import YOLO

# YOLOv8 모델 불러오기
model = YOLO("yolov8m.pt")
# 모델 구조 출력
def print_model_structure(module, indent=0):
    """모듈의 계층 구조를 재귀적으로 출력하는 함수"""
    for name, sub_module in module.named_children():
        print('│   ' * indent + '└──' + name)
        print_model_structure(sub_module, indent + 1)

# 모델의 계층 구조 출력
print("YOLOv8 모델 구조:")
print_model_structure(model.model)

Downloading https://github.com/ultralytics/assets/releases/download/v8.2.0/yolov8m.pt to 'yolov8m.pt'...


100%|██████████| 49.7M/49.7M [00:00<00:00, 62.9MB/s]

YOLOv8 모델 구조:
└──model
│   └──0
│   │   └──conv
│   │   └──bn
│   │   └──act
│   └──1
│   │   └──conv
│   │   └──bn
│   │   └──act
│   └──2
│   │   └──cv1
│   │   │   └──conv
│   │   │   └──bn
│   │   │   └──act
│   │   └──cv2
│   │   │   └──conv
│   │   │   └──bn
│   │   │   └──act
│   │   └──m
│   │   │   └──0
│   │   │   │   └──cv1
│   │   │   │   │   └──conv
│   │   │   │   │   └──bn
│   │   │   │   │   └──act
│   │   │   │   └──cv2
│   │   │   │   │   └──conv
│   │   │   │   │   └──bn
│   │   │   │   │   └──act
│   │   │   └──1
│   │   │   │   └──cv1
│   │   │   │   │   └──conv
│   │   │   │   │   └──bn
│   │   │   │   │   └──act
│   │   │   │   └──cv2
│   │   │   │   │   └──conv
│   │   │   │   │   └──bn
│   │   │   │   │   └──act
│   └──3
│   │   └──conv
│   │   └──bn
│   │   └──act
│   └──4
│   │   └──cv1
│   │   │   └──conv
│   │   │   └──bn
│   │   │   └──act
│   │   └──cv2
│   │   │   └──conv
│   │   │   └──bn
│   │   │   └──act
│   │   └──m
│   │   │   └──0
│   │   │   │   




In [10]:
from ultralytics import YOLO


# YOLO 클래스를 통해 사전학습된 yolov8-pose모델을 불러옴
model = YOLO("../models/yolov8m-pose.pt") # -pose : 포즈 추정 모델

In [11]:
# 비디오 파일 불러오기

import cv2 # OpenCV 라이브러리를 파이썬에서 사용하기 위한 모듈


capture = cv2.VideoCapture("../datasets/woman.mp4") # VideoCapture 클래스를 통해 비디오 파일을 열어 비디오의 각 프레임을 읽어오는 객체 생성
while cv2.waitKey(10) < 0: # 키 입력을 0.01초마다 확인하여, 어떤 키라도 눌렸다면 비디오 재생 종료 (키가 눌리지 않은 상황에서는 -1이 반환되어 계속 실행)
    if capture.get(cv2.CAP_PROP_POS_FRAMES) == capture.get(cv2.CAP_PROP_FRAME_COUNT): # 비디오의 현재까지 읽혀진 프레임 수와 비디오의 총 프레임 수를 의미
        capture.set(cv2.CAP_PROP_POS_FRAMES, 0) # 현재 프레임이 총 프레임 수와 같아지면 첫 번째 프레임으로 변경
        
    
    ret, frame = capture.read() # 프레임을 읽어 결괏값(ret)와 프레임(frame)을 반환
    print(ret,frame) # 프레임을 읽은 경우 ret은 True를 반환하고 프레임은 넘파이 형태로 반환됨
    cv2.imshow("VideoFrame", frame)

capture.release() # capture에 의해 사용된 비디오 파일을 해제
cv2.destroyAllWindows() # OpenCV에서 생성된 모든 윈도우를 닫음

True [[[214 212 215]
  [214 212 215]
  [214 212 215]
  ...
  [ 56  60  56]
  [ 58  61  58]
  [ 56  60  56]]

 [[214 212 215]
  [214 212 215]
  [214 212 215]
  ...
  [ 58  61  58]
  [ 58  61  58]
  [ 55  59  55]]

 [[214 212 215]
  [214 212 215]
  [214 212 215]
  ...
  [ 62  66  62]
  [ 61  65  61]
  [ 60  63  60]]

 ...

 [[204 205 207]
  [204 205 207]
  [204 205 207]
  ...
  [194 190 195]
  [194 190 195]
  [194 190 195]]

 [[204 205 207]
  [204 205 207]
  [204 205 207]
  ...
  [194 190 195]
  [194 190 195]
  [194 190 195]]

 [[204 205 207]
  [204 205 207]
  [204 205 207]
  ...
  [193 189 194]
  [193 189 194]
  [193 189 194]]]
True [[[214 212 215]
  [214 212 215]
  [214 212 215]
  ...
  [ 56  60  56]
  [ 55  59  55]
  [ 55  59  55]]

 [[214 212 215]
  [214 212 215]
  [214 212 215]
  ...
  [ 60  63  60]
  [ 60  63  60]
  [ 60  63  60]]

 [[214 212 215]
  [214 212 215]
  [214 212 215]
  ...
  [ 67  70  67]
  [ 66  69  66]
  [ 66  69  66]]

 ...

 [[204 207 205]
  [204 207 205]
  [204 207

In [14]:
import torch


def predict(frame, iou=0.7, conf=0.25): # YOLOv8 모델의 예측을 수행
    results = model(
        source  = frame, # 추론하려는 이미지나 프레임을 전달
        device  = "0" if torch.cuda.is_available() else "cpu", # GPU 장치의 인덱스 번호와 CPU 전달
        iou     = 0.7, # 중복된 경계 살자를 제거하는 임곗값, 너무 높은 값으로 설정하면 중복된 경계 상자가 제거되지 않을 수 있음
        conf    = 0.25, # 클래스 점수 임곗값으로 설정한 정확도보다 낮은 값은 제거
        verbose = True, # 로그 정보로, 모델 수횅 시 출력되는 정보 표시 여부를 설정
    )
    # YOLOv8 모델은 배치 형태로 이미지를 받을 수 있음
    result = results[0] # 현재 예제는 하나의 프레임만 전달하므로 results 값의 첫 번째 인덱스만 사용
    return result

In [15]:
def draw_boxes(result, frame):
    for boxes in result.boxes: # tensor([[520.0000,  85.0000, 822.0000, 533.0000,   0.9538,   0.0000]]) : [x1, y1, x2, y2, 신뢰도, 클래스]
        x1, y1, x2, y2, score, classes = boxes.data.squeeze().cpu().numpy()
        cv2.rectangle(frame, (int(x1), int(y1)), (int(x2), int(y2)), (0, 0, 255), 1) # 사각형 그리기(rectangle) 함수로 경계 상자를 그림, (x1,y1),(x2,y2),색상,선 두꼐
    return frame

In [16]:
import cv2


capture = cv2.VideoCapture("../datasets/woman.mp4")
while cv2.waitKey(10) < 0:
    if capture.get(cv2.CAP_PROP_POS_FRAMES) == capture.get(cv2.CAP_PROP_FRAME_COUNT):
        capture.set(cv2.CAP_PROP_POS_FRAMES, 0)
        
    ret, frame = capture.read()
    result = predict(frame)
    frame = draw_boxes(result, frame)
    cv2.imshow("VideoFrame", frame)
    print(result)
    print(result[0].boxes)

capture.release()
cv2.destroyAllWindows()


0: 384x640 1 person, 159.2ms
Speed: 5.4ms preprocess, 159.2ms inference, 14.1ms postprocess per image at shape (1, 3, 384, 640)
ultralytics.engine.results.Results object with attributes:

boxes: ultralytics.engine.results.Boxes object
keypoints: ultralytics.engine.results.Keypoints object
masks: None
names: {0: 'person'}
obb: None
orig_img: array([[[214, 212, 215],
        [214, 212, 215],
        [214, 212, 215],
        ...,
        [ 56,  60,  56],
        [ 58,  61,  58],
        [ 56,  60,  56]],

       [[214, 212, 215],
        [214, 212, 215],
        [214, 212, 215],
        ...,
        [ 58,  61,  58],
        [ 58,  61,  58],
        [ 55,  59,  55]],

       [[214, 212, 215],
        [214, 212, 215],
        [214, 212, 215],
        ...,
        [ 62,  66,  62],
        [ 61,  65,  61],
        [ 60,  63,  60]],

       ...,

       [[204, 205, 207],
        [204, 205, 207],
        [204, 205, 207],
        ...,
        [194, 190, 195],
        [194, 190, 195],
        [1

In [17]:
from ultralytics.utils.plotting import Annotator # ultralytics의 시각화 클래스


def draw_keypoints(result, frame): 
    annotator = Annotator(frame, line_width=1) # 이미지와 선 두께를 전달
    for kps in result.keypoints: # result.keypoints 출력 : tensor([[[6.8772e+02, 2.1194e_02, 8.9405e-01], ... , [6.1448e+02, 4.6588e+02, 2.3252e-02]]], device='cuda:0')
        kps = kps.data.squeeze() # 3차원 텐서를 2차원 텐서로 변경
        annotator.kpts(kps) # 키포인트 시각화 메서드 kpts에 값을 전달, 입력은 [17,3] 형테, [x,y,conf]
        
        nkps = kps.cpu().numpy()
        # nkps[:,2] = 1
        # annotator.kpts(nkps)
        for idx, (x, y, score) in enumerate(nkps):
            if score > 0.5: # score가 0.5 이상인 키 포인트만 시각화
                cv2.circle(frame, (int(x), int(y)), 3, (0, 0, 255), cv2.FILLED) # 이미지, 중심점, 반지름, 색상, 두꼐
                cv2.putText(frame, str(idx), (int(x), int(y)), cv2.FONT_HERSHEY_COMPLEX, 1, (0, 0, 255), 1) # 이미지, 문자열, 위치, 글꼴, 글꼴 크기, 색상, 두께
        
    return frame

In [3]:
"kps 출력"

# data: tensor([[[6.5331e+02, 2.1783e+02, 9.9180e-01],
#          [6.7249e+02, 1.9532e+02, 9.7602e-01],
#          [6.3501e+02, 1.9530e+02, 9.7209e-01],
#          [7.0063e+02, 1.8745e+02, 7.2448e-01],
#          [6.0944e+02, 1.8590e+02, 7.3975e-01],
#          [7.4616e+02, 2.8705e+02, 9.8605e-01],
#          [5.6716e+02, 2.9672e+02, 9.6650e-01],
#          [7.9457e+02, 4.1042e+02, 9.1510e-01],
#          [5.4382e+02, 4.4084e+02, 8.1289e-01],
#          [7.8168e+02, 4.5468e+02, 9.1503e-01],
#          [5.9169e+02, 3.8281e+02, 8.6941e-01],
#          [0.0000e+00, 0.0000e+00, 4.8693e-01],
#          [0.0000e+00, 0.0000e+00, 3.9469e-01],
#          [0.0000e+00, 0.0000e+00, 5.5017e-02],
#          [0.0000e+00, 0.0000e+00, 4.1546e-02],
#          [0.0000e+00, 0.0000e+00, 1.4621e-02],
#          [0.0000e+00, 0.0000e+00, 1.2096e-02]]])

'kps 출력'

In [2]:
"nkps 출력"

# [[     653.31      217.83      0.9918]
#  [     672.49      195.32     0.97602]
#  [     635.01       195.3     0.97209]
#  [     700.63      187.45     0.72448]
#  [     609.44       185.9     0.73975]
#  [     746.16      287.05     0.98605]
#  [     567.16      296.72      0.9665]
#  [     794.57      410.42      0.9151]
#  [     543.82      440.84     0.81289]
#  [     781.68      454.68     0.91503]
#  [     591.69      382.81     0.86941]
#  [          0           0     0.48693]
#  [          0           0     0.39469]
#  [          0           0    0.055017]
#  [          0           0    0.041546]
#  [          0           0    0.014621]
#  [          0           0    0.012096]]

'nkps 출력'

In [18]:
import cv2


capture = cv2.VideoCapture("../datasets/woman.mp4")
while cv2.waitKey(10) < 0:
    if capture.get(cv2.CAP_PROP_POS_FRAMES) == capture.get(cv2.CAP_PROP_FRAME_COUNT):
        capture.set(cv2.CAP_PROP_POS_FRAMES, 0)
        
    ret, frame = capture.read()
    result = predict(frame)
    frame = draw_boxes(result, frame)
    frame = draw_keypoints(result, frame)
    cv2.imshow("VideoFrame", frame)

capture.release()
cv2.destroyAllWindows()


0: 384x640 1 person, 156.1ms
Speed: 4.2ms preprocess, 156.1ms inference, 0.7ms postprocess per image at shape (1, 3, 384, 640)

0: 384x640 1 person, 124.3ms
Speed: 1.4ms preprocess, 124.3ms inference, 0.4ms postprocess per image at shape (1, 3, 384, 640)

0: 384x640 1 person, 123.2ms
Speed: 1.6ms preprocess, 123.2ms inference, 0.6ms postprocess per image at shape (1, 3, 384, 640)

0: 384x640 1 person, 125.2ms
Speed: 1.4ms preprocess, 125.2ms inference, 0.8ms postprocess per image at shape (1, 3, 384, 640)

0: 384x640 1 person, 166.0ms
Speed: 1.0ms preprocess, 166.0ms inference, 0.6ms postprocess per image at shape (1, 3, 384, 640)

0: 384x640 1 person, 119.5ms
Speed: 1.8ms preprocess, 119.5ms inference, 0.4ms postprocess per image at shape (1, 3, 384, 640)

0: 384x640 1 person, 111.1ms
Speed: 1.2ms preprocess, 111.1ms inference, 0.4ms postprocess per image at shape (1, 3, 384, 640)

0: 384x640 1 person, 108.1ms
Speed: 1.0ms preprocess, 108.1ms inference, 0.4ms postprocess per image at

: 