In [None]:
# Pose Estimation (자세 추정)
# 인공지능 및 컴퓨터 비전 기술을 사용하여 이미지나 비디오에서 인간의 포즈를 감지 및 추정하는 기술
# 인체에서 중요한 Key point의 위치를 찾는 알고리즘 ex) 머리, 어깨, 팔꿈치 등

# 자세 추정 형태
# 1. Skeleton-based
#   주요 부위를 중심으로 찾음 -> 신체 위치 찾기에 유용
#   but 전체적인 모양, 부피는 알기 어려움
# 2. Contour-based
#   신체의 전체 모양을 알 수 있다는 장점이 존재
# 3. Volume-based
#   3D 자세 추정에 사용되는 Model

# 딥러닝의 경우 한 사람의 자세를 추정하는 작업은 잘함
# but 여러 사람이 존재하여 다양한 자세를 취하거나 서로 겹칠 경우 복잡해지고 계산 시간이 오래걸림

# 이를 해결하기 위한 방식
# 1. Top-down
#   사람을 탐지 후 탐지 결과를 바탕으로 인체 주요 부위를 찾아 자세 추정하는 방식
#   큰 거에서 쪼깨기
# 2. Bottom-up
#   전체 이미지에서 인체 주요 부위들을 먼저 찾은 후 각 부휘를 연결해 자세를 추정하는 방식
#   작은 것들을 결합

# Pose Estimation Model 종류

# 1. Pose Net
#   Google, 2D 지원 O, 3D 지원 X, 멀티포즈 지원 O, 지원 언어 : JavaScript
#   TensorFlow.js를 기반으로 함, 다른 Pose Estimation에 비해 성능이 전체적으로 떨어짐, BodyPix와 결합하여 인간의 실루엣을 추출하는 기능 제공

# 2. Blaze Pose
#   Google, 2D 지원 O, 2D 포즈 추정 O, 3D 지원 O, 멀티포즈 지원 X, 지원 언어 : Python, JavaScript
#   MediaPipe 프레임워크에서 사용되는 딥러닝 기반 포즈 추정 모델, Pose Net 상위 버전, 높은 정확성, 크기가 무겁기에 실시간성이 떨어짐

# 3. Move Net
#   Google, 2D 지원 O, 3D 지원 O, 멀티포즈 지원 O, 지원 언어: TensorFlow, Python, JavaScript
#   MediaPipe 프레임워크에서 사용되는 딥러닝 기반 포즈 추정 모델, 움직임을 중점으로 제작, 모바일 기기에서도 실시간 동작하게 경량화, 높은 정확도와 저전력 소비 보장

# 4. MediaPipe Pose
#   Google, 2D 지원 O, 2D 포즈 추정 O, 3D 지원 O, 멀티포즈 지원 X, 지원 언어: Python, C++, JavaScript
#   Google에서 개발한 오픈소스 라이브러리, 비디오 및 이미지에서 3D 포즈와 트래킹, 페이셜 랜드마크 검출 등 다양한 기능 제공, 높은 정확도와 실시간성 보장

# 5. Open Pose
#   Carnegie Mellon University, 2D 지원 O, 2D 포즈 추정 O, 3D 지원 O, 멀티포즈 지원 O, C++, Python, Matlab, Java, JavaScript
#   인간의 포즈를 비디오나 이미지에서 감지하기 위한 오픈소스 라이브러리, 딥러닝 모델을 기반으로 함, 손가락 추적, 얼굴 감지 등 다양한 기능 제공

# 6. Kakao Pose
#   Kakao Brain, 2D 지원 O, 2D 포즈 추정 O, 3D 지원 X, 멀티포즈 지원 O, 지원 언어: Python, REST api
#   단일 or 다중 인물의 포즈를 추정할 수 있으며 높은 정확도를 가짐, API와 예제 코드를 제공함으로써 편의성이 높음
#  이미지의 경우 최대 2MB, 긴 변의 최대 길이는 2048pixel, 최소 320pixel, 동영상의 경우 최대 50MB, 영상 길이 최대 30초까지 무료 분석

# 7. Ncloud Pose
#   Naver Cloud, 2D 지원 O, 2D 포즈 추정 O, 3D 지원 X, 멀티포즈 지원 X, Python, Java, PHP, C#
#   Naver Cloud에서 제공하는 AI 기술 중 하나, API 호출을 통해 손쉽게 사용 가능, 최대 300KB 이미지 데이터를 지원

# 8. YOLOv8 Pose
#   Ultralytics, 2D 지원 O, 3D 지원 X, 멀티포즈 지원 O, 지원 언어: Python
#   YOLO(Object Detection) 기반의 Pose Estimation 모델, 객체 탐지와 자세 추정을 하나의 네트워크에서 동시에 수행, 다중 인물 환경에서 높은 정확도와 안정적인 성능 제공

In [1]:
# MediaPipe Pose

import cv2
import numpy as np
import mediapipe as mp

mp_pose = mp.solutions.pose
mp_draw = mp.solutions.drawing_utils

cap = cv2.VideoCapture('01_Database/11.mp4')

width  = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
fps    = cap.get(cv2.CAP_PROP_FPS)

fourcc = cv2.VideoWriter_fourcc(*'XVID')
out = cv2.VideoWriter('01_Media_Pipe/11_mp.avi', fourcc, fps, (width, height))

with mp_pose.Pose(
    static_image_mode=False,
    model_complexity=1,
    enable_segmentation=False,
    min_detection_confidence=0.5,
    min_tracking_confidence=0.5
) as pose:
    
    while cap.isOpened():
            ret, frame = cap.read()
            if not ret :
                break

            image_rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)

            res = pose.process(image_rgb)

            if res.pose_landmarks:
                mp_draw.draw_landmarks(frame, res.pose_landmarks, mp_pose.POSE_CONNECTIONS)
            
            cv2.imshow("MediaPipe Pose", frame)

            out.write(frame)

            if cv2.waitKey(1) & 0xFF == 27 : 
                    break
            
cap.release()
out.release()
cv2.destroyAllWindows()

In [24]:
# Yolo Pose

from ultralytics import YOLO
import cv2
import time

model = YOLO("yolov8s-pose.pt")

cap = cv2.VideoCapture("01_Database/11.mp4")

w = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
h = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
fps = cap.get(cv2.CAP_PROP_FPS)

prev_time = 0

fourcc = cv2.VideoWriter_fourcc(*"XVID")
output = cv2.VideoWriter("ONLY_SKELETON_YOLO.mp4", fourcc, fps, (w,h))

COCO_CONNECTIONS = [
    (5, 7), (7, 9),      # left arm
    (6, 8), (8, 10),    # right arm
    (5, 6),             # shoulders
    (5, 11), (6, 12),   # torso
    (11, 12),           # hips
    (11, 13), (13, 15), # left leg
    (12, 14), (14, 16)  # right leg
]


while cap.isOpened():
    ret, frame = cap.read()
    if not ret: break

    skeleton_img = np.zeros_like(frame)
    res = model(frame, conf=0.5, verbose=False)

    if res[0].keypoints is not None:
            kpts = res[0].keypoints.xy.cpu().numpy()
            confs = res[0].keypoints.conf.cpu().numpy()

            for person_kpts, person_confs in zip(kpts, confs):
                    for(x,y),c in zip(person_kpts, person_confs):
                            if c > 0.3:
                                    cv2.circle(skeleton_img, (int(x), int(y)), 4, (0,255,0),-1)
            for i, j in COCO_CONNECTIONS:
                if person_confs[i] > 0.3 and person_confs[j] > 0.3:
                    pt1 = (int(person_kpts[i][0]), int(person_kpts[i][1]))
                    pt2 = (int(person_kpts[j][0]), int(person_kpts[j][1]))
                    cv2.line(
                        skeleton_img,
                        pt1,
                        pt2,
                        (255, 255, 255),
                        2
                    )

    curr_time = time.time()
    fps = 1 / (curr_time - prev_time) if prev_time != 0 else 0
    prev_time = curr_time

    cv2.putText(
    skeleton_img,
    f"FPS: {fps:.2f}",
             (20, 40),
            cv2.FONT_HERSHEY_SIMPLEX,
            1,
            (0, 255, 0),
            2)
    
    output.write(skeleton_img)

    cv2.imshow("Yolov8 Pose", skeleton_img)
    if cv2.waitKey(1) & 0xFF == 27 : 
                    break
    
cap.release()
output.release()
cv2.destroyAllWindows()

In [25]:
# MediaPipe Pose

import cv2
import numpy as np
import mediapipe as mp
import time

mp_pose = mp.solutions.pose
mp_draw = mp.solutions.drawing_utils

cap = cv2.VideoCapture('01_Database/11.mp4')

width  = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
fps    = cap.get(cv2.CAP_PROP_FPS)

fourcc = cv2.VideoWriter_fourcc(*'XVID')
out = cv2.VideoWriter('ONLY_SKELETON_MEDIA.mp4', fourcc, fps, (width, height))

prev_time = 0

with mp_pose.Pose(min_detection_confidence=0.5, min_tracking_confidence=0.5) as pose:
    while cap.isOpened():
            ret, frame = cap.read()
            if not ret :
                break

            skeleton_img = np.zeros_like(frame)

            image_rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)

            res = pose.process(image_rgb)

            if res.pose_landmarks:
                mp_draw.draw_landmarks(skeleton_img, res.pose_landmarks, mp_pose.POSE_CONNECTIONS)
            
            curr_time = time.time()
            fps = 1 / (curr_time - prev_time) if prev_time != 0 else 0
            prev_time = curr_time
    
            cv2.putText(
            skeleton_img,
            f"FPS: {fps:.2f}",
            (20, 40),
            cv2.FONT_HERSHEY_SIMPLEX,
            1,
            (0, 255, 0),
            2)

            cv2.imshow("MediaPipe Pose", skeleton_img)

            out.write(skeleton_img)

            if cv2.waitKey(1) & 0xFF == 27 : 
                    break
            
cap.release()
out.release()
cv2.destroyAllWindows()