In [None]:
# -----------------------------------------------------------------------------------
# 파일명       : Labeling.ipynb
# 설명         : 라벨링 데이터 생성
# 작성자       : 이민하
# 작성일       : 2025-05-03
# 
# 사용 모듈    :
# - pandas                           # 데이터프레임 기반 데이터 처리
# - os                               # 파일 및 경로 관리
# - re                               # 정규표현식 활용
# -----------------------------------------------------------------------------------
# >> 주요 기능
# - 영상 데이터에 대해 낙상인지 아닌지 라벨링 데이터 생성
#
# >> 업데이트 내역
# [2025-05-03] 각 영상별로 데이터 위치에 따라 라벨링
# [2025-05-12] 데이터 증강
# -----------------------------------------------------------------------------------


In [None]:
# 데이터프레임 기반 데이터 처리
import pandas as pd

# 파일 및 경로 관리
import os

# 정규표현식 활용
import re

In [None]:
# 비디오 저장 위치 설정
VIDEO_PATH = r"F:/Fall_Detection_Data/Source_Data/Video/"

# 증강 데이터 경로 설정
ADD_PATH = r"D:/041.낙상사고 위험동작 영상-센서 쌍 데이터/3.개방데이터/1.데이터/Training/01.원천데이터/TS/영상/N/N/"
ADD_PATH2 = r"D:/041.낙상사고 위험동작 영상-센서 쌍 데이터/3.개방데이터/1.데이터/Training/01.원천데이터/TS/영상/Y/FY/"

# 경로를 담을 리스트 생성
path_list = []
add_path_list = []
add_path_list2 = []

# 각 경로에 존재하는 MP4 파일 경로 추출
for dirpath, _, filenames in os.walk(VIDEO_PATH):
    for filename in filenames:
        if filename.endswith((".mp4", ".MP4")):
            path_list.append(os.path.join(dirpath, filename))

for dirpath, _, filenames in os.walk(ADD_PATH):
    for filename in filenames:
        if filename.endswith((".mp4", ".MP4")):
            add_path_list.append(os.path.join(dirpath, filename))

for dirpath, _, filenames in os.walk(ADD_PATH2):
    for filename in filenames:
        if filename.endswith((".mp4", ".MP4")):
            add_path_list2.append(os.path.join(dirpath, filename))

# 갯수 설정
add_path_list = add_path_list[:1500]

add_path_list2 = add_path_list2[:500]

print(len(add_path_list), len(add_path_list2))

1500 500


In [None]:
# 라벨링을 위한 데이터프레임 생성
label_df = pd.DataFrame(columns = ["source_index", "label"])

# 경로 내에 'N'이 있으면 비낙상, 나머지는 낙상
for i, path in enumerate(path_list):
    if path.split("\\")[1] == "N":
        label_df.loc[i] = {"source_index" : i, "label" : 0}
    else:
        label_df.loc[i] = {"source_index" : i, "label" : 1}

# 데이터프레임에 값 입력
for i, path in enumerate(add_path_list):
    label_df.loc[len(label_df)] = {"source_index" : label_df.index[-1] + 1, "label": 0}

for i, path in enumerate(add_path_list2):
    label_df.loc[len(label_df)] = {"source_index" : label_df.index[-1] + 1, "label": 1}

print(label_df)

# CSV 파일로 저장
label_df.to_csv("Label.csv", index = False)

      source_index  label
0                0      0
1                1      0
2                2      0
3                3      0
4                4      0
...            ...    ...
4267          4267      1
4268          4268      1
4269          4269      1
4270          4270      1
4271          4271      1

[4272 rows x 2 columns]


In [None]:
# 영상별로 추출한 CSV 파일과 라벨링 데이터의 크기 비교
folder_path = './10fps_Dataset' 

csv_files = sorted(
    [os.path.join(folder_path, f) for f in os.listdir(folder_path) if f.endswith('.csv')],
    key=lambda x: int(re.search(r'\d+', os.path.basename(x)).group())
)

len(csv_files)

4272

In [26]:
len(pd.read_csv("Label.csv"))

4272