# 단일 xml GT 만들기

## abnormal

In [6]:
import xml.etree.ElementTree as ET

In [7]:
def xml_to_dict(file_path):
    # XML 파일 로드
    tree = ET.parse(file_path)
    root = tree.getroot()

    # 결과를 저장할 리스트
    data_list = []

    # 모든 자식 요소를 순회
    for elem in root:
        elem_dict = {}
        elem_dict['tag'] = elem.tag
        elem_dict['attributes'] = elem.attrib

        # 텍스트가 있다면 추가
        if elem.text:
            elem_dict['text'] = elem.text.strip()

        # 하위 요소들에 대해서도 같은 과정을 반복
        children = []
        for child in elem:
            child_dict = {'tag': child.tag, 'attributes': child.attrib}
            if child.text:
                child_dict['text'] = child.text.strip()
            children.append(child_dict)
        
        if children:
            elem_dict['children'] = children

        data_list.append(elem_dict)

    return data_list

In [8]:
# XML 파일 경로
xml_file_path = '/home/bigdeal/mnt2/238-2.실내(편의점,_매장)_사람_이상행동_데이터/01-1.정식개방데이터/Validation/02.라벨링데이터/VL_03.이상행동_12.절도/C_3_12_40_BU_SMC_10-14_11-43-44_CD_RGB_DF2_M2.xml'
data = xml_to_dict(xml_file_path)
print(data)

[{'tag': 'version', 'attributes': {}, 'text': '1.1'}, {'tag': 'meta', 'attributes': {}, 'text': '', 'children': [{'tag': 'task', 'attributes': {}, 'text': ''}, {'tag': 'dumped', 'attributes': {}, 'text': '2022-12-17 04:55:24.070869+00:00'}, {'tag': 'source', 'attributes': {}, 'text': 'C_3_12_40_BU_SMC_10-14_11-43-44_CD_RGB_DF2_M2.mp4'}, {'tag': 'info', 'attributes': {}, 'text': ''}]}, {'tag': 'track', 'attributes': {'id': '0', 'label': 'object_article', 'source': 'manual'}, 'text': '', 'children': [{'tag': 'box', 'attributes': {'frame': '79', 'outside': '0', 'occluded': '0', 'keyframe': '1', 'xtl': '1313.00', 'ytl': '513.80', 'xbr': '1345.70', 'ybr': '580.20', 'z_order': '0'}, 'text': ''}, {'tag': 'box', 'attributes': {'frame': '80', 'outside': '0', 'occluded': '0', 'keyframe': '1', 'xtl': '1321.09', 'ytl': '513.55', 'xbr': '1348.60', 'ybr': '556.40', 'z_order': '0'}, 'text': ''}, {'tag': 'box', 'attributes': {'frame': '81', 'outside': '0', 'occluded': '0', 'keyframe': '1', 'xtl': '126

In [9]:
def start_end_frame(path) :
    # 파일 열기 및 파싱
    tree = ET.parse(path)
    root = tree.getroot()

    # start_frame과 stop_frame 추출
    start_frame = root.find('.//start_frame').text
    stop_frame = root.find('.//stop_frame').text

    return start_frame, stop_frame

In [10]:
start_frame , end_frame = start_end_frame(xml_file_path) # start, stop
print(start_frame)
print(end_frame)

0
179


In [13]:
def start_end_16frame(path) :
    # 파일 열기 및 파싱
    tree = ET.parse(path)
    root = tree.getroot()

    # start_frame과 stop_frame 추출
    start_frame = int(root.find('.//start_frame').text)
    stop_frame = int(root.find('.//stop_frame').text)
    
    # stop_frame을 16의 배수로 조정
    if stop_frame % 16 != 0:
        stop_frame = stop_frame - (stop_frame % 16)

    return start_frame, stop_frame

In [14]:
start_frame , end_frame = start_end_16frame(xml_file_path) # start, stop
print(start_frame)
print(end_frame)

0
176


In [9]:
# def ab_start_end(path) : 
#     data = xml_to_dict(path)
#     frame_abnorm_start = [child['attributes']['frame'] for child in data[6]['children']][0]
#     frame_abnorm_end = [child['attributes']['frame'] for child in data[7]['children']][0]
#     return frame_abnorm_start, frame_abnorm_end

In [10]:
# ab_start, ab_end = ab_start_end_frame(xml_file_path)
# print(ab_start)
# print(ab_end)

79
150


In [2]:
def ab_start_end_frame(path) : 
    data = xml_to_dict(path)
    for i in range(len(data)-3) :
        if data[i+3]['attributes']['label'] == 'theft_start' :
            start_frame = data[i+3]['children'][0]['attributes']['frame']

        if data[i+3]['attributes']['label'] == 'theft_end' :
            end_frame = data[i+3]['children'][0]['attributes']['frame']

    return start_frame, end_frame

In [20]:
def make_gt(start, end, abnor_start, abnor_end):

    # 변수들이 문자열일 경우, 정수로 변환
    start = int(start)
    end = int(end)
    abnor_start = int(abnor_start)
    abnor_end = int(abnor_end)   

    # 결과 리스트 초기화
    result = [0] * (end + 1)
    
    # 비정상 행동 구간을 1로 설정
    for i in range(abnor_start, abnor_end + 1):
        result[i] = 1

    return result

In [23]:
result1 = make_gt(start_frame, end_frame, ab_start, ab_end)
print(result1)
print(len(result1))

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
180


# list 에서 이름 뽑기

In [29]:
all_norm = '/home/bigdeal/mnt2/238-1.실내(편의점,_매장)_사람_구매행동_데이터/01-1.정식개방데이터/Validation/02.라벨링데이터'
all_ab = '/home/bigdeal/mnt2/238-2.실내(편의점,_매장)_사람_이상행동_데이터/01-1.정식개방데이터/Validation/02.라벨링데이터'

In [26]:
import os
def name_npy2xml(path) :
    # 경로에서 개행 문자 제거
    path_name = path.strip()
    # 파일 이름만 추출
    file_name = os.path.basename(path_name)
    # 파일 이름에서 확장자 제거하고 새 확장자 추가
    new_file_name = os.path.splitext(file_name)[0] + '.xml'
    
    return new_file_name

In [27]:
path1 = name_npy2xml(xml_file_path)
path1

'C_3_12_40_BU_SMC_10-14_11-43-44_CD_RGB_DF2_M2.xml'

In [28]:
def find_file_path(directory1, directory2, file_name):
    """
    주어진 디렉토리에서 파일 이름을 검색하고, 해당 파일의 전체 경로를 반환합니다.
    
    :param directory: 검색할 디렉토리의 경로
    :param file_name: 찾고자 하는 파일의 이름
    :return: 파일의 전체 경로. 파일이 없으면 None을 반환합니다.
    """
    for root, dirs, files in os.walk(directory1):
        if file_name in files:
            return os.path.join(root, file_name)
        
    for root, dirs, files in os.walk(directory2):
        if file_name in files:
            return os.path.join(root, file_name)
        
    return None

In [30]:
find_file_path(all_ab, all_norm, path1)

'/home/bigdeal/mnt2/238-2.실내(편의점,_매장)_사람_이상행동_데이터/01-1.정식개방데이터/Validation/02.라벨링데이터/VL_03.이상행동_12.절도/C_3_12_40_BU_SMC_10-14_11-43-44_CD_RGB_DF2_M2.xml'

In [None]:
all_path =[]
for i in range(len(each_path)) :
    name = name_npy2xml(each_path[i])
    all_path.append(find_file_path(all_ab, all_norm, name))

In [None]:
import fnmatch
add_all = []
# abnormal 갯수
for path in all_path:
    if fnmatch.fnmatch(path, '/home/bigdeal/mnt2/238-2.실내(편의점,_매장)_사람_이상행동_데이터/01-1.정식개방데이터/Validation/02.라벨링데이터/*'):
        # 여기서 start_end_frame, ab_start_end_frame 함수는 해당 경로에 대해 시작/종료 프레임과 비정상 행동의 시작/종료 프레임을 반환하는 함수임
        start_frame, end_frame = start_end_frame(path)
        ab_start, ab_end = ab_start_end_frame(path)
        result2 = make_gt(start_frame, end_frame, ab_start, ab_end)
        print(result2)
        add_all.append(result2)

    elif fnmatch.fnmatch(path, '/home/bigdeal/mnt2/238-1.실내(편의점,_매장)_사람_구매행동_데이터/01-1.정식개방데이터/Validation/02.라벨링데이터/*'):
        # 여기서 start_end_frame, ab_start_end_frame 함수는 해당 경로에 대해 시작/종료 프레임과 비정상 행동의 시작/종료 프레임을 반환하는 함수임
        start_frame, end_frame = start_end_frame(path)
        result3 = make_gt(start_frame, end_frame)
        print(result3)
        add_all.append(result3)
    
    else :
        start_frame, end_frame = start_end_frame(path)
        result4 = make_gt(start_frame, end_frame)
        print(result4)
        add_all.append(result4)

In [None]:
flattened_data = [element for sublist in add_all for element in (sublist)]

print(flattened_data)

In [None]:
import numpy as np

# 리스트를 NumPy 배열로 변환
np_array = np.array(flattened_data)

# NumPy 배열을 .npy 파일로 저장
np.save('my_data.npy', np_array)

print("Data saved as flattened_data.npy")

# 5배수 조정 및 16배수 조정

In [None]:
# each_path의 길이를 5의 배수로 조정
if len(each_path) % 5 != 0:
    each_path_5mul = each_path[:-(len(each_path) % 5)]
else:
    each_path_5mul = each_path  # 이미 5의 배수인 경우 그대로 사용

In [None]:
all_path_5mul = []
for i in range(len(each_path_5mul)):
    name = name_npy2xml(each_path[i])
    all_path_5mul.append(find_file_path(all_ab, all_norm, name))

In [None]:
import fnmatch
add_ab = []
add_nor =[]
add_not = []
# abnormal 갯수
for path in all_path_5mul:
    if fnmatch.fnmatch(path, '/home/bigdeal/mnt2/238-2.실내(편의점,_매장)_사람_이상행동_데이터/01-1.정식개방데이터/Validation/02.라벨링데이터/*'):
        # 여기서 start_end_frame, ab_start_end_frame 함수는 해당 경로에 대해 시작/종료 프레임과 비정상 행동의 시작/종료 프레임을 반환하는 함수임
        start_frame, end_frame = start_end_16frame(path)
        ab_start, ab_end = ab_start_end_frame(path)
        result2 = make_gt(start_frame, end_frame, ab_start, ab_end)
        print(result2)
        add_ab.append(result2)

    elif fnmatch.fnmatch(path, '/home/bigdeal/mnt2/238-1.실내(편의점,_매장)_사람_구매행동_데이터/01-1.정식개방데이터/Validation/02.라벨링데이터/*'):
        # 여기서 start_end_frame, ab_start_end_frame 함수는 해당 경로에 대해 시작/종료 프레임과 비정상 행동의 시작/종료 프레임을 반환하는 함수임
        start_frame, end_frame = start_end_16frame(path)
        result3 = make_gt(start_frame, end_frame)
        print(result3)
        add_nor.append(result3)
    
    else :
        start_frame, end_frame = start_end_16frame(path)
        result4 = make_gt(start_frame, end_frame)
        print(result4)
        add_not.append(result4)

In [None]:
import fnmatch
add_all_5mul = []
# abnormal 갯수
for path in all_path_5mul:
    if fnmatch.fnmatch(path, '/home/bigdeal/mnt2/238-2.실내(편의점,_매장)_사람_이상행동_데이터/01-1.정식개방데이터/Validation/02.라벨링데이터/*'):
        # 여기서 start_end_frame, ab_start_end_frame 함수는 해당 경로에 대해 시작/종료 프레임과 비정상 행동의 시작/종료 프레임을 반환하는 함수임
        start_frame, end_frame = start_end_16frame(path)
        ab_start, ab_end = ab_start_end_frame(path)
        result2 = make_gt(start_frame, end_frame, ab_start, ab_end)
        print(result2)
        add_all_5mul.append(result2)

    elif fnmatch.fnmatch(path, '/home/bigdeal/mnt2/238-1.실내(편의점,_매장)_사람_구매행동_데이터/01-1.정식개방데이터/Validation/02.라벨링데이터/*'):
        # 여기서 start_end_frame, ab_start_end_frame 함수는 해당 경로에 대해 시작/종료 프레임과 비정상 행동의 시작/종료 프레임을 반환하는 함수임
        start_frame, end_frame = start_end_16frame(path)
        result3 = make_gt(start_frame, end_frame)
        print(result3)
        add_all_5mul.append(result3)
    
    else :
        start_frame, end_frame = start_end_16frame(path)
        result4 = make_gt(start_frame, end_frame)
        print(result4)
        add_all_5mul.append(result4)

In [None]:
# 이제 NumPy 배열 인덱싱을 사용할 수 있습니다.
np_add_all_5mul_176 = np.array(add_all_5mul[: 80])  
np_add_all_5mul_896 = np.array(add_all_5mul[80 : 180])  
np_add_all_5mul_592 = np.array(add_all_5mul[180 :]) 

In [None]:
# 5행마다 분할하여 열 방향으로 평균 내기
n = 5  # 분할할 행의 갯수

np_add_all_5mul_176_mean = np.mean(np_add_all_5mul_176.reshape(-1, n, np_add_all_5mul_176.shape[1]), axis=1)
np_add_all_5mul_896_mean = np.mean(np_add_all_5mul_896.reshape(-1, n, np_add_all_5mul_896.shape[1]), axis=1)
np_add_all_5mul_592_mean = np.mean(np_add_all_5mul_592.reshape(-1, n, np_add_all_5mul_592.shape[1]), axis=1)

In [None]:
# 고유한 값과 그 출현 횟수 계산
unique_values, counts = np.unique(np_add_all_5mul_896_mean, return_counts=True)

# 결과 출력
for value, count in zip(unique_values, counts):
    print(f"Value: {value}, Count: {count}")

In [None]:
np_add_all_5mul = []
np_add_all_5mul = np_add_all_5mul + [np_add_all_5mul_176_mean] + [np_add_all_5mul_896_mean] + [np_add_all_5mul_592_mean]

In [None]:
import numpy as np

# 각 배열을 평탄화하고, 평탄화된 배열들의 리스트를 생성
flattened_lists = [arr.flatten() for arr in np_add_all_5mul]

# 평탄화된 배열들을 concatenate하여 최종적으로 하나의 1차원 배열로 만듭니다.
flattened_array = np.concatenate(flattened_lists)

# 결과 출력
print(flattened_array)


In [None]:
import numpy as np

# 리스트를 NumPy 배열로 변환
np_array = np.array(flattened_array)

# NumPy 배열을 .npy 파일로 저장
np.save('my_gt_data.npy', np_array)

print("Data saved as flattened_data.npy")

# 이진분류로 조정 (0,1)
### roc curve 에서 이진 분류 에러 
: ValueError: continuous format is not supported

Value: 0.0, Count: 1433
Value: 0.2, Count: 228
Value: 0.4, Count: 138
Value: 0.6, Count: 175
Value: 0.8, Count: 407
Value: 1.0, Count: 435

Value: 0.0, Count: 60976

Value: 0.0, Count: 17920

1. 0보다 크면 모두 1 (0과 1 비율 완화, 성능 보장 못하겠음)
2. 0.5보다 크면 1 (비율 매우 큰차이, 성능 그래도 1보단 좋을듯)

In [None]:
# 1
# 조건에 따라 값을 변환
np_add_all_5mul_176_mean_over = np.where(np_add_all_5mul_176_mean > 0, 1, 0)

In [None]:
# 고유한 값과 그 출현 횟수 계산
unique_values, counts = np.unique(np_add_all_5mul_176_mean_over, return_counts=True)

# 결과 출력
for value, count in zip(unique_values, counts):
    print(f"Value: {value}, Count: {count}")

얘네 할때 896, 592는 over, thresh가 없음 왜? 당연히 모두가 0 이니깐 계속 가져다 쓰면 됨

In [None]:
np_add_all_5mul_over = []
np_add_all_5mul_over = np_add_all_5mul_over + [np_add_all_5mul_176_mean_over] + [np_add_all_5mul_896_mean] + [np_add_all_5mul_592_mean]

In [None]:
import numpy as np

# 각 배열을 평탄화하고, 평탄화된 배열들의 리스트를 생성
flattened_lists_over = [arr.flatten() for arr in np_add_all_5mul_over]

# 평탄화된 배열들을 concatenate하여 최종적으로 하나의 1차원 배열로 만듭니다.
flattened_array_over = np.concatenate(flattened_lists_over)

# 결과 출력
print(flattened_array_over)

In [None]:
# 고유한 값과 그 출현 횟수 계산
unique_values, counts = np.unique(flattened_array_over, return_counts=True)

# 결과 출력
for value, count in zip(unique_values, counts):
    print(f"Value: {value}, Count: {count}")

In [None]:
import numpy as np

# 리스트를 NumPy 배열로 변환
np_array = np.array(flattened_array_over)

# NumPy 배열을 .npy 파일로 저장
np.save('my_gt_over_data.npy', np_array)

print("Data saved as flattened_data.npy")

In [None]:
# 2
# 조건에 따라 값을 변환
np_add_all_5mul_176_mean_thresh = np.where(np_add_all_5mul_176_mean > 0.5, 1, 0)

In [None]:
# 고유한 값과 그 출현 횟수 계산
unique_values, counts = np.unique(np_add_all_5mul_176_mean_thresh, return_counts=True)

# 결과 출력
for value, count in zip(unique_values, counts):
    print(f"Value: {value}, Count: {count}")

In [None]:
np_add_all_5mul_thresh = []
np_add_all_5mul_thresh = np_add_all_5mul_thresh + [np_add_all_5mul_176_mean_thresh] + [np_add_all_5mul_896_mean] + [np_add_all_5mul_592_mean]

In [None]:
import numpy as np

# 각 배열을 평탄화하고, 평탄화된 배열들의 리스트를 생성
flattened_lists_thresh = [arr.flatten() for arr in np_add_all_5mul_thresh]

# 평탄화된 배열들을 concatenate하여 최종적으로 하나의 1차원 배열로 만듭니다.
flattened_array_thresh = np.concatenate(flattened_lists_thresh)

# 결과 출력
print(flattened_array_thresh)

In [None]:
# 고유한 값과 그 출현 횟수 계산
unique_values, counts = np.unique(flattened_array_thresh, return_counts=True)

# 결과 출력
for value, count in zip(unique_values, counts):
    print(f"Value: {value}, Count: {count}")

In [None]:
import numpy as np

# 리스트를 NumPy 배열로 변환
np_array = np.array(flattened_array_thresh)

# NumPy 배열을 .npy 파일로 저장
np.save('my_gt_thresh_data.npy', np_array)

print("Data saved as flattened_data.npy")

# anomaly mask 
앞에 gt 는 해당 프레임만 1 나머지 0

이거는 anomaly 포함된 영상이면 모든 프레임 1 아니면 0

In [None]:
np_add_all_5mul_176_mask = np.where(np.any(np_add_all_5mul_176_mean != 0, axis=1)[:, np.newaxis], np.ones_like(np_add_all_5mul_176_mean), np_add_all_5mul_176_mean)

print(np_add_all_5mul_176_mask)

In [None]:
np_add_all_5mul_176_mask = np_add_all_5mul_176_mask.astype(int)

In [None]:
# 고유한 값과 그 출현 횟수 계산
unique_values, counts = np.unique(np_add_all_5mul_176_mask, return_counts=True)

# 결과 출력
for value, count in zip(unique_values, counts):
    print(f"Value: {value}, Count: {count}")

In [None]:
np_add_all_5mul_mask = []
np_add_all_5mul_mask = np_add_all_5mul_mask + [np_add_all_5mul_176_mask] + [np_add_all_5mul_896_mean] + [np_add_all_5mul_592_mean]

In [None]:
import numpy as np

# 각 배열을 평탄화하고, 평탄화된 배열들의 리스트를 생성
flattened_lists_mask = [arr.flatten() for arr in np_add_all_5mul_mask]

# 평탄화된 배열들을 concatenate하여 최종적으로 하나의 1차원 배열로 만듭니다.
flattened_array_mask = np.concatenate(flattened_lists_mask)

# 결과 출력
print(flattened_array_mask)

In [None]:
# 고유한 값과 그 출현 횟수 계산
unique_values, counts = np.unique(flattened_array_mask, return_counts=True)

# 결과 출력
for value, count in zip(unique_values, counts):
    print(f"Value: {value}, Count: {count}")

In [None]:
flattened_array_mask = flattened_array_mask.astype(int)

In [None]:
import numpy as np

# 리스트를 NumPy 배열로 변환
np_array = np.array(flattened_array_mask)

# NumPy 배열을 .npy 파일로 저장
np.save('my_anomaly_mask.npy', np_array)

print("Data saved as flattened_data.npy")