## p00.차량전체만 들어있는 json파일만 보존, 나머지 파일 제거

In [1]:
import json
import os

def find_files_with_class_id(directory, class_id):
    filtered_files = []

    for root, dirs, files in os.walk(directory):
        for file in files:
            if file.endswith(".json"):
                file_path = os.path.join(root, file)

                with open(file_path, "r", encoding="utf-8") as f:
                    json_data = json.load(f)

                objects = json_data.get("learningDataInfo", {}).get("objects", [])
                has_class_id = any(obj.get("classId") == class_id for obj in objects)

                if has_class_id:
                    filtered_files.append(file_path)

    return filtered_files

def delete_other_files(directory, keep_files):
    for root, dirs, files in os.walk(directory):
        for file in files:
            if file.endswith(".json"):
                file_path = os.path.join(root, file)
                
                if file_path not in keep_files:
                    os.remove(file_path)
                    print(f"Deleted {file_path}")

starting_directory = "/Users/imhogyun/my_project/FPvision/Fdata/training/labeling"
target_class_id = "P00.차량전체"

# 찾고자 하는 class_id가 포함된 파일 목록을 가져옵니다.
files_to_keep = find_files_with_class_id(starting_directory, target_class_id)

# 이 목록에 없는 다른 JSON 파일들을 삭제합니다.
delete_other_files(starting_directory, files_to_keep)


Deleted /Users/imhogyun/my_project/FPvision/Fdata/training/labeling/C_211222_AU_082_17_BK_A_T_03_007.json
Deleted /Users/imhogyun/my_project/FPvision/Fdata/training/labeling/C_211222_AU_013_20_WH_A_P_01_069.json
Deleted /Users/imhogyun/my_project/FPvision/Fdata/training/labeling/C_211119_BE_010_17_GR_A_T_03_014.json
Deleted /Users/imhogyun/my_project/FPvision/Fdata/training/labeling/C_211119_BE_010_17_GR_A_T_03_002.json
Deleted /Users/imhogyun/my_project/FPvision/Fdata/training/labeling/C_211220_AU_006_17_GR_A_P_01_067.json
Deleted /Users/imhogyun/my_project/FPvision/Fdata/training/labeling/C_211209_BE_008_21_WH_A_T_02_011.json
Deleted /Users/imhogyun/my_project/FPvision/Fdata/training/labeling/C_211209_BE_008_21_WH_A_T_03_011.json
Deleted /Users/imhogyun/my_project/FPvision/Fdata/training/labeling/C_211220_AU_006_17_GR_A_P_01_070.json
Deleted /Users/imhogyun/my_project/FPvision/Fdata/training/labeling/C_211220_AU_006_17_GR_A_P_01_066.json
Deleted /Users/imhogyun/my_project/FPvision/Fd

## json의 파일명과 같은 image 사진 지우기

In [2]:
import os
import glob
import json

json_dir = "/Users/imhogyun/my_project/FPvision/Fdata/training/labeling"
image_dir = "/Users/imhogyun/my_project/FPvision/Fdata/training/images"

json_files = glob.glob(json_dir + '**/*.json', recursive=True)
image_files = glob.glob(image_dir + '**/*.jpg', recursive=True)

json_names = [os.path.splitext(os.path.basename(json_f))[0] for json_f in json_files]

for image_f in image_files:
    image_name = os.path.splitext(os.path.basename(image_f))[0]
    if image_name not in json_names:
        os.remove(image_f)
        print(f'파일이 삭제되었습니다: {image_f}')


파일이 삭제되었습니다: /Users/imhogyun/my_project/FPvision/Fdata/training/images/C_211222_AU_006_18_WH_A_T_03_009.jpg
파일이 삭제되었습니다: /Users/imhogyun/my_project/FPvision/Fdata/training/images/C_211119_BE_010_17_GR_A_T_03_004.jpg
파일이 삭제되었습니다: /Users/imhogyun/my_project/FPvision/Fdata/training/images/C_211119_BE_010_17_GR_A_T_03_012.jpg
파일이 삭제되었습니다: /Users/imhogyun/my_project/FPvision/Fdata/training/images/C_211211_BE_009_18_BL_A_T_03_021.jpg
파일이 삭제되었습니다: /Users/imhogyun/my_project/FPvision/Fdata/training/images/C_211119_BE_010_17_GR_A_T_03_002.jpg
파일이 삭제되었습니다: /Users/imhogyun/my_project/FPvision/Fdata/training/images/C_211220_AU_006_17_GR_A_T_02_009.jpg
파일이 삭제되었습니다: /Users/imhogyun/my_project/FPvision/Fdata/training/images/C_211220_AU_006_17_GR_A_T_03_024.jpg
파일이 삭제되었습니다: /Users/imhogyun/my_project/FPvision/Fdata/training/images/C_211119_BE_010_17_GR_A_T_03_014.jpg
파일이 삭제되었습니다: /Users/imhogyun/my_project/FPvision/Fdata/training/images/C_211222_BE_010_17_BK_A_T_03_009.jpg
파일이 삭제되었습니다: /Users/imhogyun

## 하나의 json 파일 안에 차량전체 id 가 2개 이상 존재하는 json 파일을 찾는 코드

In [5]:
import os
import json

def search_classId(json_data, classId):
    count = 0
    for obj in json_data["learningDataInfo"]["objects"]:
        if obj["classId"] == classId:
            count += 1
            if count >= 2:
                return True
    return False

def find_duplicates(base_path):
    duplicated_files = []

    for root, dirs, files in os.walk(base_path):
        for file in files:
            if file.endswith(".json"):
                json_path = os.path.join(root, file)
                with open(json_path, 'r', encoding='UTF8') as json_file:
                    json_data = json.load(json_file)
                    if search_classId(json_data, "P00.차량전체"):
                        duplicated_files.append(json_path)

    return duplicated_files

json_dir = "/Users/imhogyun/my_project/FPvision/Fdata/training/labeling"
duplicated_files_list = find_duplicates(json_dir)

print(f"중복되는 classId 차량전체를 가진 json 파일 리스트: {duplicated_files_list}")
# print(f'파일이 삭제되었습니다: {image_f}')

중복되는 classId 차량전체를 가진 json 파일 리스트: ['/Users/imhogyun/my_project/FPvision/Fdata/training/labeling/C_211222_AU_082_17_BK_A_T_03_011.json', '/Users/imhogyun/my_project/FPvision/Fdata/training/labeling/C_211222_BE_010_17_BK_A_T_02_007.json', '/Users/imhogyun/my_project/FPvision/Fdata/training/labeling/C_211222_AU_082_17_BK_A_T_03_010.json', '/Users/imhogyun/my_project/FPvision/Fdata/training/labeling/C_211222_AU_006_17_BK_A_T_02_001.json', '/Users/imhogyun/my_project/FPvision/Fdata/training/labeling/C_211220_AU_006_17_GR_A_T_03_023.json', '/Users/imhogyun/my_project/FPvision/Fdata/training/labeling/C_211126_AU_006_18_GR_A_T_02_004.json', '/Users/imhogyun/my_project/FPvision/Fdata/training/labeling/C_211126_AU_006_18_GR_A_T_02_005.json', '/Users/imhogyun/my_project/FPvision/Fdata/training/labeling/C_211222_AU_007_17_WH_A_T_03_002.json', '/Users/imhogyun/my_project/FPvision/Fdata/training/labeling/C_211203_AU_013_20_BK_A_T_03_018.json', '/Users/imhogyun/my_project/FPvision/Fdata/training/lab

## Json 파일 안에 차량전체 만 추출하여 저장하는 코드
- 처음 추출했을 때는 들여쓰기없이 한줄로 출력.
- 문제를 해결하기 위해서 json.dump를 활용하여 해결함.

In [21]:
import json
import os

input_folder = '/Users/imhogyun/my_project/FPvision/Fdata/training/labeling'  # JSON 파일이 있는 폴더
output_folder = '/Users/imhogyun/my_project/FPvision/Fdata/training/labeling1'  # 결과 파일을 저장할 폴더

os.makedirs(output_folder, exist_ok=True)  # 결과 파일 저장 폴더 생성

for file_name in os.listdir(input_folder):
    if file_name.endswith('.json'):
        input_path = os.path.join(input_folder, file_name)
        output_path = os.path.join(output_folder, file_name)

        with open(input_path, 'r') as f:
            data = json.load(f)

        # objects에서 "P00.차량전체"가 아닌 객체 제거
        data['learningDataInfo']['objects'] = [obj for obj in data['learningDataInfo']['objects']
            if obj['classId'] == "P00.차량전체"]

        with open(output_path,'w') as f:
            json.dump(data,f ,indent=4) 


## Json -> cocoJson(XML)
- 위와 같은 들여쓰기 문제를 해결하기 위해 
    - from xml.dom.minidom import parseString 를 사용
    - 기존 f.write(xml_data.decode()) => f.write(dom_xml_data_formatted.toprettyxml()) 변경

In [22]:
!pip install dicttoxml



In [23]:
import json
from dicttoxml import dicttoxml
from xml.dom.minidom import parseString
import os

# JSON 파일이 저장된 디렉토리 경로 지정 
directory = '/Users/imhogyun/my_project/FPvision/Fdata/training/labeling1'
directory2 = '/Users/imhogyun/my_project/FPvision/Fdata/training/labeling2'

for filename in os.listdir(directory):
    if filename.endswith(".json"): 
        with open(os.path.join(directory, filename), 'r') as file:
            data = json.load(file)

        # JSON 데이터를 XML로 변환 (root 태그는 annotation)
        xml_data_unformatted = dicttoxml(data, custom_root='annotation', attr_type=False)

        # 들여쓰기 적용하여 포맷팅합니다.
        dom_xml_data_formatted=parseString(xml_data_unformatted)  # 추가된 부분입니다.
        
        with open(f'{os.path.join(directory2, filename.split(".")[0])}.xml', 'w') as f:
            f.write(dom_xml_data_formatted.toprettyxml())  ## 변경되었습니다. toprettyXML() 함수가 들여쓰기 기능을 제공합니다.



## XML 파일 형식 변환
- 기존 x, y 좌표 t1, br, ... 등 좌표를 xmin. xmax, ... 변경.
- 변경 과정중 필요한 categortid 와 classid를 뽑아옴.
- 들여쓰기 문제가 있어 xml.dom으로 해결.
- 원본 json: 6mb -> 전처리 후 700kb 용량 감소.

In [1]:
import xml.etree.ElementTree as ET
import glob
import os
from xml.dom import minidom

def convert_xml(input_xml):
    root = ET.fromstring(input_xml)

    # 새로운 어노테이션 생성
    new_annotation = ET.Element("annotation")

    ET.SubElement(new_annotation, "folder").text = "test"
    ET.SubElement(new_annotation, "filename").text = root.find(".//sourceDataID").text
    ET.SubElement(new_annotation, "path").text = ""
    source = ET.SubElement(new_annotation, "source")
    ET.SubElement(source, "database").text = "Unknown"

    size = ET.SubElement(new_annotation, "size")
    width, height = root.find(".//resolution").text.split("*")
    ET.SubElement(size, "width").text = width
    ET.SubElement(size, "height").text = height
    ET.SubElement(size, "depth").text = "3"

    # 추가 정보 그대로 유지
    ET.SubElement(new_annotation, "MediumCategoryId").text = root.find(".//MediumCategoryId").text
    ET.SubElement(new_annotation, "SmallCategoryId").text = root.find(".//SmallCategoryId").text
    ET.SubElement(new_annotation, "yearId").text = root.find(".//yearId").text

    ET.SubElement(new_annotation, "segmented").text = "0"

    objects = root.find(".//objects")
    for obj in objects.iter("item"):
        new_obj = ET.SubElement(new_annotation, "object")
        ET.SubElement(new_obj, "name").text = obj.find("./classId").text
        ET.SubElement(new_obj, "pose").text = "Unspecified"
        ET.SubElement(new_obj, "truncated").text = "0"
        ET.SubElement(new_obj, "difficult").text = "0"

        bndbox = ET.SubElement(new_obj, "bndbox")
        coords = obj.find("./coords")
        ET.SubElement(bndbox, "xmin").text = coords.find("./tl/x").text
        ET.SubElement(bndbox, "ymin").text = coords.find("./tl/y").text
        ET.SubElement(bndbox, "xmax").text = coords.find("./br/x").text
        ET.SubElement(bndbox, "ymax").text = coords.find("./br/y").text

    return ET.tostring(new_annotation, encoding='utf-8', method='xml').decode('utf-8')

def process_files(input_folder, output_folder):
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    input_files = glob.glob(f"{input_folder}/*.xml")
    for file_path in input_files:
        with open(file_path, "r") as input_file:
            input_xml = input_file.read()

        output_xml = convert_xml(input_xml)
        
        # 들여쓰기 추가
        pretty_xml = minidom.parseString(output_xml).toprettyxml(indent='  ')

        # 파일명 유지, 새로운 폴더에 저장
        base_file_name = os.path.basename(file_path)
        output_path = os.path.join(output_folder, base_file_name)

        with open(output_path, "w") as output_file:
            output_file.write(pretty_xml)
        
        print(f"{file_path} 변환 완료: {output_path}")

input_folder = "/Users/imhogyun/my_project/FPvision/Fdata/training/labeling2"
output_folder = "/Users/imhogyun/my_project/FPvision/Fdata/training/labeling3"

process_files(input_folder, output_folder)


/Users/imhogyun/my_project/FPvision/Fdata/training/labeling2/C_211026_BE_009_17_GR_A_T_03_016.xml 변환 완료: /Users/imhogyun/my_project/FPvision/Fdata/training/labeling3/C_211026_BE_009_17_GR_A_T_03_016.xml
/Users/imhogyun/my_project/FPvision/Fdata/training/labeling2/C_211026_BE_009_17_GR_A_T_03_002.xml 변환 완료: /Users/imhogyun/my_project/FPvision/Fdata/training/labeling3/C_211026_BE_009_17_GR_A_T_03_002.xml
/Users/imhogyun/my_project/FPvision/Fdata/training/labeling2/C_211222_AU_006_17_BK_A_T_02_010.xml 변환 완료: /Users/imhogyun/my_project/FPvision/Fdata/training/labeling3/C_211222_AU_006_17_BK_A_T_02_010.xml
/Users/imhogyun/my_project/FPvision/Fdata/training/labeling2/C_211203_AU_007_17_BK_A_T_03_022.xml 변환 완료: /Users/imhogyun/my_project/FPvision/Fdata/training/labeling3/C_211203_AU_007_17_BK_A_T_03_022.xml
/Users/imhogyun/my_project/FPvision/Fdata/training/labeling2/C_211222_AU_006_17_BK_A_T_02_004.xml 변환 완료: /Users/imhogyun/my_project/FPvision/Fdata/training/labeling3/C_211222_AU_006_17_BK_

## <path> 경로 작성 오류 

In [2]:
import os
import xml.etree.ElementTree as ET
# 폴더 경로 지정
folder_path = "/Users/imhogyun/my_project/FPvision/Fdata/training/labeling3"  # 여기에 폴더 경로를 입력하세요.
# 폴더 내 XML 파일 찾기
for file_name in os.listdir(folder_path):
    # XML 파일인 경우
    if file_name.endswith('.xml'):
        xml_file = os.path.join(folder_path, file_name)
        # XML 파일 읽기
        tree = ET.parse(xml_file)
        # <path> 태그 찾기
        root = tree.getroot()
        path_element = root.find('path')
        path_elements= root.find("filename")
        path_value = "/content/drive/MyDrive/824data/images/" + path_elements.text  # 여기에 원하는 경로 값을 입력하세요.
        # <path> 태그에 경로 값 추가
        if path_element is not None:
            path_element.text = path_value
            path_element.tail = '\n'
            # 변경사항을 기존 파일에 덮어쓰기
            tree.write(xml_file, encoding="UTF-8", xml_declaration=True)  # 기존 파일에 변경 내용 덮어쓰기

## 한글 깨짐과 name 값을 변경하는 작업을 진행.

In [6]:
import os
import xml.etree.ElementTree as ET

# 디렉토리 경로 설정
input_directory = '/Users/imhogyun/my_project/FPvision/Fdata/training/labeling3'
output_directory = '/Users/imhogyun/my_project/FPvision/Fdata/training/labeling4'

# 디렉토리 내의 모든 파일 목록 가져오기
xml_files = [file for file in os.listdir(input_directory) if file.endswith('.xml')]

# 각 XML 파일에 대해 작업 수행
for xml_file in xml_files:
    xml_file_path = os.path.join(input_directory, xml_file)
    
    # XML 파일을 파싱하여 ElementTree 객체 생성
    tree = ET.parse(xml_file_path)
    root = tree.getroot()
    
    # MediumCategory와 SmallCategory 값을 추출하여 object의 name 값을 대체
    medium_category = root.find('MediumCategoryId').text
    small_category = root.find('SmallCategoryId').text

    for obj in root.iter('object'):
        name_element = obj.find('name')
        name_element.text = medium_category + '_' + small_category

    # 수정된 내용을 적용한 새로운 XML 파일 생성
    new_xml_file_path = os.path.join(output_directory, xml_file)
    tree.write(new_xml_file_path, encoding = 'utf-8')

print("모든 XML 파일이 수정되었습니다.")


모든 XML 파일이 수정되었습니다.


- 2023년8월21일 ~ 2023년8월23일 완성.
- AI hub에서 가져온 차량 외관 데이터 영상에 필요한  image 파일과 json만 살리는 코드.
- json파일에서 classid가 P00.차량전체인 것만 남겨놨습니다.
- json파일 안에 차량전체만 남기고 나머지 bbox좌표는 삭제.
- json -> xml파일 형식으로 변경.
- categoreid 와 classid를 뽑아오는 과정, bbox 좌표 수정.
- 경로 작성 오류
- name 값을 변경하는 작업을 진행, 한글 깨짐 해결.
- 원본 json: 6mb -> xml: 700kb 전처리 후 용량 감소 확인.