## 파이썬을 활용한 XML 파싱 및 수정 단계별 가이드
- XML(eXtensible Markup Language)은 데이터를 구조화하는 데 널리 사용되는 형식입니다. 파이썬의 표준 라이브러리에 포함된 xml.etree.ElementTree 모듈을 사용하면 XML 문서를 쉽게 다룰 수 있습니다.

In [None]:
# 단계 1: 필요한 모듈 임포트하기
# 가장 먼저 XML 파싱을 위해 xml.etree.ElementTree 모듈을 임포트합니다. 보통 ET라는 약칭으로 사용합니다.

import xml.etree.ElementTree as ET

In [1]:
# 단계 2: XML 데이터 준비 및 파싱하기
# XML 데이터를 파싱하려면, 해당 XML이 파일 형태로 있거나, 파이썬 문자열 변수에 저장되어 있어야 합니다. 여기서는 파일에서 읽어들이는 방법을 기준으로 설명합니다.

# 1. XML 파일 생성 (예시): 실제 XML 파일이 있다면 이 부분을 건너뛰고 해당 파일 경로를 사용하세요.

# 예시 XML 내용 (input.xml 파일로 저장될 내용)
xml_content = """<root>
    <A1_Primary_Node name='주행경로노드' year="2025">
        <child_B1_Sub_Node id="c1"/>
    </A1_Primary_Node>
    <B2_Secondary_Node type="data">
        <C1_Final_Node/>
    </B2_Secondary_Node>
    <Other_Node status="active"/>
    <A3_Unmatched_Node value="some"/>
</root>"""

# 예시 XML 내용을 'input.xml' 파일로 저장
with open("input.xml", "w", encoding="utf-8") as f:
    f.write(xml_content)

# 2. XML 파일 파싱: ET.parse() 함수를 사용하여 XML 파일을 파싱하고, tree.getroot()를 통해 XML 문서의 최상위(root) 엘리먼트를 가져옵니다. 모든 XML 조작은 이 root 엘리먼트에서 시작됩니다.
# XML 파일 파싱 (읽기)
tree = ET.parse('input.xml')
root = tree.getroot() # XML 문서의 최상위(root) 엘리먼트 가져오기

NameError: name 'ET' is not defined

In [None]:
# 단계 3: XML 엘리먼트 순회 및 데이터 접근하기
# 이제 XML 문서의 모든 엘리먼트를 순회하며 필요한 데이터를 읽거나 조작할 수 있습니다. root.iter() 메서드를 사용하면 XML 트리의 모든 엘리먼트를 깊이 우선(depth-first) 방식으로 순회할 수 있어 편리합니다.

# 속성 추가 조건을 위한 리스트들 정의
my_keywords1 = ['A1', 'A2', 'C1']
my_keywords2 = ['B1', 'B2']
my_keywords3 = ['NODE']

print("--- 속성 추가 전 XML 엘리먼트 ---")
for element in root.iter():
    # element.tag: 엘리먼트의 태그 이름 (예: 'A1_Primary_Node')
    # element.attrib: 엘리먼트의 속성들을 딕셔너리 형태로 반환 (예: {'name': '주행경로노드', 'year': '2025'})
    # element.text: 엘리먼트 내부의 텍스트 (자식 엘리먼트가 아닌 직접적인 텍스트)
    print(f"태그: {element.tag}, 속성: {element.attrib}")

In [None]:
# 단계 4: 조건에 따라 XML 엘리먼트 수정하기 (속성 추가/변경)
# XML 엘리먼트에 새로운 속성을 추가하거나 기존 속성의 값을 변경하려면 element.set() 메서드를 사용합니다. 여기서는 특정 키워드가 태그 이름에 포함되어 있고, 아직 div 속성이 없는 경우에만 속성을 추가하도록 로직을 구현합니다.

print("\n--- 속성 추가/변경 과정 ---")

# 모든 엘리먼트를 순회하며 조건에 따라 속성 추가
for element in root.iter():
    # 현재 엘리먼트에 이미 'div' 속성이 있다면, 다음 엘리먼트로 넘어감 (중복 처리 방지)
    if 'div' in element.attrib:
        print(f"  (스킵) '{element.tag}' 엘리먼트는 이미 'div' 속성이 있습니다.")
        continue # 다음 엘리먼트로 바로 이동

    # my_keywords1 리스트의 키워드 검사 (1순위)
    for keyword in my_keywords1:
        if keyword in element.tag:
            element.set('div', 'ngii') # 'div' 속성을 'ngii' 값으로 추가 또는 업데이트
            print(f"  '{element.tag}' 태그에 '{keyword}' 포함 -> div='ngii' 추가 (1순위)")
            break # 해당 엘리먼트에 속성을 추가했으니, 이 엘리먼트의 다음 리스트 검사는 건너뜀

    # 'div' 속성이 방금 설정되었다면, 다음 리스트(my_keywords2, my_keywords3) 검사를 건너김
    if 'div' in element.attrib:
        continue

    # my_keywords2 리스트의 키워드 검사 (2순위)
    for keyword in my_keywords2:
        if keyword in element.tag:
            element.set('div', 'ex') # 'div' 속성을 'ex' 값으로 추가 또는 업데이트
            print(f"  '{element.tag}' 태그에 '{keyword}' 포함 -> div='ex' 추가 (2순위)")
            break

    # 'div' 속성이 방금 설정되었다면, 다음 리스트(my_keywords3) 검사를 건너김
    if 'div' in element.attrib:
        continue

    # my_keywords3 리스트의 키워드 검사 (3순위)
    for keyword in my_keywords3:
        if keyword in element.tag:
            element.set('div', 'road') # 'div' 속성을 'road' 값으로 추가 또는 업데이트
            print(f"  '{element.tag}' 태그에 '{keyword}' 포함 -> div='road' 추가 (3순위)")
            break

# 수정된 엘리먼트들의 태그 이름과 속성 출력
print("\n--- 속성 추가 후 XML 엘리먼트 ---")
for element in root.iter():
    print(f"태그: {element.tag}, 속성: {element.attrib}")

In [None]:
# 단계 5: 변경된 XML을 새 파일로 저장하기
# 모든 수정이 완료되었다면, 변경된 ElementTree 객체를 새로운 XML 파일로 저장해야 실제 변경 사항이 반영됩니다. tree.write() 메서드를 사용합니다.

# 변경된 XML 내용을 새 파일로 저장
# 'output_prioritized_div.xml'이라는 새 파일에 변경된 내용을 저장합니다.
# encoding='UTF-8'은 한글이 깨지지 않도록 하며, xml_declaration=True는 XML 선언을 추가합니다.
tree.write('output_prioritized_div.xml', encoding='UTF-8', xml_declaration=True)
print("\n변경된 XML 내용이 'output_prioritized_div.xml' 파일로 저장되었습니다.")

# (선택 사항) 저장된 파일의 내용을 직접 콘솔에 출력하여 확인
# print("\n--- output_prioritized_div.xml 파일 내용 ---")
# with open('output_prioritized_div.xml', 'r', encoding='utf-8') as f:
#     print(f.read())