In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings(action="ignore")

import matplotlib.font_manager as fm
font_name = fm.FontProperties(fname="C:/Windows/Fonts/malgun.ttf").get_name()
plt.rc("font", family=font_name)

import matplotlib as mpl
mpl.rcParams["axes.unicode_minus"] = False

## XML(Extension Markup Language)

+ https://docs.python.org/3/library/xml.etree.elementtree.html?highlight=xml#xml.etree.ElementTree.XML

    1.특징
        1) 메타 언어 : GML -> SGML -> XML
        2) 데이터를 위한 언어
        3) 데이터베이스 용도
        4) 데이터 표준화 : 이 기종 시스템간의 정보교환, 웹서비스, 유비쿼터스, 사물인터넷 기타등등...
    
    2. 문법(물리적인 구성요소)
        1) XML(.xml)
        2) DTD(.dtd) : XML 작성을 위한 설계문서
        3) XML Schema(.xsd) : XML 작성을 위한 설계문서
        4) XSL(.xsl, xslt) : XML문서에 스타일을 입혀주는 언어
        
    3. 결과 문서의 종류
        1) Well-Formed XML Document(잘 짜여진 문서)
        2) Valid XML Document(유효한 문서)
   
    4. Element 문법
        - 작성 규칙
            a) 모든 XML문서는 반드시 단 하나의 루트 엘리먼트를 가진다.
            b) 루트 엘리먼트는 여러 개의 자식 엘리먼트를 가질 수 있고
                또 그 자식도 자신의 자식을 가질 수 있다.
            c) 시작태그와 끝태그는 반드시 짝을 이루어야 한다.
            d) "<"는 값으로 사용 불가. ">"는 사용할 수 있으나 가급적 사용 금지
            e) "<"와 ">" 다음에 공백문자가 올 수 없으며 반드시 시작태그와 끝태그의 이름이 같아야 한다.

        - 종류
            a) 내용을 가지는 엘리먼트
            b) 내용이 없는 엘리먼트

        - 내용에 대한 종류
            a) 문자 데이터
            b) 자식 엘리먼트
            c) 엔티티 또는 문자 참조
            d) CDATA Section
            e) 프로세싱 지시자
            f) 주석 : <!-- 주석 내용 -->
            g) 공백 문자열

    5. DTD 
        - 종류
            내부 DTD
            외부 DTD
        
        - 구성 요소
            엘리먼트 선언
            속성(attribute) 선언
            Entity 선언
            Notation 선언
            프로세싱 지시자
            파라미터 엔티티 참조
            주석
            공백
            conditional section

        - 문서 유형 선언
            <!DOCTYPE 루트엘리먼트명 SYSTEM 또는 PUBLIC "식별자">
                DOCTYPE은 반드시 대문자
                SYSTEM은 특정 단체나 업체내부에서 사용되는 경우
                PUBLIC은 공개
                식별자는 다운로드 받을 수 있는 경로
                PUBLIC일 경우 추가된 식별자
                +-//DTD를 개발 및 유지보수 업체명//DTD명 및 버전번호//사용된 언어

        - 엘리먼트 선언
            <!ELEMENT 엘리먼트명 컨텐트 유형>
                컨텐트 유형
                    #PCDATA	: 내용으로 문자데이터만 갖는 엘리먼트
                    자식 엘리먼트
                        , : 작성 순서
                        | : 선택
                        ? : 생략하거나 한번만 작성
                        + : 한번 이상
                        * : 생략하거나 여러번 작성
                        기호 없음 : 단 한번만 작성
                    EMPTY
                    MIXED : 문자데이터 또는 자식엘리먼트를 혼합형태
                    ANY

        - ATTRIBUTE 선언
            <!ATTLIST 엘리먼트명 속성명 속성유형 디폴트선언>
                속성 유형
                    CDATA :  문자 데이터
                    ENUMERATION	: dtd에 나열된 값 중 하나가 와야 함
                    ID : 유일한 값을 지정
                    IDREF/IDREFS : ID값을 참조
                    NMTOKEN/NMTOKENS : 이름 작성 규칙을 준수하는 데이터만 사용
                    NOTATION : dtd에 명시적으로 선언된 notation만 사용가능
                    ENTITY : dtd에 명시적으로 선언된 entity만 사용 가능
                    
        - validation check
            https://www.xmlvalidation.com/

    6. 네임 스페이스
        CML
        -----
            <?xml version=1.0>
            <정보>
                <고유번호>111111-1111111</고유번호>
                <이름>홍길동</이름>
                ...
            </정보>

        PML
        -----
            <?xml version=1.0>
            <정보>
                <고유번호>LC100</고유번호>
                <이름>캠코더</이름>
                ...
            </정보>

        OML
        -----
            <?xml version=1.0>
            <주문정보 xmlns:고객="http://www.a.com/2017/Custom"
                xmlns:상품="http://www.a.com/2017/Product"
                xmlns="http://www.a.com/2017/Order">
                <주문번호>1</주문번호>
                <주문수량>10</주문수량>
                <결제>
                    <방법>현금</방법>
                    <금액>10000000</금액>
                </결제>

                <고객:고유번호>111111-1111111</고객:고유번호>
                <고객:이름>홍길동</고객:이름>

                <상품:고유번호>LC100</상품:고유번호>
                <상품:이름>캠코더</상품:이름>
                ...
            </주문정보>

In [3]:
import xml.etree.ElementTree as elemTree

###### XML을 사용하는 방법
# 1. XML파일로 존재하는 경우 : parse()
# 2. XML 문자열로 존재하는 경우 : fromstring()

### 1. XML 데이터 불러오기

In [5]:
tree1 = elemTree.parse("data/users.xml")
tree1

<xml.etree.ElementTree.ElementTree at 0x1d8a7be6880>

In [6]:
xmlstr = """<?xml version="1.0" encoding="utf-8" ?>
<users>
    <user grade="gold">
            <name>Kim Cheol Soo</name>
            <age>25</age>
            <birthday>19940215</birthday>
        </user>
    <user grade="diamond">
            <name>Kim Yoo Mee</name>
            <age>21</age>
            <birthday>19980417</birthday>
        </user>
</users>
"""

tree2 = elemTree.fromstring(xmlstr)
tree2

<Element 'users' at 0x000001D8ABADF7C0>

### 2. XML 데이터 다루기

#### (1) 태그명 검색

In [12]:
tree1.find("user")
tree1.find("user[1]")
data = tree1.find("user[2]")

In [18]:
print(data)
print(type(data))
dir(data)
print(data.tag)
print(data.attrib)
print(data.get("grade"))

<Element 'user' at 0x000001D8ABADFA40>
<class 'xml.etree.ElementTree.Element'>
user
{'grade': 'diamond'}
diamond
