In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import matplotlib.font_manager as fm
font_name = fm.FontProperties(fname="C:\\Windows\\Fonts\\malgun.ttf").get_name()
plt.rc("font", family=font_name)

import matplotlib as mlp
mlp.rcParams["axes.unicode_minus"] = False

import seaborn as sns

# 1. XML

+ https://docs.python.org/3/library/xml.etree.elementtree.html?highlight=xml#xml.etree.ElementTree.XML

+ 특징
    - 메타 언어 : GML-> SGML -> XML
    - 데이터를 위한 언어
    - DBMS
    - 데이터 표준화 : 이기종(서로다른) 시스템간의 정보교환, 웹서비스, 유비쿼터스, 사물인터넷 등등

In [2]:
import xml.etree.ElementTree as elemTree

# XML을 사용하는 방법
# 1. XML 파일로 존재하는 경우 : parse()
# 2. XML문자열로 존재하는 경우 : fromstring()

### (1) XML데이터 불러오기

In [4]:
tree1 = elemTree.parse("../data/users.xml")
tree1

<xml.etree.ElementTree.ElementTree at 0x2ba9d37b610>

In [5]:
xmlstr = """<?xml version="1.0" encoding="utf-8" ?>
<users>
    <user grade="gold">
            <name>Kim Cheol Soo</name>
            <age>25</age>
            <birthday>19940215</birthday>
        </user>
    <user grade="diamond">
            <name>Kim Yoo Mee</name>
            <age>21</age>
            <birthday>19980417</birthday>
        </user>
</users>
"""

tree2 = elemTree.fromstring(xmlstr)
tree2

<Element 'users' at 0x000002BAA863E770>

### (2) XML 데이터 다루기

#### 1) 태그명 검색

In [7]:
print(tree1.find("user"))
print(tree1.find("user[1]")) #xml은 인덱스가 1부터 시작
print(tree1.find("user[2]"))

<Element 'user' at 0x000002BAA863E090>
<Element 'user' at 0x000002BAA863E090>
<Element 'user' at 0x000002BAA863E1D0>


In [9]:
data=tree1.find("user[2]")
print(data.tag)
print(data.attrib)#속성찾기
print(data.get("grade"))

print("------------------------------")

username = data.find("name")
print(username.tag)
print(username.attrib)#속성(속성은 없지만 자식이 있기때문에 {}로 뜸)
print(username.text)

user
{'grade': 'diamond'}
diamond
------------------------------
name
{}
Kim Yoo Mee


#### 2) 태그 조건으로 검색

In [10]:
#data = tree1.find("./user[@grade]")#태그중에 grade라는 속성을 가지고 있는 user tag에 접근하겠다는 뜻. @는 attrib를 의미
#data = tree1.find("./user[@grade][2]")#인덱스 이용
data=tree1.find("./user[@grade='diamond']")#값 지정 가능

print(data.attrib)
print(data.keys())
print(data.items())

{'grade': 'diamond'}
['grade']
[('grade', 'diamond')]


#### 3) 여러 개의 태그를 한꺼번에 가져오기

In [12]:
users=tree1.findall("./user") #./는 생략가능(현재 위치를 표시한 것)
users

for user in users:
    print(user.attrib)
    print(user.find("name").text)

{'grade': 'gold'}
Kim Cheol Soo
{'grade': 'diamond'}
Kim Yoo Mee


#### 4) 연습문제

In [13]:
str = """<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E" />
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank>68</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>
"""

data = elemTree.fromstring(str)

In [20]:
# Singapore에 있는 이웃나라 이름은?
s=data.find("country[2]")
n=s.find("neighbor[@name]")
print(n.get("name"))

#Panama에 있는 이웃나라 중 CostaRica의 방향은
s=data.find("country[3]")
neis=s.findall("neighbor")
for nei in neis:
    if nei.get("name")=="Costa Rica":
        print(nei.get("direction"))
        
# 각 나라의 gdppc를 조회
cons=data.findall("country")
for con in cons:
    print(con.get("name"))
    print(con.find("gdppc").text)
    
# 각 나라의 인접국가를 조회
cons=data.findall("country")
for con in cons:
    neis=con.findall("neighbor")
    for nei in neis:
        print(nei.get("name"))

Malaysia
W
Liechtenstein
141100
Singapore
59900
Panama
13600
Austria
Switzerland
Malaysia
Costa Rica
Colombia
