In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 한글처리
import matplotlib.font_manager as fm
font_name = fm.FontProperties(fname="C:\\Windows\\Fonts\\malgun.ttf").get_name()
plt.rc("font", family=font_name)

# 음수 - 표시 처리
import matplotlib as mlp
mlp.rcParams["axes.unicode_minus"] = False

# 1. XML

+ 특징
    - 메타 언어 : GML -> SGML -> XML
    - 데이터를 위한 언어
    - DBMS
    - 데이터 표준화 : 이기종 시스템간의 정보교환, 웹서비스, 유비쿼터스, 사물인터넷 등등...
    
    
+ 구성 요소
    - dtd   ( 설계도 역할, 간단한 문법, 정밀한 설계는 어려움, 제한이 있음 )
    - xml schema  ( 설계도 역할, 정밀한 설계가 가능 )
    - xml  ( 디자인적 요소가 없음 )
    - xsl, xslt  ( xml을 데이터를 디자인을 해주는 역할 , css가 여기에 해당 )
   
   
+ https://docs.python.org/3/library/xml.etree.elementtree.html


In [2]:
import xml.etree.ElementTree as et

##### XML api 사용 방법
# 1. xml이 파일로 존재하는 경우 : parse()
# 2. xml이 메모리에 로드된 경우 : fromstring()

## (1) XML 데이터 불러오기

In [3]:
##### xml이 파일로 존재하는 경우

tree1 = et.parse("data/users.xml")

tree1

<xml.etree.ElementTree.ElementTree at 0x2606d2aa730>

In [4]:
##### xml이 이미 메모리에 로드되어 있는 경우

xmlstr = """<?xml version="1.0" encoding="utf-8" ?>
<users>
	<user grade="gold">
            <name>Kim Cheol Soo</name>
            <age>25</age>
            <birthday>19940215</birthday>
    </user>
    <user grade="diamond">
            <name>Kim Yoo Mee</name>
            <age>21</age>
            <birthday>19980417</birthday>
    </user>
</users>
"""

tree2 = et.fromstring(xmlstr)

tree2

<Element 'users' at 0x000002606D3C2B30>

## (2) XML 데이터 다루기

### 1) 태그명 검색

In [6]:
# 앞서 user.xml을 불러와 담아놓은 tree1에서 find 함수로 "user" 라는 태그를 찾아보기
# 시작위치가 0이 아니라 1부터 이므로 착오 금지

print(tree1.find("user"))
print(tree1.find("user[1]"))
print(tree1.find("user[2]"))   # 두번째 유저에 접근

<Element 'user' at 0x000002606D3C2630>
<Element 'user' at 0x000002606D3C2630>
<Element 'user' at 0x000002606D3C2770>


In [16]:
data = tree1.find("user[2]")
print(type(data))
dir(data)

print(data.tag)
print(data.attrib)    # attrib 로 속성에 접근 가능
print(data.get("grade"))    # get( 키값 ) 으로 데이터를 직접 꺼낼 수 있음

print("-----------------------------------------------------")

username = data.find("name")    # 이미 data 를 user[2] 로 인해 2번째 user에 접근한 상태이므로
print(username.tag)
print(username.attrib)
print(username.text)    # text 를 이용하면 태그가 가지고있는 자식 노드에 접근할 수 있음

<class 'xml.etree.ElementTree.Element'>
user
{'grade': 'diamond'}
diamond
-----------------------------------------------------
name
{}
Kim Yoo Mee


### 2) 태그 조건으로 검색

In [26]:
# data = tree1.find("./user[@grade]")
# data = tree1.find("./user[@grade][2]")
data = tree1.find("./user[@grade='diamond']")

print(data)
print(data.attrib)
print(data.keys())
print(data.items())

<Element 'user' at 0x000002606D3C2770>
{'grade': 'diamond'}
['grade']
[('grade', 'diamond')]


### 3) 여러 개의 태그를 한꺼번에 가져오기

In [28]:
# . 은 현재위치를 의미. 여기선 tree1 이고 / 표시는 하위단계를 의미.  즉 현재위치에서 하위단계의 user란 태그를 전부 가져오기

users = tree1.findall("./user")
users

for i in users:
    print(i.attrib)
    print(i.find("name").text)

{'grade': 'gold'}
Kim Cheol Soo
{'grade': 'diamond'}
Kim Yoo Mee


# 2. JSON

In [30]:
import json

# dumps() : 데이터 저장
# loads() : 데이터 불러올 때

In [35]:
j1 = {"name" : "홍길동", "birth" : "0101", "age" : 20}
print(type(j1))
print(j1)

print("---------------------------------------------------------")

j2 = json.dumps(j1)
print(type(j2))
print(j2)

print("---------------------------------------------------------")

j3 = json.dumps((1, 2, 3))
print(type(j3))
print(j3)

print("---------------------------------------------------------")

j4 = json.loads(j2)
print(type(j4))
print(j4)


<class 'dict'>
{'name': '홍길동', 'birth': '0101', 'age': 20}
---------------------------------------------------------
<class 'str'>
{"name": "\ud64d\uae38\ub3d9", "birth": "0101", "age": 20}
---------------------------------------------------------
<class 'str'>
[1, 2, 3]
---------------------------------------------------------
<class 'dict'>
{'name': '홍길동', 'birth': '0101', 'age': 20}


In [36]:
obj = """
{
	"id": "0001",
	"type": "donut",
	"name": "Cake",
	"ppu": 0.55,
	"batters":
		{
			"batter":
				[
					{ "id": "1001", "type": "Regular" },
					{ "id": "1002", "type": "Chocolate" },
					{ "id": "1003", "type": "Blueberry" },
					{ "id": "1004", "type": "Devil's Food" }
				]
		},
	"topping":
		[
			{ "id": "5001", "type": "None" },
			{ "id": "5002", "type": "Glazed" },
			{ "id": "5005", "type": "Sugar" },
			{ "id": "5007", "type": "Powdered Sugar" },
			{ "id": "5006", "type": "Chocolate with Sprinkles" },
			{ "id": "5003", "type": "Chocolate" },
			{ "id": "5004", "type": "Maple" }
		]
}
"""

print(type(obj))

<class 'str'>


In [48]:
# id가 0001 인 값 추출

a = json.loads(obj)
print(a["id"])

# id가 1001 인 값 추출

print(a["batters"]["batter"][0]["id"])

0001
1001


# 3. BeautifulSoup

## (1) 웹 소스 가져오기

In [49]:
import urllib.request as req
from urllib.error import HTTPError, URLError

In [52]:
google = req.urlopen("https://google.com")
html = google.read()    # google 페이지에서 html 코드 가져오기
print(type(html))

<class 'bytes'>


In [53]:
try:
    google = req.urlopen("https://google.com")
except HTTPError as e:
    print("HTTPError : " , e)
except ULRError as e:
    print("URLError : " , e)
else:
    html = google.read()

In [54]:
##### 이미지 가져오기
req.urlretrieve("https://www.google.co.kr/images/branding/googlelogo/1x/googlelogo_color_272x92dp.png", "data/google1.png")

('data/google1.png', <http.client.HTTPMessage at 0x2606d609af0>)

In [59]:
img = req.urlopen("https://www.google.co.kr/images/branding/googlelogo/1x/googlelogo_color_272x92dp.png")
img_data = img.read()
img_data

f = open("data/google2.png", "wb")
f.write(img_data)
f.close()