In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings(action="ignore")

import matplotlib.font_manager as fm
font_name = fm.FontProperties(fname="C:/Windows/Fonts/malgun.ttf").get_name()
plt.rc("font", family=font_name)

import matplotlib as mpl
mpl.rcParams["axes.unicode_minus"] = False

## XML(Extension Markup Language)

+ https://docs.python.org/3/library/xml.etree.elementtree.html?highlight=xml#xml.etree.ElementTree.XML

    1.특징
        1) 메타 언어 : GML -> SGML -> XML
        2) 데이터를 위한 언어
        3) 데이터베이스 용도
        4) 데이터 표준화 : 이 기종 시스템간의 정보교환, 웹서비스, 유비쿼터스, 사물인터넷 기타등등...
    
    2. 문법(물리적인 구성요소)
        1) XML(.xml)
        2) DTD(.dtd) : XML 작성을 위한 설계문서
        3) XML Schema(.xsd) : XML 작성을 위한 설계문서
        4) XSL(.xsl, xslt) : XML문서에 스타일을 입혀주는 언어
        
    3. 결과 문서의 종류
        1) Well-Formed XML Document(잘 짜여진 문서)
        2) Valid XML Document(유효한 문서)
   
    4. Element 문법
        - 작성 규칙
            a) 모든 XML문서는 반드시 단 하나의 루트 엘리먼트를 가진다.
            b) 루트 엘리먼트는 여러 개의 자식 엘리먼트를 가질 수 있고
                또 그 자식도 자신의 자식을 가질 수 있다.
            c) 시작태그와 끝태그는 반드시 짝을 이루어야 한다.
            d) "<"는 값으로 사용 불가. ">"는 사용할 수 있으나 가급적 사용 금지
            e) "<"와 ">" 다음에 공백문자가 올 수 없으며 반드시 시작태그와 끝태그의 이름이 같아야 한다.

        - 종류
            a) 내용을 가지는 엘리먼트
            b) 내용이 없는 엘리먼트

        - 내용에 대한 종류
            a) 문자 데이터
            b) 자식 엘리먼트
            c) 엔티티 또는 문자 참조
            d) CDATA Section
            e) 프로세싱 지시자
            f) 주석 : <!-- 주석 내용 -->
            g) 공백 문자열

    5. DTD 
        - 종류
            내부 DTD
            외부 DTD
        
        - 구성 요소
            엘리먼트 선언
            속성(attribute) 선언
            Entity 선언
            Notation 선언
            프로세싱 지시자
            파라미터 엔티티 참조
            주석
            공백
            conditional section

        - 문서 유형 선언
            <!DOCTYPE 루트엘리먼트명 SYSTEM 또는 PUBLIC "식별자">
                DOCTYPE은 반드시 대문자
                SYSTEM은 특정 단체나 업체내부에서 사용되는 경우
                PUBLIC은 공개
                식별자는 다운로드 받을 수 있는 경로
                PUBLIC일 경우 추가된 식별자
                +-//DTD를 개발 및 유지보수 업체명//DTD명 및 버전번호//사용된 언어

        - 엘리먼트 선언
            <!ELEMENT 엘리먼트명 컨텐트 유형>
                컨텐트 유형
                    #PCDATA	: 내용으로 문자데이터만 갖는 엘리먼트
                    자식 엘리먼트
                        , : 작성 순서
                        | : 선택
                        ? : 생략하거나 한번만 작성
                        + : 한번 이상
                        * : 생략하거나 여러번 작성
                        기호 없음 : 단 한번만 작성
                    EMPTY
                    MIXED : 문자데이터 또는 자식엘리먼트를 혼합형태
                    ANY

        - ATTRIBUTE 선언
            <!ATTLIST 엘리먼트명 속성명 속성유형 디폴트선언>
                속성 유형
                    CDATA :  문자 데이터
                    ENUMERATION	: dtd에 나열된 값 중 하나가 와야 함
                    ID : 유일한 값을 지정
                    IDREF/IDREFS : ID값을 참조
                    NMTOKEN/NMTOKENS : 이름 작성 규칙을 준수하는 데이터만 사용
                    NOTATION : dtd에 명시적으로 선언된 notation만 사용가능
                    ENTITY : dtd에 명시적으로 선언된 entity만 사용 가능
                    
        - validation check
            https://www.xmlvalidation.com/

    6. 네임 스페이스
        CML
        -----
            <?xml version=1.0>
            <정보>
                <고유번호>111111-1111111</고유번호>
                <이름>홍길동</이름>
                ...
            </정보>

        PML
        -----
            <?xml version=1.0>
            <정보>
                <고유번호>LC100</고유번호>
                <이름>캠코더</이름>
                ...
            </정보>

        OML
        -----
            <?xml version=1.0>
            <주문정보 xmlns:고객="http://www.a.com/2017/Custom"
                xmlns:상품="http://www.a.com/2017/Product"
                xmlns="http://www.a.com/2017/Order">
                <주문번호>1</주문번호>
                <주문수량>10</주문수량>
                <결제>
                    <방법>현금</방법>
                    <금액>10000000</금액>
                </결제>

                <고객:고유번호>111111-1111111</고객:고유번호>
                <고객:이름>홍길동</고객:이름>

                <상품:고유번호>LC100</상품:고유번호>
                <상품:이름>캠코더</상품:이름>
                ...
            </주문정보>

In [21]:
import xml.etree.ElementTree as elemTree

###### XML을 사용하는 방법
# 1. XML파일로 존재하는 경우 : parse()
# 2. XML 문자열로 존재하는 경우 : fromstring()

### 1. XML 데이터 불러오기

In [3]:
tree1 = elemTree.parse("data/users.xml")
tree1

<xml.etree.ElementTree.ElementTree at 0x19c7fe3b610>

In [6]:
xmlstr = """<?xml version="1.0" encoding="utf-8" ?>
<users>
    <user grade="gold">
            <name>Kim Cheol Soo</name>
            <age>25</age>
            <birthday>19940215</birthday>
        </user>
    <user grade="diamond">
            <name>Kim Yoo Mee</name>
            <age>21</age>
            <birthday>19980417</birthday>
        </user>
</users>
"""

tree2 = elemTree.fromstring(xmlstr)
tree2

<Element 'users' at 0x000001D8ABADF7C0>

### 2. XML 데이터 다루기

#### (1) 태그명 검색

In [4]:
tree1.find("user")
tree1.find("user[1]")
data = tree1.find("user[2]")

In [8]:
print(data)
print(type(data))
dir(data)
print(data.tag)
print(data.attrib)
print(data.get("grade"))

print("----------------------------------------")

username = data.find("name")
print(username.tag)
print(username.attrib)
print(username.text)

<Element 'user' at 0x0000019C04597180>
<class 'xml.etree.ElementTree.Element'>
user
{'grade': 'diamond'}
diamond
----------------------------------------
name
{}
Kim Yoo Mee


#### (2) 태그 조건으로 검색

In [12]:
#data = tree1.find("./user[@grade]")
#data = tree1.find("./user[@grade][1]")
#data = tree1.find("./user[@grade][2]")
data = tree1.find("./user[@grade='diamond']")

print(data.attrib)
print(data.keys())
print(data.items())

{'grade': 'diamond'}
['grade']
[('grade', 'diamond')]


#### (3) 여러 개의 태그를 한꺼번에 가져오기

In [16]:
users = tree1.findall("./user")
users

for user in users:
    print(user.attrib)
    print(user.find("name").text)

{'grade': 'gold'}
Kim Cheol Soo
{'grade': 'diamond'}
Kim Yoo Mee


#### (4) document sample

In [24]:
str = """<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E" />
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank>68</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>
"""

tree3 = elemTree.fromstring(str)

In [25]:
# Singapore에 있는 이웃나라 이름은? Malaysia
# Panama에 있는 이웃나라 중 Costa Rica의 방향은? W
# 각 나라의 gdppc를 조회
# 각 나라의 인접국가 조회

country = tree3.find("./country[@name='Singapore']")
neighbor = country.find("neighbor")
print(neighbor.get("name"))

print("-------------------------------------------------------")

country = tree3.find("./country[@name='Panama']")
neighbor = country.find("neighbor[@name='Costa Rica']")
print(neighbor.get("direction"))

print("-------------------------------------------------------")

countrys = tree3.findall("./country")
countrys

Malaysia
-------------------------------------------------------
W
-------------------------------------------------------


[<Element 'country' at 0x0000019C06CDC450>,
 <Element 'country' at 0x0000019C06CF59F0>,
 <Element 'country' at 0x0000019C06CF5B80>]

In [30]:
import requests as req
health = req.get("http://www.k-health.com/rss/allArticle.xml")
tree4 = elemTree.fromstring(health.text)
tree4

<Element 'rss' at 0x0000019C06B95E50>

## JSON(Javascript Object Notation)

In [31]:
import json

# dumps() : 데이터를 저장
# loads() : 데이터를 불러올 때

In [41]:
j1 = {"name":"홍길동", "birth":"0101", "age":20}
print(type(j1))
print(j1)

print("-------------------------------------------")

#j2 = json.dumps(j1)
j2 = json.dumps(j1, indent=2)
print(type(j2))
print(j2)

print("-------------------------------------------")

# j3 = json.dumps([1, 2, 3])
j3 = json.dumps((1, 2, 3))
print(j3)
print(type(j3))

print("-------------------------------------------")

j4 = json.loads(j2)
print(j4)
print(type(j4))

<class 'dict'>
{'name': '홍길동', 'birth': '0101', 'age': 20}
-------------------------------------------
<class 'str'>
{
  "name": "\ud64d\uae38\ub3d9",
  "birth": "0101",
  "age": 20
}
-------------------------------------------
[1, 2, 3]
<class 'str'>
-------------------------------------------
{'name': '홍길동', 'birth': '0101', 'age': 20}
<class 'dict'>


In [42]:
obj = """
{
	"id": "0001",
	"type": "donut",
	"name": "Cake",
	"ppu": 0.55,
	"batters":
		{
			"batter":
				[
					{ "id": "1001", "type": "Regular" },
					{ "id": "1002", "type": "Chocolate" },
					{ "id": "1003", "type": "Blueberry" },
					{ "id": "1004", "type": "Devil's Food" }
				]
		},
	"topping":
		[
			{ "id": "5001", "type": "None" },
			{ "id": "5002", "type": "Glazed" },
			{ "id": "5005", "type": "Sugar" },
			{ "id": "5007", "type": "Powdered Sugar" },
			{ "id": "5006", "type": "Chocolate with Sprinkles" },
			{ "id": "5003", "type": "Chocolate" },
			{ "id": "5004", "type": "Maple" }
		]
}
"""

print(type(obj))

<class 'str'>


In [48]:
result = json.loads(obj)
print(result)
print(type(result))

print("-------------------------------------")

print(result["id"])

print("-------------------------------------")

print(result["batters"]["batter"][0]["id"])

{'id': '0001', 'type': 'donut', 'name': 'Cake', 'ppu': 0.55, 'batters': {'batter': [{'id': '1001', 'type': 'Regular'}, {'id': '1002', 'type': 'Chocolate'}, {'id': '1003', 'type': 'Blueberry'}, {'id': '1004', 'type': "Devil's Food"}]}, 'topping': [{'id': '5001', 'type': 'None'}, {'id': '5002', 'type': 'Glazed'}, {'id': '5005', 'type': 'Sugar'}, {'id': '5007', 'type': 'Powdered Sugar'}, {'id': '5006', 'type': 'Chocolate with Sprinkles'}, {'id': '5003', 'type': 'Chocolate'}, {'id': '5004', 'type': 'Maple'}]}
<class 'dict'>
-------------------------------------
0001
-------------------------------------
1001


## BeautifulSoup

#### (1) 웹 소스 가져오기

In [49]:
import urllib.request as req
from urllib.request import urlopen
from urllib.error import HTTPError, URLError

In [56]:
google = urlopen("https://www.google.com")
html = google.read()
print(type(html))
print(html)

<class 'bytes'>
b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="SwHlczCBy/W5QkPZ0LfCFg==">(function(){window.google={kEI:\'3OWJYfzCLafQ1sQPiN2uyAk\',kEXPI:\'0,1302536,56873,6058,207,4804,2316,383,246,5,1354,5250,1122516,1197746,623,32,328866,51224,16114,17444,11240,17572,4859,1361,9291,3022,2822,9923,4841,4020,978,13228,3847,4192,6430,7432,14390,919,5081,889,704,1279,2212,530,149,1103,840,1986,211,4100,3514,606,2023,1777,522,14668,3227,2845,7,5599,6755,5096,7539,8781,908,2,941,15756,3,346,230,6459,149,13975,4,1528,2304,7039,4684,2014,18375,2658,6701,656,30,901,4715,8012,2305,2132,16786,651,5164,2542,4094,3140,4,908,3,3541,1,16524,283,38,874,5992,16728,1715,2,3036,10986,1931,3909,1680,127,617,2350,3502,10463,1160,1266,5433,2381,2719,5189,4087,745,4148,4

In [60]:
try:
    google = urlopen("https://www.google.com")   
except HTTPError as e:
    print("HTTP Error 입니다. : ", e)
except URLError as e:
    print("URL Error 입니다. : ", e)
else:
    html = google.read()

In [61]:
##### 이미지 가져오기

req.urlretrieve("https://t1.daumcdn.net/daumtop_chanel/op/20200723055344399.png", "data/daum.png")

('data/daum.png', <http.client.HTTPMessage at 0x19c06b9cb20>)

In [64]:
img = urlopen("https://t1.daumcdn.net/daumtop_chanel/op/20200723055344399.png")
img_data = img.read()

f = open("data/daum2.png", "wb")
f.write(img_data)
f.close()

In [69]:
import urllib.parse

##### 요청 방식
# 프로토콜 ://서버주소:포트번호/폴더 또는 파일명# 섹션명
# 프로토콜 ://서버주소:포트번호/폴더 또는 파일명?변수명=값&변수명=값

# https://www.weather.go.kr/weather/lifenindustry/sevice_rss.jsp

api = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
value = {"stnId" : 109}

params = urllib.parse.urlencode(value)
print(params)

url = api + "?" + params
print(url)

data = urlopen(url).read()
print(data.decode("uft-8"))

stnId=109
http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109


LookupError: unknown encoding: uft-8