In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import matplotlib.font_manager as fm
font_name = fm.FontProperties(fname="C:/Windows/Fonts/malgun.ttf").get_name()
plt.rc("font", family=font_name)

import matplotlib as mlp
mlp.rcParams["axes.unicode_minus"] = False

import seaborn as sns

import warnings
warnings.filterwarnings("ignore")

## XML(Extension Markup Language)

https://docs.python.org/3/library/xml.etree.elementtree.html?highlight=xml#xml.etree.ElementTree.XML

    1.특징
        1) 메타 언어 : GML -> SGML -> XML
        2) 데이터를 위한 언어
        3) 데이터베이스 용도
        4) 데이터 표준화 : 이 기종 시스템간의 정보교환, 웹서비스, 유비쿼터스, 사물인터넷 기타등등...
    
    2. 문법(물리적인 구성요소)
        1) XML(.xml)
        2) DTD(.dtd) : XML 작성을 위한 설계문서
        3) XML Schema(.xsd) : XML 작성을 위한 설계문서
        4) XSL(.xsl, xslt) : XML문서에 스타일을 입혀주는 언어
        
    3. 결과 문서의 종류
        1) Well-Formed XML Document(잘 짜여진 문서)
        2) Valid XML Document(유효한 문서)
   
    4. Element 문법
        - 작성 규칙
            a) 모든 XML문서는 반드시 단 하나의 루트 엘리먼트를 가진다.
            b) 루트 엘리먼트는 여러 개의 자식 엘리먼트를 가질 수 있고
                또 그 자식도 자신의 자식을 가질 수 있다.
            c) 시작태그와 끝태그는 반드시 짝을 이루어야 한다.
            d) "<"는 값으로 사용 불가. ">"는 사용할 수 있으나 가급적 사용 금지
            e) "<"와 ">" 다음에 공백문자가 올 수 없으며 반드시 시작태그와 끝태그의 이름이 같아야 한다.

        - 종류
            a) 내용을 가지는 엘리먼트
            b) 내용이 없는 엘리먼트

        - 내용에 대한 종류
            a) 문자 데이터
            b) 자식 엘리먼트
            c) 엔티티 또는 문자 참조
            d) CDATA Section
            e) 프로세싱 지시자
            f) 주석 : <!-- 주석 내용 -->
            g) 공백 문자열

    5. DTD 
        - 종류
            내부 DTD
            외부 DTD
        
        - 구성 요소
            엘리먼트 선언
            속성(attribute) 선언
            Entity 선언
            Notation 선언
            프로세싱 지시자
            파라미터 엔티티 참조
            주석
            공백
            conditional section

        - 문서 유형 선언
            <!DOCTYPE 루트엘리먼트명 SYSTEM 또는 PUBLIC "식별자">
                DOCTYPE은 반드시 대문자
                SYSTEM은 특정 단체나 업체내부에서 사용되는 경우
                PUBLIC은 공개
                식별자는 다운로드 받을 수 있는 경로
                PUBLIC일 경우 추가된 식별자
                +-//DTD를 개발 및 유지보수 업체명//DTD명 및 버전번호//사용된 언어

        - 엘리먼트 선언
            <!ELEMENT 엘리먼트명 컨텐트 유형>
                컨텐트 유형
                    #PCDATA	: 내용으로 문자데이터만 갖는 엘리먼트
                    자식 엘리먼트
                        , : 작성 순서
                        | : 선택
                        ? : 생략하거나 한번만 작성
                        + : 한번 이상
                        * : 생략하거나 여러번 작성
                        기호 없음 : 단 한번만 작성
                    EMPTY
                    MIXED : 문자데이터 또는 자식엘리먼트를 혼합형태
                    ANY

        - ATTRIBUTE 선언
            <!ATTLIST 엘리먼트명 속성명 속성유형 디폴트선언>
                속성 유형
                    CDATA :  문자 데이터
                    ENUMERATION	: dtd에 나열된 값 중 하나가 와야 함
                    ID : 유일한 값을 지정
                    IDREF/IDREFS : ID값을 참조
                    NMTOKEN/NMTOKENS : 이름 작성 규칙을 준수하는 데이터만 사용
                    NOTATION : dtd에 명시적으로 선언된 notation만 사용가능
                    ENTITY : dtd에 명시적으로 선언된 entity만 사용 가능
                    
        - validation check
            https://www.xmlvalidation.com/

    6. 네임 스페이스
        CML
        -----
            <?xml version=1.0>
            <정보>
                <고유번호>111111-1111111</고유번호>
                <이름>홍길동</이름>
                ...
            </정보>

        PML
        -----
            <?xml version=1.0>
            <정보>
                <고유번호>LC100</고유번호>
                <이름>캠코더</이름>
                ...
            </정보>

        OML
        -----
            <?xml version=1.0>
            <주문정보 xmlns:고객="http://www.a.com/2017/Custom"
                xmlns:상품="http://www.a.com/2017/Product"
                xmlns="http://www.a.com/2017/Order">
                <주문번호>1</주문번호>
                <주문수량>10</주문수량>
                <결제>
                    <방법>현금</방법>
                    <금액>10000000</금액>
                </결제>

                <고객:고유번호>111111-1111111</고객:고유번호>
                <고객:이름>홍길동</고객:이름>

                <상품:고유번호>LC100</상품:고유번호>
                <상품:이름>캠코더</상품:이름>
                ...
            </주문정보>

In [1]:
import xml.etree.ElementTree as elemTree

##### XML을 사용하는 방법
# 1. XML파일로 존재하는 경우 : parse()
# 2. XML 문자열로 존재하는 경우 : fromstring()

### 1. XML 데이터 불러오기

In [2]:
tree1 = elemTree.parse("data/users.xml")
tree1

<xml.etree.ElementTree.ElementTree at 0x279340864f0>

In [13]:
xmlstr = """<?xml version="1.0" encoding="utf-8" ?>
<users>
    <user grade="gold">
            <name>Kim Cheol Soo</name>
            <age>25</age>
            <birthday>19940215</birthday>
        </user>
    <user grade="diamond">
            <name>Kim Yoo Mee</name>
            <age>21</age>
            <birthday>19980417</birthday>
        </user>
</users>
"""

tree2 = elemTree.fromstring(xmlstr)
tree2

<Element 'users' at 0x00000279340C2CC0>

### 2. XML 데이터 다루기

#### 1) 태그명 검색

In [19]:
# data = tree1.find("user")
# data = tree1.find("user[1]")
data = tree1.find("user[2]")

##### Xpath : ./, ../, ...
data = tree1.find("./user[1]")

print(data)
print(type(data))
dir(data)
print(data.tag)
print(data.attrib)
print(data.get("grade"))

print("---------------------------------")

username = data.find("name")
print(username.tag)
print(username.attrib)
print(username.text)

print("---------------------------------")

username = data.find("age")
print(username.tag)
print(username.attrib)
print(username.text)

<Element 'user' at 0x0000027934090180>
<class 'xml.etree.ElementTree.Element'>
user
{'grade': 'gold'}
gold
---------------------------------
name
{}
Kim Cheol Soo
---------------------------------
age
{}
25


#### 2) 태그 조건으로 검색

In [27]:
# data = tree1.find("./user[@grade]")
# data = tree1.find("./user[@grade][1]")
# data = tree1.find("./user[@grade][2]")
data = tree1.find("./user[@grade='diamond']")

print(data.attrib)
print(data.keys())
print(data.items())

{'grade': 'diamond'}
['grade']
[('grade', 'diamond')]


#### 3) 여러 개의 태그를 한꺼번에 가져오기

In [29]:
users = tree1.findall("./user")
users

for user in users:
    print(user.attrib)
    print(user.find("name").text)

{'grade': 'gold'}
Kim Cheol Soo
{'grade': 'diamond'}
Kim Yoo Mee


#### 4) document sample

In [45]:
str = """<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank>68</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>
"""

tree3 = elemTree.fromstring(str)

In [46]:
# Singapore에 있는 이웃나라 이름은? Malaysia
# Panama에 있는 이웃나라 중 Costa Rica의 방향은? W
# 각 나라의 gdppc를 조회
# 각 나라의 인접국가 조회

# 1
data = tree3.find("./country[@name = 'Singapore']")
username = data.find("neighbor")
print(username.get("name"))
print("="*40)

# 2

data = tree3.find("./country[@name = 'Panama']")
username = data.find("neighbor[@name = 'Costa Rica']")
print(username.get("direction"))
print("="*40)

# 3

countrys = tree3.findall("./country")
countrys

for country in countrys:
    username = country.find("gdppc")
    print(username.text)
    print("="*40)

# 4

countrys = tree3.findall("./country")
countrys

for country in countrys:
    username = country.findall("neighbor")
    for user in username:
        print(user.get("name"))

    print("="*40)


Malaysia
W
141100
59900
13600
Austria
Switzerland
Malaysia
Costa Rica
Colombia


In [42]:
import requests as req
health = req.get("http://www.k-health.com/rss/allArticle.xml")
tree4 = health.text

'<?xml version="1.0" encoding="utf-8" ?>\r\n\t\t<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:sy="http://purl.org/rss/1.0/modules/syndication/" xmlns:admin="http://webns.net/mvcb/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">\r\n\t\t<channel>\r\n\t\t\t<title>헬스경향 - 전체기사</title>\r\n\t\t\t<link>http://www.k-health.com</link>\r\n\t\t\t<description>헬스경향</description>\r\n\t\t\t<language>ko</language>\r\n\t\t\t<copyright>Copyright (c) www.k-health.com All rights reserved</copyright>\r\n\t\t\t<lastBuildDate>2021-06-08 11:39:45</lastBuildDate>\r\n\t\t<item>\r\n\t\t\t<title>유한킴벌리 “숙면의 소중함 되새겨요”</title>\r\n\t\t\t<link>http://www.k-health.com/news/articleView.html?idxno=54058</link>\r\n\t\t\t<section_code>S1N11</section_code><sub_section_code>S2N45</sub_section_code><serial_code>S1N11</serial_code>\r\n\t\t\t<description><![CDATA[유한킴벌리가 20일까지 SNS를 통해 &lsquo;제 6회 우리 강산 푸르게 푸르게(우푸푸) 랜선 숲 속 꿀잠대회&rsquo; 지원자를 모집한다.\r\n\r\n\r\n\r\n유한킴벌리가 8일 &lsquo;제 6회 우리 강산 푸르게 푸르게(우푸

---

## 2. JSON(Javascript Object Notaion)

In [50]:
import json

# dumps()  : 데이터를 저장
# loads()  : 데이터를 불러올 때

In [59]:
j1 = {"name":"홍길동", "birth":"0519", "age":20}
print(type(j1))
print(j1)

print("----------------------------------------------")

# j2 = json.dumps(j1)
j2 = json.dumps(j1, indent=2)
print(type(j2))
print(j2)

print("----------------------------------------------")

###### 리스트나 튜플로 json으로 변환
# j3 = json.dumps([1, 2, 3])
j3 = json.dumps((1, 2, 3))
print(j3)
print(type(j3))

print("----------------------------------------------")

j4 = json.loads(j2)
print(j4)
print(type(j4))

<class 'dict'>
{'name': '홍길동', 'birth': '0519', 'age': 20}
----------------------------------------------
<class 'str'>
{
  "name": "\ud64d\uae38\ub3d9",
  "birth": "0519",
  "age": 20
}
----------------------------------------------
[1, 2, 3]
<class 'str'>
----------------------------------------------
{'name': '홍길동', 'birth': '0519', 'age': 20}
<class 'dict'>


In [61]:
obj = """
{
	"id": "0001",
	"type": "donut",
	"name": "Cake",
	"ppu": 0.55,
	"batters":
		{
			"batter":
				[
					{ "id": "1001", "type": "Regular" },
					{ "id": "1002", "type": "Chocolate" },
					{ "id": "1003", "type": "Blueberry" },
					{ "id": "1004", "type": "Devil's Food" }
				]
		},
	"topping":
		[
			{ "id": "5001", "type": "None" },
			{ "id": "5002", "type": "Glazed" },
			{ "id": "5005", "type": "Sugar" },
			{ "id": "5007", "type": "Powdered Sugar" },
			{ "id": "5006", "type": "Chocolate with Sprinkles" },
			{ "id": "5003", "type": "Chocolate" },
			{ "id": "5004", "type": "Maple" }
		]
}
"""

print(type(obj))

<class 'str'>


In [68]:
result = json.loads(obj)
print(type(result))
print(result)

print("-----------------------------------------------------------")

print(result["id"])

print("-----------------------------------------------------------")

print(result["batters"]["batter"][0]["id"])

<class 'dict'>
{'id': '0001', 'type': 'donut', 'name': 'Cake', 'ppu': 0.55, 'batters': {'batter': [{'id': '1001', 'type': 'Regular'}, {'id': '1002', 'type': 'Chocolate'}, {'id': '1003', 'type': 'Blueberry'}, {'id': '1004', 'type': "Devil's Food"}]}, 'topping': [{'id': '5001', 'type': 'None'}, {'id': '5002', 'type': 'Glazed'}, {'id': '5005', 'type': 'Sugar'}, {'id': '5007', 'type': 'Powdered Sugar'}, {'id': '5006', 'type': 'Chocolate with Sprinkles'}, {'id': '5003', 'type': 'Chocolate'}, {'id': '5004', 'type': 'Maple'}]}
-----------------------------------------------------------
0001
-----------------------------------------------------------
1001


---

## BeautifulSoup

#### 1) 웹 소스 가져오기

In [69]:
from urllib.request import urlopen

In [78]:
google = urlopen("http://google.com")
print(type(google))

html = google.read()
print(type(html))
print(html)


<class 'http.client.HTTPResponse'>
<class 'bytes'>
b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="4C3O4Rt6rakJVGXjq/dvTg==">(function(){window.google={kEI:\'Bhe_YPzNDMXbhwOmg4CQDA\',kEXPI:\'0,772215,1,530320,56873,954,5104,207,4804,926,1390,383,246,5,1354,5251,16231,10,1106274,1197694,558,31,328984,51224,16114,28684,17572,4859,1361,9290,3021,2823,14765,4020,978,4091,9137,2054,1793,4192,6430,14528,4517,2777,919,5081,1593,1279,2212,530,149,1103,840,517,5780,108,3406,606,2023,1777,520,14670,3227,2845,7,4773,7581,5096,7876,4929,108,3407,908,2,941,2614,2397,10745,3,576,1835,4624,149,5990,7985,4,1528,2304,1242,5220,577,1791,2893,2014,4067,14308,2658,4242,519,914,1026,40,616,30,5616,8012,1590,715,638,1494,5586,3772,6763,665,2145,376,3297,2539,4094,18,3120,6,

In [85]:
from urllib.error import HTTPError, URLError

try:
    naver = urlopen("https://www.naverabcde.com/index.jsp")
except HTTPError as e:
    print("HTTP Error 입니다.", e)
except URLError as e:
    print("URL Error 입니다.", e)
else:
    print(naver.read())

URL Error 입니다. <urlopen error [Errno 11001] getaddrinfo failed>
