## XML

* XML은 eXtensible Markup Language의 약자로, 다음과 같은 계층 구조로 이루어져있습니다. HTML과 비슷하지만 원하는 이름의 태그를 만들 수 있다는 특징이 있고, HTML보다 문법 오류를 더 엄격하게 다룹니다.

* XML 데이터를 파이썬에 읽어오기 위해서는 xml 모듈이 필요합니다.  
다음과 같은 함수를 활용하면 XML에 접근해 원하는 데이터를 추출할 수 있습니다

In [12]:
import xml.etree.ElementTree as ET

# '''는 어떤 특정한 문자열 집합을 저장하겠다는 의미며, 마지막에 ''''를 써서 닫음
data = '''
<person>
  <name>Chuck</name>
  <phone type="intl">
    +1 734 303 4456
  </phone>
  <email hide="yes" />
</person>'''

tree = ET.fromstring(data)   # tree 라는 객체에 xml 트리가 적용된 string 타입의 'data'를 저장함
print('Name1:', tree.find('name')) 
print('Name2:', tree.find('name').text) # tree에서 'name'을 찾고 text로 출력(위의 name1의 출력을 보면 문자가 아님)
print('Attr:', tree.find('email').get('hide'))  # 'eamil'을 찾고 hide의 속성을 출력


Name1: <Element 'name' at 0x06225750>
Name2: Chuck
Attr: yes


In [24]:
import xml.etree.ElementTree as ET

input = '''
<stuff>
  <users>
    <user x="2">
      <id>001</id>
      <name>Chuck</name>
    </user>
    <user x="7">
      <id>009</id>
      <name>Brent</name>
    </user>
    <user x='chun'>
      <id>992</id>
      <name>Bund</name>
      </user>
  </users>
</stuff>'''

stuff = ET.fromstring(input)
user_l = stuff.findall('users/user')  # user_l 객체(리스트타입)에 stuff 내의 users 하위트리의 user에 대한 걸 넣어라
print(type(user_l))                  ### 근데 어떻게 바로 리스트 형식이 되는 걸까??
print('User count:', len(user_l))  # user_l 리스트에 들어간 user 개수 출력


for item in user_l:
    print('Name', item.find('name').text)
    print('Id', item.find('id').text)
    print('Attribute', item.get('x'))
    print('Attribute2', item.attrib)

print('--'*10)

<class 'list'>
User count: 3
Name Chuck
Id 001
Attribute 2
Attribute2 {'x': '2'}
Name Brent
Id 009
Attribute 7
Attribute2 {'x': '7'}
Name Bund
Id 992
Attribute chun
Attribute2 {'x': 'chun'}
--------------------


In [27]:
import xml.etree.ElementTree as ET

test1 = '''
<cus>
  <users>
    <user x="2">
      <id>001</id>
      <name>Chuck</name>
    </user>
    <user x="7">
      <id>009</id>
      <name>Brent</name>
    </user>
    <user x='chun'>
      <id>992</id>
      <name>Bund</name>
      </user>
  </users>
</cus>'''

cus = ET.fromstring(test1)
user_l2 = cus.findall('users/user')  # user_l 객체(리스트타입)에 stuff 내의 users 하위트리의 user에 대한 걸 넣어라
print(type(user_l2))                  ### 근데 어떻게 바로 리스트 형식이 되는 걸까??
print('User count:', len(user_l2))  # user_l 리스트에 들어간 user 개수 출력


for item in user_l2:
    print('Name', item.find('name').text)
    print('Id', item.find('id').text)
    print('Attribute', item.get('x'))
    print('Attribute2', item.attrib)

print('--'*10)

<class 'list'>
User count: 3
Name Chuck
Id 001
Attribute 2
Attribute2 {'x': '2'}
Name Brent
Id 009
Attribute 7
Attribute2 {'x': '7'}
Name Bund
Id 992
Attribute chun
Attribute2 {'x': 'chun'}
--------------------


## XML 스키마

* 스키마라는 것은 XML을 정해진 규칙으로 서술/작성되도록 하는 가이드라인을 의미하며,  
이를 벗어날 경우에 오류가 뜨도록 검사하는 '검사기'와 같은 것도 있음

## JSON(JavaScript Object Notation)

* JSON은 XML보다 더 자주 사용되는 데이터 포맷입니다. 이 코드는 이전 시간에 XML로 실행했던 것과 정확히 같은 내용의 코드입니다. 데이터가 XML 형식에서 JSON 형식으로 바뀐 것을 제외하면 말입니다.   
JSON은 파이썬에서의 딕셔너리와 굉장히 비슷하기 때문에 데이터를 읽어온 후 딕셔너리로 접근할 수 있습니다.

* xml과 다르게 익숙한 딕셔너리 형태로 사용 가능하며, 키와 값을 가지고 사용 가능
print 할 때도, 딕셔너리 형태로 호출

In [35]:
import json
data = '''{
 "name" : "chuck",
 "phone" : {
  "type" : "intl",
  "number" : "+82 10 3972"
  },
 "email" : {
  "hide" : "yes",
  "domain" : "naver.com"
  }

 }'''

info = json.loads(data)
print('name>>', info["name"])
print('Hide>>', info["email"]["domain"])

name>> chuck
Hide>> naver.com


* json1 이라는 [리스트] 내에서 2개의 딕셔너리를 가지는 구조

In [2]:
import json

# 리스트를 의미하는 대괄호[]를 사용하여 json 구조를 생성
json1 = '''[
 {"id" : "001",
 "sex" : "M",
 "Name" : "chun"
},
 {"id" : "002",
 "sex" : "W",
 "Name" : "Jang"
 }

 ]'''

infoma = json.loads(json1)
print(infoma)
print('User count', len(infoma))

for item in infoma :
    print('Name', item["Name"])
    print('Gender', item["sex"])
    print('Attr', item["id"])

[{'id': '001', 'sex': 'M', 'Name': 'chun'}, {'id': '002', 'sex': 'W', 'Name': 'Jang'}]
User count 2
Name chun
Gender M
Attr 001
Name Jang
Gender W
Attr 002


## Service Oriented Approach

* 서비스 지향 아키텍처(Service Oriented Architecture, 약칭 SOA 「에스오에이」혹은 「소아」로 발음)란 대규모 컴퓨터 시스템을 구축할 때의 개념으로 업무상에 일 처리에 해당하는 소프트웨어 기능을 서비스로 판단하여 그 서비스를 네트워크상에 연동하여 시스템 전체를 구축해 나가는 방법론이다. 

#### API
* 우리는 타 서비스에서 제공중인 Open API를 받아서 사용 가능하다.
아래 예시는 구글맵 API 중 한 개를 사용하여, 입력한 장소에 대한 위치 좌표를 얻는 코드

In [None]:
import urllib.request, urllib.parse, urllib.error
import json
import ssl

api_key = False
# If you have a Google Places API key, enter it here
# api_key = 'AIzaSy___IDByT70'
# https://developers.google.com/maps/documentation/geocoding/intro

if api_key is False:
    api_key = 42
    serviceurl = 'http://py4e-data.dr-chuck.net/json?'
else :
    serviceurl = 'https://maps.googleapis.com/maps/api/geocode/json?'

# Ignore SSL certificate errors
ctx = ssl.create_default_context()
ctx.check_hostname = False
ctx.verify_mode = ssl.CERT_NONE

while True:
    address = input('Enter location: ')
    if len(address) < 1: break

    parms = dict()
    parms['address'] = address
    if api_key is not False: parms['key'] = api_key
    url = serviceurl + urllib.parse.urlencode(parms)

    print('Retrieving', url)
    uh = urllib.request.urlopen(url, context=ctx)
    data = uh.read().decode()
    print('Retrieved', len(data), 'characters')

    try:
        js = json.loads(data)
    except:
        js = None

    if not js or 'status' not in js or js['status'] != 'OK':
        print('==== Failure To Retrieve ====')
        print(data)
        continue

    print(json.dumps(js, indent=4))

    lat = js['results'][0]['geometry']['location']['lat']
    lng = js['results'][0]['geometry']['location']['lng']
    print('lat', lat, 'lng', lng)
    location = js['results'][0]['formatted_address']
    print(location)

Enter location: seoul, korea
Retrieving http://py4e-data.dr-chuck.net/json?address=seoul%2C+korea&key=42
Retrieved 1517 characters
{
    "results": [
        {
            "address_components": [
                {
                    "long_name": "Seoul",
                    "short_name": "Seoul",
                    "types": [
                        "locality",
                        "political"
                    ]
                },
                {
                    "long_name": "Seoul",
                    "short_name": "Seoul",
                    "types": [
                        "administrative_area_level_1",
                        "political"
                    ]
                },
                {
                    "long_name": "South Korea",
                    "short_name": "KR",
                    "types": [
                        "country",
                        "political"
                    ]
                }
            ],
            "formatted_addre