In [1]:
import os
import urllib.request
import urllib.parse

### phpのAPI経由でxmlの文字列を取得

今回は「郵便番号検索API」を使用させていただきました。有用なAPIを公開してくれている作者の方に感謝ですね。

In [4]:
params = {"zn":1030000}

p = urllib.parse.urlencode(params)
url = 'http://zip.cgis.biz/xml/zip.php?' + p
req = urllib.request.Request(url)

with urllib.request.urlopen(req) as response:
    xml_string = response.read()

In [5]:
print(xml_string)

b'<?xml version="1.0" encoding="utf-8" ?>\n<ZIP_result>\n<result name="ZipSearchXML" />\n<result version="1.01" />\n<result request_url="http%3A%2F%2Fzip.cgis.biz%2Fxml%2Fzip.php%3Fzn%3D1030000" />\n<result request_zip_num="1030000" />\n<result request_zip_version="none" />\n<result result_code="1" />\n<result result_zip_num="1030000" />\n<result result_zip_version="0" />\n<result result_values_count="1" />\n<ADDRESS_value>\n<value state_kana="\xe3\x83\x88\xe3\x82\xa6\xe3\x82\xad\xe3\x83\xa7\xe3\x82\xa6\xe3\x83\x88" />\n<value city_kana="\xe3\x83\x81\xe3\x83\xa5\xe3\x82\xa6\xe3\x82\xaa\xe3\x82\xa6\xe3\x82\xaf" />\n<value address_kana="none" />\n<value company_kana="none" />\n<value state="\xe6\x9d\xb1\xe4\xba\xac\xe9\x83\xbd" />\n<value city="\xe4\xb8\xad\xe5\xa4\xae\xe5\x8c\xba" />\n<value address="none" />\n<value company="none" />\n</ADDRESS_value>\n</ZIP_result>\n'


### 標準ライブラリのXML ElementTreeを使って解析

In [6]:
import xml.etree.ElementTree as ET

root = ET.fromstring(xml_string)

In [7]:
print(root)

<Element 'ZIP_result' at 0x1086e47c8>


### rootのタグと属性の確認

In [8]:
print(root.tag, root.attrib)

ZIP_result {}


### rootの子ノードを取り出す

In [9]:
for child in root:
    print("tag:{}, attribute:{}".format(child.tag, child.attrib))

tag:result, attribute:{'name': 'ZipSearchXML'}
tag:result, attribute:{'version': '1.01'}
tag:result, attribute:{'request_url': 'http%3A%2F%2Fzip.cgis.biz%2Fxml%2Fzip.php%3Fzn%3D1030000'}
tag:result, attribute:{'request_zip_num': '1030000'}
tag:result, attribute:{'request_zip_version': 'none'}
tag:result, attribute:{'result_code': '1'}
tag:result, attribute:{'result_zip_num': '1030000'}
tag:result, attribute:{'result_zip_version': '0'}
tag:result, attribute:{'result_values_count': '1'}
tag:ADDRESS_value, attribute:{}


### タグ名で抽出するiter()

In [10]:
for child in root.iter("value"):
    print("tag:{}, attribute:{}".format(child.tag, child.attrib))

tag:value, attribute:{'state_kana': 'トウキョウト'}
tag:value, attribute:{'city_kana': 'チュウオウク'}
tag:value, attribute:{'address_kana': 'none'}
tag:value, attribute:{'company_kana': 'none'}
tag:value, attribute:{'state': '東京都'}
tag:value, attribute:{'city': '中央区'}
tag:value, attribute:{'address': 'none'}
tag:value, attribute:{'company': 'none'}


### タグ名で子ノードを取り出すfindall()

In [11]:
for child in root.findall("result"):
    print("tag:{}, attribute:{}".format(child.tag, child.attrib))

tag:result, attribute:{'name': 'ZipSearchXML'}
tag:result, attribute:{'version': '1.01'}
tag:result, attribute:{'request_url': 'http%3A%2F%2Fzip.cgis.biz%2Fxml%2Fzip.php%3Fzn%3D1030000'}
tag:result, attribute:{'request_zip_num': '1030000'}
tag:result, attribute:{'request_zip_version': 'none'}
tag:result, attribute:{'result_code': '1'}
tag:result, attribute:{'result_zip_num': '1030000'}
tag:result, attribute:{'result_zip_version': '0'}
tag:result, attribute:{'result_values_count': '1'}


### XPath表現で自由にノードを取り出す

・ピリオド：現在のノード
・タグ名　：名前が一致するタグ名をもつ全ての子ノードを選択
・＊　　　：全ノード
・/     　：タグ名を接続　

In [12]:
# ADDRESS_valueタグ配下のvalueタグをすべて選択します
for i in root.findall('./ADDRESS_value/value'):
    print(i.attrib)

{'state_kana': 'トウキョウト'}
{'city_kana': 'チュウオウク'}
{'address_kana': 'none'}
{'company_kana': 'none'}
{'state': '東京都'}
{'city': '中央区'}
{'address': 'none'}
{'company': 'none'}
