**使用Python所提供的模組可以直接擷取網頁中的資料，先介紹如何取得網頁，接著介紹`JSON`, `XML`檔案的讀取與分析，最後介紹網頁分析的第三方函式庫`BeautifulSoup`的使用**

# 模組`urllib.request`、`urllib.response`與`request`

**模組`urllib.request`用於下載指定網址的網頁，程式碼較為複雜，第三方函式庫`requests`，也可以下載指定網址的網頁，程式碼較為簡潔。以下介紹模組`urllib.requests`的重要函式**

- **`urlopen(url)` : 開啟url所指定的網頁，並回傳urllub.response物件**

**以下介紹模組`urllib.response`的重要函式與屬性**

- **`read()` : 讀取物件urllib.response的所有資料，資料皆為byte，需要使用函式decode轉換成字串**
- **`geturl()` : 讀取物件urllib.response的網址**
- **`getheaders()` : 讀取urllib.response的網頁表頭**
- **`status` : 伺服器回傳的常見狀態碼，200表示OK，404表示用戶端錯誤，502表示閘道故障**

**模組`requests`為第三方函式庫，其重要函式如下**

- **`requests.get(url)` : 開啟url所指定的網頁**

## 使用模組`urllib.request`下載網頁

In [2]:
import urllib.request as ur

url = 'https://www.python.org'
resp = ur.urlopen(url)
print(resp.geturl())
print('=' * 80)

print(resp.status)
print('=' * 80)

print(resp.getheaders())
print('=' * 80)

data = resp.read()
print(data)
print('=' * 80)
print(data.decode())

https://www.python.org
200
[('Connection', 'close'), ('Content-Length', '50314'), ('Server', 'nginx'), ('Content-Type', 'text/html; charset=utf-8'), ('X-Frame-Options', 'SAMEORIGIN'), ('Via', '1.1 vegur, 1.1 varnish, 1.1 varnish'), ('Accept-Ranges', 'bytes'), ('Date', 'Tue, 04 Jul 2023 08:09:36 GMT'), ('Age', '2899'), ('X-Served-By', 'cache-iad-kiad7000025-IAD, cache-qpg1240-QPG'), ('X-Cache', 'HIT, HIT'), ('X-Cache-Hits', '181, 55'), ('X-Timer', 'S1688458176.231779,VS0,VE0'), ('Vary', 'Cookie'), ('Strict-Transport-Security', 'max-age=63072000; includeSubDomains; preload')]
<!doctype html>
<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->
<!--[if IE 8]>      <html class="no-js ie8 lt-ie9">                 <![endif]-->
<!--[if gt IE 8]><!--><html class="no-js" lang="en" dir="ltr">  <!--<![endif]-->

<head>
    <!-- Google tag (gtag.js) -->
    <script async src="https://www.go

## 使用函式庫`requests`下載網頁

In [3]:
import requests
url = 'https://www.python.org'
data = requests.get(url)
print(data.encoding) #網頁編碼
print('=' * 80)

print(data.status_code)
print('=' * 80)

print(data.headers)
print('=' * 80)

print(data.text)

utf-8
200
{'Connection': 'keep-alive', 'Content-Length': '50314', 'Server': 'nginx', 'Content-Type': 'text/html; charset=utf-8', 'X-Frame-Options': 'SAMEORIGIN', 'Via': '1.1 vegur, 1.1 varnish, 1.1 varnish', 'Accept-Ranges': 'bytes', 'Date': 'Tue, 04 Jul 2023 08:12:07 GMT', 'Age': '3049', 'X-Served-By': 'cache-iad-kiad7000025-IAD, cache-qpg1226-QPG', 'X-Cache': 'HIT, HIT', 'X-Cache-Hits': '181, 60', 'X-Timer': 'S1688458327.086086,VS0,VE0', 'Vary': 'Cookie', 'Strict-Transport-Security': 'max-age=63072000; includeSubDomains; preload'}
<!doctype html>
<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->
<!--[if IE 8]>      <html class="no-js ie8 lt-ie9">                 <![endif]-->
<!--[if gt IE 8]><!--><html class="no-js" lang="en" dir="ltr">  <!--<![endif]-->

<head>
    <!-- Google tag (gtag.js) -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-TF35YF9CVH

# 存取`JSON`

**JSON是常用的資料交換格式，可以由網頁下載JSON格式的資料，經由Python支援對JSON格式的轉換，使用模組`json`進行轉換，可以將Python資料結構轉換成JSON格式，也可以將JSON格式轉換成Python資料結構，以下介紹模組`json`的常用函式**

- **`dumps(obj)` : 將Python的資料結構物件obj轉換成JSON字串**
- **`loads(s)` : 將JSON字串(s)轉換成Python的資料結構物件**

## 模組`json`的使用

**使用模組`json`將Python資料結構轉換成JSON格式，接著將JSON格式轉換成Python資料結構，JSON格式如下，有點像是Python的字典**
- **{"1" : "a", "2" : "b", "3" : "c"}**

In [5]:
import json
dic = {1:'a', 2:'b', 3:'c'}
js = json.dumps(dic)
print(js)

dic2 = json.loads(js)
print(dic2)

{"1": "a", "2": "b", "3": "c"}
{'1': 'a', '2': 'b', '3': 'c'}


## 利用Google地圖找出台灣邊界的經緯度

**可以使用Google地圖的搜尋功能，搜尋台灣邊界的經緯度，邊界會以JSON格式回傳，經由Python分析JSON格式資料，找出台灣邊界的經緯度**

In [3]:
import requests
import json

url = 'https://maps.googleapis.com/maps/api/geocode/json?address=taiwan&sensor=false'
api_key = 'AIzaSyByua5bxv5wjDl4b1suyUbBNiQZgUYJOjE'

#建構請求參數
params = {
    'key':api_key,
}

result = requests.get(url, params = params)
data = json.loads(result.text)
print(data)

for i in data['results']:
    for key, value in i['geometry']['bounds'].items():
        print(key, value)

{'error_message': 'This API project is not authorized to use this API.', 'results': [], 'status': 'REQUEST_DENIED'}


# 存取XML

**XML是一種標記的語法，使用標籤來標記資料，標籤可以嵌套於其他標籤內，可以用於資訊的傳遞，例如:網站提供最新消息的RSS功能就是一種XML格式。**

- time與where是item的`屬性`
- 標籤內可以擺放`值`

**Python提供模組`xml.etree.ElementTree`分析XML格式的資料，以下介紹模組`xml.etree.ElementTree`的常用函式**

- **`ElementTree.ElementTree(xml_file)` : 將xml_file轉換成ElementTree，回傳ElementTree物件**
- **`ElementTree.ElementTree(xml_file).getroot()` : ElementTree物件的函式getroot會回傳Element物件**
- **`ElementTree.fromstring(xml_string)` : 將xml_string轉換成Element，回傳物件Element**
- **`ElementTree.dump(element)` : 將Element物件轉成XML格式**

In [4]:
import xml.etree.ElementTree as xmltree

In [5]:
#ElementTree.ElementTree(xml_file) : 將xml_file轉換成ElementTree，回傳ElementTree物件
tree = xmltree.ElementTree(file = 'my.xml') 

In [6]:
# ElementTree.ElementTree(xml_file).getroot() : ElementTree物件的函式getroot會回傳Element物件
root = tree.getroot()
print(root.tag)

class


In [9]:
# ElementTree.fromstring(xml_string) : 將xml_string轉換成Element，回傳物件Element
import requests

url = 'https://pypi.python.org/pypi?%3Action=rss'
result = requests.get(url)
element = xmltree.fromstring(result.text)

ParseError: mismatched tag: line 29, column 6 (<string>)

In [10]:
# ElementTree.dump(element) : 將Element物件轉成XML格式
url = 'https://pypi.python.org/pypi?%3Action=rss'
result = requests.get(url)
element = xmltree.fromstring(result.text)
print(xmltree.dump(element))

ParseError: mismatched tag: line 29, column 6 (<string>)

**以下介紹模組`xml.etree.Element`的常用函式**

- **`ElementTree.Element.iter(tag)` : 回傳Element物件中標籤為tag的所有標籤**
- **`ElementTree.Element.findall(match)` : 找出符合match所指定標籤路徑的所有標籤**

In [13]:
# ElementTree.Element.iter(tag) : 回傳Element物件中標籤為tag的所有標籤

import xml.etree.ElementTree as xmltree
tree = xmltree.ElementTree(file = 'my.xml')
root = tree.getroot()

for item in root.iter('item'):
    print(item.attrib, item.text)

{'time': '8:10-10:00', 'where': '電腦教室'} 電腦
{'time': '10:10-12:00'} 英文
{'time': '13:10-14:00', 'where': '操場'} 體育
{'time': '14:10-16:00'} 數學
{'time': '16:10-17:00'} 地理


In [14]:
# ElementTree.Element.findall(match) : 找出符合match所指定標籤路徑的所有標籤

tree = xmltree.ElementTree(file = 'my.xml')
root = tree.getroot()
for item in root.findall('./morning/item'):
    print('標籤為', item.tag, '，屬性為', item.attrib, '，值為', item.text)

標籤為 item ，屬性為 {'time': '8:10-10:00', 'where': '電腦教室'} ，值為 電腦
標籤為 item ，屬性為 {'time': '10:10-12:00'} ，值為 英文


## 使用模組xml.etree.ElementTree分析XML

**使用模組`xml.etree.ElementTree`讀取XML檔案，列出XML檔案中的標籤，屬性與值**

In [15]:
import xml.etree.ElementTree as xmltree

tree = xmltree.ElementTree(file = 'my.xml')
root = tree.getroot()
print(root.tag)

for a in root:
    print('標籤', a.tag, '屬性', a.attrib, '值', a.text)
    for b in a:
        print('標籤', b.tag, '屬性', b.attrib, '值', b.text)
        
for item in root.iter('item'):
    print(item.attrib, item.text)
    
for item in root.findall('./morning/item'):
    print('標籤', item.tag, '屬性', item.attrib, '值', item.text)

class
標籤 morning 屬性 {'time': '8:00-12:00'} 值 上午課程
        
標籤 item 屬性 {'time': '8:10-10:00', 'where': '電腦教室'} 值 電腦
標籤 item 屬性 {'time': '10:10-12:00'} 值 英文
標籤 afternoon 屬性 {'time': '13:00-17:00'} 值 下午課程
        
標籤 item 屬性 {'time': '13:10-14:00', 'where': '操場'} 值 體育
標籤 item 屬性 {'time': '14:10-16:00'} 值 數學
標籤 item 屬性 {'time': '16:10-17:00'} 值 地理
{'time': '8:10-10:00', 'where': '電腦教室'} 電腦
{'time': '10:10-12:00'} 英文
{'time': '13:10-14:00', 'where': '操場'} 體育
{'time': '14:10-16:00'} 數學
{'time': '16:10-17:00'} 地理
標籤 item 屬性 {'time': '8:10-10:00', 'where': '電腦教室'} 值 電腦
標籤 item 屬性 {'time': '10:10-12:00'} 值 英文


## 從PyPi網站讀取最後更新50個套件的RSS

**使用模組`xml.etree.ElementTree`讀取PyPi網站上最後更新50個套件的RSS檔，列出RSS檔案中指定標籤的標籤名稱與對應的值**

In [16]:
import requests
import xml.etree.ElementTree as xmltree

url = 'https://pypi.python.org/pypi?%3Action=rss'
result = requests.get(url)
element = xmltree.fromstring(result.text)
print(xmltree.dump(element))

for item in element.findall('./channel/item'):
    for b in item:
        print(b.tag, b.text)
        print()

ParseError: mismatched tag: line 29, column 6 (<string>)

# 使用套件`Beautiful Soup`存取HTML

**HTML是一種標記語言，瀏覽器經由讀取標籤與資料，使用標籤決定資料顯示在網頁對應的功能與位置上。**

**目前常用的第三方函式庫`Beautiful Soup`進行HTML網頁的分析，模組`Beautiful Soup`的重要函式如下:**

- **`BeautifulSoup(html, 'html.parser')` : 參數html為HTML格式的字串，輸入到模組`BeautifulSoup`，轉換成Python物件**
- **`BeautifulSoup.find_all(tag)`, `BeautifulSoup.find_all(tag, attr)` : 從HTML找出標籤為tag的所有元素。若參數attr存在，則從HTML找出標籤為tag的元素，且屬性也要符合attr的要求**
- **`BeautifulSoup.prettify()` : 將HTML資料轉換成較容易閱讀的方式呈現**

**以下介紹模組`BeautifulSoup`的重要屬性**

- **`tag.contents` : 找出第一個遇到標籤為tag所對應的值，所有值都會加入串列中，回傳此串列**
- **`tag.name` : 找出第一個遇到標籤為tag所對應的標籤名稱**
- **`tag.string` : 找出第一個遇到標籤為tag，當該標籤只有一個值，且為字串或數值，則回傳該值**

In [18]:
from bs4 import BeautifulSoup as soup

In [19]:
# BeautifulSoup(html, 'html.parser') : 
# 參數html為HTML格式的字串，輸入到模組BeautifulSoup，轉換成Python物件

with open('web.html', encoding = 'utf-8') as fout:
    s = fout.read()
    htm = soup(s, 'html.parser')

In [21]:
# BeautifulSoup.find_all(tag), BeautifulSoup.find_all(tag, attr) : 從HTML找出標籤為tag的所有元素。
# 若參數attr存在，則從HTML找出標籤為tag的元素，且屬性也要符合attr的要求

with open('web.html', encoding = 'utf-8') as fout:
    s = fout.read()
    htm = soup(s, 'html.parser')
    
    for item in htm.find_all('tr'):
        print(item)
        
    print('='*80)
    
    for item in htm.find_all('td', class_ = 'table_head'):
        print(item)

<tr>
<td class="table_head" width="205">網站名稱</td>
<td class="table_head" width="511">網址</td>
</tr>
<tr>
<td class="table_sitename">Python</td>
<td class="table_siteurl">
<a href="https://www.python.org">https://www.python.org</a>
</td>
</tr>
<tr>
<td class="table_sitename">PyPi</td>
<td class="table_siteurl">
<a href="https://pypi.python.org/pypi">https://pypi.python.org/pypi</a>
</td>
</tr>
<td class="table_head" width="205">網站名稱</td>
<td class="table_head" width="511">網址</td>


In [22]:
# BeautifulSoup.prettify() : 將HTML資料轉換成較容易閱讀的方式呈現

with open('web.html', encoding = 'utf-8') as fout:
    s = fout.read()
    htm = soup(s, 'html.parser')
    print(htm.title.prettify())

<title>
 Python相關網站
</title>



In [23]:
# tag.contents : 找出第一個遇到標籤為tag所對應的值，所有值都會加入串列中，回傳此串列

with open('web.html', encoding = 'utf-8') as fout:
    s = fout.read()
    htm = soup(s, 'html.parser')
    print(htm.title.contents)
    print(htm.title.contents[0])

['Python相關網站']
Python相關網站


In [24]:
# tag.name : 找出第一個遇到標籤為tag所對應的標籤名稱

with open('web.html', encoding = 'utf-8') as fout:
    s = fout.read()
    htm = soup(s, 'html.parser')
    print(htm.title.name)

title


In [25]:
# tag.string : 找出第一個遇到標籤為tag，當該標籤只有一個值，且為字串或數值，則回傳該值

with open('web.html', encoding = 'utf-8') as fout:
    s = fout.read()
    htm = soup(s, 'html.parser')
    print(htm.title.string)

Python相關網站


## 使用模組`BeautifulSoup`分析HTML

**使用模組`BeautifulSoup`讀取HTML檔案，找出HTML檔案中指定標籤的名稱，屬性或是值**

In [30]:
from bs4 import BeautifulSoup as soup

with open('web.html', encoding = 'utf-8') as fout:
    s = fout.read()
    htm = soup(s, 'html.parser')
    print(htm.title.prettify())
    print('=' * 80)
    
    print(htm.title.contents)
    print('=' * 80)
    
    print(htm.title.contents[0])
    print('=' * 80)
    
    print(htm.title.name)
    print('=' * 80)
    
    print(htm.title.string)
    print('=' * 80)
    
    print(htm.meta)
    print('=' * 80)
#     print(htm.meta['contents'])
    
    for item in htm.find_all('td'):
        print(item)
    print('=' * 80)   
    
    for item in htm.find_all('td', class_ = 'table_head'):
        print(item)
    print('=' * 80)
    
    for item in htm.find_all('td', class_ = 'table_siteurl'):
        print(item.a['href'])

<title>
 Python相關網站
</title>

['Python相關網站']
Python相關網站
title
Python相關網站
<meta charset="utf-8"/>
<td class="table_head" width="205">網站名稱</td>
<td class="table_head" width="511">網址</td>
<td class="table_sitename">Python</td>
<td class="table_siteurl">
<a href="https://www.python.org">https://www.python.org</a>
</td>
<td class="table_sitename">PyPi</td>
<td class="table_siteurl">
<a href="https://pypi.python.org/pypi">https://pypi.python.org/pypi</a>
</td>
<td class="table_head" width="205">網站名稱</td>
<td class="table_head" width="511">網址</td>
https://www.python.org
https://pypi.python.org/pypi


## 使用模組`BeautifulSoup`找出網頁中所有超連結網址

**使用模組`requests`讀取網址中的網頁，接著使用模組`Beautiful Soup`，找出網頁中的所有超連結網址**

In [32]:
import requests
from bs4 import BeautifulSoup as soup

url = 'http://www.python.org'

def h(url):
    if url[:4] == 'http' or url[:5] == 'https': #若開頭為http或https，回傳True
        return True
    
def links(url):
    page = requests.get(url).text
    htm = soup(page, 'html.parser')
    alinks = [item['href'] for item in htm.find_all('a')]
    links = [x for x in alinks if h(x)]
    return links

print('找出網址為', url, '的http與https開頭的超連結')
for link in links(url):
    print(link)

找出網址為 http://www.python.org 的http與https開頭的超連結
https://www.python.org/psf/
https://docs.python.org
https://pypi.org/
https://psfmember.org/civicrm/contribute/transact?reset=1&id=2
https://www.facebook.com/pythonlang?fref=ts
https://twitter.com/ThePSF
http://brochure.getpython.info/
https://docs.python.org/3/license.html
https://wiki.python.org/moin/BeginnersGuide
https://devguide.python.org/
https://docs.python.org/faq/
http://wiki.python.org/moin/Languages
http://python.org/dev/peps/
https://wiki.python.org/moin/PythonBooks
https://wiki.python.org/moin/
http://pyfound.blogspot.com/
http://pycon.blogspot.com/
http://planetpython.org/
https://wiki.python.org/moin/PythonEventsCalendar#Submitting_an_Event
http://docs.python.org/3/tutorial/introduction.html#using-python-as-a-calculator
https://docs.python.org
https://blog.python.org
https://pyfound.blogspot.com/2023/06/announcing-2023-psf-board-election.html
https://pyfound.blogspot.com/2023/06/announcing-our-new-security-developer.html
htt

## 使用模組`BeautifulSoup`找出Python網站的最新消息

**使用模組`requests`讀取Python網站`(http://www.python.org)`的首頁，接著使用模組`Beautiful Soup`，找出首頁中最新消息，使用瀏覽器瀏覽`http://www.python.org/`，接著檢視網頁原始碼後，發現最新消息區塊的HTML網頁如下。**

In [35]:
import urllib.request as ur
url = 'http://www.python.org/'

with ur.urlopen(url) as response:
    data = response.read().decode("utf-8") # utf-8負責處理中文字
print(data) #取得網站的原始碼(HTML, CSS)

<!doctype html>
<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->
<!--[if IE 8]>      <html class="no-js ie8 lt-ie9">                 <![endif]-->
<!--[if gt IE 8]><!--><html class="no-js" lang="en" dir="ltr">  <!--<![endif]-->

<head>
    <!-- Google tag (gtag.js) -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-TF35YF9CVH"></script>
    <script>
      window.dataLayer = window.dataLayer || [];
      function gtag(){dataLayer.push(arguments);}
      gtag('js', new Date());
      gtag('config', 'G-TF35YF9CVH');
    </script>

    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">

    <link rel="prefetch" href="//ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js">
    <link rel="prefetch" href="//ajax.googleapis.com/ajax/libs/jqueryui/1.12.1/jquery-ui.min.js">

    <meta name="application-name" content="Python.org">

**發現最新消息在標籤`<div class="shrubbery">`內，首頁中有四個標籤`<div class="shrubbery">`，需要符合`<h2 class="widget-title"><span aria-hidden="true" class="icon-news"></span>Latest News</h2>`才是最新消息區塊，也就是標籤h2的第二個標籤值是`Latest News`，使用`h2.contents[1]`取得標籤h2的第二個標籤值，最後發現每則最新消息都是一個標籤`<li>`**

In [36]:
import requests
from bs4 import BeautifulSoup as soup

url = 'http://www.python.org/'

def getnews(url):
    page = requests.get(url).text
    doc = soup(page, 'html.parser')
    
    items = [elem for elem in doc.find_all('div', class_ = 'shrubbery')]
    
    for item in items:
        if item.h2.contents[1] == 'Latest News':
            ys = [y for y in item.find_all('li')]
            for y in ys:
                time = y.time['datetime']
                link = y.a['href']
                title = y.a.string
                print(time, link, title)

getnews(url)

2023-07-01T00:13:00.000005+00:00 https://pyfound.blogspot.com/2023/06/announcing-2023-psf-board-election.html Announcing the 2023 PSF Board Election Results!
2023-06-22T13:50:00.000003+00:00 https://pyfound.blogspot.com/2023/06/announcing-our-new-security-developer.html Announcing Our New Security Developer in Residence!
2023-06-20T18:52:00.000001+00:00 https://pythoninsider.blogspot.com/2023/06/python-3120-beta-3-released.html Python 3.12.0 beta 3 released
2023-06-20T17:47:00.000001+00:00 https://pyfound.blogspot.com/2023/06/the-2023-psf-board-election-is-open.html The 2023 PSF Board Election is Open!
2023-06-16T17:19:00.000004+00:00 https://pyfound.blogspot.com/2023/06/board-candidates-for-2023-are-announced.html Board Candidates for 2023 are Announced!


# 習題

## 擷取網站PyPi網頁

**網站PyPi為Python的套件開發網站，請到網址`https://pypi.python.org/pypi`下載最新套件資訊，分析網頁資訊，列出套件名稱，內容簡介與套件網址**

In [41]:
import requests
from bs4 import BeautifulSoup as soup

url = 'https://pypi.python.org/pypi'

def getnews(url):
    page = requests.get(url).text
    htm = soup(page, 'html.parser')
    
    items = [elem for elem in htm.find_all('table', class_ = 'list')]
    
    tds = [td for td in items[0].find_all('td')]
    print(tds)
    
    for i in range(0, len(tds) - 1, 3):
        time = tds[i].string
        link = tds[i + 1].a['href']
        pj = tds[i + 1].a.string
        des = tds[i + 2].string
        print(time, pj, 'https://pypi.python.org' + link)
        
getnews(url)

IndexError: list index out of range

## 下載古蹟XML資訊進行分析

**從政府開放平台`http://data.gov.tw`下載古蹟資訊，由文化部提供的開放資料，古蹟XML資訊網址為`http://cloud.culture.tw/frontsite/trans/emapOpenDataAction.do?method=exportEmapXML&typeId=A&classifyId=1.1`，分析此網頁的XML資訊，列出古蹟名稱，古蹟等級，所在縣市與古蹟地址**

In [58]:
import requests
import xml.etree.ElementTree as xmltree

url = 'http://cloud.culture.tw/frontsite/trans/emapOpenDataAction.do?\
method=exportEmapXML&typeId=A&classifyId=1.1'

result = requests.get(url)
element = xmltree.fromstring(result.text)
print(xmltree.dump(element))

for item in element.findall('./emapItem/emap/Info'):
    print(item.attrib['name'], item.attrib['level'],\
         item.attrib['cityName'], item.attrib['address'])

<XML_Head version="1.0" encoding="utf-8"><emapItem><Info><groupTypeName>文化資產</groupTypeName><mainTypeName>文化資產 </mainTypeName><mainTypePk>19980430000001</mainTypePk><name>嘉義仁武宮</name><name_eng /><representImage>http://cloud.culture.tw/e_new_upload/task/ec0c4582-6042-444b-9a5a-3afe8cb1b3ff/19980430000001/47ce6e8427c5542db55f2cb64b487ba5c54d7461.jpg</representImage><intro>「嘉義仁武宮」位於現今嘉義市東區仁武里8鄰北榮街54號，創建於1701年（清康熙40年）。「嘉義仁武宮」主祀「保生大帝」，本名「吳夲」，為宋代名醫，是臺灣泉州移民及醫界的守護神。俗稱「大道公」或「吳真人」。
相傳「嘉義仁武宮」廟址原爲鄭氏時期仁武鎮部隊鎮守之地。1677年（明永曆31年）屯田此地部隊中，來自泉州府同安縣人士集資立小祠供奉「保生大帝」神像，作為屯田的守護神。至1701年（清康熙40年）諸羅知縣毛鳳綸（生卒年不詳）提倡建廟，因主神為當時仁武鎮官兵所供奉，將廟命名為「仁武宮」 。
「嘉義仁武宮」於1734年（雍正12年）曾重新整修，爾後於1812年（清嘉慶17年）擴建三川殿。迄清領末期「嘉義仁武宮」建築約108坪，廟地781坪，時人俗稱「大帝爺廟」。
日治時期1938年（昭和13年）嘉義市尹「川添修平」因皇民化運動進行廢合寺廟，使得「嘉義仁武宮」神像被移奉嘉義城隍廟，宮內所有文物全部遺失，僅存安奉城隍廟開基保生大帝等神像及道光年間石香爐。1945年後，嘉義士紳集資購回「嘉義仁武宮」產權 ，1947年1月恭迎保生大帝神像歸廟安座。自1961年起，「嘉義仁武宮」經歷多次重修三川殿、拜殿、後殿、廟埕等 。1985年「嘉義仁武宮」增建後殿，成為三開間、三進深格局的廟宇。「嘉義仁武宮」於1998年4月30日經嘉義市政府公告指定為市定古蹟，古蹟本體包含廟宇三川殿、內埕、正殿以及附屬空地。</intro><intro_eng /><are

民國五十八年（1969年），煤礦業興盛時期，臺鐵於菁桐車站旁興建三座員工宿舍以利值班人員之需，後因煤業逐漸沒落、人口外流，民國七十六年（1987年）以後，煤礦停採，載運量銳減，菁桐車站被降為乙種簡易站，僅剩站務員一人，在民國八十三年（1994年）徹底整修過後，於民國九十二年（2003年）五月一日被指定為縣定古蹟（今新北市市定古蹟）。</intro><intro_eng /><areaCode /><cityName>新北市</cityName><address>菁桐街52號</address><longitude>121.723921355572</longitude><latitude>25.0238742071232</latitude><hitRate>601</hitRate></Info><Info><groupTypeName>文化資產</groupTypeName><mainTypeName>文化資產 </mainTypeName><mainTypePk>20120608000001</mainTypePk><name>平溪南無大悲救苦觀世音菩薩碣</name><name_eng /><representImage>http://cloud.culture.tw/e_new_upload/task/ec0c4582-6042-444b-9a5a-3afe8cb1b3ff/20120608000001/0cedf9ddc432f54c2cfca27e8c62c147806c6f92.JPG</representImage><intro>待修復或再利用計畫完成後填列。</intro><intro_eng /><areaCode /><cityName>新北市</cityName><address>石底段嶺腳寮小段207地號</address><longitude>121.74426231897802</longitude><latitude>25.04032420079962</latitude><hitRate>605</hitRate></Info><Info><groupTypeName>文化資產</groupTypeName><mainTypeName>文化資產 </mainTypeName><mainTypePk>19850819000031</

戰後（1945），由於行政制度變革，產權分配紊亂，致使本案土地屬臺中市政府所有，建物則歸彰化縣政府管理，實際則由民間佔有並付予縣府補償金以使用。民國95年（2006）始由市府公告指定為市定古蹟，民國98年（2009）出版調查研究暨修復計畫，民國108年（2019）修復工程竣工。</intro><intro_eng /><areaCode /><cityName>臺中市</cityName><address>府後街38-8號</address><longitude>120.677017625289</longitude><latitude>24.1372077422392</latitude><hitRate>670</hitRate></Info><Info><groupTypeName>文化資產</groupTypeName><mainTypeName>文化資產 </mainTypeName><mainTypePk>20130826000001</mainTypePk><name>臺中刑務所典獄官舍</name><name_eng /><representImage>http://cloud.culture.tw/e_new_upload/task/ec0c4582-6042-444b-9a5a-3afe8cb1b3ff/20130826000001/8759e72895f0319519b48f998ce7f4b4b548d4d3.jpg</representImage><intro>日治時期全臺共有臺北、臺中與臺南三大監獄，底下再分設各支監。本案為日治時期臺中監獄最高行政首長「典獄」之官舍，落成於大正4年（1915）；大正13年（1924）隨日本內地政策「監獄」改稱為具有教化意義的「刑務所」，此即本案名稱之由來。

戰後（1945），本案仍作臺中監獄之典獄長官舍，至民國81年（1992）臺中監獄搬遷至南屯區現址後，本案也相繼閒置。民國102年（2013）8月26日，經臺中市政府公告指定為直轄市定古蹟，民國107年（2018）修復工程竣工。</intro><intro_eng /><areaCode /><cityName>臺中市</cityName><address>自由路一段87號</address><longitude>120.674519</longitu

二戰後，隨著國民政府所屬機構陸續遷台，該建物（洋館部分）最初曾由鹽警使用，該單位可能為臺灣鹽務管理局警務科或臺灣省鹽務稅警總隊所轄鹽務稅警相關機構，其後約在民國40年以前鹽務稅警遷出後，陸續有民防指揮部、地政事務所、東區區公所等單位進駐與遷出，而多數時候為多個單位共用此一建築之狀況，最後則整棟洋館皆作為軍公教福利中心使用。</intro><intro_eng /><areaCode /><cityName>臺南市</cityName><address>衛民街一號</address><longitude>120.213382194568</longitude><latitude>22.9925959729392</latitude><hitRate>1004</hitRate></Info><Info><groupTypeName>文化資產</groupTypeName><mainTypeName>文化資產 </mainTypeName><mainTypePk>19851127000061</mainTypePk><name>臺灣府城巽方砲臺（巽方靖鎮）</name><name_eng /><representImage>http://cloud.culture.tw/e_new_upload/task/ec0c4582-6042-444b-9a5a-3afe8cb1b3ff/19851127000061/e7b2d0dd399985db6d5476970906674c93680eb7.jpg</representImage><intro>1832年（清道光十二年）張丙之亂後，為增強府城防禦，於城門增建月城、興建外城和增設砲臺，巽方砲臺為其中一項。其位置在大東門外城（竹城）之上，鞏固府城東南，因東南方又稱為「巽」，故稱巽方砲臺，光復後為禪修院所使用，並成為其建築的一部份。直到1985年（民國七十四年）指定為古蹟之後，將砲臺歸還臺南市政府管理，是現今少數僅存的城牆內陸砲臺。</intro><intro_eng /><areaCode /><cityName>臺南市</cityName><address>龍山里光華街10號（修禪院內）</address><longitude>120.219599937299</longitude><latitude>22.98430417

伸手石牆外，則是開闊的墓埕，埕上有左右分立成對的石羊、石馬，及無字的望柱，其中石馬側首，形象逼真；石羊蹲坐，狀頗安祥。總之，這些突出的石作風格與次子陳健的墓園相依，堪稱明代金門墓式之代表作。</intro><intro_eng /><areaCode /><cityName>金門縣</cityName><address>埔山村黃龍山上</address><longitude>118.392856458497</longitude><latitude>24.4814655071386</latitude><hitRate>789</hitRate></Info><Info><groupTypeName>文化資產</groupTypeName><mainTypeName>文化資產 </mainTypeName><mainTypePk>19881111000001</mainTypePk><name>陳健墓</name><name_eng /><representImage>http://cloud.culture.tw/e_new_upload/task/ec0c4582-6042-444b-9a5a-3afe8cb1b3ff/19881111000001/7cb6fd8c5823b20ee98a66c46e6b59541f1ec57d.JPG</representImage><intro>陳健墓位於金門縣金沙鎮東珩村郊外的土丘上，為今存之明朝古墓之一。由於墓碑上已無字跡，因此，推測可能是明朝浯陽進士陳健的衣冠塚。陳健，字時乾，號滄江，浯洲陽翟人，為浯陽陳氏第十九世，明武宗正德十四年（1519年）舉人，世宗嘉靖五年（1526年）進士，受刑部主事，歷四川司郎中。嘉靖十四年（1535年）陞任南安府知府（今江西省境內），由於為政寬儉清廉，與民休息，頗受愛戴。次年（1536年）陳健為梅國書院作記，其後又主持《南安府志》的修纂，對南安府的貢獻頗大，陞任按察使副使，後又曾任廣東省廉州知府及南甯知府。陳健為官，決讞鯁直，不阿上意，為政「惟勤撫綏，不務因循」。其父陳禎父以子貴，誥贈刑部主事，並賜建恩榮坊於陽翟。陳健辭官歸田後，對於宗族事務不遺餘力。嘉靖三十一年（1552年），陳健見本房祠堂年久失修，已告傾圯，於是鳩資重建，命名「永思」，以誌世代子孫對祖先慎終追遠的懷思。此外，為了使浯陽

防設施中的特例。望樓頂端的八角亭，造型特殊，有別於一般的四角形瞭望台。望樓立面仍保留日本時代「新竹消防詰所」其中的四個字『新』『竹』『消』『防』。綜觀建築形式都在臺灣公共建築上顯得出色。新竹消防詰所，歷經戰後前期隸屬於新竹縣警察局，後期為新竹消防隊第一分隊使用，歷經警察、消防分立的年代。於蔡仁堅市長任內，推動成立新竹市消防博物館。由符仁宏建築師事務所進行研究規劃，進行歷史空間的轉型。新竹市消防博物館於2002(民國九十一)年六月七日開館啟用，成為臺灣第一座消防博物館。』</intro><intro_eng /><areaCode /><cityName>新竹市</cityName><address>新竹市中山路4號</address><longitude>120.96202300000004</longitude><latitude>24.801768</latitude><hitRate>496</hitRate></Info><Info><groupTypeName>文化資產</groupTypeName><mainTypeName>文化資產 </mainTypeName><mainTypePk>20180830000001</mainTypePk><name>雙溪保我黎民碑</name><name_eng /><representImage>http://cloud.culture.tw/e_new_upload/task/ec0c4582-6042-444b-9a5a-3afe8cb1b3ff/20180830000001/d89952b3cfdc764eef97528c743632984c4edfd6.jpg</representImage><intro>待修復或再利用計畫完成後填列</intro><intro_eng /><areaCode /><cityName>新北市</cityName><address>雙平段968、970、1326地號</address><longitude>121.8643389238731</longitude><latitude>25.035617528961502</latitude><hitRate>753</hitRate></Info><Info><groupTypeName>文化資產</groupTypeName

</intro><intro_eng /><areaCode /><cityName>金門縣</cityName><address>珠浦北路12巷2號</address><longitude>118.318752660187</longitude><latitude>24.4333535683527</latitude><hitRate>14</hitRate></Info></emapItem></XML_Head>
None


## 下載古蹟JSON資訊進行分析

從政府開放平台`http://data.gov.tw`下載古蹟資訊，由文化部提供的開放資料，古蹟JSON資訊網址為`https://cloud.culture.tw/frontsite/trans/emapOpenDataAction.do?method=exportEmapJson&typeId=A&classifyId=1.1`，分析此網頁的JSON資訊，列出古蹟名稱，古蹟等級，所在縣市與古蹟地址

In [54]:
import requests
import json

url = 'https://cloud.culture.tw/frontsite/trans/emapOpenDataAction.do?\
method=exportEmapJson&typeId=A&classifyId=1.1'

result = requests.get(url)
data = json.loads(result.text)

for i in data:
    print(i['name'], i['level'], i['cityName'], i['address'])

嘉義仁武宮 縣(市)定古蹟 嘉義市 仁武里8鄰北榮街54號
嘉義西門長老教會禮拜堂 縣(市)定古蹟 嘉義市 導民里15鄰垂楊路309號
嘉義火車站 縣(市)定古蹟 嘉義市 中山路528號
菸酒公賣局嘉義分局 縣(市)定古蹟 嘉義市 中山路659號
新竹鄭氏家廟 縣(市)定古蹟 新竹市 北門里北門街175號
新竹長和宮 縣(市)定古蹟 新竹市 長和里北門街135號
新竹都城隍廟 縣(市)定古蹟 新竹市 中山里中山路75號
李錫金孝子坊 縣(市)定古蹟 新竹市 明湖路486巷旁
張氏節孝坊 縣(市)定古蹟 新竹市 國華街87號旁
蘇氏節孝坊 縣(市)定古蹟 新竹市 湳雅街147巷45弄
楊氏節孝坊 縣(市)定古蹟 新竹市 石坊里石坊街4號旁
新竹州廳 國定古蹟 新竹市 大同里中正路120號
新竹水仙宮 縣(市)定古蹟 新竹市 長和里北門街135號
香山火車站(前香山驛) 縣(市)定古蹟 新竹市 中華路5段349巷2弄7號
新竹神社殘蹟及其附屬建築 縣(市)定古蹟 新竹市 崧嶺路122號
新竹市役所 縣(市)定古蹟 新竹市 中央路116號
李克承博士故居 縣(市)定古蹟 新竹市 新竹市勝利路199號
新竹少年刑務所演武場 縣(市)定古蹟 新竹市 新竹市廣州街20巷18、20號
吉利第 縣(市)定古蹟 新竹市 新竹市北門街173號
春官第 縣(市)定古蹟 新竹市 新竹市北門街167號
康朗段防空碉堡 縣(市)定古蹟 新竹市 新竹市康朗段283地號
康樂段防空碉堡 縣(市)定古蹟 新竹市 新竹市康樂段396-1地號（新竹市東大路...
周益記 縣(市)定古蹟 新竹市 新竹市北門街57號;新竹市北門街59號;新竹市北門街61號
觀音禪堂 直轄市定古蹟 臺北市 仁愛路一段21之33號
原大阪商船株式會社臺北支店 直轄市定古蹟 臺北市 忠孝西路一段70號
臺北府城—東門、南門、小南門、北門 國定古蹟 臺北市 東門：中山南路、信義路交叉路口，南門：公...
欽差行臺 直轄市定古蹟 臺北市 南海路植物園西側(南海路53號)
原臺灣教育會館 直轄市定古蹟 臺北市 南海路54號
黃氏節孝坊 直轄市定古蹟 臺北市 二二八紀念公園內
急公好義坊 直轄市定古蹟 臺北市 二二八紀念公園內
勸業銀行舊廈 直轄市定古蹟 臺北市 襄陽路25號
臺北郵局 直轄市定古蹟 臺北市 忠孝西路1段118號
臺灣總