# Python 下載XML檔案與解析


* 了解 xml 檔案格式與內容
* 能夠利用套件存取 xml 格式的檔案


## 存取 XML 的三種套件

In [1]:
import xml.dom.minidom 

# 存取檔案
doc = xml.dom.minidom.parse("./example/sample.xml")

# 存取我們的資訊
print(doc.getElementsByTagName("Title")[0].firstChild.nodeValue)

# 用迴圈存取我們的資訊
chapters = doc.getElementsByTagName("Chapter")    #若<Chapters></Chapters>裡面夾雜其他tag，則不會被印出來
for chapter in chapters:
    print (chapter.getAttribute('name'), chapter.firstChild.nodeValue)

爬蟲馬拉松
01 資料來源與存取
02 靜態網頁爬蟲
03 動態網頁爬蟲
05 測試點二


In [2]:
import xml.etree.ElementTree as ET 

# 存取檔案
tree = ET.parse("./example/sample.xml") 
root = tree.getroot() #獲取根節點

# 存取我們的資訊 
print(root[0].text)  #root[1]是：<Author>Wei</Author>

# 用迴圈存取我們的資訊
chapters = root[2]   #root[2]是：<Chapters></Chapters>，包含裡面的所有tag
for chapter in chapters:
    print (chapter.attrib['name'], chapter.text)

爬蟲馬拉松
01 資料來源與存取
02 靜態網頁爬蟲
03 動態網頁爬蟲
04 測試點一，我不是Chapter
05 測試點二


In [8]:
import xmltodict

# 存取檔案

with open('./example/sample.xml',encoding="UTF-8") as fd:
    doc = dict(xmltodict.parse(fd.read()))

# 存取我們的資訊
print(doc['CUPOY']['Title'])    #<CUPOY>是最外面的tag

# 用迴圈存取我們的資訊
chapters = doc['CUPOY']['Chapters']['Chapter']    #<Chapters>裡面的所有<Chapter>，不包含其他混在<Chapters>的tag
for chapter in chapters:
    print (chapter['@name'], chapter['#text'])

爬蟲馬拉松
01 資料來源與存取
02 靜態網頁爬蟲
03 動態網頁爬蟲
05 測試點二


## 下載檔案

In [13]:
# 下載檔案
import urllib.request
import zipfile

res = "http://opendata.cwb.gov.tw/govdownload?dataid=F-D0047-093&authorizationkey=rdec-key-123-45678-011121314"
urllib.request.urlretrieve(res, "./example.zip")
f = zipfile.ZipFile('./example.zip')    #讀取zip檔案
f.extractall('./data')    #解壓縮檔案，存到Data資料夾


In [18]:
import os

# 打開文件
dirs = os.listdir( './data' )

# 输出所有文件和文件夹
for file in dirs:
    print(file)

09007_72hr_CH.xml
09007_72hr_EN.xml
09007_Week24_CH.xml
09007_Week24_EN.xml
09007_Weekday_CH.xml
09007_Weekday_EN.xml
09020_72hr_CH.xml
09020_72hr_EN.xml
09020_Week24_CH.xml
09020_Week24_EN.xml
09020_Weekday_CH.xml
09020_Weekday_EN.xml
10002_72hr_CH.xml
10002_72hr_EN.xml
10002_Week24_CH.xml
10002_Week24_EN.xml
10002_Weekday_CH.xml
10002_Weekday_EN.xml
10004_72hr_CH.xml
10004_72hr_EN.xml
10004_Week24_CH.xml
10004_Week24_EN.xml
10004_Weekday_CH.xml
10004_Weekday_EN.xml
10005_72hr_CH.xml
10005_72hr_EN.xml
10005_Week24_CH.xml
10005_Week24_EN.xml
10005_Weekday_CH.xml
10005_Weekday_EN.xml
10007_72hr_CH.xml
10007_72hr_EN.xml
10007_Week24_CH.xml
10007_Week24_EN.xml
10007_Weekday_CH.xml
10007_Weekday_EN.xml
10008_72hr_CH.xml
10008_72hr_EN.xml
10008_Week24_CH.xml
10008_Week24_EN.xml
10008_Weekday_CH.xml
10008_Weekday_EN.xml
10009_72hr_CH.xml
10009_72hr_EN.xml
10009_Week24_CH.xml
10009_Week24_EN.xml
10009_Weekday_CH.xml
10009_Weekday_EN.xml
10010_72hr_CH.xml
10010_72hr_EN.xml
10010_Week24_CH.xml


## File I/O


In [19]:
# 讀檔案
fh = open("./data/64_72hr_CH.xml", "r",encoding="UTF-8")
xml = fh.read()
fh.close()

print(xml)

<?xml version="1.0" encoding="utf-8"?>
<cwbopendata xmlns="urn:cwb:gov:tw:cwbcommon:0.1">
  <identifier>97ad4110-2c32-4641-abe1-d6000d9bb6c9</identifier>
  <sender>weather@cwb.gov.tw</sender>
  <sent>2020-05-05T06:19:54+08:00</sent>
  <status>Actual</status>
  <scope>Public</scope>
  <msgType>Issue</msgType>
  <dataid>D0047-065</dataid>
  <source>MFC</source>
  <dataset>
    <datasetInfo>
      <datasetDescription>臺灣各縣市鄉鎮未來3天(72小時)逐3小時天氣預報</datasetDescription>
      <datasetLanguage>zh-TW</datasetLanguage>
      <issueTime>2020-05-05T05:00:00+08:00</issueTime>
      <validTime>
        <startTime>2020-05-05T06:00:00+08:00</startTime>
        <endTime>2020-05-08T05:00:00+08:00</endTime>
      </validTime>
      <update>2020-05-05T06:19:54+08:00</update>
    </datasetInfo>
    <locations>
      <locationsName>高雄市</locationsName>
      <location>
        <locationName>鹽埕區</locationName>
        <geocode>6400100</geocode>
        <lat>22.626497</lat>
        <lon>120.278707</lon>
        <

## xmltodict 解析檔案內容


In [21]:
# 解析檔案內容
import xmltodict
d = dict(xmltodict.parse(xml))  #xml宣告在上個區段

In [22]:
# 取出 datasetDescription
datasetDescription = d['cwbopendata']['dataset']['datasetInfo']['datasetDescription']
print(datasetDescription)


臺灣各縣市鄉鎮未來3天(72小時)逐3小時天氣預報


## 作業目標

* 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異

* 根據範例檔案的結果：
    1. 請問高雄市有多少地區有溫度資料？
    2. 請取出每一個地區所記錄的第一個時間點跟溫度
    3. 請取出第一個地區所記錄的每一個時間點跟溫度

從論壇上看到，擷取下來：

嗨，根據範例的做法，利用 xmltodict 可以將原本的 xml 轉成 dict 的格式。我們可以先利用網頁打開 .xml 檔案，然後一層一層去找題目所需的地方在哪裡。
舉個例子來說，如果我們想要回答的是「請問高雄市有多少地區有溫度資料？」，從原本的 xml 檔案中觀察，可以在「cwbopendata > dataset > locations 」中找到很多個 location ，而每一個 location 代表一個區域。換句話說，題目要問的其實是 cwbopendata > dataset > locations 底下總共有多少個 location。
接下來再把上面這個觀察的過程，改成用程式的角度做計算。

## 解答如下：

In [24]:
# 1. 請問高雄市有多少地區有溫度資料？

locations = d['cwbopendata']['dataset']['locations']['location']
print(len(locations))

38


鹽埕區
2020-05-05T06:00:00+08:00
OrderedDict([('value', '27'), ('measures', '攝氏度')])
鼓山區
2020-05-05T06:00:00+08:00
OrderedDict([('value', '27'), ('measures', '攝氏度')])
左營區
2020-05-05T06:00:00+08:00
OrderedDict([('value', '26'), ('measures', '攝氏度')])
楠梓區
2020-05-05T06:00:00+08:00
OrderedDict([('value', '26'), ('measures', '攝氏度')])
三民區
2020-05-05T06:00:00+08:00
OrderedDict([('value', '27'), ('measures', '攝氏度')])
新興區
2020-05-05T06:00:00+08:00
OrderedDict([('value', '27'), ('measures', '攝氏度')])
前金區
2020-05-05T06:00:00+08:00
OrderedDict([('value', '27'), ('measures', '攝氏度')])
苓雅區
2020-05-05T06:00:00+08:00
OrderedDict([('value', '27'), ('measures', '攝氏度')])
前鎮區
2020-05-05T06:00:00+08:00
OrderedDict([('value', '26'), ('measures', '攝氏度')])
旗津區
2020-05-05T06:00:00+08:00
OrderedDict([('value', '27'), ('measures', '攝氏度')])
小港區
2020-05-05T06:00:00+08:00
OrderedDict([('value', '26'), ('measures', '攝氏度')])
鳳山區
2020-05-05T06:00:00+08:00
OrderedDict([('value', '26'), ('measures', '攝氏度')])
林園區
2020-05-05T0

In [30]:
# 3. 請取出第一個地區所記錄的每一個時間點跟溫度

location = locations[0]
print(location['locationName'])
for l in location['weatherElement'][0]['time']:
    print(l['dataTime'] )
    print(l['elementValue'] )

鹽埕區
2020-05-05T06:00:00+08:00
OrderedDict([('value', '27'), ('measures', '攝氏度')])
2020-05-05T09:00:00+08:00
OrderedDict([('value', '29'), ('measures', '攝氏度')])
2020-05-05T12:00:00+08:00
OrderedDict([('value', '31'), ('measures', '攝氏度')])
2020-05-05T15:00:00+08:00
OrderedDict([('value', '31'), ('measures', '攝氏度')])
2020-05-05T18:00:00+08:00
OrderedDict([('value', '30'), ('measures', '攝氏度')])
2020-05-05T21:00:00+08:00
OrderedDict([('value', '29'), ('measures', '攝氏度')])
2020-05-06T00:00:00+08:00
OrderedDict([('value', '28'), ('measures', '攝氏度')])
2020-05-06T03:00:00+08:00
OrderedDict([('value', '27'), ('measures', '攝氏度')])
2020-05-06T06:00:00+08:00
OrderedDict([('value', '27'), ('measures', '攝氏度')])
2020-05-06T09:00:00+08:00
OrderedDict([('value', '30'), ('measures', '攝氏度')])
2020-05-06T12:00:00+08:00
OrderedDict([('value', '31'), ('measures', '攝氏度')])
2020-05-06T15:00:00+08:00
OrderedDict([('value', '31'), ('measures', '攝氏度')])
2020-05-06T18:00:00+08:00
OrderedDict([('value', '30'), ('me