# Python 下載XML檔案與解析


* 了解 xml 檔案格式與內容
* 能夠利用套件存取 xml 格式的檔案


## 作業目標

* 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異

* 根據範例檔案的結果：
    1. 請問高雄市有多少地區有溫度資料？
    2. 請取出每一個地區所記錄的第一個時間點跟溫度
    3. 請取出第一個地區所記錄的每一個時間點跟溫度

### 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異


In [89]:
with open('../Data/sample.xml') as f:
    print(f.read())

<?xml version="1.0" encoding="UTF-8"?>
<CUPOY>
    <Title>爬蟲馬拉松</Title>
    <Author>Wei</Author>
    <Chapters>
        <Chapter name="01">資料來源與存取</Chapter>
        <Chapter name="02">靜態網頁爬蟲</Chapter>
        <Chapter name="03">動態網頁爬蟲</Chapter>
    </Chapters>
</CUPOY>


In [9]:
import xml.dom.minidom
doc = xml.dom.minidom.parse('../Data/sample.xml')
print(doc.getElementsByTagName('Title')[0].firstChild.nodeValue)
Chapters = doc.getElementsByTagName('Chapter')
for Chapter in Chapters:
    print(Chapter.getAttribute('name'), Chapter.firstChild.nodeValue)

爬蟲馬拉松
01 資料來源與存取
02 靜態網頁爬蟲
03 動態網頁爬蟲


In [9]:
import xml.etree.ElementTree as et
tree = et.parse('../Data/sample.xml')
root = tree.getroot()
print(root[0].text)
Chapters = root[2]
for Chapter in Chapters:
    print(Chapter.attrib['name'], Chapter.text)

爬蟲馬拉松
01 資料來源與存取
02 靜態網頁爬蟲
03 動態網頁爬蟲


In [28]:
import xmltodict
with open('../Data/sample.xml') as fh:
    doc = dict(xmltodict.parse(fh.read()))
print(doc['CUPOY']['Title'])
Chapters = doc['CUPOY']['Chapters']['Chapter']
for Chapter in Chapters:
    print(Chapter['@name'], Chapter['#text'])
    # name,text前面要加@,#與鍵值做區別

爬蟲馬拉松
01 資料來源與存取
02 靜態網頁爬蟲
03 動態網頁爬蟲


### 根據範例檔案的結果：

1. 請問高雄市有多少地區有溫度資料？
2. 請取出每一個地區所記錄的第一個時間點跟溫度
3. 請取出第一個地區所記錄的每一個時間點跟溫度

In [21]:
import urllib.request
import zipfile
res = "http://opendata.cwb.gov.tw/govdownload?dataid=F-D0047-093&authorizationkey=rdec-key-123-45678-011121314"
urllib.request.urlretrieve(res, '../Data/example.zip')
zipfile.ZipFile('../Data/example.zip').extractall('../Data/example')
# 可extract到自訂的目標資料夾

In [86]:
# 1. 請問高雄市有多少地區有溫度資料？

import xmltodict 
with open('../Data/example/64_72hr_CH.xml') as f:
    doc = dict(xmltodict.parse(f.read()))
locs = doc['cwbopendata']['dataset']['locations']['location']
num = 0
for loc in locs:
    num += 1
    print(loc['locationName'])
print(num, '個地區有溫度資料')

鹽埕區
鼓山區
左營區
楠梓區
三民區
新興區
前金區
苓雅區
前鎮區
旗津區
小港區
鳳山區
林園區
大寮區
大樹區
大社區
仁武區
鳥松區
岡山區
橋頭區
燕巢區
田寮區
阿蓮區
路竹區
湖內區
茄萣區
永安區
彌陀區
梓官區
旗山區
美濃區
六龜區
甲仙區
杉林區
內門區
茂林區
桃源區
那瑪夏區
38 個地區有溫度資料


In [85]:
# 2. 請取出每一個地區所記錄的第一個時間點跟溫度

with open('../Data/example/64_72hr_CH.xml') as f:
    doc = dict(xmltodict.parse(f.read()))
locs = doc['cwbopendata']['dataset']['locations']['location']
for loc in locs:
    i = loc['weatherElement'][0]['time'][0]
    print(loc['locationName'], i['dataTime'], i['elementValue']['value'], i['elementValue']['measures'])

鹽埕區 2020-03-12T18:00:00+08:00 27 攝氏度
鼓山區 2020-03-12T18:00:00+08:00 27 攝氏度
左營區 2020-03-12T18:00:00+08:00 27 攝氏度
楠梓區 2020-03-12T18:00:00+08:00 28 攝氏度
三民區 2020-03-12T18:00:00+08:00 27 攝氏度
新興區 2020-03-12T18:00:00+08:00 28 攝氏度
前金區 2020-03-12T18:00:00+08:00 27 攝氏度
苓雅區 2020-03-12T18:00:00+08:00 28 攝氏度
前鎮區 2020-03-12T18:00:00+08:00 27 攝氏度
旗津區 2020-03-12T18:00:00+08:00 27 攝氏度
小港區 2020-03-12T18:00:00+08:00 28 攝氏度
鳳山區 2020-03-12T18:00:00+08:00 28 攝氏度
林園區 2020-03-12T18:00:00+08:00 28 攝氏度
大寮區 2020-03-12T18:00:00+08:00 28 攝氏度
大樹區 2020-03-12T18:00:00+08:00 28 攝氏度
大社區 2020-03-12T18:00:00+08:00 28 攝氏度
仁武區 2020-03-12T18:00:00+08:00 28 攝氏度
鳥松區 2020-03-12T18:00:00+08:00 28 攝氏度
岡山區 2020-03-12T18:00:00+08:00 27 攝氏度
橋頭區 2020-03-12T18:00:00+08:00 28 攝氏度
燕巢區 2020-03-12T18:00:00+08:00 27 攝氏度
田寮區 2020-03-12T18:00:00+08:00 26 攝氏度
阿蓮區 2020-03-12T18:00:00+08:00 26 攝氏度
路竹區 2020-03-12T18:00:00+08:00 27 攝氏度
湖內區 2020-03-12T18:00:00+08:00 26 攝氏度
茄萣區 2020-03-12T18:00:00+08:00 25 攝氏度
永安區 2020-03-12T18:00:00+08:00 26 攝氏度
彌

In [88]:
# 3. 請取出第一個地區所記錄的每一個時間點跟溫度

with open('../Data/example/64_72hr_CH.xml') as f:
    doc = dict(xmltodict.parse(f.read()))
locs = doc['cwbopendata']['dataset']['locations']['location'][0]['weatherElement'][0]['time']
for time in locs:
    print(time['dataTime'], time['elementValue']['value'], time['elementValue']['measures'])

2020-03-12T18:00:00+08:00 27 攝氏度
2020-03-12T21:00:00+08:00 26 攝氏度
2020-03-13T00:00:00+08:00 26 攝氏度
2020-03-13T03:00:00+08:00 25 攝氏度
2020-03-13T06:00:00+08:00 24 攝氏度
2020-03-13T09:00:00+08:00 26 攝氏度
2020-03-13T12:00:00+08:00 28 攝氏度
2020-03-13T15:00:00+08:00 28 攝氏度
2020-03-13T18:00:00+08:00 26 攝氏度
2020-03-13T21:00:00+08:00 25 攝氏度
2020-03-14T00:00:00+08:00 24 攝氏度
2020-03-14T03:00:00+08:00 23 攝氏度
2020-03-14T06:00:00+08:00 23 攝氏度
2020-03-14T09:00:00+08:00 23 攝氏度
2020-03-14T12:00:00+08:00 25 攝氏度
2020-03-14T15:00:00+08:00 24 攝氏度
2020-03-14T18:00:00+08:00 23 攝氏度
2020-03-14T21:00:00+08:00 22 攝氏度
2020-03-15T00:00:00+08:00 21 攝氏度
2020-03-15T03:00:00+08:00 20 攝氏度
2020-03-15T06:00:00+08:00 19 攝氏度
2020-03-15T09:00:00+08:00 21 攝氏度
2020-03-15T12:00:00+08:00 24 攝氏度
2020-03-15T15:00:00+08:00 24 攝氏度
