# Python 下載XML檔案與解析


* 了解 xml 檔案格式與內容
* 能夠利用套件存取 xml 格式的檔案


## 作業目標

* 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異

* 根據範例檔案的結果：
    1. 請問高雄市有多少地區有溫度資料？
    2. 請取出每一個地區所記錄的第一個時間點跟溫度
    3. 請取出第一個地區所記錄的每一個時間點跟溫度

### 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異


In [None]:
'''
以File I/O的方式讀出來的內容，會是原始的檔案內容，包括標記以及內容，比如說<Title>爬蟲馬拉松</Title>。
以xmltodict的方式讀出來則會以dictionary型態儲存xml檔案，內容則是一層一層的dictionary以及list包起來的。
'''


### 根據範例檔案的結果：

1. 請問高雄市有多少地區有溫度資料？
2. 請取出每一個地區所記錄的第一個時間點跟溫度
3. 請取出第一個地區所記錄的每一個時間點跟溫度

In [7]:
# 1. 請問高雄市有多少地區有溫度資料？

# 使用dom.minidom解析XML
import xml.dom.minidom

# 存取檔案
doc = xml.dom.minidom.parse("./data/64_72hr_CH.xml")

count = 0

# 印出所有包含溫度資料的區域以及計算數量
for data in doc.getElementsByTagName('elementName'):
    if(data.childNodes[0].nodeValue == 'T'):
        print(data.parentNode.parentNode.getElementsByTagName('locationName')[0].firstChild.nodeValue)
        count += 1
print(f"高雄市總共有 {count} 個地區有溫度資料")

鹽埕區
鼓山區
左營區
楠梓區
三民區
新興區
前金區
苓雅區
前鎮區
旗津區
小港區
鳳山區
林園區
大寮區
大樹區
大社區
仁武區
鳥松區
岡山區
橋頭區
燕巢區
田寮區
阿蓮區
路竹區
湖內區
茄萣區
永安區
彌陀區
梓官區
旗山區
美濃區
六龜區
甲仙區
杉林區
內門區
茂林區
桃源區
那瑪夏區
高雄市總共有 38 個地區有溫度資料


In [60]:
#使用etree解析xml資料
import xml.etree.ElementTree as ET

#存取檔案
tree = ET.parse("./data/64_72hr_CH.xml")
root = tree.getroot()

count = 0

# 印出所有包含溫度資料的區域以及計算數量
for location in root[8][1]:
    if(location.tag != '{urn:cwb:gov:tw:cwbcommon:0.1}locationsName'):
        if(location[4][0].text == 'T'):
            print(location[0].text)
            count += 1
print(f"高雄市總共有 {count} 個地區有溫度資料")

鹽埕區
鼓山區
左營區
楠梓區
三民區
新興區
前金區
苓雅區
前鎮區
旗津區
小港區
鳳山區
林園區
大寮區
大樹區
大社區
仁武區
鳥松區
岡山區
橋頭區
燕巢區
田寮區
阿蓮區
路竹區
湖內區
茄萣區
永安區
彌陀區
梓官區
旗山區
美濃區
六龜區
甲仙區
杉林區
內門區
茂林區
桃源區
那瑪夏區
高雄市總共有 38 個地區有溫度資料


In [81]:
#使用xmltodict解析xml資料
import xmltodict

#存取檔案
with open("./data/64_72hr_CH.xml") as fd:
    doc = dict(xmltodict.parse(fd.read()))

count = 0

# 印出所有包含溫度資料的區域以及計算數量
for location in doc['cwbopendata']['dataset']['locations']['location']:
    if(location['weatherElement'][0]['elementName'] == 'T'):
        print(location['locationName'])
        count += 1
print(f"高雄市總共有 {count} 個地區有溫度資料")

鹽埕區
鼓山區
左營區
楠梓區
三民區
新興區
前金區
苓雅區
前鎮區
旗津區
小港區
鳳山區
林園區
大寮區
大樹區
大社區
仁武區
鳥松區
岡山區
橋頭區
燕巢區
田寮區
阿蓮區
路竹區
湖內區
茄萣區
永安區
彌陀區
梓官區
旗山區
美濃區
六龜區
甲仙區
杉林區
內門區
茂林區
桃源區
那瑪夏區
高雄市總共有 38 個地區有溫度資料


In [96]:
# 2. 請取出每一個地區所記錄的第一個時間點跟溫度
import xmltodict

with open("./data/64_72hr_CH.xml") as fd:
    doc = dict(xmltodict.parse(fd.read()))

for location in doc['cwbopendata']['dataset']['locations']['location']:
    print(f"{location['locationName']}:")
    print(f"{location['weatherElement'][0]['time'][0]['dataTime']}, 溫度為攝氏 {location['weatherElement'][0]['time'][0]['elementValue']['value']} 度")

鹽埕區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 22 度
鼓山區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 22 度
左營區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 22 度
楠梓區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 22 度
三民區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 22 度
新興區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 23 度
前金區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 22 度
苓雅區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 23 度
前鎮區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 23 度
旗津區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 22 度
小港區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 23 度
鳳山區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 22 度
林園區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 23 度
大寮區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 22 度
大樹區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 22 度
大社區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 22 度
仁武區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 22 度
鳥松區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 21 度
岡山區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 22 度
橋頭區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 22 度
燕巢區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 21 度
田寮區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 20 度
阿蓮區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 21 度
路竹區:
2020-0

In [120]:
# 3. 請取出第一個地區所記錄的每一個時間點跟溫度
import xmltodict

with open("./data/64_72hr_CH.xml") as fd:
    doc = dict(xmltodict.parse(fd.read()))

# 指定為第一個地區
location = doc['cwbopendata']['dataset']['locations']['location'][0]

# 印出地區名稱
print(f"{location['locationName']}:")

# 印出每筆溫度資料
for time in location['weatherElement'][0]['time']:
    print(f"{time['dataTime']}, 溫度為攝氏 {time['elementValue']['value']} 度")

鹽埕區:
2020-02-27T00:00:00+08:00, 溫度為攝氏 22 度
2020-02-27T03:00:00+08:00, 溫度為攝氏 21 度
2020-02-27T06:00:00+08:00, 溫度為攝氏 21 度
2020-02-27T09:00:00+08:00, 溫度為攝氏 22 度
2020-02-27T12:00:00+08:00, 溫度為攝氏 26 度
2020-02-27T15:00:00+08:00, 溫度為攝氏 26 度
2020-02-27T18:00:00+08:00, 溫度為攝氏 25 度
2020-02-27T21:00:00+08:00, 溫度為攝氏 23 度
2020-02-28T00:00:00+08:00, 溫度為攝氏 22 度
2020-02-28T03:00:00+08:00, 溫度為攝氏 21 度
2020-02-28T06:00:00+08:00, 溫度為攝氏 21 度
2020-02-28T09:00:00+08:00, 溫度為攝氏 22 度
2020-02-28T12:00:00+08:00, 溫度為攝氏 26 度
2020-02-28T15:00:00+08:00, 溫度為攝氏 26 度
2020-02-28T18:00:00+08:00, 溫度為攝氏 25 度
2020-02-28T21:00:00+08:00, 溫度為攝氏 24 度
2020-02-29T00:00:00+08:00, 溫度為攝氏 23 度
2020-02-29T03:00:00+08:00, 溫度為攝氏 22 度
2020-02-29T06:00:00+08:00, 溫度為攝氏 22 度
2020-02-29T09:00:00+08:00, 溫度為攝氏 24 度
2020-02-29T12:00:00+08:00, 溫度為攝氏 28 度
2020-02-29T15:00:00+08:00, 溫度為攝氏 29 度
2020-02-29T18:00:00+08:00, 溫度為攝氏 27 度
2020-02-29T21:00:00+08:00, 溫度為攝氏 26 度
