# Python 下載XML檔案與解析


* 了解 xml 檔案格式與內容
* 能夠利用套件存取 xml 格式的檔案


## 作業目標

* 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異

* 根據範例檔案的結果：
    1. 請問高雄市有多少地區有溫度資料？
    2. 請取出每一個地區所記錄的第一個時間點跟溫度
    3. 請取出第一個地區所記錄的每一個時間點跟溫度

### 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異


In [1]:
import xml.dom.minidom
import xml.etree.ElementTree as ET
import xmltodict

In [2]:
with open('./Data/example/sample.xml', 'r') as rf:
    f_IO = rf.read()
print(f_IO)

<?xml version="1.0" encoding="UTF-8"?>
<CUPOY>
    <Title>爬蟲馬拉松</Title>
    <Author>Wei</Author>
    <Chapters>
        <Chapter name="01">資料來源與存取</Chapter>
        <Chapter name="02">靜態網頁爬蟲</Chapter>
        <Chapter name="03">動態網頁爬蟲</Chapter>
    </Chapters>
</CUPOY>


In [3]:
# xml.dom
xml_dom = xml.dom.minidom.parse('./Data/example/sample.xml')  # 存取檔案
print(xml_dom.getElementsByTagName('Title')[0].firstChild.nodeValue)
chapters = xml_dom.getElementsByTagName('Chapter')

for chapter in chapters:
    print(chapter.getAttribute('name'), chapter.firstChild.nodeValue)

爬蟲馬拉松
01 資料來源與存取
02 靜態網頁爬蟲
03 動態網頁爬蟲


[xml.etree參考](https://www.itread01.com/content/1545426921.html)

In [4]:
# xml.etree
xml_etree = ET.parse('./Data/example/sample.xml')  # 一次性將整個XML檔案載入到記憶體
root = xml_etree.getroot()  # 獲取根節

print(root[0].text)  # 查看內文

chapters = root[2]
for chapter in chapters:
    print(chapter.attrib['name'], chapter.text)

爬蟲馬拉松
01 資料來源與存取
02 靜態網頁爬蟲
03 動態網頁爬蟲


In [5]:
# xmltodict : 可以將XML轉成 Dict 或 JSON格式
with open('./Data/example/sample.xml', 'r') as rf:
    xml_xmltodict = xmltodict.parse(rf.read())  # 返回一個OrderedDict類型的對象
    
print(xml_xmltodict['CUPOY']['Title'])
chapters = xml_xmltodict['CUPOY']['Chapters']['Chapter']
for chapter in chapters:
    print(chapter['@name'], chapter['#text'])

爬蟲馬拉松
01 資料來源與存取
02 靜態網頁爬蟲
03 動態網頁爬蟲


### 根據範例檔案的結果：

1. 請問高雄市有多少地區有溫度資料？
2. 請取出每一個地區所記錄的第一個時間點跟溫度
3. 請取出第一個地區所記錄的每一個時間點跟溫度

In [6]:
# 1. 請問高雄市有多少地區有溫度資料？

with open('./Data/example/64_72hr_CH.xml', 'r') as rf:
    doc = xmltodict.parse(rf.read())

locnames = doc['cwbopendata']['dataset']['locations']['location']
print('有{}區有溫度資料'.format(len(locnames)))

有38區有溫度資料


In [7]:
# 2. 請取出每一個地區所記錄的第一個時間點跟溫度

with open('./Data/example/64_72hr_CH.xml', 'r') as rf:
    doc = xmltodict.parse(rf.read())

locnames = doc['cwbopendata']['dataset']['locations']['location']
for i in range(len(locnames)):
    loc = locnames[i]
    print(loc['locationName'],':', end='')
    print(loc['weatherElement'][0]['time'][0]['dataTime'], loc['weatherElement'][0]['time'][0]['elementValue']['value'])

鹽埕區 :2019-06-28T12:00:00+08:00 33
鼓山區 :2019-06-28T12:00:00+08:00 33
左營區 :2019-06-28T12:00:00+08:00 33
楠梓區 :2019-06-28T12:00:00+08:00 34
三民區 :2019-06-28T12:00:00+08:00 32
新興區 :2019-06-28T12:00:00+08:00 33
前金區 :2019-06-28T12:00:00+08:00 33
苓雅區 :2019-06-28T12:00:00+08:00 33
前鎮區 :2019-06-28T12:00:00+08:00 33
旗津區 :2019-06-28T12:00:00+08:00 32
小港區 :2019-06-28T12:00:00+08:00 33
鳳山區 :2019-06-28T12:00:00+08:00 34
林園區 :2019-06-28T12:00:00+08:00 33
大寮區 :2019-06-28T12:00:00+08:00 34
大樹區 :2019-06-28T12:00:00+08:00 34
大社區 :2019-06-28T12:00:00+08:00 34
仁武區 :2019-06-28T12:00:00+08:00 33
鳥松區 :2019-06-28T12:00:00+08:00 34
岡山區 :2019-06-28T12:00:00+08:00 34
橋頭區 :2019-06-28T12:00:00+08:00 35
燕巢區 :2019-06-28T12:00:00+08:00 34
田寮區 :2019-06-28T12:00:00+08:00 34
阿蓮區 :2019-06-28T12:00:00+08:00 34
路竹區 :2019-06-28T12:00:00+08:00 33
湖內區 :2019-06-28T12:00:00+08:00 33
茄萣區 :2019-06-28T12:00:00+08:00 33
永安區 :2019-06-28T12:00:00+08:00 32
彌陀區 :2019-06-28T12:00:00+08:00 32
梓官區 :2019-06-28T12:00:00+08:00 32
旗山區 :2019-06-2

In [8]:
# 3. 請取出第一個地區所記錄的每一個時間點跟溫度

with open('./Data/example/64_72hr_CH.xml', 'r') as rf:
    doc = xmltodict.parse(rf.read())

print(doc['cwbopendata']['dataset']['locations']['location'][0]['locationName'])

degrees = doc['cwbopendata']['dataset']['locations']['location'][0]['weatherElement'][0]['time']
for degree in degrees:
    print(degree['dataTime'], degree['elementValue']['value'])

鹽埕區
2019-06-28T12:00:00+08:00 33
2019-06-28T15:00:00+08:00 33
2019-06-28T18:00:00+08:00 32
2019-06-28T21:00:00+08:00 30
2019-06-29T00:00:00+08:00 30
2019-06-29T03:00:00+08:00 29
2019-06-29T06:00:00+08:00 28
2019-06-29T09:00:00+08:00 31
2019-06-29T12:00:00+08:00 32
2019-06-29T15:00:00+08:00 32
2019-06-29T18:00:00+08:00 31
2019-06-29T21:00:00+08:00 30
2019-06-30T00:00:00+08:00 29
2019-06-30T03:00:00+08:00 28
2019-06-30T06:00:00+08:00 28
2019-06-30T09:00:00+08:00 31
2019-06-30T12:00:00+08:00 32
2019-06-30T15:00:00+08:00 32
2019-06-30T18:00:00+08:00 31
2019-06-30T21:00:00+08:00 30
2019-07-01T00:00:00+08:00 29
2019-07-01T03:00:00+08:00 29
2019-07-01T06:00:00+08:00 28
2019-07-01T09:00:00+08:00 31
