# Python 下載XML檔案與解析


* 了解 xml 檔案格式與內容
* 能夠利用套件存取 xml 格式的檔案


## 作業目標

* 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異

* 根據範例檔案的結果：
    1. 請問高雄市有多少地區有溫度資料？
    2. 請取出每一個地區所記錄的第一個時間點跟溫度
    3. 請取出第一個地區所記錄的每一個時間點跟溫度

### 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異


In [16]:
#下載檔案
import urllib.request
import zipfile

res = "https://pycrawler-fileentity.cupoy.com/marathon/homework/data/1586231146731/example.zip?t=1586231152502"
urllib.request.urlretrieve(res,"./data/example.zip")
f = zipfile.ZipFile("./data/example.zip")
f.extractall("./data")

In [18]:
#File I/O
#讀檔案

fh = open("./data/TAIWAN_Weekday_EN.xml","r")
xml = fh.read()
fh.close()

print(xml)

<?xml version="1.0" encoding="utf-8"?>
<cwbopendata xmlns="urn:cwb:gov:tw:cwbcommon:0.1">
  <identifier>9eaad9e8-e11e-48e8-8bdc-9d6325e5c124</identifier>
  <sender>weather@cwb.gov.tw</sender>
  <sent>2019-06-28T12:22:21+08:00</sent>
  <status>Actual</status>
  <scope>Public</scope>
  <msgType>Issue</msgType>
  <dataid>D0047-092</dataid>
  <source>MFC</source>
  <dataset>
    <datasetInfo>
      <datasetDescription>Seven Days Weather Forecast of 368 townships</datasetDescription>
      <datasetLanguage>EN</datasetLanguage>
      <issueTime>2019-06-28T11:00:00+08:00</issueTime>
      <validTime>
        <startTime>2019-06-28T12:00:00+08:00</startTime>
        <endTime>2019-07-06T11:00:00+08:00</endTime>
      </validTime>
      <update>2019-06-28T12:22:21+08:00</update>
    </datasetInfo>
    <locations>
      <locationsName>Taiwan</locationsName>
      <location>
        <locationName>Lienchiang County</locationName>
        <geocode>09007</geocode>
        <lat>26.154204</lat>
        

In [19]:
#xmltodict
#解析檔案內容

import xmltodict
d = dict(xmltodict.parse(xml))

#取出datasetDescription
datasetDescription = d['cwbopendata']['dataset']['datasetInfo']['datasetDescription']
print(datasetDescription)

Seven Days Weather Forecast of 368 townships


### 根據範例檔案的結果：

1. 請問高雄市有多少地區有溫度資料？
2. 請取出每一個地區所記錄的第一個時間點跟溫度
3. 請取出第一個地區所記錄的每一個時間點跟溫度

In [171]:
# 1. 請問高雄市有多少地區有溫度資料？

import xml.dom.minidom

#存取檔案
doc = xml.dom.minidom.parse("./data/64_72hr_CH.xml")

#存取我們的資訊
print(doc.getElementsByTagName("locationsName")[0].firstChild.nodeValue)

#用迴圈存取我們的資訊
chapters = doc.getElementsByTagName("locationName")
for locationName in chapters:
    print(locationName.getAttribute("name"),locationName.firstChild.nodeValue)

高雄市
 鹽埕區
 鼓山區
 左營區
 楠梓區
 三民區
 新興區
 前金區
 苓雅區
 前鎮區
 旗津區
 小港區
 鳳山區
 林園區
 大寮區
 大樹區
 大社區
 仁武區
 鳥松區
 岡山區
 橋頭區
 燕巢區
 田寮區
 阿蓮區
 路竹區
 湖內區
 茄萣區
 永安區
 彌陀區
 梓官區
 旗山區
 美濃區
 六龜區
 甲仙區
 杉林區
 內門區
 茂林區
 桃源區
 那瑪夏區


In [3]:
# 2. 請取出每一個地區所記錄的第一個時間點跟溫度

import xml.etree.ElementTree as ET

#存取檔案
tree = ET.parse("./data/64_72hr_CH.xml")
root = tree.getroot()

#存取我們的資訊
print(root[8][1][1][0].text)
print(root[8][1][1][4][2][0].text)
print(root[8][1][1][4][2][1][0].text)

print('')

#用迴圈存取我們的資訊

#印不出資料是因為忽略NameSpace
ns = {'xmlns':'urn:cwb:gov:tw:cwbcommon:0.1'}

locations = root[8][1]

for child in locations.findall('xmlns:location',ns):
    print(child.find('xmlns:locationName',ns).text)
    weatherElement = child.find('xmlns:weatherElement',ns)
    time = weatherElement.find('xmlns:time',ns)
    print(time.find('xmlns:dataTime',ns).text)
    elementValue = time.find('xmlns:elementValue',ns)
    print(elementValue.find('xmlns:value',ns).text)
    

鹽埕區
2019-06-28T12:00:00+08:00
33

鹽埕區
2019-06-28T12:00:00+08:00
33
鼓山區
2019-06-28T12:00:00+08:00
33
左營區
2019-06-28T12:00:00+08:00
33
楠梓區
2019-06-28T12:00:00+08:00
34
三民區
2019-06-28T12:00:00+08:00
32
新興區
2019-06-28T12:00:00+08:00
33
前金區
2019-06-28T12:00:00+08:00
33
苓雅區
2019-06-28T12:00:00+08:00
33
前鎮區
2019-06-28T12:00:00+08:00
33
旗津區
2019-06-28T12:00:00+08:00
32
小港區
2019-06-28T12:00:00+08:00
33
鳳山區
2019-06-28T12:00:00+08:00
34
林園區
2019-06-28T12:00:00+08:00
33
大寮區
2019-06-28T12:00:00+08:00
34
大樹區
2019-06-28T12:00:00+08:00
34
大社區
2019-06-28T12:00:00+08:00
34
仁武區
2019-06-28T12:00:00+08:00
33
鳥松區
2019-06-28T12:00:00+08:00
34
岡山區
2019-06-28T12:00:00+08:00
34
橋頭區
2019-06-28T12:00:00+08:00
35
燕巢區
2019-06-28T12:00:00+08:00
34
田寮區
2019-06-28T12:00:00+08:00
34
阿蓮區
2019-06-28T12:00:00+08:00
34
路竹區
2019-06-28T12:00:00+08:00
33
湖內區
2019-06-28T12:00:00+08:00
33
茄萣區
2019-06-28T12:00:00+08:00
33
永安區
2019-06-28T12:00:00+08:00
32
彌陀區
2019-06-28T12:00:00+08:00
32
梓官區
2019-06-28T12:00:00+08:00
32
旗山區
2019-

In [1]:
# 3. 請取出第一個地區所記錄的每一個時間點跟溫度

import xmltodict

#存取檔案
with open('./data/64_72hr_CH.xml') as fd:
    doc = dict(xmltodict.parse(fd.read()))

#存取我們的資訊
#print (doc['cwbopendata']['dataset']['locations']['location']['locationName'])_wrong

print (doc['cwbopendata']['dataset']['locations']['location'][0]['locationName'])

#用迴圈存取我們的資訊
weatherElement = doc['cwbopendata']['dataset']['locations']['location'][0]['weatherElement'][0]['time']

for child in weatherElement:
    print(child['dataTime'],child['elementValue']['value'])

鹽埕區
2019-06-28T12:00:00+08:00 33
2019-06-28T15:00:00+08:00 33
2019-06-28T18:00:00+08:00 32
2019-06-28T21:00:00+08:00 30
2019-06-29T00:00:00+08:00 30
2019-06-29T03:00:00+08:00 29
2019-06-29T06:00:00+08:00 28
2019-06-29T09:00:00+08:00 31
2019-06-29T12:00:00+08:00 32
2019-06-29T15:00:00+08:00 32
2019-06-29T18:00:00+08:00 31
2019-06-29T21:00:00+08:00 30
2019-06-30T00:00:00+08:00 29
2019-06-30T03:00:00+08:00 28
2019-06-30T06:00:00+08:00 28
2019-06-30T09:00:00+08:00 31
2019-06-30T12:00:00+08:00 32
2019-06-30T15:00:00+08:00 32
2019-06-30T18:00:00+08:00 31
2019-06-30T21:00:00+08:00 30
2019-07-01T00:00:00+08:00 29
2019-07-01T03:00:00+08:00 29
2019-07-01T06:00:00+08:00 28
2019-07-01T09:00:00+08:00 31
