# Python 下載XML檔案與解析


* 了解 xml 檔案格式與內容
* 能夠利用套件存取 xml 格式的檔案


## 作業目標

* 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異

* 根據範例檔案的結果：
    1. 請問高雄市有多少地區有溫度資料？
    2. 請取出每一個地區所記錄的第一個時間點跟溫度
    3. 請取出第一個地區所記錄的每一個時間點跟溫度

### 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異


In [28]:
import xml.dom.minidom
import xmltodict
from urllib.request import urlretrieve, urlopen
import os, sys
from io import BytesIO
from zipfile import ZipFile
import shutil 
from pathlib import Path 


In [32]:
#將xml檔案解壓後，存到Data資料夾
path = 'http://pycrawler.cupoy.com/file-download/part03/example.zip'
file_path = './Data'

with urlopen(path) as zipresp:
    with ZipFile(BytesIO(zipresp.read())) as zfile:
        zfile.extractall(file_path)
        filenames = zfile.namelist()
print(filenames)

['09007_72hr_CH.xml', '09007_72hr_EN.xml', '09007_Week24_CH.xml', '09007_Week24_EN.xml', '09007_Weekday_CH.xml', '09007_Weekday_EN.xml', '09020_72hr_CH.xml', '09020_72hr_EN.xml', '09020_Week24_CH.xml', '09020_Week24_EN.xml', '09020_Weekday_CH.xml', '09020_Weekday_EN.xml', '10002_72hr_CH.xml', '10002_72hr_EN.xml', '10002_Week24_CH.xml', '10002_Week24_EN.xml', '10002_Weekday_CH.xml', '10002_Weekday_EN.xml', '10004_72hr_CH.xml', '10004_72hr_EN.xml', '10004_Week24_CH.xml', '10004_Week24_EN.xml', '10004_Weekday_CH.xml', '10004_Weekday_EN.xml', '10005_72hr_CH.xml', '10005_72hr_EN.xml', '10005_Week24_CH.xml', '10005_Week24_EN.xml', '10005_Weekday_CH.xml', '10005_Weekday_EN.xml', '10007_72hr_CH.xml', '10007_72hr_EN.xml', '10007_Week24_CH.xml', '10007_Week24_EN.xml', '10007_Weekday_CH.xml', '10007_Weekday_EN.xml', '10008_72hr_CH.xml', '10008_72hr_EN.xml', '10008_Week24_CH.xml', '10008_Week24_EN.xml', '10008_Weekday_CH.xml', '10008_Weekday_EN.xml', '10009_72hr_CH.xml', '10009_72hr_EN.xml', '1000

In [34]:
try:
    with open('./Data/Homework.xml', "w") as outfile: 
        for fname in filenames: 
            with open('./Data/'+fname) as infile:
                outfile.write(infile.readline())
except:
    print('發生錯誤！')  #希望可以print error code

In [21]:
#使用I/O 讀取檔案

with open('./Data/09007_Week24_CH.xml', 'r') as fh:
    f = fh.read()
print(f)   #print(f) vs print(fh)

<?xml version="1.0" encoding="utf-8"?>
<cwbopendata xmlns="urn:cwb:gov:tw:cwbcommon:0.1">
  <identifier>5d1055fc-99da-4536-8194-358a133c2ab4</identifier>
  <sender>weather@cwb.gov.tw</sender>
  <sent>2019-06-28T12:22:23+08:00</sent>
  <status>Actual</status>
  <scope>Public</scope>
  <msgType>Issue</msgType>
  <dataid>null</dataid>
  <source>MFC</source>
  <dataset>
    <datasetInfo>
      <datasetDescription>臺灣各縣市鄉鎮未來1週逐24小時天氣預報</datasetDescription>
      <datasetLanguage>zh-TW</datasetLanguage>
      <issueTime>2019-06-28T11:00:00+08:00</issueTime>
      <validTime>
        <startTime>2019-06-28T12:00:00+08:00</startTime>
        <endTime>2019-07-06T11:00:00+08:00</endTime>
      </validTime>
      <update>2019-06-28T12:22:23+08:00</update>
    </datasetInfo>
    <locations>
      <locationsName>連江縣</locationsName>
      <location>
        <locationName>南竿鄉</locationName>
        <geocode>0900701</geocode>
        <lat>26.154204</lat>
        <lon>119.929303</lon>
        <weatherEle

In [20]:
#使用xmltodict讀取檔案
with open('./Data/09007_72hr_CH.xml') as fd:
    doc = dict(xmltodict.parse(fd.read()))
print(doc)

{'cwbopendata': OrderedDict([('@xmlns', 'urn:cwb:gov:tw:cwbcommon:0.1'), ('identifier', '4894bb6a-5f79-4b7d-9505-2ab008cbcdc5'), ('sender', 'weather@cwb.gov.tw'), ('sent', '2019-06-28T12:19:48+08:00'), ('status', 'Actual'), ('scope', 'Public'), ('msgType', 'Issue'), ('dataid', 'D0047-081'), ('source', 'MFC'), ('dataset', OrderedDict([('datasetInfo', OrderedDict([('datasetDescription', '臺灣各縣市鄉鎮未來3天(72小時)逐3小時天氣預報'), ('datasetLanguage', 'zh-TW'), ('issueTime', '2019-06-28T11:00:00+08:00'), ('validTime', OrderedDict([('startTime', '2019-06-28T12:00:00+08:00'), ('endTime', '2019-07-01T11:00:00+08:00')])), ('update', '2019-06-28T12:19:48+08:00')])), ('locations', OrderedDict([('locationsName', '連江縣'), ('location', [OrderedDict([('locationName', '南竿鄉'), ('geocode', '0900701'), ('lat', '26.154204'), ('lon', '119.929303'), ('weatherElement', [OrderedDict([('elementName', 'T'), ('description', '溫度'), ('time', [OrderedDict([('dataTime', '2019-06-28T12:00:00+08:00'), ('elementValue', OrderedDict([

I/O的方式：印出保留XML格式的string

xmltodict的方式：形成字典的形式

### 根據範例檔案的結果：

1. 請問高雄市有多少地區有溫度資料？
2. 請取出每一個地區所記錄的第一個時間點跟溫度
3. 請取出第一個地區所記錄的每一個時間點跟溫度

In [2]:
# 1. 請問高雄市有多少地區有溫度資料？


In [None]:
# 2. 請取出每一個地區所記錄的第一個時間點跟溫度


In [None]:
# 3. 請取出第一個地區所記錄的每一個時間點跟溫度
