# Python 下載XML檔案與解析


* 了解 xml 檔案格式與內容
* 能夠利用套件存取 xml 格式的檔案


## 存取 XML 的三種套件

In [1]:
import xml.dom.minidom

# 存取檔案
doc = xml.dom.minidom.parse("./sample.xml")

# 存取我們的資訊
print(doc.getElementsByTagName("Title")[0].firstChild.nodeValue)

# 用迴圈存取我們的資訊
chapters = doc.getElementsByTagName("Chapter")
for chapter in chapters:
    print (chapter.getAttribute('name'), chapter.firstChild.nodeValue)

爬蟲馬拉松
01 資料來源與存取
02 靜態網頁爬蟲
03 動態網頁爬蟲


In [2]:
import xml.etree.ElementTree as ET 

# 存取檔案
tree = ET.parse('./sample.xml') 
root = tree.getroot()

# 存取我們的資訊
print(root[0].text)

# 用迴圈存取我們的資訊
chapters = root[2]
for chapter in chapters:
    print (chapter.attrib['name'], chapter.text)

爬蟲馬拉松
01 資料來源與存取
02 靜態網頁爬蟲
03 動態網頁爬蟲


In [3]:
import xmltodict

# 存取檔案

with open('./sample.xml', encoding='utf-8') as fd:
    doc = dict(xmltodict.parse(fd.read()))

# 存取我們的資訊
print(doc['CUPOY']['Title'])

# 用迴圈存取我們的資訊
chapters = doc['CUPOY']['Chapters']['Chapter']
for chapter in chapters:
    print (chapter['@name'], chapter['#text'])

爬蟲馬拉松
01 資料來源與存取
02 靜態網頁爬蟲
03 動態網頁爬蟲


## 下載檔案

In [4]:
# 下載檔案
import urllib.request
import zipfile

res = "http://opendata.cwb.gov.tw/govdownload?dataid=F-D0047-093&authorizationkey=rdec-key-123-45678-011121314"
urllib.request.urlretrieve(res, "../data/example.zip")
f = zipfile.ZipFile('../data/example.zip')
f.extractall('../data')


In [5]:
import os, sys

# 打开文件
dirs = os.listdir( '../data' )

# 输出所有文件和文件夹
for file in dirs:
    print(file)

09007_72hr_CH.xml
09007_72hr_EN.xml
09007_Week24_CH.xml
09007_Week24_EN.xml
09007_Weekday_CH.xml
09007_Weekday_EN.xml
09020_72hr_CH.xml
09020_72hr_EN.xml
09020_Week24_CH.xml
09020_Week24_EN.xml
09020_Weekday_CH.xml
09020_Weekday_EN.xml
10002_72hr_CH.xml
10002_72hr_EN.xml
10002_Week24_CH.xml
10002_Week24_EN.xml
10002_Weekday_CH.xml
10002_Weekday_EN.xml
10004_72hr_CH.xml
10004_72hr_EN.xml
10004_Week24_CH.xml
10004_Week24_EN.xml
10004_Weekday_CH.xml
10004_Weekday_EN.xml
10005_72hr_CH.xml
10005_72hr_EN.xml
10005_Week24_CH.xml
10005_Week24_EN.xml
10005_Weekday_CH.xml
10005_Weekday_EN.xml
10007_72hr_CH.xml
10007_72hr_EN.xml
10007_Week24_CH.xml
10007_Week24_EN.xml
10007_Weekday_CH.xml
10007_Weekday_EN.xml
10008_72hr_CH.xml
10008_72hr_EN.xml
10008_Week24_CH.xml
10008_Week24_EN.xml
10008_Weekday_CH.xml
10008_Weekday_EN.xml
10009_72hr_CH.xml
10009_72hr_EN.xml
10009_Week24_CH.xml
10009_Week24_EN.xml
10009_Weekday_CH.xml
10009_Weekday_EN.xml
10010_72hr_CH.xml
10010_72hr_EN.xml
10010_Week24_CH.xml


## File I/O


In [6]:
# 讀檔案
fh = open("../data/64_72hr_CH.xml", "r", encoding='utf-8')
xml = fh.read()
fh.close()

print(xml)

<?xml version="1.0" encoding="utf-8"?>
<cwbopendata xmlns="urn:cwb:gov:tw:cwbcommon:0.1">
  <identifier>e6187cee-271c-47db-91e3-c0f91b5cc983</identifier>
  <sender>weather@cwb.gov.tw</sender>
  <sent>2019-12-01T12:18:13+08:00</sent>
  <status>Actual</status>
  <scope>Public</scope>
  <msgType>Issue</msgType>
  <dataid>D0047-065</dataid>
  <source>MFC</source>
  <dataset>
    <datasetInfo>
      <datasetDescription>臺灣各縣市鄉鎮未來3天(72小時)逐3小時天氣預報</datasetDescription>
      <datasetLanguage>zh-TW</datasetLanguage>
      <issueTime>2019-12-01T11:00:00+08:00</issueTime>
      <validTime>
        <startTime>2019-12-01T12:00:00+08:00</startTime>
        <endTime>2019-12-04T11:00:00+08:00</endTime>
      </validTime>
      <update>2019-12-01T12:18:13+08:00</update>
    </datasetInfo>
    <locations>
      <locationsName>高雄市</locationsName>
      <location>
        <locationName>鹽埕區</locationName>
        <geocode>6400100</geocode>
        <lat>22.626497</lat>
        <lon>120.278707</lon>
        <

## xmltodict 解析檔案內容


In [7]:
# 解析檔案內容
import xmltodict
d = dict(xmltodict.parse(xml))

In [8]:
# 取出 datasetDescription
datasetDescription = d['cwbopendata']['dataset']['datasetInfo']['datasetDescription']
print(datasetDescription)


臺灣各縣市鄉鎮未來3天(72小時)逐3小時天氣預報


## 作業目標

* 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異

* 根據範例檔案的結果：
    1. 請問高雄市有多少地區有溫度資料？
    2. 請取出每一個地區所記錄的第一個時間點跟溫度
    3. 請取出第一個地區所記錄的每一個時間點跟溫度