# Python 下載XML檔案與解析


* 了解 xml 檔案格式與內容
* 能夠利用套件存取 xml 格式的檔案


## 存取 XML 的三種套件

In [2]:
import xml.dom.minidom

# 存取檔案
doc = xml.dom.minidom.parse("./sample.xml")

# 存取我們的資訊
print(doc.getElementsByTagName("Title")[0].firstChild.nodeValue)

# 用迴圈存取我們的資訊
chapters = doc.getElementsByTagName("Chapter")
for chapter in chapters:
    print (chapter.getAttribute('name'), chapter.firstChild.nodeValue)

爬蟲⾺馬拉松
01 資料來來源與存取
02 靜態網⾴頁爬蟲
03 動態網⾴頁爬蟲


In [21]:
import xml.etree.ElementTree as ET 

# 存取檔案
tree = ET.parse('./sample.xml') 
root = tree.getroot()

# 存取我們的資訊
print(root[0].text)
print(root[1].text)

# 用迴圈存取我們的資訊
chapters = root[2]
for chapter in chapters:
    print (chapter.attrib['name'], chapter.text)

爬蟲⾺拉松
Wei
01 資料來來源與存取
02 靜態網⾴頁爬蟲
03 動態網⾴頁爬蟲


In [29]:
import xmltodict

# 存取檔案

with open('./sample.xml', encoding='utf8') as fd:
    doc = dict(xmltodict.parse(fd.read()))
print(doc, end="\n\n")

# 存取我們的資訊
print(doc['CUPOY']['Title'])
print(doc['CUPOY']['Author'])

# 用迴圈存取我們的資訊
chapters = doc['CUPOY']['Chapters']['Chapter']
for chapter in chapters:
    print (chapter['@name'], chapter['#text'])

{'CUPOY': OrderedDict([('Title', '爬蟲⾺拉松'), ('Author', 'Wei'), ('Chapters', OrderedDict([('Chapter', [OrderedDict([('@name', '01'), ('#text', '資料來來源與存取')]), OrderedDict([('@name', '02'), ('#text', '靜態網⾴頁爬蟲')]), OrderedDict([('@name', '03'), ('#text', '動態網⾴頁爬蟲')])])]))])}

爬蟲⾺拉松
Wei
01 資料來來源與存取
02 靜態網⾴頁爬蟲
03 動態網⾴頁爬蟲


## 下載檔案

In [4]:
# 下載檔案
import urllib.request
import zipfile

res = "http://opendata.cwb.gov.tw/govdownload?dataid=F-D0047-093&authorizationkey=rdec-key-123-45678-011121314"
urllib.request.urlretrieve(res, "./data/example.zip")
f = zipfile.ZipFile('./data/example.zip')
f.extractall('./data')


In [None]:
import os, sys

# 打开文件
dirs = os.listdir( './data' )

# 输出所有文件和文件夹
for file in dirs:
    print(file)

## File I/O


In [None]:
# 讀檔案
fh = open("./data/64_72hr_CH.xml", "r")
xml = fh.read()
fh.close()

print(xml)

## xmltodict 解析檔案內容


In [None]:
# 解析檔案內容
import xmltodict
d = dict(xmltodict.parse(xml))

In [9]:
# 取出 datasetDescription
datasetDescription = d['cwbopendata']['dataset']['datasetInfo']['datasetDescription']
print(datasetDescription)


臺灣各縣市鄉鎮未來3天(72小時)逐3小時天氣預報


## 作業目標

* 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異

* 根據範例檔案的結果：
    1. 請問高雄市有多少地區有溫度資料？
    2. 請取出每一個地區所記錄的第一個時間點跟溫度
    3. 請取出第一個地區所記錄的每一個時間點跟溫度