# Python 下載XML檔案與解析


* 了解 xml 檔案格式與內容
* 能夠利用套件存取 xml 格式的檔案


## 作業目標

* 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異
    1. 只以File I/O讀取檔案，呈現的方式為xml格式。除了資訊內容外，連xml的標籤會一同出現，在後續的數據分析造成判讀上的困難。
    2. 以xmltodict讀取時，可以一層層往下尋找，讀取我們要的內容

* 根據範例檔案的結果：
    1. 請問高雄市有多少地區有溫度資料？
    2. 請取出每一個地區所記錄的第一個時間點跟溫度
    3. 請取出第一個地區所記錄的每一個時間點跟溫度

### 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異


#### 下載檔案

In [1]:
# 下載檔案
import urllib.request
import zipfile

res = "http://opendata.cwb.gov.tw/govdownload?dataid=F-D0047-093&authorizationkey=rdec-key-123-45678-011121314"
urllib.request.urlretrieve(res, "./Data/example.zip")
f = zipfile.ZipFile('./Data/example.zip')
f.extractall('./Data/HW3')

In [2]:
import os, sys

# 打開文件
dirs = os.listdir( './Data/HW3' )

# 輸出所有文件和文件夾
for file in dirs:
    print(file)

09007_72hr_CH.xml
09007_72hr_EN.xml
09007_Week24_CH.xml
09007_Week24_EN.xml
09007_Weekday_CH.xml
09007_Weekday_EN.xml
09020_72hr_CH.xml
09020_72hr_EN.xml
09020_Week24_CH.xml
09020_Week24_EN.xml
09020_Weekday_CH.xml
09020_Weekday_EN.xml
10002_72hr_CH.xml
10002_72hr_EN.xml
10002_Week24_CH.xml
10002_Week24_EN.xml
10002_Weekday_CH.xml
10002_Weekday_EN.xml
10004_72hr_CH.xml
10004_72hr_EN.xml
10004_Week24_CH.xml
10004_Week24_EN.xml
10004_Weekday_CH.xml
10004_Weekday_EN.xml
10005_72hr_CH.xml
10005_72hr_EN.xml
10005_Week24_CH.xml
10005_Week24_EN.xml
10005_Weekday_CH.xml
10005_Weekday_EN.xml
10007_72hr_CH.xml
10007_72hr_EN.xml
10007_Week24_CH.xml
10007_Week24_EN.xml
10007_Weekday_CH.xml
10007_Weekday_EN.xml
10008_72hr_CH.xml
10008_72hr_EN.xml
10008_Week24_CH.xml
10008_Week24_EN.xml
10008_Weekday_CH.xml
10008_Weekday_EN.xml
10009_72hr_CH.xml
10009_72hr_EN.xml
10009_Week24_CH.xml
10009_Week24_EN.xml
10009_Weekday_CH.xml
10009_Weekday_EN.xml
10010_72hr_CH.xml
10010_72hr_EN.xml
10010_Week24_CH.xml


#### 以「File I/O」讀取資料

In [3]:
# File I/O
fh = open("./Data/HW3/64_72hr_CH.xml", "r", encoding = 'utf8')
xml = fh.read()
fh.close()

print(xml)

<?xml version="1.0" encoding="utf-8"?>
<cwbopendata xmlns="urn:cwb:gov:tw:cwbcommon:0.1">
  <identifier>87268e98-ce9b-489c-9039-e029f3fb2407</identifier>
  <sender>weather@cwb.gov.tw</sender>
  <sent>2020-06-27T12:19:00+08:00</sent>
  <status>Actual</status>
  <scope>Public</scope>
  <msgType>Issue</msgType>
  <dataid>D0047-065</dataid>
  <source>MFC</source>
  <dataset>
    <datasetInfo>
      <datasetDescription>臺灣各縣市鄉鎮未來3天(72小時)逐3小時天氣預報</datasetDescription>
      <datasetLanguage>zh-TW</datasetLanguage>
      <issueTime>2020-06-27T11:00:00+08:00</issueTime>
      <validTime>
        <startTime>2020-06-27T12:00:00+08:00</startTime>
        <endTime>2020-06-30T11:00:00+08:00</endTime>
      </validTime>
      <update>2020-06-27T12:19:00+08:00</update>
    </datasetInfo>
    <locations>
      <locationsName>高雄市</locationsName>
      <location>
        <locationName>鹽埕區</locationName>
        <geocode>6400100</geocode>
        <lat>22.626497</lat>
        <lon>120.278707</lon>
        <

#### 以「xmltodict」讀取資料

In [4]:
# 解析檔案內容
import xmltodict
d = dict(xmltodict.parse(xml))

In [5]:
# 取出 datasetDescription
datasetDescription = d['cwbopendata']['dataset']['datasetInfo']['datasetDescription'] #一層一層往下指定位置
print(datasetDescription)

臺灣各縣市鄉鎮未來3天(72小時)逐3小時天氣預報


### 根據範例檔案的結果：

1. 請問高雄市有多少地區有溫度資料？ Ans. 38
2. 請取出每一個地區所記錄的第一個時間點跟溫度
3. 請取出第一個地區所記錄的每一個時間點跟溫度

### 1. 請問高雄市有多少地區有溫度資料？

In [6]:
# 計算高雄有多少地區
len(d['cwbopendata']['dataset']['locations']['location'])

38

In [7]:
# 用迴圈存取高雄有地區名稱
area = d['cwbopendata']['dataset']['locations']['location']
for x in range(len(area)): 
    print (area[x]['locationName'], area[x]['weatherElement'][0]['description'])

鹽埕區 溫度
鼓山區 溫度
左營區 溫度
楠梓區 溫度
三民區 溫度
新興區 溫度
前金區 溫度
苓雅區 溫度
前鎮區 溫度
旗津區 溫度
小港區 溫度
鳳山區 溫度
林園區 溫度
大寮區 溫度
大樹區 溫度
大社區 溫度
仁武區 溫度
鳥松區 溫度
岡山區 溫度
橋頭區 溫度
燕巢區 溫度
田寮區 溫度
阿蓮區 溫度
路竹區 溫度
湖內區 溫度
茄萣區 溫度
永安區 溫度
彌陀區 溫度
梓官區 溫度
旗山區 溫度
美濃區 溫度
六龜區 溫度
甲仙區 溫度
杉林區 溫度
內門區 溫度
茂林區 溫度
桃源區 溫度
那瑪夏區 溫度


### 2. 請取出每一個地區所記錄的第一個時間點跟溫度

In [8]:
# 高雄第一個地區 (['location'][0])內，大氣參數為溫度['weatherElement'][0]，所記錄的第一個時間點(['time'][0])溫度及溫度
# Note: 時間點內有第一個時間資料(dataTime)
# Note: 時間點內有第一個溫度資料(elementValue/ value)
d['cwbopendata']['dataset']['locations']['location'][0]['weatherElement'][0]['time'][0]

OrderedDict([('dataTime', '2020-06-27T12:00:00+08:00'),
             ('elementValue',
              OrderedDict([('value', '33'), ('measures', '攝氏度')]))])

In [9]:
type(area[x]['weatherElement'][0]['time'])

list

In [10]:
# 用迴圈存取高雄每一個地區所記錄的第一個時間點跟溫度
temp = d['cwbopendata']['dataset']['locations']['location']
for i in range(len(temp)): 
    print (temp[i]['locationName'], #地區
           temp[i]['weatherElement'][0]['time'][0]['dataTime'], #第一個時間點
           temp[i]['weatherElement'][0]['time'][0]['elementValue']['value']) #第一個溫度

鹽埕區 2020-06-27T12:00:00+08:00 33
鼓山區 2020-06-27T12:00:00+08:00 33
左營區 2020-06-27T12:00:00+08:00 32
楠梓區 2020-06-27T12:00:00+08:00 33
三民區 2020-06-27T12:00:00+08:00 32
新興區 2020-06-27T12:00:00+08:00 33
前金區 2020-06-27T12:00:00+08:00 33
苓雅區 2020-06-27T12:00:00+08:00 33
前鎮區 2020-06-27T12:00:00+08:00 34
旗津區 2020-06-27T12:00:00+08:00 33
小港區 2020-06-27T12:00:00+08:00 34
鳳山區 2020-06-27T12:00:00+08:00 34
林園區 2020-06-27T12:00:00+08:00 34
大寮區 2020-06-27T12:00:00+08:00 34
大樹區 2020-06-27T12:00:00+08:00 34
大社區 2020-06-27T12:00:00+08:00 33
仁武區 2020-06-27T12:00:00+08:00 33
鳥松區 2020-06-27T12:00:00+08:00 34
岡山區 2020-06-27T12:00:00+08:00 33
橋頭區 2020-06-27T12:00:00+08:00 34
燕巢區 2020-06-27T12:00:00+08:00 33
田寮區 2020-06-27T12:00:00+08:00 33
阿蓮區 2020-06-27T12:00:00+08:00 33
路竹區 2020-06-27T12:00:00+08:00 33
湖內區 2020-06-27T12:00:00+08:00 33
茄萣區 2020-06-27T12:00:00+08:00 33
永安區 2020-06-27T12:00:00+08:00 32
彌陀區 2020-06-27T12:00:00+08:00 32
梓官區 2020-06-27T12:00:00+08:00 33
旗山區 2020-06-27T12:00:00+08:00 34
美濃區 2020-0

### 3. 請取出第一個地區所記錄的每一個時間點跟溫度

In [11]:
# 高雄第一個地區 (['location'][0])內，大氣參數為溫度['weatherElement'][0]，所記錄的第一個時間點(['time'][0]) - 6點
d['cwbopendata']['dataset']['locations']['location'][0]['weatherElement'][0]['time'][0]

OrderedDict([('dataTime', '2020-06-27T12:00:00+08:00'),
             ('elementValue',
              OrderedDict([('value', '33'), ('measures', '攝氏度')]))])

In [12]:
# 高雄第一個地區 (['location'][0])內，大氣參數為溫度['weatherElement'][0]，所記錄的第一個時間點(['time'][1]) - 9點
d['cwbopendata']['dataset']['locations']['location'][0]['weatherElement'][0]['time'][1]

OrderedDict([('dataTime', '2020-06-27T15:00:00+08:00'),
             ('elementValue',
              OrderedDict([('value', '32'), ('measures', '攝氏度')]))])

In [13]:
# 計算有多少時間點 - 24
# 因為是三小時一筆資料，一天有8筆資料，三天共有24筆資料
len(d['cwbopendata']['dataset']['locations']['location'][0]['weatherElement'][0]['time'])

24

In [14]:
# 用迴圈存取高雄第一個地區所記錄的每一個時間點跟溫度
temp1 = d['cwbopendata']['dataset']['locations']['location'][0]['weatherElement'][0]['time']
for j in range(len(temp1)): 
    print (d['cwbopendata']['dataset']['locations']['location'][0]['locationName'], #高雄第一個地區 - 鹽埕區
           temp1[j]['dataTime'], #每一個時間點
           temp1[j]['elementValue']['value']) #每一個溫度

鹽埕區 2020-06-27T12:00:00+08:00 33
鹽埕區 2020-06-27T15:00:00+08:00 32
鹽埕區 2020-06-27T18:00:00+08:00 31
鹽埕區 2020-06-27T21:00:00+08:00 30
鹽埕區 2020-06-28T00:00:00+08:00 30
鹽埕區 2020-06-28T03:00:00+08:00 29
鹽埕區 2020-06-28T06:00:00+08:00 28
鹽埕區 2020-06-28T09:00:00+08:00 31
鹽埕區 2020-06-28T12:00:00+08:00 33
鹽埕區 2020-06-28T15:00:00+08:00 32
鹽埕區 2020-06-28T18:00:00+08:00 31
鹽埕區 2020-06-28T21:00:00+08:00 30
鹽埕區 2020-06-29T00:00:00+08:00 30
鹽埕區 2020-06-29T03:00:00+08:00 29
鹽埕區 2020-06-29T06:00:00+08:00 28
鹽埕區 2020-06-29T09:00:00+08:00 31
鹽埕區 2020-06-29T12:00:00+08:00 32
鹽埕區 2020-06-29T15:00:00+08:00 32
鹽埕區 2020-06-29T18:00:00+08:00 31
鹽埕區 2020-06-29T21:00:00+08:00 30
鹽埕區 2020-06-30T00:00:00+08:00 30
鹽埕區 2020-06-30T03:00:00+08:00 29
鹽埕區 2020-06-30T06:00:00+08:00 28
鹽埕區 2020-06-30T09:00:00+08:00 31


### 備註: XML標籤讀取問題
* Question: 在讀取 d['cwbopendata']['dataset']['locations']['location']時，如果後面沒有指定位置，則會出現TypeError: list indices must be integers or slices, not str？的錯誤訊號。
* Ans: 在 XML 中相同的標籤，在 xmltodict 轉換的過程會被轉成 list。因此高雄區(['location'])這個標籤會傳的結果會是一個 list，取值就必須加上 [ ... ] 的方式。
* 
* type()若為collections.OrderedDict/str，則可以直接顯示資料內容。d['cwbopendata']['dataset']['locations']['locationsName']為高雄市
* type()若為list，則需要正確指定list位置才可以顯示正確內容。如：d['cwbopendata']['dataset']['locations']['location'][0]['locationName']為鹽埕區

In [15]:
type(d['cwbopendata']['dataset']['locations'])

collections.OrderedDict

In [16]:
type(d['cwbopendata']['dataset']['locations']['location'])

list

In [17]:
type(d['cwbopendata']['dataset']['locations']['location'][0])

collections.OrderedDict

In [18]:
d['cwbopendata']['dataset']['locations']['location'][0]['locationName']

'鹽埕區'