# Python 下載XML檔案與解析


* 了解 xml 檔案格式與內容
* 能夠利用套件存取 xml 格式的檔案


## 作業目標

* 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異

* 根據範例檔案的結果：
    1. 請問高雄市有多少地區有溫度資料？
    2. 請取出每一個地區所記錄的第一個時間點跟溫度
    3. 請取出第一個地區所記錄的每一個時間點跟溫度

### 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異


In [44]:
# File I/O

with open('./example/sample.xml', newline = '', encoding = 'utf-8-sig') as p:
    print(p.read())

<?xml version="1.0" encoding="UTF-8"?>
<CUPOY>
    <Title>爬蟲馬拉松</Title>
    <Author>Wei</Author>
    <Chapters>
        <Chapter name="01">資料來源與存取</Chapter>
        <Chapter name="02">靜態網頁爬蟲</Chapter>
        <Chapter name="03">動態網頁爬蟲</Chapter>
    </Chapters>
</CUPOY>


In [45]:
# XMLtodict

import xmltodict

with open('./example/sample.xml', newline = '', encoding = 'utf-8-sig') as c:
    doc = dict(xmltodict.parse(c.read()))
print(doc)
print()

#印出想要的標題
print(doc['CUPOY']['Title'])
#利用迴圈印出想要的內容
chapters = doc['CUPOY']['Chapters']['Chapter']
for chapter in chapters:
    print(chapter['@name'], chapter['#text'])

{'CUPOY': OrderedDict([('Title', '爬蟲馬拉松'), ('Author', 'Wei'), ('Chapters', OrderedDict([('Chapter', [OrderedDict([('@name', '01'), ('#text', '資料來源與存取')]), OrderedDict([('@name', '02'), ('#text', '靜態網頁爬蟲')]), OrderedDict([('@name', '03'), ('#text', '動態網頁爬蟲')])])]))])}

爬蟲馬拉松
01 資料來源與存取
02 靜態網頁爬蟲
03 動態網頁爬蟲


### 根據範例檔案的結果：

1. 請問高雄市有多少地區有溫度資料？
2. 請取出每一個地區所記錄的第一個時間點跟溫度
3. 請取出第一個地區所記錄的每一個時間點跟溫度

In [46]:
import os

weather = os.listdir('./example/')

# 找尋資料夾中為中文的檔案名稱
weather_CH = [weather for weather in weather if 'CH' in weather ]
# 解析文件中有高雄市的檔案名稱
for file_name in weather_CH:
    with open('./example/'+file_name,'r',encoding='utf-8-sig') as f:
        hello = dict(xmltodict.parse(f.read()))
# 可以透過.keys()的方式逐層找到高雄市
# print(hello['cwbopendata']['dataset'].keys())
        city = hello['cwbopendata']['dataset']['locations']['locationsName']
        if '高雄市' in city:
            print(file_name)        
        


64_72hr_CH.xml
64_Week24_CH.xml
64_Weekday_CH.xml


In [47]:
# 1. 請問高雄市有多少地區有溫度資料？

with open('./example/64_72hr_CH.xml','r',encoding='utf-8-sig') as f:
    content  = dict(xmltodict.parse((f.read())))

#透過.keys()的方式逐層找到高雄市
dist_count = len(content['cwbopendata']['dataset']['locations']['location'])
print('高雄市有',dist_count,'個地區有溫度資料')

高雄市有 38 個地區有溫度資料


In [48]:
# 2. 請取出每一個地區所記錄的第一個時間點跟溫度

# dist_of_city 城市
# first_time 測量的第一個時間點
# temperature 溫度

for i in range(dist_count):
    dist_of_city = content['cwbopendata']['dataset']['locations']['location'][i]['locationName']
    first_time = content['cwbopendata']['dataset']['locations']['location'][i]['weatherElement'][0]['time'][0]['dataTime']
    temperature = content['cwbopendata']['dataset']['locations']['location'][i]['weatherElement'][0]['time'][0]['elementValue']['value']
    print(dist_of_city+',', '測量的第一個時間點'+'『'+first_time[11:16]+'』'+',', '測量的第一個溫度''『'+temperature+'』'+'攝氏溫度')

鹽埕區, 測量的第一個時間點『12:00』, 測量的第一個溫度『33』攝氏溫度
鼓山區, 測量的第一個時間點『12:00』, 測量的第一個溫度『33』攝氏溫度
左營區, 測量的第一個時間點『12:00』, 測量的第一個溫度『33』攝氏溫度
楠梓區, 測量的第一個時間點『12:00』, 測量的第一個溫度『34』攝氏溫度
三民區, 測量的第一個時間點『12:00』, 測量的第一個溫度『32』攝氏溫度
新興區, 測量的第一個時間點『12:00』, 測量的第一個溫度『33』攝氏溫度
前金區, 測量的第一個時間點『12:00』, 測量的第一個溫度『33』攝氏溫度
苓雅區, 測量的第一個時間點『12:00』, 測量的第一個溫度『33』攝氏溫度
前鎮區, 測量的第一個時間點『12:00』, 測量的第一個溫度『33』攝氏溫度
旗津區, 測量的第一個時間點『12:00』, 測量的第一個溫度『32』攝氏溫度
小港區, 測量的第一個時間點『12:00』, 測量的第一個溫度『33』攝氏溫度
鳳山區, 測量的第一個時間點『12:00』, 測量的第一個溫度『34』攝氏溫度
林園區, 測量的第一個時間點『12:00』, 測量的第一個溫度『33』攝氏溫度
大寮區, 測量的第一個時間點『12:00』, 測量的第一個溫度『34』攝氏溫度
大樹區, 測量的第一個時間點『12:00』, 測量的第一個溫度『34』攝氏溫度
大社區, 測量的第一個時間點『12:00』, 測量的第一個溫度『34』攝氏溫度
仁武區, 測量的第一個時間點『12:00』, 測量的第一個溫度『33』攝氏溫度
鳥松區, 測量的第一個時間點『12:00』, 測量的第一個溫度『34』攝氏溫度
岡山區, 測量的第一個時間點『12:00』, 測量的第一個溫度『34』攝氏溫度
橋頭區, 測量的第一個時間點『12:00』, 測量的第一個溫度『35』攝氏溫度
燕巢區, 測量的第一個時間點『12:00』, 測量的第一個溫度『34』攝氏溫度
田寮區, 測量的第一個時間點『12:00』, 測量的第一個溫度『34』攝氏溫度
阿蓮區, 測量的第一個時間點『12:00』, 測量的第一個溫度『34』攝氏溫度
路竹區, 測量的第一個時間點『12:00』, 測量的第一個溫度『33』攝氏溫度
湖內區, 測量的第一個時間點『12:00』, 測量的第一個溫度『33』攝氏溫度


In [53]:
# 3. 請取出第一個地區所記錄的每一個時間點跟溫度

dist_of_city = content['cwbopendata']['dataset']['locations']['location'][0]['locationName']
time_step = len(content['cwbopendata']['dataset']['locations']['location'][0]['weatherElement'][0]['time'])

print(dist_of_city)
for i in range(time_step):
    time = content['cwbopendata']['dataset']['locations']['location'][0]['weatherElement'][0]['time'][i]['dataTime'][11:16]
    temperature = content['cwbopendata']['dataset']['locations']['location'][0]['weatherElement'][0]['time'][i]['elementValue']['value']
    print(time,temperature,'度')

鹽埕區
12:00 33 度
15:00 33 度
18:00 32 度
21:00 30 度
00:00 30 度
03:00 29 度
06:00 28 度
09:00 31 度
12:00 32 度
15:00 32 度
18:00 31 度
21:00 30 度
00:00 29 度
03:00 28 度
06:00 28 度
09:00 31 度
12:00 32 度
15:00 32 度
18:00 31 度
21:00 30 度
00:00 29 度
03:00 29 度
06:00 28 度
09:00 31 度
