# Python 下載XML檔案與解析


* 了解 xml 檔案格式與內容
* 能夠利用套件存取 xml 格式的檔案


## 作業目標

* 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異

* 根據範例檔案的結果：
    1. 請問高雄市有多少地區有溫度資料？
    2. 請取出每一個地區所記錄的第一個時間點跟溫度
    3. 請取出第一個地區所記錄的每一個時間點跟溫度

### 比較一下範例檔案中的「File I/O」與「xmltodict」讀出來的內容有什麼差異


In [40]:
with open('./Day003/sample.xml','r',encoding='utf-8') as f:
    print(f.read())

<?xml version="1.0" encoding="UTF-8"?>
<CUPOY>
    <Title>爬蟲馬拉松</Title>
    <Author>Wei</Author>
    <Chapters>
        <Chapter name="01">資料來源與存取</Chapter>
        <Chapter name="02">靜態網頁爬蟲</Chapter>
        <Chapter name="03">動態網頁爬蟲</Chapter>
    </Chapters>
</CUPOY>


In [1]:
import xmltodict

with open('./Day003/sample.xml','r') as f:
    doc = dict(xmltodict.parse(f.read()))
print(doc)

{'CUPOY': OrderedDict([('Title', '爬蟲馬拉松'), ('Author', 'Wei'), ('Chapters', OrderedDict([('Chapter', [OrderedDict([('@name', '01'), ('#text', '資料來源與存取')]), OrderedDict([('@name', '02'), ('#text', '靜態網頁爬蟲')]), OrderedDict([('@name', '03'), ('#text', '動態網頁爬蟲')])])]))])}


**二者差異**
* i/o是用TAG的方式整理資料，xml是用dict的方式整理

### 根據範例檔案的結果：

1. 請問高雄市有多少地區有溫度資料？
2. 請取出每一個地區所記錄的第一個時間點跟溫度
3. 請取出第一個地區所記錄的每一個時間點跟溫度

In [100]:
import os
weather_reports_dir = './Day003/'
weather_reports = os.listdir(weather_reports_dir)

# 所有的中文版氣象資料
CH_weather_reports = [weather_report for weather_report in weather_reports if 'CH' in weather_report ]
i=0

# 找出內含高雄的氣象資料
for report in CH_weather_reports:
    with open(weather_reports_dir+report,'r') as f:
        content = dict(xmltodict.parse(f.read()))
        city = content['cwbopendata']['dataset']['locations']['locationsName']
        if '高雄市' in city:
            print(report)


64_72hr_CH.xml
64_Weekday_CH.xml
64_Week24_CH.xml


In [113]:
# 1. 請問高雄市有多少地區有溫度資料？

#開啟，讀取檔案 高雄市的資料在64_Weekday_CH.xml
with open('./Day003/64_Weekday_CH.xml','r') as f:
    content = dict(xmltodict.parse(f.read()))
    
#利用.keys()的方式逐層找到高雄的行政區 ['cwbopendata']→['dataset']→['locations']→['location']

dist_count = len(content['cwbopendata']['dataset']['locations']['location'])
print('高雄市有',dist_count,'個地區有溫度資料')
# for i in range(len(content['cwbopendata']['dataset']['locations']['location'])):
#     if '高雄' in content['cwbopendata']['dataset']['locations']['location'][i]['locationName']:
#         print(content['cwbopendata']['dataset']['locations']['location'][i]['locationName'],'is at',i)



高雄市有 38 個地區有溫度資料


In [134]:
# 2. 請取出每一個地區所記錄的第一個時間點跟溫度

# dist_of_kao 行政區
# first_time 測量的第一個時間點
# temperature 溫度

for i in range(dist_count):
    dist_of_kao = content['cwbopendata']['dataset']['locations']['location'][i]['locationName']
    first_time = content['cwbopendata']['dataset']['locations']['location'][i]['weatherElement'][0]['time'][0]['startTime']
    temperature = content['cwbopendata']['dataset']['locations']['location'][i]['weatherElement'][0]['time'][0]['elementValue']['value']
    print(dist_of_kao,first_time[11:16],temperature)


鹽埕區 12:00 33
鼓山區 12:00 33
左營區 12:00 33
楠梓區 12:00 34
三民區 12:00 32
新興區 12:00 33
前金區 12:00 33
苓雅區 12:00 33
前鎮區 12:00 33
旗津區 12:00 32
小港區 12:00 33
鳳山區 12:00 33
林園區 12:00 33
大寮區 12:00 34
大樹區 12:00 34
大社區 12:00 34
仁武區 12:00 34
鳥松區 12:00 33
岡山區 12:00 34
橋頭區 12:00 34
燕巢區 12:00 34
田寮區 12:00 34
阿蓮區 12:00 34
路竹區 12:00 33
湖內區 12:00 33
茄萣區 12:00 32
永安區 12:00 32
彌陀區 12:00 32
梓官區 12:00 32
旗山區 12:00 34
美濃區 12:00 34
六龜區 12:00 33
甲仙區 12:00 32
杉林區 12:00 35
內門區 12:00 34
茂林區 12:00 33
桃源區 12:00 30
那瑪夏區 12:00 28


In [153]:
# 3. 請取出第一個地區所記錄的每一個時間點跟溫度

dist_of_kao = content['cwbopendata']['dataset']['locations']['location'][0]['locationName']
time_step = len(content['cwbopendata']['dataset']['locations']['location'][0]['weatherElement'][0]['time'])

print(dist_of_kao)
for i in range(time_step):
    time = content['cwbopendata']['dataset']['locations']['location'][0]['weatherElement'][0]['time'][i]['startTime'][11:16]
    temperature = content['cwbopendata']['dataset']['locations']['location'][0]['weatherElement'][0]['time'][i]['elementValue']['value']
    print(time,temperature,'度')


鹽埕區
12:00 33 度
18:00 30 度
06:00 31 度
18:00 29 度
06:00 31 度
18:00 29 度
06:00 31 度
18:00 30 度
06:00 31 度
18:00 30 度
06:00 31 度
18:00 29 度
06:00 30 度
18:00 29 度
