Objective
===
自動化爬蟲環保署PM2.5個個站台收集的數據資料(JSON)，數據清理並分析、確認網站資料是否有持續更新。
## Resources

**圖片顯示**
1. [OpenCV basic techniques of read and show images](https://blog.gtwang.org/programming/opencv-basic-image-read-and-write-tutorial/)

**Scrapy爬蟲和資料處理**
1. [IT邦 - 鐵人30天](https://ithelp.ithome.com.tw/users/20107514/ironman/1919?page=1)

2. [httpbin](https://httpbin.org/#/Images/get_image_jpeg) 

**SyntaxError: EOL...**

[Solution - stackoverflow](https://stackoverflow.com/questions/3561691/python-syntaxerror-eol-while-scanning-string-literal)

**Webtachniques**

[爬蟲常用技巧](https://titangene.github.io/article/python-crawler-note.html)

**去除 string 前後空格**

[Removes all the whitespace in a string - stackoverflow](https://stackoverflow.com/questions/8270092/remove-all-whitespace-in-a-string)

**Function 全域變數、區域變數**

[全域變數、區域變數
](https://sites.google.com/site/ezpythoncolorcourse/globalandlocalvariable)

## Problem 


## 1. 讀取環保署空氣品質指標，然後存入 aqi.json 檔案

In [4]:
import hashlib
import requests
import json

# JSON file url
url = 'http://opendata.epa.gov.tw/webapi/Data/REWIQA/?$orderby=SiteName&$skip=0&$top=1000&format=json'

# 從 url 網頁請求擷取資料 
try: 
    aqijsons = requests.get(url)
    print('Successful download')
except Exception as e:
    print('Failed download')
# 將網頁擷取內容以 text 方式呈現 
print(aqijsons.text)

# 創立一個 JSON資料檔 "fn"
fn = 'aqi.json'
# 打開 fn 將之命名為 file，並將 aqijsons 檔案以 JSON 形式寫入 file 內
with open(fn, 'w', newline = '') as file:
    json.dump(aqijsons.json(), file)

Successful download
[{"SiteName":"二林","County":"彰化縣","AQI":"46","Pollutant":"","Status":"良好","SO2":"4.1","CO":"0.16","CO_8hr":"0.2","O3":"45","O3_8hr":"32","PM10":"21","PM2.5":"16","NO2":"5.8","NOx":"7.8","NO":"2","WindSpeed":"4.1","WindDirec":"277","PublishTime":"2020-09-11 15:00","PM2.5_AVG":"14","PM10_AVG":"26","SO2_AVG":"1","Longitude":"120.409653","Latitude":"23.925175","SiteId":"35"},{"SiteName":"三重","County":"新北市","AQI":"72","Pollutant":"細懸浮微粒","Status":"普通","SO2":"3.7","CO":"0.89","CO_8hr":"1.3","O3":"-","O3_8hr":"","PM10":"48","PM2.5":"22","NO2":"42","NOx":"78","NO":"35","WindSpeed":"","WindDirec":"","PublishTime":"2020-09-11 15:00","PM2.5_AVG":"24","PM10_AVG":"42","SO2_AVG":"4","Longitude":"121.493806","Latitude":"25.072611","SiteId":"67"},{"SiteName":"三義","County":"苗栗縣","AQI":"56","Pollutant":"細懸浮微粒","Status":"普通","SO2":"4.4","CO":"0.28","CO_8hr":"0.3","O3":"53","O3_8hr":"39","PM10":"30","PM2.5":"19","NO2":"7.7","NOx":"9.1","NO":"1.3","WindSpeed":"2.6","WindDirec":"204","Pub

## 2. JSON 檔案清洗(處理、分類)
只保留**程式名稱、站台名稱、站台ID、PM2.5**

In [3]:
import json

fn = 'aqi.json'
with open(fn) as file:
    getDatas = json.load(file)

for getdata in getDatas:
    county = getdata['County']
    sitename = getdata['SiteName']
    pm25 = getdata['PM2.5_AVG']
    siteid = getdata['SiteId']
    
    print('城市名稱 =%4s\t站台ID =%3s\tPM2.5值 =%2s\t站台名稱 =%s' \
          % (county, siteid, pm25, sitename))    

城市名稱 = 彰化縣	站台ID = 35	PM2.5值 =16	站台名稱 =二林
城市名稱 = 新北市	站台ID = 67	PM2.5值 =26	站台名稱 =三重
城市名稱 = 苗栗縣	站台ID = 27	PM2.5值 =15	站台名稱 =三義
城市名稱 = 新北市	站台ID =  5	PM2.5值 =29	站台名稱 =土城
城市名稱 = 臺北市	站台ID = 11	PM2.5值 =25	站台名稱 =士林
城市名稱 = 臺北市	站台ID = 16	PM2.5值 =23	站台名稱 =大同
城市名稱 = 臺中市	站台ID = 30	PM2.5值 =16	站台名稱 =大里
城市名稱 = 桃園市	站台ID = 18	PM2.5值 =24	站台名稱 =大園
城市名稱 = 高雄市	站台ID = 51	PM2.5值 =13	站台名稱 =大寮
城市名稱 = 高雄市	站台ID = 58	PM2.5值 =10	站台名稱 =小港
城市名稱 = 臺北市	站台ID = 12	PM2.5值 =23	站台名稱 =中山
城市名稱 = 桃園市	站台ID = 68	PM2.5值 =24	站台名稱 =中壢
城市名稱 = 高雄市	站台ID = 49	PM2.5值 =11	站台名稱 =仁武
城市名稱 = 雲林縣	站台ID = 37	PM2.5值 =12	站台名稱 =斗六
城市名稱 = 宜蘭縣	站台ID = 66	PM2.5值 =15	站台名稱 =冬山
城市名稱 = 臺北市	站台ID = 14	PM2.5值 =23	站台名稱 =古亭
城市名稱 = 高雄市	站台ID = 54	PM2.5值 =  	站台名稱 =左營
城市名稱 = 桃園市	站台ID = 20	PM2.5值 =22	站台名稱 =平鎮
城市名稱 = 新北市	站台ID = 70	PM2.5值 =22	站台名稱 =永和
城市名稱 = 臺南市	站台ID = 45	PM2.5值 =13	站台名稱 =安南
城市名稱 = 嘉義縣	站台ID = 40	PM2.5值 =15	站台名稱 =朴子
城市名稱 = 新北市	站台ID =  2	PM2.5值 =24	站台名稱 =汐止
城市名稱 = 南投縣	站台ID = 69	PM2.5值 =17	站台名稱 =竹山
城市名稱 = 新竹縣	站台ID = 23	PM2.5值 =18	站台名稱 =竹東
城市名稱 = 臺中市	站台ID 

## 3. 列出台北市的監測站**站台名稱、站台ID、PM2.5值**

In [4]:
import json

fn = 'aqi.json'
with open(fn) as file:
    getDatas = json.load(file)
    
for getdata in getDatas:
    if getdata['County'] == '臺北市':
        sitename = getdata['SiteName']
        siteid = getdata['SiteId']
        pm25 = getdata['PM2.5_AVG']
        
        print('站台名稱 =%3s\t站台ID =%2s\tPM2.5值 =%s' \
          % (sitename, siteid, pm25))

站台名稱 = 士林	站台ID =11	PM2.5值 =25
站台名稱 = 大同	站台ID =16	PM2.5值 =23
站台名稱 = 中山	站台ID =12	PM2.5值 =23
站台名稱 = 古亭	站台ID =14	PM2.5值 =23
站台名稱 = 松山	站台ID =15	PM2.5值 =22
站台名稱 = 陽明	站台ID =64	PM2.5值 =17
站台名稱 = 萬華	站台ID =13	PM2.5值 =22


## 4. 紀錄qui.json 內的 PM2.5的哈希值，並用來檢測網站是否更新

In [2]:
import hashlib
import json
import requests

# JSON file url
url = 'http://opendata.epa.gov.tw/webapi/Data/REWIQA/?$orderby=SiteName&$skip=0&$top=1000&format=json'

# 從 url 網頁請求擷取資料 
try: 
    aqijsons = requests.get(url)
    print('Successful download')
except Exception as e:
    print('Failed download')
# 將網頁擷取內容以 text 方式呈現 
# print(aqijsons.text)

data = hashlib.md5()
data.update(aqijsons.text.encode('utf-8'))
hashdata = data.hexdigest()
print('環保署PM2.5的hash value: ', hashdata)

fn = 'out6_10.txt'
with open(fn, 'w') as fileobj:
    fileobj.write(hashdata)

Successful download
環保署PM2.5的hash value:  472d9169e866a637e4bf3f83234f353d


## 5. 檢測網站內容是否更新
將上次讀取的資料和現在網路讀取的資料比較。
將新資料()

In [3]:
import hashlib
import json
import requests
import os

# 將aqijsons檔案存入新的 JSON檔案
def save_newaqi():
    # fn = 'newaqi.json'
    with open(fn, 'w') as new_f:
        # 將 aqijson的 json 資料存入 new_f
        json.dump(aqijsons.json(), new_f)
        
# 寫入 hash value至 hashvalue.txt
def save_hashvalue():
#     fn_hashvalue = 'hashvalue.txt' 
    with open(fn_hashvalue, 'w') as new_hash:
        new_hash.write(new_hashvalue)
        
# 計算 hashvalue和回傳 hashvalue至 "new_hashvalue"
def cal_hashvalue():
    # 創建一個 hashlib 物件
    data = hashlib.md5()
    # 將網頁資料利用 utf-8 方法，將資料存入 hashlib物件中
    data.update(aqijsons.text.encode('utf-8'))
    # 將 data 數據資料，轉成16進位制的 hashvalue，並存入 hashdata內
    hashdata = data.hexdigest()
    return hashdata
    
# ==============================================
# 擷取新的 Pm2.5 hash value檔案
# JSON file url
url = 'http://opendata.epa.gov.tw/webapi/Data/REWIQA/?\
        $orderby=SiteName&$skip=0&$top=1000&format=json'

# 從 url 網頁請求擷取資料 
try: 
    aqijsons = requests.get(url)
    print('Successful download')
except Exception as e:
    print('Failed download')


# 創建新的 json 檔案
fn = 'newaqi.json'
# 創建新的 hashvalue.txt file 
fn_hashvalue = 'hashvalue.txt'

# 確認 fn_hashvalue 這個資料是不是存在
if os.path.exists(fn_hashvalue):
    # 從 cal_hashvalue 函式中得到 新的 hashvalueㄝ
    new_hashvalue = cal_hashvalue()
    print('new hash value = ', new_hashvalue)
    
    # 開啟舊的 hashvalue.txt
    with open(fn_hashvalue, 'r') as fnobj:
        old_hashvalue = fnobj.read()
        print('old hash value = ', old_hashvalue)
        
    # 比對新舊 hashvalue
    if new_hashvalue == old_hashvalue:
        print('網頁資料未更新')
    else: 
        print('網頁資料已更新')
        save_newaqi()
        save_hashvalue()

else:
    print('第一次啟動程式')
    # 得到 hash value 並存入 new_hashvalue
    new_hashvalue = cal_hashvalue()
    print('Hash value = ', new_hashvalue)
    save_hashvalue()
    save_newaqi()

Successful download
new hash value =  f08aa340dc59d5dbaa09364da53cab27
old hash value =  96380cb98a429788e0b8b99ec55f5a53
網頁資料已更新
