<a href="https://colab.research.google.com/github/misaki80074/Python-Web-Data-Lab/blob/main/data_retrieval_script.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 空氣品質指標(AQI)
每小時提供各縣市測站之空氣品質指標（AQI）

資料來源：https://data.gov.tw/dataset/40448  
格式：JSON

In [1]:
import requests

In [4]:
# 從 API 網址取得資料，並格式化成 JSON
def get_data(url):
  try:
    r= requests.get(url)
    r.raise_for_status()
    return r.json()
  except Exception as e:
    print(f"無法取得資料，請檢察網路連線或 API 狀態：{e}")
    return None;

# 從資料中篩選出指定的縣市資料
def filter_data(target_county, records):
  # 處理臺中市跟台中市都搜尋得到
  processed_target_county = target_county.replace('台', '臺')

  # 儲存篩選出來的資料
  output_list = []
  for record in records:
    if record['county'].startswith(processed_target_county):
      output_list.append(record)

  return output_list


# 主程式
if __name__ == "__main__":
  url = 'https://data.moenv.gov.tw/api/v2/aqx_p_432?api_key=221974dd-667c-4243-b308-61b60bc29986&limit=1000&sort=ImportDate desc&format=JSON'

  # 1. 取得 API 資料
  res = get_data(url)

  if res: # 確認 res 存在再往下執行
    #print(res)
    records = res.get('records')

    if not records:
      print("API 資料中找不到 records，或 records 為空")
    else:
      # 2. 讓使用者輸入
      county = input("請輸入縣市名稱：")

      # 3. 取得資料
      output_list = filter_data(county, records)

      # 4. 處理輸出
      if output_list:
        print(f"\n{county}各測站空氣品質：")

        for data in output_list:
          print(f"{data['sitename']}：AQI {data['aqi']}（{data['status']}）")
        print(f"\n更新時間：{output_list[0]['publishtime']}")
      else:
        print(f"找不到 {county} 的資料")


請輸入縣市名稱：嘉義

嘉義各測站空氣品質：
新港：AQI 62（普通）
朴子：AQI 45（良好）
嘉義：AQI 45（良好）

更新時間：2025/07/02 16:00:00


# 中華民國115年政府行政機關辦公日曆表
查詢中華民國政府行政機關辦公日曆表

資料來源：https://data.gov.tw/dataset/14718  
格式：CSV

In [None]:
# by requests
import requests
import csv
from datetime import datetime

In [None]:
# 處理日期格式
def formated_date(date):
  # strptime(): 解析日期
  # strftime(): 格式化日期
  try:
    return (datetime.strptime(date, '%Y%m%d')).strftime('%Y/%m/%d')
  except ValueError:
    print(f"日期格式錯誤：{date}")
    return date

# 篩選資料並回傳
def filter_data(data_list):
  filtered_list = []

  # 去除表頭
  if data_list:
    data_list = data_list[1:]

  for data in data_list:
    try:
      # 檢查每筆 data 是否是 4 欄
      if len(data) < 4:
        continue

      date = formated_date(data[0])
      day_of_week = data[1]
      is_holiday = data[2]
      remark = data[3]

      if is_holiday == '2':
          output = f"{date} 星期{day_of_week} {remark if remark != '' else '例假日'}"
          filtered_list.append(output)

    except:
      print(f"資料格式錯誤")
      continue

  return filtered_list


# 主程式
if __name__ == "__main__":
  url = 'https://www.dgpa.gov.tw/FileConversion?filename=dgpa/files/202506/a52331bd-a189-466b-b0f0-cae3062bbf74.csv&nfix=&name=115%e5%b9%b4%e4%b8%ad%e8%8f%af%e6%b0%91%e5%9c%8b%e6%94%bf%e5%ba%9c%e8%a1%8c%e6%94%bf%e6%a9%9f%e9%97%9c%e8%be%a6%e5%85%ac%e6%97%85%e8%a1%a8.csv'

  with requests.Session() as s:
    # 1. 利用 API 取得資料
    download = s.get(url)
    content = download.content.decode('utf-8').splitlines()

    # 2. 對 CSV 資料格式化，並回傳篩選後的資料
    cr = csv.reader(content, delimiter = ',')
    filtered_list = filter_data(list(cr))

    # 3. 輸出
    print("中華民國115年政府行政機關辦公日曆表\n")
    print(f"{'日期':<10}{'星期':<5}{'備註'}")

    if filtered_list:
      for data in filtered_list:
        print(data)

中華民國115年政府行政機關辦公日曆表

日期        星期   備註
2026/01/01 星期四 開國紀念日
2026/01/03 星期六 例假日
2026/01/04 星期日 例假日
2026/01/10 星期六 例假日
2026/01/11 星期日 例假日
2026/01/17 星期六 例假日
2026/01/18 星期日 例假日
2026/01/24 星期六 例假日
2026/01/25 星期日 例假日
2026/01/31 星期六 例假日
2026/02/01 星期日 例假日
2026/02/07 星期六 例假日
2026/02/08 星期日 例假日
2026/02/14 星期六 例假日
2026/02/15 星期日 小年夜
2026/02/16 星期一 農曆除夕
2026/02/17 星期二 春節
2026/02/18 星期三 春節
2026/02/19 星期四 春節
2026/02/20 星期五 補假
2026/02/21 星期六 例假日
2026/02/22 星期日 例假日
2026/02/27 星期五 補假
2026/02/28 星期六 和平紀念日
2026/03/01 星期日 例假日
2026/03/07 星期六 例假日
2026/03/08 星期日 例假日
2026/03/14 星期六 例假日
2026/03/15 星期日 例假日
2026/03/21 星期六 例假日
2026/03/22 星期日 例假日
2026/03/28 星期六 例假日
2026/03/29 星期日 例假日
2026/04/03 星期五 補假
2026/04/04 星期六 兒童節
2026/04/05 星期日 清明節
2026/04/06 星期一 補假
2026/04/11 星期六 例假日
2026/04/12 星期日 例假日
2026/04/18 星期六 例假日
2026/04/19 星期日 例假日
2026/04/25 星期六 例假日
2026/04/26 星期日 例假日
2026/05/01 星期五 勞動節
2026/05/02 星期六 例假日
2026/05/03 星期日 例假日
2026/05/09 星期六 例假日
2026/05/10 星期日 例假日
2026/05/16 星期六 例假日
2026/05/17 星期日 例假日
2026/05/23 星期

In [None]:
# by pandas
import pandas as pd
from datetime import datetime

In [None]:
# 透過 API 取得資料，並回傳 dataframe
def get_data(url):
  try:
    df = pd.read_csv(url)
    return df
  except Exception as e:
    print(f"無法取得資料，請檢察網路連線或 API 狀態：{e}")
    return None;

# 篩選放假日的資料，並重新排序 index 和處理 NaN
def filter_df(df):
  try:
    # 使用 .loc 避免 SettingWithCopyWarning
    output_df = df.loc[df['是否放假'] == 2].copy()
    output_df = output_df.reset_index(drop=True)
    output_df['備註'] = output_df['備註'].fillna('例假日')
    return output_df
  except ValueError:
    print(f"資料格式錯誤")
    return None;

# 格式化日期
def formated_date(df):
  try:
    output_df = df.copy()
    output_df['西元日期'] = output_df.apply(lambda x: datetime.strptime(str(x['西元日期']), '%Y%m%d').strftime('%Y/%m/%d'), axis=1)
    return output_df
  except ValueError:
    print(f"資料格式錯誤")
    return None

# 主程式
if __name__ == "__main__":
  url = 'https://www.dgpa.gov.tw/FileConversion?filename=dgpa/files/202506/a52331bd-a189-466b-b0f0-cae3062bbf74.csv&nfix=&name=115%e5%b9%b4%e4%b8%ad%e8%8f%9a%e6%b0%91%e5%9c%8b%e6%94%bf%e8%a1%8c%e6%94%bf%e6%a9%9f%e9%97%9c%e8%be%a6%e5%85%ac%e6%97%85%e8%a1%a8.csv'

  # 1. 取得資料
  calendar_df = get_data(url)

  # 2. 篩選放假日資料，並格式化日期
  if calendar_df is not None:
    calendar_df = formated_date(filter_df(calendar_df))

  # 3. 輸出
  display(calendar_df[['西元日期', '星期', '備註']])

Unnamed: 0,西元日期,星期,備註
0,2026/01/01,四,開國紀念日
1,2026/01/03,六,例假日
2,2026/01/04,日,例假日
3,2026/01/10,六,例假日
4,2026/01/11,日,例假日
...,...,...,...
115,2026/12/19,六,例假日
116,2026/12/20,日,例假日
117,2026/12/25,五,行憲紀念日
118,2026/12/26,六,例假日


# 15歲以上民間人口之教育程度與年齡
人力資源調查之15歲以上民間人口之教育程度與年齡按地區分

資料來源：https://data.gov.tw/dataset/33443  
格式：XML  

參考資料：https://github.com/oxylabs/how-to-parse-xml-in-python

In [22]:
from google.colab import drive
import xml.etree.ElementTree as ET
import pandas as pd
import os
import copy

In [35]:
# --- 常數定義 ---
# 檔案路徑
XML_FILE_PATH = '/content/drive/MyDrive/Colab Notebooks/data/mp04038a113.xml'
# 需要修正的 tag
XML_TAG_CORRECTION = {
  '年齡１５歲以上民間人口之教育程度與年齡': '年齡15歲以上民間人口之教育程度與年齡'
}
# 取代欄位 tag 的對應表
COLUMN_RENAME_MAP = {
  '按地區別分_District_or_region': '地區',
  '總計_Total_千人': '總計',
  '教育程度_國中及以下_合計_Educational_attainment_Junior_high_and_below_Total_千人': '國中及以下總人數',
  '教育程度_國中及以下_國小及以下_Educational_attainment_Junior_high_and_below_Primary_school_and_below_千人': '國小',
  '教育程度_國中及以下_國中_Educational_attainment_Junior_high_and_below_Junior_high_千人': '國中',
  '教育程度_高級中等_高中_高職_Senior_high_school_regular_and_vocational_千人': '高中職',
  '教育程度_大專及以上_合計_Educational_attainment_Junior_college_and_above_Total_千人': '大專以上總人數',
  '教育程度_大專及以上_專科_Educational_attainment_Junior_college_and_above_Junior_college_千人': '專科',
  '教育程度_大專及以上_大學_Educational_attainment_Junior_college_and_above_University_千人': '大學',
  '教育程度_大專及以上_研究所_Educational_attainment_Junior_college_and_above_Graduate_school_千人': '研究所',
}

In [41]:
# 取得 xml 資料
def get_xml(file_path):
  try:
    # 掛載 Google drive，只掛載一次避免重複執行
    if not os.path.exists('/content/drive'):
      drive.mount('/content/drive')

    # 開啟並讀取檔案
    with open(file_path, 'r', encoding='utf-8') as f:
      xml_content = f.read()
      # 修正錯誤的 tag
      for old_tag, new_tag in XML_TAG_CORRECTION.items():
        xml_content = xml_content.replace(old_tag, new_tag)
    return xml_content
  except FileNotFoundError:
    print(f"找不到檔案：{file_path}")
    return None
  except Exception as e:
    print(f"無法取得資料，請檢察網路連線或 API 狀態：{e}")
    return None;

# 把 XML 內轉換成 pd.df
def parse_xml_to_df(xml_content, root_tag, column_map):
  try:
    # 用 ET 分析 XML
    root = ET.fromstring(xml_content)

    # 尋找所有包含 tag 的元素
    data_rows_elements = root.findall(root_tag)

    all_records = []
    current_record = {}
    for row in data_rows_elements:
      current_record = {}
      for child in row:
        tag = child.tag
        text = child.text.strip() if child.text else ''
        current_record[tag] = text
      all_records.append(current_record)

    # 將所有資料轉成 df
    df = pd.DataFrame(all_records)

    # 取代 tag
    df = df.rename(columns=column_map)

    return df
  except ET.ParseError as e:
    print(f"XML 資料解析錯誤: {e}")
    return None;
  except Exception as e:
    print(f"解析 XML 或建立 DataFrame 時發生未知錯誤：{e}")
    return None;

# 主程式
if __name__ == "__main__":
  # 1. 載入 XML 檔
  xml_content = get_xml(XML_FILE_PATH)

  if xml_content:
    # 從 XML_TAG_CORRECTION 取得需要修正的 tag name
    original_root_tag = '年齡１５歲以上民間人口之教育程度與年齡'
    effective_root_tag = XML_TAG_CORRECTION.get(original_root_tag, original_root_tag)

    # 2. 將 XML 內容轉成 df
    df_result = parse_xml_to_df(xml_content, effective_root_tag, COLUMN_RENAME_MAP)

    # 3. 輸出各地區的教育分布
    if df_result is not None:
      display_df = copy.deepcopy(df_result)
      # 篩選要輸出的 row 並重置 index
      display_df = display_df[display_df['地區'].str.contains('地區')].reset_index(drop=True)

      # 移除不要的欄位
      cols_to_drop = ['國中及以下總人數', '大專以上總人數']
      display_df = display_df.drop(columns=cols_to_drop)

      # 調整資料的單位並格式化
      numeric_cols = display_df.columns[1:]
      for col in numeric_cols:
        display_df[col] = pd.to_numeric(display_df[col], errors='coerce')
        display_df[col] = (display_df[col] * 1000).apply(lambda x: '{:,.0f}'.format(x))

      # 調整臺灣地區 row 到最底部
      taiwan_area_row = display_df[display_df['地區'] == '臺灣地區 Taiwan Area']
      display_df = display_df[display_df['地區'] != '臺灣地區 Taiwan Area']
      display_df = pd.concat([display_df, taiwan_area_row], ignore_index=True)

      # 輸出結果
      print("各地區的教育程度分布：")
      display(display_df.iloc[:, 0:8])
    else:
      print("無法解析 XML 或建立 DataFrame")
  else:
    print("無法載入 XML 檔案")

各地區的教育程度分布：


Unnamed: 0,地區,總計,國小,國中,高中職,專科,大學,研究所
0,北部地區 Northern Region,9338000,671000,736000,2533000,1186000,3251000,961000
1,中部地區 Central Region,4992000,623000,575000,1520000,558000,1360000,355000
2,南部地區 Southern Region,5460000,809000,570000,1633000,577000,1449000,422000
3,東部地區 Eastern Region,453000,87000,55000,148000,45000,90000,28000
4,臺灣地區 Taiwan Area,20244000,2190000,1936000,5834000,2366000,6150000,1767000
