In [23]:
import os

def get_data_file_path(filename: str) -> str:
    """輸入檔案名稱,傳出目前檔案的絕對工作路徑"""
    # 取得目前工作目錄
    current_directory = os.getcwd()
    # 取得該目錄下的`data`資料夾內的`每日各站進出站人數2020.csv`檔案路徑
    file_path = os.path.join(current_directory, "data", filename)
    return file_path


In [24]:
import pandas as pd
from pandas import DataFrame

def merge_station_passenger_data(filename: str) -> DataFrame:
    """
    合併每日乘客資料與車站資訊。
    
    此函數讀取每日乘客資料的 CSV 檔案，重新命名欄位為中文，
    並根據車站代碼與車站資訊（代碼、名稱、地址）進行合併。
    
    Args:
        filename (str): 每日乘客資料 CSV 檔案的檔案名稱
        
    Returns:
        DataFrame: 包含乘客資料與車站資訊的合併資料表
    """
    # 讀取每日乘客資料檔案
    file_path = get_data_file_path(filename)
    passenger_data = pd.read_csv(file_path)
    
    # 重新命名欄位為中文以保持一致性
    passenger_data_renamed = passenger_data.rename(columns={
        "trnOpDate": "乘車日期",
        "staCode": "車站代碼",
        "gateInComingCnt": "進站人數",
        "gateOutGoingCnt": "出站人數"
    })
    
    # 讀取車站資訊資料
    station_path = get_data_file_path("台鐵車站資訊.csv")
    station_data = pd.read_csv(station_path)
    
    # 從車站資料中選取需要的欄位
    station_data_filtered = station_data[['stationCode', 'stationName', 'stationAddrTw']]
    
    # 重新命名車站資料欄位為中文
    station_data_renamed = station_data_filtered.rename(columns={
        "stationCode": "車站代碼",
        "stationName": "車站名稱",
        "stationAddrTw": "車站地址"
    })
    
    # 根據車站代碼合併乘客資料與車站資訊
    merged_data = pd.merge(passenger_data_renamed, station_data_renamed, on='車站代碼', how='left')
    
    return merged_data

# 合併 2020 年每日乘客資料與車站資訊
merged_table = merge_station_passenger_data("每日各站進出站人數2020.csv")
merged_table.head()

Unnamed: 0,乘車日期,車站代碼,進站人數,出站人數,車站名稱,車站地址
0,20200101,900,7552,8154,基隆,基隆市仁愛區港西街5號
1,20200101,910,1020,1135,三坑,基隆市仁愛區德厚里龍安街 206 號
2,20200101,920,1623,1972,八堵,基隆市暖暖區八南里八堵路 142 號
3,20200101,930,4130,4813,七堵,基隆市七堵區長興里東新街 2 號
4,20200101,940,1818,2128,百福,基隆市七堵區堵南里明德三路 1 之 1 號


In [25]:
def get_datafolder_files() -> list[str]:
    current_directory = os.getcwd()
    # 取得該目錄下的`data`資料夾的路徑
    data_directory = os.path.join(current_directory, "data")

    # 列出data資料夾內的所有檔案,只要檔案
    # 不要使用list的comprehension寫法
    file_list = []
    for f in os.listdir(data_directory):
        if os.path.isfile(os.path.join(data_directory, f)) and "每日各站進出站人數" in f:
            file_list.append(f)
    return file_list

data_files = get_datafolder_files()
data_files


['每日各站進出站人數2021.csv',
 '每日各站進出站人數2020.csv',
 '每日各站進出站人數20190423-20191231.csv',
 '每日各站進出站人數2022.csv',
 '每日各站進出站人數2023.csv']

In [26]:
current_directory = os.getcwd()
data_directory = os.path.join(current_directory, "data")
os.listdir(data_directory)

['每日各站進出站人數2021.csv',
 '每日各站進出站人數2020.csv',
 '每日各站進出站人數20190423-20191231.csv',
 '每日各站進出站人數2022.csv',
 'schema.csv',
 '每日各站進出站人數2023.csv',
 '台鐵車站資訊.csv',
 'manifest.csv']