# LAB-17 使用 Pandas 合併 CSV

* 使用 glob.glob(*.csv) 讀取目錄下所有 CSV 檔
* 使用 Pandas.read_csv() 讀取 CSV 檔為 DataFrame
* 使用 Pandas.concat() 合併 DataFrame
* 使用 DataFrame.to_csv() 儲存為 CSV 檔
* 搭配 tqdm 顯示讀檔進程 

In [None]:
import os                                        # 作業系統及檔案
import glob                                      # 目錄處理
import pandas as pd                              # 讀取及寫入 CSV
from tqdm.notebook import tqdm                   # 進度條 Progress bar

In [None]:

def read_all_csv(dir_path):
    """
    讀取指定目錄下的所有CSV檔案，回傳合併的 DataFrame
    """
    
    # 確保目錄路徑格式正確
    dir_path = os.path.normpath(dir_path)
    
    # 獲取目錄下所有CSV檔案的路徑
    files = glob.glob(os.path.join(dir_path, '*.csv'))
    
    if not files:
        print(f"警告: 在 {dir_path} 中沒有找到 CSV 檔案")
        return None
    
    # 創建一個空列表來存儲每個 CSV 的 DataFrame
    # 每個元素是一個 CSV 檔的 DataFrame
    df_all = []
    
    # 讀取每個CSV檔案
    for f in tqdm(files, desc ="讀取資料"):
        try:
            df = pd.read_csv(f)
            
            # 添加文件名作為來源標識（可選）
            df['資料檔'] = os.path.basename(f)
            df_all.append(df)
            # print(f"已讀取: {f}")
        except Exception as e:
            print(f"讀取 {f} 時出錯 -> {e}")
    
    if not df_all:
        print("沒有成功讀取任何CSV檔案")
        return None
    
    # 合併所有 DataFrame
    # 假設格式都已檢核一致
    merged_df = pd.concat(df_all, ignore_index=True)
    
    return len(df_all), merged_df


In [None]:
# 讀取目錄下的所有 CSV 並回傳 DataFrame 
#data_path = "2024立法委員"
data_path = "2024總統大選"

data_set_cnt, data = read_all_csv(data_path)

# 若 data is None 為出錯
# 因採人工執行，故未檢核回傳值


In [None]:

# 顯示合併後的數據基本資訊
print("\n合併數據基本資訊:")
print(f"檔案數：  \t{data_set_cnt:10,d}")
print(f"資料筆數：\t{data.shape[0]:10,d}")
print(f"欄位數：  \t{data.shape[1]:10,d}")
print(f"欄位名稱:{data.columns.tolist()}")


In [None]:
data.info()

In [None]:
data.head(10)

In [None]:
csvf = "2024立法委員.csv"
#csvf = "2024總統大選.csv"

data.to_csv(csvf, index=False, encoding='utf-8-sig')