# LAB-17 使用 Pandas 合併 CSV

* 使用 glob.glob(*.csv) 讀取目錄下所有 CSV 檔
* 使用 Pandas.read_csv() 讀取 CSV 檔為 DataFrame
* 使用 Pandas.concat() 合併 DataFrame
* 使用 DataFrame.to_csv() 儲存為 CSV 檔
* 搭配 tqdm 顯示讀檔進程 

In [1]:
import os                                        # 作業系統及檔案
import glob                                      # 目錄處理
import pandas as pd                              # 讀取及寫入 CSV
from tqdm.notebook import tqdm                   # 進度條 Progress bar

In [2]:

def read_all_csv(dir_path):
    """
    讀取指定目錄下的所有CSV檔案，回傳合併的 DataFrame
    """
    
    # 確保目錄路徑格式正確
    dir_path = os.path.normpath(dir_path)
    
    # 獲取目錄下所有CSV檔案的路徑
    files = glob.glob(os.path.join(dir_path, '*.csv'))
    
    if not files:
        print(f"警告: 在 {dir_path} 中沒有找到 CSV 檔案")
        return None
    
    # 創建一個空列表來存儲每個 CSV 的 DataFrame
    # 每個元素是一個 CSV 檔的 DataFrame
    df_all = []
    
    # 讀取每個CSV檔案
    for f in tqdm(files, desc ="讀取資料"):
        try:
            df = pd.read_csv(f)
            
            # 添加文件名作為來源標識（可選）
            df['資料檔'] = os.path.basename(f)
            df_all.append(df)
            # print(f"已讀取: {f}")
        except Exception as e:
            print(f"讀取 {f} 時出錯 -> {e}")
    
    if not df_all:
        print("沒有成功讀取任何CSV檔案")
        return None
    
    # 合併所有 DataFrame
    # 假設格式都已檢核一致
    merged_df = pd.concat(df_all, ignore_index=True)
    
    return len(df_all), merged_df


In [3]:
# 讀取目錄下的所有 CSV 並回傳 DataFrame 
data_path = "2024立法委員"
#data_path = "2024總統大選"

data_set_cnt, data = read_all_csv(data_path)

# 若 data is None 為出錯
# 因採人工執行，故未檢核回傳值


讀取資料:   0%|          | 0/189 [00:00<?, ?it/s]

In [4]:

# 顯示合併後的數據基本資訊
print("\n合併數據基本資訊:")
print(f"檔案數：  \t{data_set_cnt:10,d}")
print(f"資料筆數：\t{data.shape[0]:10,d}")
print(f"欄位數：  \t{data.shape[1]:10,d}")
print(f"欄位名稱:{data.columns.tolist()}")



合併數據基本資訊:
檔案數：  	       189
資料筆數：	   188,569
欄位數：  	        25
欄位名稱:['項目名稱', '選舉名稱', '申報序號／年度', '交易日期', '收支科目', '捐贈者／支出對象', '身分證／統一編號', '收入金額', '支出金額', '支出用途', '金錢類', '地址', '聯絡電話', '捐贈方式', '存入專戶日期', '返還/繳庫', '應揭露之支出對象', '支出對象之內部人員姓名', '支出對象之內部人員職稱', '政黨之內部人員姓名', '政黨之內部人員職稱', '關係', '更正註記', '資料更正日期', '資料檔']


In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 188569 entries, 0 to 188568
Data columns (total 25 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   項目名稱         188568 non-null  object 
 1   選舉名稱         188568 non-null  object 
 2   申報序號／年度      188568 non-null  object 
 3   交易日期         188568 non-null  object 
 4   收支科目         188568 non-null  object 
 5   捐贈者／支出對象     188568 non-null  object 
 6   身分證／統一編號     150683 non-null  object 
 7   收入金額         188566 non-null  float64
 8   支出金額         188566 non-null  float64
 9   支出用途         119086 non-null  object 
 10  金錢類          188567 non-null  object 
 11  地址           148045 non-null  object 
 12  聯絡電話         67362 non-null   object 
 13  捐贈方式         69132 non-null   object 
 14  存入專戶日期       69098 non-null   object 
 15  返還/繳庫        836 non-null     object 
 16  應揭露之支出對象     119099 non-null  object 
 17  支出對象之內部人員姓名  174 non-null     object 
 18  支出對象之內部人員職稱  57 non-null

In [6]:
data.head(10)

Unnamed: 0,項目名稱,選舉名稱,申報序號／年度,交易日期,收支科目,捐贈者／支出對象,身分證／統一編號,收入金額,支出金額,支出用途,...,返還/繳庫,應揭露之支出對象,支出對象之內部人員姓名,支出對象之內部人員職稱,政黨之內部人員姓名,政黨之內部人員職稱,關係,更正註記,資料更正日期,資料檔
0,林岱樺,113年立法委員選舉,首次,112 年 12 月 27 日,個人捐贈收入,蔡韻秋,,10000.0,0.0,,...,,,,,,,,,,2024立法委員_38.csv
1,林岱樺,113年立法委員選舉,首次,112 年 12 月 27 日,個人捐贈收入,王信宗,,10000.0,0.0,,...,,,,,,,,,,2024立法委員_38.csv
2,林岱樺,113年立法委員選舉,首次,112 年 12 月 27 日,個人捐贈收入,張寶仁,,10000.0,0.0,,...,,,,,,,,,,2024立法委員_38.csv
3,林岱樺,113年立法委員選舉,首次,112 年 12 月 27 日,個人捐贈收入,袁新民,,10000.0,0.0,,...,,,,,,,,,,2024立法委員_38.csv
4,林岱樺,113年立法委員選舉,首次,112 年 12 月 27 日,個人捐贈收入,邱明正,T12*******,10000.0,0.0,,...,,,,,,,,,,2024立法委員_38.csv
5,林岱樺,113年立法委員選舉,首次,112 年 12 月 27 日,人民團體捐贈收入,社團法人高雄市醫師公會,,60000.0,0.0,,...,,,,,,,,,,2024立法委員_38.csv
6,林岱樺,113年立法委員選舉,首次,112 年 12 月 27 日,個人捐贈收入,張木村,Q10*******,20000.0,0.0,,...,,,,,,,,,,2024立法委員_38.csv
7,林岱樺,113年立法委員選舉,首次,112 年 12 月 27 日,營利事業捐贈收入,皇華材料科技股份有限公司,75964174,200000.0,0.0,,...,,,,,,,,,,2024立法委員_38.csv
8,林岱樺,113年立法委員選舉,首次,112 年 12 月 27 日,個人捐贈收入,蔡崇禮,E10*******,50000.0,0.0,,...,,,,,,,,,,2024立法委員_38.csv
9,林岱樺,113年立法委員選舉,首次,112 年 12 月 27 日,營利事業捐贈收入,竣揚工業股份有限公司,13168348,100000.0,0.0,,...,已返還,,,,,,,,,2024立法委員_38.csv


In [7]:
csvf = "2024立法委員.csv"
#csvf = "2024總統大選.csv"

data.to_csv(csvf, index=False, encoding='utf-8-sig')