In [None]:
from pickle import FALSE
import pandas as pd
import os
import glob
# 指定要清理的CSV檔案路徑
TARGET_FILE = "北大武_活動資料_使用者ID版.csv" # 只清理單一檔案

# FOLDER_PATH = "./白姑大山/book/網頁資料"  # 注意!!! 這裡是清理資料夾里全部的CSV檔案

# 是否要處理資料夾內的所有CSV檔案
PROCESS_ALL_FILES = False  # 要使用就調成True

def analyze_duplicates(file_path):
    """分析CSV檔案的重複資料"""
    
    if not os.path.exists(file_path):
        print(f"找不到檔案：{file_path}")
        return None
    
    df = pd.read_csv(file_path)
    original_count = len(df)
    duplicates = df.duplicated()
    duplicate_count = duplicates.sum()
    
    return {
        'file_path': file_path,
        'original_count': original_count,
        'duplicate_count': duplicate_count,
        'df': df,
        'duplicates': duplicates
    }

def clean_duplicates(file_path):
    """清理CSV檔案中的重複資料"""
    
    print(f"\n開始處理：{file_path}")
    print("-" * 40)
    
    # 分析重複資料
    analysis = analyze_duplicates(file_path)
    if analysis is None:
        return False
    
    original_count = analysis['original_count']
    duplicate_count = analysis['duplicate_count']
    df = analysis['df']
    
    print(f"原始資料筆數：{original_count}")
    print(f"重複資料筆數：{duplicate_count}")
    
    if duplicate_count == 0:
        print("沒有重複資料，無需清理")
        return True
    
    # 顯示重複資料範例
    duplicate_rows = df[analysis['duplicates']]
    print(f"\n重複資料範例（前3筆）：")
    print(duplicate_rows.head(3).to_string(index=False))
    
    # 移除重複資料
    df_cleaned = df.drop_duplicates()
    cleaned_count = len(df_cleaned)
    
    # 儲存清理後的資料
    df_cleaned.to_csv(file_path, index=False)
    
    print(f"\n清理完成！")
    print(f"清理後資料筆數：{cleaned_count}")
    print(f"已移除 {duplicate_count} 筆重複資料")
    print(f"清理比例：{duplicate_count/original_count*100:.1f}%")
    
    return True

# 執行清理流程
print("開始執行清理流程...")
print("=" * 50)

if PROCESS_ALL_FILES:
    # 處理資料夾內的所有CSV檔案
    csv_files = glob.glob(os.path.join(FOLDER_PATH, "*.csv"))
    
    if not csv_files:
        print(f"在 {FOLDER_PATH} 中找不到CSV檔案")
    else:
        print(f"發現 {len(csv_files)} 個CSV檔案：")
        for file in csv_files:
            print(f"  - {file}")

        
        total_cleaned = 0
        for file in csv_files:
            if clean_duplicates(file):
                total_cleaned += 1
        
        print(f"\n批量清理完成！共處理 {len(csv_files)} 個檔案")
else:
    # 處理單一檔案
    if clean_duplicates(TARGET_FILE):
        print(f"\n 檔案 {TARGET_FILE} 處理完成！")
    else:
        print(f"\n檔案 {TARGET_FILE} 處理失敗！")

print("=" * 50)

# 驗證清理結果
print("驗證清理結果...")
print("-" * 30)

if PROCESS_ALL_FILES:
    csv_files = glob.glob(os.path.join(FOLDER_PATH, "*.csv"))
    for file in csv_files:
        analysis = analyze_duplicates(file)
        if analysis:
            remaining_duplicates = analysis['duplicate_count']
            print(f"{file}: {remaining_duplicates} 筆重複資料")
else:
    analysis = analyze_duplicates(TARGET_FILE)
    if analysis:
        remaining_duplicates = analysis['duplicate_count']
        if remaining_duplicates == 0:
            print(f"{TARGET_FILE} 清理成功！無剩餘重複資料")
        else:
            print(f"{TARGET_FILE} 仍有 {remaining_duplicates} 筆重複資料")

print("驗證完成！")

開始執行清理流程...

開始處理：北大武_活動資料_使用者ID版.csv
----------------------------------------
原始資料筆數：905
重複資料筆數：241

重複資料範例（前3筆）：
                  ID              日期   總移動距離      總時間 總爬升高度 總下降高度
yuhjaanlin1700262305 2025/07/21・1 日・  3.9 km  1 h 3 m 247 m 234 m
           a29751765 2025/07/20・1 日・ 13.9 km 6 h 40 m 653 m 706 m
              k32100 2025/07/20・1 日・   14 km 8 h 31 m 926 m 813 m

清理完成！
清理後資料筆數：664
已移除 241 筆重複資料
清理比例：26.6%

 檔案 北大武_活動資料_使用者ID版.csv 處理完成！
驗證清理結果...
------------------------------
北大武_活動資料_使用者ID版.csv 清理成功！無剩餘重複資料
驗證完成！
