In [14]:
import pandas as pd
from typing import List

In [15]:
import pandas as pd
from typing import List

def filter_green_patents(files: List[str]) -> pd.DataFrame:
    """
    讀取多份年度資料，清理欄位與條件過濾，並顯示進度與最終保留筆數。

    處理內容：
    - 刪除欄位名稱以 d_ 開頭的欄
    - 保留從開頭到 n_cpc（含）為止的欄位
    - 篩選條件：
        - cpc_sections 包含 'Y'
        - n_cpc 為 2 或 4
        - assignee 不為空
        - country 為 US
    """

    all_filtered = []
    total_records = 0

    for i, file in enumerate(files):
        try:
            print(f"📄 ({i+1}/{len(files)}) 正在處理: {file}")

            df = pd.read_csv(file, dtype=str)

            # 刪除欄位名稱以 d_ 開頭的欄
            df = df.loc[:, ~df.columns.str.startswith('d_')]
            df = df.drop(columns=['city', 'state', 'county'], errors='ignore')

            # 保留從開頭到 n_cpc 欄位為止
            if 'n_cpc' in df.columns:
                n_cpc_index = df.columns.get_loc('n_cpc')
                df = df.iloc[:, :n_cpc_index + 1]  # 保留到 n_cpc（含）
            else:
                print(f"⚠️ 找不到欄位 'n_cpc'，跳過此檔案")
                continue

            # 條件過濾
            df_filtered = df[
                df['cpc_sections'].str.contains('Y', na=False) &
                df['n_cpc'].astype(str).isin(['2', '4']) &
                df['assignee'].notna() &
                (df['country'] == 'US')
            ]

            print(f"✅ 篩選後保留 {len(df_filtered)} 筆")

            total_records += len(df_filtered)
            all_filtered.append(df_filtered)

        except Exception as e:
            print(f"❌ 無法處理 {file}: {e}")

    if all_filtered:
        result = pd.concat(all_filtered, ignore_index=True)
        print(f"\n🎉 所有資料處理完畢，總共保留 {total_records} 筆綠色專利資料。")
        return result
    else:
        print("⚠️ 沒有成功處理任何資料。")
        return pd.DataFrame()

In [16]:
import glob

# 假設你每年資料是放在一個資料夾中，例如 'data/patents_*.csv'
files = sorted(glob.glob("/opt/hdd_1/research_hub/csr_project/Green_patent_dataset/patentView/*.csv"))  # 自動抓出所有檔案

# 執行合併與過濾
green_patents_all = filter_green_patents(files)

# 儲存結果（可選）
green_patents_all.to_csv("/opt/hdd_1/research_hub/csr_project/Green_patent_dataset/merged_dataset/filtered_green_patents_1997_2023.csv", index=False)


📄 (1/27) 正在處理: /opt/hdd_1/research_hub/csr_project/Green_patent_dataset/patentView/1997.csv
✅ 篩選後保留 2575 筆
📄 (2/27) 正在處理: /opt/hdd_1/research_hub/csr_project/Green_patent_dataset/patentView/1998.csv
✅ 篩選後保留 3295 筆
📄 (3/27) 正在處理: /opt/hdd_1/research_hub/csr_project/Green_patent_dataset/patentView/1999.csv
✅ 篩選後保留 3392 筆
📄 (4/27) 正在處理: /opt/hdd_1/research_hub/csr_project/Green_patent_dataset/patentView/2000.csv
✅ 篩選後保留 3281 筆
📄 (5/27) 正在處理: /opt/hdd_1/research_hub/csr_project/Green_patent_dataset/patentView/2001.csv
✅ 篩選後保留 3348 筆
📄 (6/27) 正在處理: /opt/hdd_1/research_hub/csr_project/Green_patent_dataset/patentView/2002.csv
✅ 篩選後保留 3178 筆
📄 (7/27) 正在處理: /opt/hdd_1/research_hub/csr_project/Green_patent_dataset/patentView/2003.csv
✅ 篩選後保留 3061 筆
📄 (8/27) 正在處理: /opt/hdd_1/research_hub/csr_project/Green_patent_dataset/patentView/2004.csv
✅ 篩選後保留 2834 筆
📄 (9/27) 正在處理: /opt/hdd_1/research_hub/csr_project/Green_patent_dataset/patentView/2005.csv
✅ 篩選後保留 2468 筆
📄 (10/27) 正在處理: /opt/hdd_1/research_h