# Hahow 課程資料合併程式

本程式碼會逐一讀取各課程分類下的所有分頁 CSV 檔案，並合併為單一資料集並存放在`merged_data/`資料夾。
例如：「音樂」類別若有二頁，就會讀取 `hahow_音樂_page1.csv`、`hahow_音樂_page2.csv`，並合併後輸出成 `hahow_音樂_merged.csv`，以利後續清理。

### **⚠️ 合併注意事項**

- 若資料夾中缺少某頁的檔案，該分類會提早結束合併。
- 程式會自動在每筆資料中加入「分類」欄位，方便後續分析使用。

#### 模組匯入區

In [4]:
import pandas as pd
import os

#### 程式設定區

In [5]:
# 定義課程類別與對應網址代碼

course_type = {
    "音樂": "music",
    "語言": "language",
    "攝影": "photography",
    "藝術": "art",
    "設計": "design",
    "人文": "humanities",
    "行銷": "marketing",
    "程式": "programming",
    "投資理財": "finance-and-investment",
    "職場技能": "career-skills",
    "手作": "handmade",
    "生活品味": "lifestyle"
}

#### 合併資料主程式區

In [6]:
# 建立合併後檔案資料夾
folder_name = "merged_data"

# 如果資料夾不存在就建立
if not os.path.exists(folder_name):
    os.makedirs(folder_name)
    print("已建立merged_data資料夾")

## 開始讀取每一個分類資料，並合併成單一類別 csv
for category_name in course_type:
    page_number = 1
    category_data = []  # 儲存單一分類的所有課程資料
    
    while True:
        # 讀取檔案
        folder = "scraped_data"
        file_name = f"{folder}/hahow_{category_name}_page{page_number}.csv" 

        # 若檔案不存在，代表該分類已無更多頁面，接著進行下一個分類
        if not os.path.exists(file_name):
            print(f"{category_name}第{page_number}頁資料不存在，進行下一個分類...")
            break

        # 讀取該頁面資料
        data = pd.read_csv(file_name, encoding="utf-8-sig")
        data.insert(0, "分類", category_name) # 增加分類欄
        category_data.append(data)
        print(f"完成讀取:{file_name}")

        # 進行下一頁
        page_number += 1

    # 合併並儲存該類別所有資料
    if category_data:
        category_df = pd.concat(category_data, ignore_index=True)
        filename = os.path.join(folder_name,f"hahow_{category_name}_merged.csv") 
        category_df.to_csv(filename, encoding="utf-8-sig", index=False)
        print(f"輸出 hahow{category_name}合併.csv 完成")

print("全部分類皆合併完成!")

已建立merged_data資料夾
完成讀取:scraped_data/hahow_手作_page1.csv
完成讀取:scraped_data/hahow_手作_page2.csv
手作第3頁資料不存在，進行下一個分類...
輸出 hahow手作合併.csv 完成
完成讀取:scraped_data/hahow_音樂_page1.csv
完成讀取:scraped_data/hahow_音樂_page2.csv
音樂第3頁資料不存在，進行下一個分類...
輸出 hahow音樂合併.csv 完成
完成讀取:scraped_data/hahow_攝影_page1.csv
完成讀取:scraped_data/hahow_攝影_page2.csv
完成讀取:scraped_data/hahow_攝影_page3.csv
完成讀取:scraped_data/hahow_攝影_page4.csv
攝影第5頁資料不存在，進行下一個分類...
輸出 hahow攝影合併.csv 完成
全部分類皆合併完成!
