In [1]:
# 檢查當前使用的 Python 環境
import sys
print("Python 路徑:", sys.executable)
print("Python 版本:", sys.version)

# 檢查 pandas 是否可用
try:
    import pandas as pd
    print("✓ pandas 已安裝，版本:", pd.__version__)
except ImportError:
    print("✗ pandas 未安裝")
    print("請執行: !pip install pandas numpy")

Python 路徑: c:\Users\student\final\supabase_control\.venv\Scripts\python.exe
Python 版本: 3.12.12 (main, Dec  2 2025, 19:43:54) [MSC v.1944 64 bit (AMD64)]
✓ pandas 已安裝，版本: 3.0.0


In [2]:
import pandas as pd
import numpy as np

# 讀取 CSV 檔案
df = pd.read_csv('clear_data_rows.csv')

print(f"資料形狀: {df.shape}")
print(f"\n欄位名稱:")
print(df.columns.tolist())
print(f"\n前5筆資料:")
df.head()

資料形狀: (10934, 44)

欄位名稱:
['job_id', 'job_name', 'company_name', 'update_date', 'actively_hiring', 'applicants', 'job_description', 'job_category', 'salary', 'job_type', 'location', 'management', 'business_trip', 'work_time', 'vacation', 'start_work', 'headcount', 'work_exp', 'education', 'major', 'language', 'skills', 'tools', 'certificates', 'other_requirements', 'legal_benefits', 'other_benefits', 'raw_benefits', 'contact_info', 'status', 'created_at', 'company_id', 'salary_type', 'is_commission', 'monthly_salary_min', 'monthly_salary_max', 'yearly_salary_min', 'yearly_salary_max', 'hourly_salary_min', 'hourly_salary_max', 'salary_min', 'salary_max', 'city', 'district']

前5筆資料:


Unnamed: 0,job_id,job_name,company_name,update_date,actively_hiring,applicants,job_description,job_category,salary,job_type,...,monthly_salary_min,monthly_salary_max,yearly_salary_min,yearly_salary_max,hourly_salary_min,hourly_salary_max,salary_min,salary_max,city,district
0,109g12026-01-21,C#軟體工程師,泛太資訊科技開發股份有限公司,2026-01-21,False,0~5,- 熟悉C#、.NET 、ASP.Net -依據系統需求規格進行程式設計與開發 -使用 C#...,軟體工程師、Internet程式設計師、系統分析師,待遇面議,全職,...,40000,40000,,,,,40000,40000,台北市,大安區
1,1wlvg2026-01-23,網管與雲端專員,億光電子工業股份有限公司,2026-01-23,False,0~5,1.企業網路問題的排除。 2.資訊機房的維護與備份系統管理。 3.Windows AD管理。...,網路管理工程師、雲端工程師,待遇面議,全職,...,40000,40000,,,,,40000,40000,新北市樹林區中華路6-8號,
2,1wmzy2025-12-08,【品質檢驗人員】月薪30K～35K｜日班｜週休二日｜學習成長｜完整教育訓練｜新竹湖口｜應屆生,台灣偉德科技股份有限公司,2025-12-08,False,0~5,•IQC、IPQC、FQC 全流程檢驗作業 •使用量測儀器（如游標卡尺等）進行產品檢測 •具...,品管／檢驗人員、ISO／品保人員、品管／品保工程師,"月薪30,000~35,000元取得專屬你的薪水報告",全職,...,30000,35000,,,,,30000,35000,新竹縣湖口鄉鳳工路45號4F(鳳山工業區),
3,1ww242026-01-15,客服專員（台北）,北昕資訊股份有限公司,2026-01-15,False,6~10,成為醫療數位轉型的第一線夥伴！我們不只是同事，更是一群一起成長的夥伴！ 北昕資訊致力於推動智...,電話客服、軟體專案管理師、產品售後技術服務,"月薪36,000~60,000元取得專屬你的薪水報告",全職,...,36000,60000,,,,,36000,60000,台北市,松山區
4,1yf7o2025-12-10,資料庫程式工程師,商智資訊股份有限公司,2025-12-10,False,0~5,資料庫程式工程師 熟悉 SQL Server/Oracle/DB2 任一種資料庫操作,軟體工程師、資料庫管理人員、MIS程式設計師,"月薪35,000~75,000元取得專屬你的薪水報告",全職,...,35000,75000,,,,,35000,75000,台北市,大安區


In [3]:
# ============================================
# 階段一：資料探索與品質檢查
# ============================================

import re
from collections import Counter

print("=" * 60)
print("階段一：資料探索與品質檢查")
print("=" * 60)

# 1. 檢查缺失值統計
print("\n【1. 缺失值統計】")
print("-" * 60)
missing_stats = df.isnull().sum()
missing_percent = (missing_stats / len(df) * 100).round(2)

missing_df = pd.DataFrame({
    '缺失數量': missing_stats,
    '缺失比例(%)': missing_percent
})
missing_df = missing_df[missing_df['缺失數量'] > 0].sort_values('缺失數量', ascending=False)

print(f"總筆數: {len(df)}")
print(f"有缺失值的欄位數: {len(missing_df)}")
print("\n缺失值統計（前 15 名）:")
print(missing_df.head(15))

# 檢查關鍵欄位的缺失情況
print("\n【關鍵欄位缺失情況】")
key_fields = ['company_name', 'job_name', 'job_description', 'location', 'salary_min', 'salary_max']
for field in key_fields:
    if field in df.columns:
        missing_count = df[field].isnull().sum()
        missing_pct = (missing_count / len(df) * 100)
        print(f"  {field:20s}: {missing_count:5d} 筆缺失 ({missing_pct:5.2f}%)")

# 2. 檢查重複資料
print("\n【2. 重複資料檢查】")
print("-" * 60)
duplicate_all = df.duplicated().sum()
duplicate_key = df.duplicated(subset=['company_name', 'job_name']).sum()
print(f"完全重複的筆數: {duplicate_all}")
print(f"根據 (company_name, job_name) 重複: {duplicate_key}")

# 顯示重複資料範例
if duplicate_key > 0:
    duplicate_rows = df[df.duplicated(subset=['company_name', 'job_name'], keep=False)]
    print(f"\n重複資料範例（前 3 組）:")
    for company, job in duplicate_rows[['company_name', 'job_name']].drop_duplicates().head(3).values:
        count = len(duplicate_rows[(duplicate_rows['company_name'] == company) & 
                                    (duplicate_rows['job_name'] == job)])
        print(f"  - {company} | {job} ({count} 筆)")

# 3. 檢查 job_id 格式問題
print("\n【3. job_id 格式檢查】")
print("-" * 60)
# 檢查 job_id 是否包含特殊字元或格式異常
invalid_pattern = r'^[a-zA-Z0-9_-]+$'
invalid_job_ids = df[~df['job_id'].astype(str).str.match(invalid_pattern, na=False)]
print(f"格式異常的 job_id 數量: {len(invalid_job_ids)}")
if len(invalid_job_ids) > 0:
    print("異常 job_id 範例:")
    for idx, job_id in enumerate(invalid_job_ids['job_id'].head(5), 1):
        print(f"  {idx}. {job_id}")

# 檢查 job_id 長度
print(f"\njob_id 長度統計:")
print(df['job_id'].astype(str).str.len().describe())

# 4. 公司名稱統計
print("\n【4. 公司名稱統計】")
print("-" * 60)
unique_companies = df['company_name'].nunique()
total_companies = len(df['company_name'].dropna())
print(f"不重複的公司數: {unique_companies}")
print(f"總公司名稱記錄數: {total_companies}")
print(f"平均每家公司職缺數: {total_companies / unique_companies:.2f}")

# 統計最多職缺的公司
company_counts = df['company_name'].value_counts()
print(f"\n職缺數最多的前 10 家公司:")
for idx, (company, count) in enumerate(company_counts.head(10).items(), 1):
    print(f"  {idx:2d}. {company:40s}: {count:4d} 筆")

# 5. 薪資資料檢查
print("\n【5. 薪資資料檢查】")
print("-" * 60)
print(f"salary_min 有效值: {df['salary_min'].notna().sum()} 筆 ({df['salary_min'].notna().sum()/len(df)*100:.2f}%)")
print(f"salary_max 有效值: {df['salary_max'].notna().sum()} 筆 ({df['salary_max'].notna().sum()/len(df)*100:.2f}%)")

if df['salary_min'].notna().sum() > 0:
    print(f"\nsalary_min 範圍: {df['salary_min'].min():,.0f} ~ {df['salary_min'].max():,.0f}")
    print(f"salary_min 平均: {df['salary_min'].mean():,.0f}")
    
if df['salary_max'].notna().sum() > 0:
    print(f"salary_max 範圍: {df['salary_max'].min():,.0f} ~ {df['salary_max'].max():,.0f}")
    print(f"salary_max 平均: {df['salary_max'].mean():,.0f}")

# 檢查薪資合理性（salary_min > salary_max 的情況）
if df['salary_min'].notna().sum() > 0 and df['salary_max'].notna().sum() > 0:
    invalid_salary = df[(df['salary_min'].notna()) & (df['salary_max'].notna()) & 
                        (df['salary_min'] > df['salary_max'])]
    if len(invalid_salary) > 0:
        print(f"\n⚠️  發現 {len(invalid_salary)} 筆 salary_min > salary_max 的異常資料")

# 6. job_description 長度檢查
print("\n【6. job_description 長度檢查】")
print("-" * 60)
df['desc_length'] = df['job_description'].astype(str).str.len()
print("描述長度統計:")
print(df['desc_length'].describe())

short_desc = df[df['desc_length'] < 50]
print(f"\n描述過短 (<50字) 的職缺數: {len(short_desc)} ({len(short_desc)/len(df)*100:.2f}%)")
if len(short_desc) > 0:
    print("過短描述範例:")
    for idx, row in short_desc.head(3).iterrows():
        print(f"  - {row['company_name']} | {row['job_name']}")
        print(f"    描述: {row['job_description'][:100]}...")

# 7. 資料類型檢查
print("\n【7. 資料類型檢查】")
print("-" * 60)
print("各欄位資料類型:")
print(df.dtypes)

# 8. 日期欄位檢查
print("\n【8. 日期欄位檢查】")
print("-" * 60)
date_fields = ['update_date', 'created_at']
for field in date_fields:
    if field in df.columns:
        try:
            df[field + '_parsed'] = pd.to_datetime(df[field], errors='coerce')
            invalid_dates = df[field + '_parsed'].isna().sum() - df[field].isna().sum()
            if invalid_dates > 0:
                print(f"  {field}: {invalid_dates} 筆無法解析的日期")
            else:
                print(f"  {field}: 日期格式正常")
        except:
            print(f"  {field}: 無法解析")

print("\n" + "=" * 60)
print("階段一完成！資料探索報告已生成。")
print("=" * 60)

階段一：資料探索與品質檢查

【1. 缺失值統計】
------------------------------------------------------------
總筆數: 10934
有缺失值的欄位數: 31

缺失值統計（前 15 名）:
                     缺失數量  缺失比例(%)
work_time           10934   100.00
company_id          10934   100.00
hourly_salary_min   10773    98.53
hourly_salary_max   10773    98.53
yearly_salary_min   10538    96.38
yearly_salary_max   10538    96.38
certificates        10357    94.72
skills               5210    47.65
district             4868    44.52
other_requirements   4245    38.82
other_benefits       3713    33.96
legal_benefits       3426    31.33
tools                3336    30.51
raw_benefits          684     6.26
business_trip         549     5.02

【關鍵欄位缺失情況】
  company_name        :     0 筆缺失 ( 0.00%)
  job_name            :     0 筆缺失 ( 0.00%)
  job_description     :   350 筆缺失 ( 3.20%)
  location            :   350 筆缺失 ( 3.20%)
  salary_min          :     0 筆缺失 ( 0.00%)
  salary_max          :     0 筆缺失 ( 0.00%)

【2. 重複資料檢查】
------------------------------

In [4]:
# ============================================
# 階段二：資料清理函數定義
# ============================================

import re
import json
from datetime import datetime

print("=" * 60)
print("階段二：資料清理函數定義")
print("=" * 60)

# 1. 清理文字函數
def clean_text(text):
    """清理文字：移除多餘空白、換行符、特殊字元"""
    if pd.isna(text) or text is None:
        return None
    text = str(text)
    # 移除多餘空白和換行
    text = re.sub(r'\s+', ' ', text)
    text = text.strip()
    # 移除常見的 HTML 標籤（如果有的話）
    text = re.sub(r'<[^>]+>', '', text)
    return text if text else None

# 2. 推斷產業類別
def extract_industry(job_category):
    """從 job_category 推斷產業類別"""
    if pd.isna(job_category):
        return None
    
    category = str(job_category).lower()
    
    # 產業對應表
    industry_map = {
        '軟體': '資訊科技',
        '工程師': '資訊科技',
        '程式': '資訊科技',
        '系統': '資訊科技',
        '網路': '資訊科技',
        '資料': '資訊科技',
        'ai': '資訊科技',
        '人工智慧': '資訊科技',
        '大數據': '資訊科技',
        '雲端': '資訊科技',
        '資安': '資訊科技',
        '客服': '服務業',
        '業務': '商業',
        '行銷': '行銷',
        '設計': '設計',
        '管理': '管理',
        '品管': '製造業',
        '維修': '製造業',
        '生產': '製造業',
        '製造': '製造業',
        '金融': '金融',
        '會計': '金融',
        '醫療': '醫療',
        '教育': '教育'
    }
    
    for key, industry in industry_map.items():
        if key in category:
            return industry
    return '其他'

# 3. 解析公司規模
def parse_company_size(headcount):
    """從 headcount 欄位解析公司規模"""
    if pd.isna(headcount):
        return None
    
    headcount_str = str(headcount).strip()
    
    # 解析各種格式
    if '1~2' in headcount_str or '1-2' in headcount_str:
        return '1-50'
    elif '2~4' in headcount_str or '2-4' in headcount_str:
        return '1-50'
    elif '3~5' in headcount_str or '3-5' in headcount_str:
        return '1-50'
    elif '5~10' in headcount_str or '5-10' in headcount_str:
        return '1-50'
    elif '10~20' in headcount_str or '10-20' in headcount_str:
        return '1-50'
    elif '20~50' in headcount_str or '20-50' in headcount_str:
        return '1-50'
    elif '50~100' in headcount_str or '50-100' in headcount_str:
        return '51-200'
    elif '100~200' in headcount_str or '100-200' in headcount_str:
        return '51-200'
    elif '200~500' in headcount_str or '200-500' in headcount_str:
        return '201-500'
    elif '500' in headcount_str or '501' in headcount_str:
        return '501+'
    else:
        return '51-200'  # 預設值

# 4. 標準化地點
def standardize_location(city, district, location):
    """標準化地點格式，合併 city 和 district"""
    parts = []
    
    if pd.notna(city) and str(city).strip():
        parts.append(str(city).strip())
    if pd.notna(district) and str(district).strip():
        parts.append(str(district).strip())
    
    # 如果 city 和 district 都沒有，使用 location
    if not parts and pd.notna(location) and str(location).strip():
        return clean_text(location)
    
    return '、'.join(parts) if parts else None

# 5. 判斷遠端工作選項
def determine_remote_option(location, job_type):
    """判斷遠端工作選項"""
    if pd.isna(location):
        return 'onsite'  # 預設為現場工作
    
    location_str = str(location).lower()
    job_type_str = str(job_type).lower() if pd.notna(job_type) else ''
    
    # 檢查關鍵字
    if '遠端' in location_str or 'remote' in location_str or '在家' in location_str:
        return 'remote'
    elif '混合' in location_str or 'hybrid' in location_str or '彈性' in location_str:
        return 'hybrid'
    else:
        return 'onsite'

# 5.5. 從完整地址拆分出縣市和地區
def parse_location_to_city_district(full_address):
    """從完整地址拆分出 city 和 district
    
    Args:
        full_address: 完整地址字串，例如 '台北市大安區信義路四段...'
    
    Returns:
        tuple: (city, district) 例如 ('台北市', '大安區')
    """
    if pd.isna(full_address) or not str(full_address).strip():
        return (None, None)
    
    address = str(full_address).strip()
    
    # 台灣縣市列表（包含直轄市）
    cities = [
        '台北市', '新北市', '桃園市', '台中市', '台南市', '高雄市',
        '基隆市', '新竹市', '嘉義市',
        '新竹縣', '苗栗縣', '彰化縣', '南投縣', '雲林縣', 
        '嘉義縣', '屏東縣', '宜蘭縣', '花蓮縣', '台東縣', '澎湖縣', '金門縣', '連江縣'
    ]
    
    # 找出地址中第一個匹配的縣市
    city = None
    district = None
    
    for c in cities:
        if address.startswith(c):
            city = c
            # 移除縣市名稱，取得剩餘部分
            remaining = address[len(c):]
            
            # 嘗試找出地區（通常以「區」、「鄉」、「鎮」、「市」結尾）
            # 匹配模式：縣市後面的第一個「區」、「鄉」、「鎮」、「市」
            import re
            district_match = re.match(r'^([^區鄉鎮市]*[區鄉鎮市])', remaining)
            if district_match:
                district = district_match.group(1)
            
            break
    
    return (city, district)

# 6. 合併職缺要求
def merge_requirements(row):
    """合併所有要求欄位為單一 requirements 文字"""
    req_parts = []
    
    fields = {
        'work_exp': '工作經驗',
        'education': '學歷要求',
        'major': '科系要求',
        'language': '語言能力',
        'skills': '技能要求',
        'tools': '工具要求',
        'certificates': '證照要求',
        'other_requirements': '其他要求'
    }
    
    for field, label in fields.items():
        if field in row.index and pd.notna(row[field]) and str(row[field]).strip():
            value = str(row[field]).strip()
            if value:
                req_parts.append(f"{label}: {value}")
    
    return '\n'.join(req_parts) if req_parts else None

# 7. 建立 job_details JSON
def create_job_details(row):
    """建立 job_details JSON 物件"""
    details = {}
    
    detail_fields = {
        'work_time': 'work_time',
        'vacation': 'vacation',
        'start_work': 'start_work',
        'business_trip': 'business_trip',
        'legal_benefits': 'legal_benefits',
        'other_benefits': 'other_benefits',
        'raw_benefits': 'raw_benefits'
    }
    
    for field, key in detail_fields.items():
        if field in row.index and pd.notna(row[field]) and str(row[field]).strip():
            cleaned_value = clean_text(row[field])
            if cleaned_value:
                details[key] = cleaned_value
    
    return json.dumps(details, ensure_ascii=False) if details else None

# 測試函數
print("\n【函數測試】")
print("-" * 60)

# 測試 clean_text
test_text = "  這是一個   測試\n文字  "
print(f"clean_text 測試: '{test_text}' -> '{clean_text(test_text)}'")

# 測試 extract_industry
test_category = "軟體工程師、Internet程式設計師"
print(f"extract_industry 測試: '{test_category}' -> '{extract_industry(test_category)}'")

# 測試 parse_company_size
test_headcount = "2~4人"
print(f"parse_company_size 測試: '{test_headcount}' -> '{parse_company_size(test_headcount)}'")

# 測試 standardize_location
test_city = "台北市"
test_district = "大安區"
print(f"standardize_location 測試: city='{test_city}', district='{test_district}' -> '{standardize_location(test_city, test_district, None)}'")

# 測試 determine_remote_option
test_location = "台北市大安區"
print(f"determine_remote_option 測試: location='{test_location}' -> '{determine_remote_option(test_location, None)}'")

print("\n" + "=" * 60)
print("階段二完成！所有清理函數已定義並測試。")
print("=" * 60)

階段二：資料清理函數定義

【函數測試】
------------------------------------------------------------
clean_text 測試: '  這是一個   測試
文字  ' -> '這是一個 測試 文字'
extract_industry 測試: '軟體工程師、Internet程式設計師' -> '資訊科技'
parse_company_size 測試: '2~4人' -> '1-50'
standardize_location 測試: city='台北市', district='大安區' -> '台北市、大安區'
determine_remote_option 測試: location='台北市大安區' -> 'onsite'

階段二完成！所有清理函數已定義並測試。


In [5]:
# ============================================
# 階段三：清理公司資料 (COMPANY_INFO)
# ============================================

print("=" * 60)
print("階段三：清理公司資料 (COMPANY_INFO)")
print("=" * 60)

# 1. 建立公司主檔（根據 company_name 分組，取最常見的值）
print("\n【步驟 1】建立公司主檔...")
print("-" * 60)

company_df = df.groupby('company_name').agg({
    'job_category': lambda x: x.mode()[0] if len(x.mode()) > 0 else None,
    'headcount': lambda x: x.mode()[0] if len(x.mode()) > 0 else None,
    'location': 'first',
    'city': 'first',
    'district': 'first'
}).reset_index()

print(f"原始職缺數: {len(df)}")
print(f"不重複公司數: {len(company_df)}")

# 2. 清理公司名稱
print("\n【步驟 2】清理公司名稱...")
print("-" * 60)
company_df['company_name_clean'] = company_df['company_name'].apply(clean_text)
print(f"清理後公司數: {len(company_df)}")

# 3. 推斷產業類別
print("\n【步驟 3】推斷產業類別...")
print("-" * 60)
company_df['industry'] = company_df['job_category'].apply(extract_industry)
industry_counts = company_df['industry'].value_counts()
print("產業類別分布:")
for industry, count in industry_counts.items():
    print(f"  {industry}: {count} 家公司")
print(f"未分類: {company_df['industry'].isna().sum()} 家公司")

# 4. 建立最終公司資料表（對應 ERD 欄位）
# 注意：company_size 和 location 不從爬下來的資料填入，設為 Null
print("\n【步驟 4】建立最終公司資料表...")
print("-" * 60)
print("注意：company_size 和 location 欄位設為 Null（不從爬下來的資料填入）")

companies_clean = pd.DataFrame({
    'company_name': company_df['company_name_clean'],
    'industry': company_df['industry'],
    'company_size': pd.NA,  # 不從 headcount 解析，設為 Null
    'location': pd.NA,  # 不從爬下來的資料填入，設為 Null
    'website': None,  # 原始資料沒有，設為 None
    'description': None  # 原始資料沒有，設為 None
})

# 5. 去重（根據 company_name）
print("\n【步驟 5】去重處理...")
print("-" * 60)
before_dedup = len(companies_clean)
companies_clean = companies_clean.drop_duplicates(subset=['company_name'])
after_dedup = len(companies_clean)
print(f"去重前: {before_dedup} 家公司")
print(f"去重後: {after_dedup} 家公司")
print(f"移除重複: {before_dedup - after_dedup} 家")

# 移除公司名稱為空的資料
companies_clean = companies_clean[companies_clean['company_name'].notna()]
print(f"移除空值後: {len(companies_clean)} 家公司")

# 顯示統計資訊
print("\n【最終統計】")
print("-" * 60)
print(f"總公司數: {len(companies_clean)}")
print(f"有 industry 的公司: {companies_clean['industry'].notna().sum()} ({companies_clean['industry'].notna().sum()/len(companies_clean)*100:.1f}%)")
print(f"company_size: 全部設為 Null（不從爬下來的資料填入）")
print(f"location: 全部設為 Null（不從爬下來的資料填入）")

# 顯示前 5 筆公司資料預覽
print("\n【前 5 筆公司資料預覽】")
print("-" * 60)
preview_cols = ['company_name', 'industry', 'company_size', 'location']
print(companies_clean[preview_cols].head(5).to_string(index=False))

print("\n" + "=" * 60)
print("階段三完成！公司資料清理完成。")
print("=" * 60)

階段三：清理公司資料 (COMPANY_INFO)

【步驟 1】建立公司主檔...
------------------------------------------------------------
原始職缺數: 10934
不重複公司數: 4248

【步驟 2】清理公司名稱...
------------------------------------------------------------
清理後公司數: 4248

【步驟 3】推斷產業類別...
------------------------------------------------------------
產業類別分布:
  資訊科技: 3861 家公司
  其他: 119 家公司
  設計: 51 家公司
  管理: 31 家公司
  商業: 24 家公司
  行銷: 16 家公司
  製造業: 14 家公司
  服務業: 10 家公司
  金融: 7 家公司
  教育: 1 家公司
未分類: 114 家公司

【步驟 4】解析公司規模...
------------------------------------------------------------
公司規模分布:
  51-200: 2869 家公司
  1-50: 1265 家公司
未分類: 114 家公司

【步驟 5】標準化地點...
------------------------------------------------------------
有地點資訊的公司: 4134 家

【步驟 6】建立最終公司資料表...
------------------------------------------------------------

【步驟 7】去重處理...
------------------------------------------------------------
去重前: 4248 家公司
去重後: 4248 家公司
移除重複: 0 家
移除空值後: 4248 家公司

【最終統計】
------------------------------------------------------------
總公司數: 4248
有 industry 的公司: 4134 (97.

In [6]:
# ============================================
# 過濾：只保留資訊科技相關職缺
# ============================================

print("=" * 60)
print("過濾：只保留資訊科技相關職缺")
print("=" * 60)

# 定義要保留的關鍵字（軟體工程師相關）
tech_keywords = [
    '軟體', '工程師', '程式', '系統', '網路', '資料', 
    'ai', '人工智慧', '大數據', '雲端', '資安',
    '後端', '前端', '全端', 'devops', 'sre',
    '資料庫', '演算法', '架構', '開發', '設計師',
    '資訊', 'it', 'mis', '網管', '測試', 'qa',
    '產品', '專案', '技術', '研發', 'rd',
    '韌體', '嵌入式', 'iot', 'api', 'web',
    'app', 'mobile', 'ios', 'android', 'python',
    'java', 'javascript', 'c++', 'c#', '.net',
    'node', 'react', 'vue', 'angular', 'spring'
]

# 過濾條件：job_category 或 job_name 或 job_description 包含關鍵字
def is_tech_related(row):
    """判斷是否為資訊科技相關職缺"""
    job_category = str(row.get('job_category', '')).lower()
    job_name = str(row.get('job_name', '')).lower()
    job_description = str(row.get('job_description', '')).lower()
    
    # 檢查是否包含任何關鍵字
    text_to_check = f"{job_category} {job_name} {job_description}"
    
    for keyword in tech_keywords:
        if keyword in text_to_check:
            return True
    return False

# 應用過濾
print(f"\n過濾前職缺數: {len(df)}")
df_filtered = df[df.apply(is_tech_related, axis=1)].copy()
print(f"過濾後職缺數: {len(df_filtered)}")
print(f"移除職缺數: {len(df) - len(df_filtered)} ({((len(df) - len(df_filtered))/len(df)*100):.1f}%)")

# 顯示被移除的職缺類別（前15名）
removed = df[~df.apply(is_tech_related, axis=1)]
print(f"\n【被移除的職缺類別（前15名）】")
print("-" * 60)
removed_categories = removed['job_category'].value_counts().head(15)
for idx, (category, count) in enumerate(removed_categories.items(), 1):
    print(f"{idx:2d}. {category:50s} ({count:4d} 筆)")

# 顯示保留的職缺類別（前15名）
print(f"\n【保留的職缺類別（前15名）】")
print("-" * 60)
kept_categories = df_filtered['job_category'].value_counts().head(15)
for idx, (category, count) in enumerate(kept_categories.items(), 1):
    print(f"{idx:2d}. {category:50s} ({count:4d} 筆)")

# 更新 df 為過濾後的資料
df = df_filtered
print(f"\n✓ 已更新 df，現在有 {len(df)} 筆職缺資料")

# 顯示過濾後的統計
print(f"\n【過濾後統計】")
print("-" * 60)
print(f"總職缺數: {len(df)}")
print(f"不重複公司數: {df['company_name'].nunique()}")
print(f"有 job_description 的職缺: {df['job_description'].notna().sum()} ({df['job_description'].notna().sum()/len(df)*100:.1f}%)")
print(f"有 salary_min 的職缺: {df['salary_min'].notna().sum()} ({df['salary_min'].notna().sum()/len(df)*100:.1f}%)")

print("\n" + "=" * 60)
print("過濾完成！已只保留資訊科技相關職缺。")
print("=" * 60)

過濾：只保留資訊科技相關職缺

過濾前職缺數: 10934
過濾後職缺數: 10900
移除職缺數: 34 (0.3%)

【被移除的職缺類別（前15名）】
------------------------------------------------------------
 1. 業務助理、行政助理、行政人員                                     (   1 筆)
 2. 職業安全衛生管理員、職業安全衛生管理師、安全／衛生相關檢驗人員                    (   1 筆)
 3. 成本會計                                               (   1 筆)

【保留的職缺類別（前15名）】
------------------------------------------------------------
 1. 軟體工程師                                              ( 649 筆)
 2. 軟體工程師、Internet程式設計師                                ( 222 筆)
 3. 軟體工程師、後端工程師                                        ( 128 筆)
 4. 後端工程師                                              ( 128 筆)
 5. 前端工程師                                              ( 120 筆)
 6. Internet程式設計師、軟體工程師                                (  97 筆)
 7. 軟體工程師、Internet程式設計師、後端工程師                          (  91 筆)
 8. 軟體工程師、全端工程師、後端工程師                                  (  84 筆)
 9. 軟體工程師、韌體工程師                                        (  81 筆)
10. 軟體工程師、Inte

In [7]:
# ============================================
# 改進產業分類邏輯：優先根據公司名稱判斷
# ============================================

print("=" * 60)
print("改進產業分類邏輯")
print("=" * 60)

def extract_industry_from_company_name(company_name):
    """
    根據公司名稱推斷主要產業（優先判斷）
    """
    if pd.isna(company_name):
        return None
    
    name = str(company_name).lower()
    
    # 根據公司名稱關鍵字判斷產業
    company_industry_map = {
        # 醫療相關
        '醫院': '醫療',
        '診所': '醫療',
        '醫療': '醫療',
        '醫學': '醫療',
        '衛生': '醫療',
        '健康': '醫療',
        '生技': '醫療',
        '藥品': '醫療',
        '藥局': '醫療',
        
        # 金融相關
        '人壽': '金融',
        '保險': '金融',
        '銀行': '金融',
        '證券': '金融',
        '投信': '金融',
        '金控': '金融',
        '信託': '金融',
        '金融': '金融',
        '產險': '金融',
        '壽險': '金融',
        
        # 製造業相關
        '水泥': '製造業',
        '鋼鐵': '製造業',
        '塑膠': '製造業',
        '化學': '製造業',
        '電子': '製造業',
        '機械': '製造業',
        '製造': '製造業',
        '工業': '製造業',
        '紡織': '製造業',
        '石化': '製造業',
        '台泥': '製造業',
        
        # 建設/營造
        '建設': '營建',
        '營造': '營建',
        '建築': '營建',
        
        # 零售/服務
        '百貨': '零售',
        '超市': '零售',
        '便利商店': '零售',
        '零售': '零售',
        
        # 教育
        '大學': '教育',
        '學院': '教育',
        '學校': '教育',
        '教育': '教育',
    }
    
    for key, industry in company_industry_map.items():
        if key in name:
            return industry
    
    return None  # 如果公司名稱沒有明顯特徵，返回 None

def extract_industry_improved(company_name, job_category):
    """
    改進的產業推斷：優先根據公司名稱，其次根據 job_category
    """
    # 1. 先根據公司名稱判斷
    industry_from_name = extract_industry_from_company_name(company_name)
    if industry_from_name:
        return industry_from_name
    
    # 2. 如果公司名稱沒有明顯特徵，才用 job_category 判斷
    return extract_industry(job_category)

# 測試新函數
print("\n【測試改進後的產業分類】")
print("-" * 60)
test_companies = [
    "(嘉義市)陽明醫院",
    "(台泥)臺灣水泥股份有限公司",
    "(總公司)南山人壽保險股份有限公司",
    "104人力銀行_一零四資訊科技股份有限公司"
]

for company in test_companies:
    test_category = "軟體工程師"
    result = extract_industry_improved(company, test_category)
    print(f"  {company[:40]:40s} -> {result}")

print("\n✓ 產業分類邏輯已改進")
print("=" * 60)

改進產業分類邏輯

【測試改進後的產業分類】
------------------------------------------------------------
  (嘉義市)陽明醫院                                -> 醫療
  (台泥)臺灣水泥股份有限公司                           -> 製造業
  (總公司)南山人壽保險股份有限公司                        -> 金融
  104人力銀行_一零四資訊科技股份有限公司                    -> 金融

✓ 產業分類邏輯已改進


In [8]:
# ============================================
# 階段三：清理公司資料 (COMPANY_INFO) - 基於過濾後的資料
# ============================================

print("=" * 60)
print("階段三：清理公司資料 (COMPANY_INFO)")
print("=" * 60)

# 1. 建立公司主檔（根據 company_name 分組，取最常見的值）
print("\n【步驟 1】建立公司主檔...")
print("-" * 60)

company_df = df.groupby('company_name').agg({
    'job_category': lambda x: x.mode()[0] if len(x.mode()) > 0 else None,
    'headcount': lambda x: x.mode()[0] if len(x.mode()) > 0 else None,
    'location': 'first',
    'city': 'first',
    'district': 'first'
}).reset_index()

print(f"過濾後職缺數: {len(df)}")
print(f"不重複公司數: {len(company_df)}")

# 2. 清理公司名稱
print("\n【步驟 2】清理公司名稱...")
print("-" * 60)
company_df['company_name_clean'] = company_df['company_name'].apply(clean_text)
print(f"清理後公司數: {len(company_df)}")

# 3. 推斷產業類別（使用改進的函數：優先根據公司名稱）
print("\n【步驟 3】推斷產業類別...")
print("-" * 60)
company_df['industry'] = company_df.apply(
    lambda row: extract_industry_improved(row['company_name'], row['job_category']), 
    axis=1
)
industry_counts = company_df['industry'].value_counts()
print("產業類別分布:")
for industry, count in industry_counts.items():
    print(f"  {industry}: {count} 家公司")
print(f"未分類: {company_df['industry'].isna().sum()} 家公司")

# 4. 建立最終公司資料表（對應 ERD 欄位）
# 注意：company_size 和 location 不從爬下來的資料填入，設為 Null
print("\n【步驟 4】建立最終公司資料表...")
print("-" * 60)
print("注意：company_size 和 location 欄位設為 Null（不從爬下來的資料填入）")

companies_clean = pd.DataFrame({
    'company_name': company_df['company_name_clean'],
    'industry': company_df['industry'],
    'company_size': pd.NA,  # 不從 headcount 解析，設為 Null
    'location': pd.NA,  # 不從爬下來的資料填入，設為 Null
    'website': None,  # 原始資料沒有，設為 None
    'description': None  # 原始資料沒有，設為 None
})

# 5. 去重（根據 company_name）
print("\n【步驟 5】去重處理...")
print("-" * 60)
before_dedup = len(companies_clean)
companies_clean = companies_clean.drop_duplicates(subset=['company_name'])
after_dedup = len(companies_clean)
print(f"去重前: {before_dedup} 家公司")
print(f"去重後: {after_dedup} 家公司")
print(f"移除重複: {before_dedup - after_dedup} 家")

# 移除公司名稱為空的資料
companies_clean = companies_clean[companies_clean['company_name'].notna()]
print(f"移除空值後: {len(companies_clean)} 家公司")

# 顯示統計資訊
print("\n【最終統計】")
print("-" * 60)
print(f"總公司數: {len(companies_clean)}")
print(f"有 industry 的公司: {companies_clean['industry'].notna().sum()} ({companies_clean['industry'].notna().sum()/len(companies_clean)*100:.1f}%)")
print(f"company_size: 全部設為 Null（不從爬下來的資料填入）")
print(f"location: 全部設為 Null（不從爬下來的資料填入）")

# 顯示前 5 筆公司資料預覽
print("\n【前 5 筆公司資料預覽】")
print("-" * 60)
preview_cols = ['company_name', 'industry', 'company_size', 'location']
print(companies_clean[preview_cols].head(5).to_string(index=False))

print("\n" + "=" * 60)
print("階段三完成！公司資料清理完成。")
print("=" * 60)

階段三：清理公司資料 (COMPANY_INFO)

【步驟 1】建立公司主檔...
------------------------------------------------------------
過濾後職缺數: 10900
不重複公司數: 4238

【步驟 2】清理公司名稱...
------------------------------------------------------------
清理後公司數: 4238

【步驟 3】推斷產業類別...
------------------------------------------------------------
產業類別分布:
  資訊科技: 3335 家公司
  製造業: 277 家公司
  醫療: 107 家公司
  金融: 102 家公司
  其他: 87 家公司
  營建: 72 家公司
  設計: 45 家公司
  教育: 35 家公司
  管理: 29 家公司
  商業: 21 家公司
  行銷: 16 家公司
  服務業: 10 家公司
  零售: 8 家公司
未分類: 94 家公司

【步驟 4】解析公司規模...
------------------------------------------------------------
公司規模分布:
  51-200: 2869 家公司
  1-50: 1265 家公司
未分類: 104 家公司

【步驟 5】標準化地點...
------------------------------------------------------------
有地點資訊的公司: 4134 家

【步驟 6】建立最終公司資料表...
------------------------------------------------------------

【步驟 7】去重處理...
------------------------------------------------------------
去重前: 4238 家公司
去重後: 4238 家公司
移除重複: 0 家
移除空值後: 4238 家公司

【最終統計】
-------------------------------------------------------

In [9]:
# ============================================
# 階段四：清理職缺資料 (JOB_POSTING)
# ============================================

print("=" * 60)
print("階段四：清理職缺資料 (JOB_POSTING)")
print("=" * 60)

# 1. 建立公司名稱對應表（稍後會用實際的 company_id 取代）
print("\n【步驟 1】建立公司名稱對應表...")
print("-" * 60)
company_mapping = {name: idx + 1 for idx, name in enumerate(companies_clean['company_name'])}
print(f"已建立 {len(company_mapping)} 家公司的對應表")

# 2. 清理職缺資料
print("\n【步驟 2】清理職缺資料...")
print("-" * 60)
jobs_clean = df.copy()

# 清理 job_title
jobs_clean['job_title'] = jobs_clean['job_name'].apply(clean_text)

# 清理 job_description
jobs_clean['job_description_clean'] = jobs_clean['job_description'].apply(clean_text)

# 合併 requirements
jobs_clean['requirements'] = jobs_clean.apply(merge_requirements, axis=1)

# 處理 location：保留原始 CSV 的 location 作為 full_address，並拆分出 city 和 district
# full_address 使用原始 CSV 的 location（完整地址，不清理）
jobs_clean['full_address'] = jobs_clean['location'].astype(str)  # 保留原始完整地址

# 從完整地址拆分出 city 和 district
location_parsed = jobs_clean['location'].apply(parse_location_to_city_district)
jobs_clean['city'] = location_parsed.apply(lambda x: x[0] if x else None)
jobs_clean['district'] = location_parsed.apply(lambda x: x[1] if x else None)

# location 欄位保留原始 CSV 的 location（完整地址，不清理）
jobs_clean['location'] = jobs_clean['location'].astype(str)  # 保留原始完整地址

# 判斷 remote_option（使用原始 location）
jobs_clean['remote_option'] = jobs_clean.apply(
    lambda row: determine_remote_option(row['location'], row['job_type']), 
    axis=1
)

# 建立 job_details JSON
jobs_clean['job_details'] = jobs_clean.apply(create_job_details, axis=1)

# 處理日期
jobs_clean['posted_date'] = pd.to_datetime(jobs_clean['update_date'], errors='coerce').dt.date
jobs_clean['scraped_at'] = pd.to_datetime(jobs_clean['created_at'], errors='coerce')

print(f"已清理 {len(jobs_clean)} 筆職缺資料")

# 3. 建立最終的職缺資料表（對應 ERD 欄位）
print("\n【步驟 3】建立最終職缺資料表...")
print("-" * 60)

jobs_final = pd.DataFrame({
    'company_name': jobs_clean['company_name'].apply(clean_text),  # 暫時保留，稍後轉換為 company_id
    'job_title': jobs_clean['job_title'],
    'job_description': jobs_clean['job_description_clean'],
    'requirements': jobs_clean['requirements'],
    'salary_min': jobs_clean['salary_min'],
    'salary_max': jobs_clean['salary_max'],
    'location': jobs_clean['location'],  # 保留原始 CSV 的完整地址
    'city': jobs_clean['city'],  # 從完整地址拆分出的縣市
    'district': jobs_clean['district'],  # 從完整地址拆分出的地區
    'full_address': jobs_clean['full_address'],  # 原始 CSV 的完整地址
    'remote_option': jobs_clean['remote_option'],
    'job_details': jobs_clean['job_details'],
    'source_platform': '104人力銀行',  # 根據實際來源設定
    'source_url': None,  # 如果沒有就設為 None
    'posted_date': jobs_clean['posted_date'],
    'scraped_at': jobs_clean['scraped_at'],
    'is_active': True,
    'is_embedded': False,
    'vector_id': None
})

# 4. 去重：根據 (company_name, job_title, location) 組合
print("\n【步驟 4】去重處理...")
print("-" * 60)
before_dedup = len(jobs_final)
jobs_final = jobs_final.drop_duplicates(
    subset=['company_name', 'job_title', 'location'], 
    keep='last'  # 保留最新的
)
after_dedup = len(jobs_final)
print(f"去重前職缺數: {before_dedup}")
print(f"去重後職缺數: {after_dedup}")
print(f"移除重複: {before_dedup - after_dedup} 筆")

# 確保 source_url 是 None（不是 NaN）
import numpy as np
jobs_final['source_url'] = jobs_final['source_url'].fillna(None)
jobs_final['source_url'] = jobs_final['source_url'].replace({np.nan: None, pd.NA: None})
print("✓ source_url 已全部設為 None")

# 5. 移除關鍵欄位為空的資料
print("\n【步驟 5】移除關鍵欄位為空的資料...")
print("-" * 60)
before_remove = len(jobs_final)
jobs_final = jobs_final[
    jobs_final['company_name'].notna() & 
    jobs_final['job_title'].notna() &
    jobs_final['job_description'].notna()
]
after_remove = len(jobs_final)
print(f"移除前職缺數: {before_remove}")
print(f"移除後職缺數: {after_remove}")
print(f"移除空值: {before_remove - after_remove} 筆")

# 顯示統計資訊
print("\n【最終統計】")
print("-" * 60)
print(f"總職缺數: {len(jobs_final)}")
print(f"有 job_description 的職缺: {jobs_final['job_description'].notna().sum()} ({jobs_final['job_description'].notna().sum()/len(jobs_final)*100:.1f}%)")
print(f"有 requirements 的職缺: {jobs_final['requirements'].notna().sum()} ({jobs_final['requirements'].notna().sum()/len(jobs_final)*100:.1f}%)")
print(f"有 salary_min 的職缺: {jobs_final['salary_min'].notna().sum()} ({jobs_final['salary_min'].notna().sum()/len(jobs_final)*100:.1f}%)")
print(f"有 salary_max 的職缺: {jobs_final['salary_max'].notna().sum()} ({jobs_final['salary_max'].notna().sum()/len(jobs_final)*100:.1f}%)")
print(f"有 location 的職缺: {jobs_final['location'].notna().sum()} ({jobs_final['location'].notna().sum()/len(jobs_final)*100:.1f}%)")
print(f"有 city 的職缺: {jobs_final['city'].notna().sum()} ({jobs_final['city'].notna().sum()/len(jobs_final)*100:.1f}%)")
print(f"有 district 的職缺: {jobs_final['district'].notna().sum()} ({jobs_final['district'].notna().sum()/len(jobs_final)*100:.1f}%)")
print(f"有 full_address 的職缺: {jobs_final['full_address'].notna().sum()} ({jobs_final['full_address'].notna().sum()/len(jobs_final)*100:.1f}%)")
print(f"有 job_details 的職缺: {jobs_final['job_details'].notna().sum()} ({jobs_final['job_details'].notna().sum()/len(jobs_final)*100:.1f}%)")

# 檢查 job_description 長度
jobs_final['desc_length'] = jobs_final['job_description'].str.len()
print(f"\njob_description 長度統計:")
print(jobs_final['desc_length'].describe())

short_desc = jobs_final[jobs_final['desc_length'] < 50]
if len(short_desc) > 0:
    print(f"\n⚠️  描述過短 (<50字) 的職缺數: {len(short_desc)} ({len(short_desc)/len(jobs_final)*100:.2f}%)")

# 顯示前 3 筆職缺資料預覽
print("\n【前 3 筆職缺資料預覽】")
print("-" * 60)
preview_cols = ['company_name', 'job_title', 'location', 'salary_min', 'salary_max']
for idx, row in jobs_final[preview_cols].head(3).iterrows():
    print(f"\n{idx + 1}. 公司: {row['company_name']}")
    print(f"   職缺: {row['job_title']}")
    print(f"   地點: {row['location']}")
    print(f"   薪資: {row['salary_min']:,.0f} ~ {row['salary_max']:,.0f}")

print("\n" + "=" * 60)
print("階段四完成！職缺資料清理完成。")
print("=" * 60)

階段四：清理職缺資料 (JOB_POSTING)

【步驟 1】建立公司名稱對應表...
------------------------------------------------------------
已建立 4238 家公司的對應表

【步驟 2】清理職缺資料...
------------------------------------------------------------
已清理 10900 筆職缺資料

【步驟 3】建立最終職缺資料表...
------------------------------------------------------------

【步驟 4】去重處理...
------------------------------------------------------------
去重前職缺數: 10900
去重後職缺數: 10488
移除重複: 412 筆
✓ source_url 已全部設為 None

【步驟 5】移除關鍵欄位為空的資料...
------------------------------------------------------------
移除前職缺數: 10488
移除後職缺數: 10179
移除空值: 309 筆

【最終統計】
------------------------------------------------------------
總職缺數: 10179
有 job_description 的職缺: 10179 (100.0%)
有 requirements 的職缺: 10179 (100.0%)
有 salary_min 的職缺: 10179 (100.0%)
有 salary_max 的職缺: 10179 (100.0%)
有 location 的職缺: 10179 (100.0%)
有 job_details 的職缺: 10179 (100.0%)

job_description 長度統計:
count    10179.000000
mean       488.700953
std        553.196017
min          4.000000
25%        146.000000
50%        299.000000

In [10]:
# 查看清理後的職缺資料詳細內容
print("=" * 60)
print("查看清理後的職缺資料詳細內容")
print("=" * 60)

# 隨機選擇 3 筆職缺，顯示完整資訊
import random

# 隨機選擇 3 筆
sample_indices = random.sample(range(len(jobs_final)), min(3, len(jobs_final)))

for idx, row_idx in enumerate(sample_indices, 1):
    row = jobs_final.iloc[row_idx]
    print(f"\n{'='*60}")
    print(f"職缺 {idx} (索引: {row_idx})")
    print(f"{'='*60}")
    print(f"公司名稱: {row['company_name']}")
    print(f"職缺標題: {row['job_title']}")
    print(f"\n職缺描述 (前500字):")
    print("-" * 60)
    desc = str(row['job_description']) if pd.notna(row['job_description']) else "無"
    print(desc[:500] + ("..." if len(desc) > 500 else ""))
    print(f"\n職缺要求:")
    print("-" * 60)
    req = str(row['requirements']) if pd.notna(row['requirements']) else "無"
    print(req[:500] + ("..." if len(req) > 500 else ""))
    print(f"\n薪資: {row['salary_min']:,.0f} ~ {row['salary_max']:,.0f}")
    print(f"地點: {row['location']}")
    print(f"遠端選項: {row['remote_option']}")
    print(f"發布日期: {row['posted_date']}")
    print(f"爬取時間: {row['scraped_at']}")
    print(f"來源平台: {row['source_platform']}")
    print(f"\njob_details (JSON):")
    print("-" * 60)
    details = str(row['job_details']) if pd.notna(row['job_details']) else "無"
    print(details[:300] + ("..." if len(details) > 300 else ""))

# 也可以顯示前 5 筆的簡要資訊
print(f"\n{'='*60}")
print("前 5 筆職缺簡要資訊")
print(f"{'='*60}")
preview_cols = ['company_name', 'job_title', 'location', 'salary_min', 'salary_max', 'remote_option']
print(jobs_final[preview_cols].head(5).to_string(index=False))

查看清理後的職缺資料詳細內容

職缺 1 (索引: 6470)
公司名稱: 信義房屋股份有限公司
職缺標題: 【PropTech數位人才】資深後端工程師│實驗店

職缺描述 (前500字):
------------------------------------------------------------
※團隊簡介｜以科技打造房仲產業新未來的實驗基地 你將加入信義房屋推動「實驗店」的核心團隊，透過數位化、裝置整合與服務創新的方式，重新定義房仲門市的未來。我們的任務，是打造一個更貼近居民、更具體驗感、也更能與社區共好的全新服務場域。從互動裝置、店內動線到後台系統，全都由團隊自主構建與驗證，是能真正看到產品落地並影響產業的前線角色。 ※職務簡介｜全端 / 後端工程師：與我們一起從 0 到 1 打造實驗店數位體驗 不論是資深全端工程師還是資深後端工程師，都會是實驗店數位服務的核心工程角色： 協作跨領域的轉型團隊，從需求釐清、系統設計、開發、整合到迭代，你的技術決策將直接形塑產品方向。你將有完整空間嘗試軟硬整合，包括數位看板、互動裝置、IoT 終端，到雲端後台與 API 串接。這裡的挑戰在於從無到有的架構打造、不同設備間的資料流整合、多店型的擴展性與維運思維，非常適合喜歡創新、能主導技術方案、想看成果實際落地的工程師。 我們期待你具備中大型專案經驗、能獨立作架構判斷，也熟悉後端與資料庫設計；若你過去有跨角色（如 PM + 開發、前後端兼具）或軟硬整合背景，會非常契合這個「打造全新產品形態」的任...

職缺要求:
------------------------------------------------------------
工作經驗: 5年以上
學歷要求: 大學以上
科系要求: 資訊管理相關、電機電子工程相關、資訊工程相關
語言能力: 英文 -- 聽 /中等、說 /中等、讀 /中等、寫 /中等 提升英文能力 提升英文能力
技能要求: 軟體工程系統開發、資料庫程式設計
其他要求: 5-10年以上軟體開發經驗，主要專長在後端系統 熟悉任一主流程式語言與框架 熟悉資料庫設計與操作（SQL／NoSQL） 有開發與整合「實體裝置（如 POS、數位看板、IoT 終端）」與後台系統的經驗 熟悉 RESTful API 設計、MQTT／WebSocket／Push 通訊機

In [11]:
# ============================================
# ERD 設計對照檢查
# ============================================

print("=" * 60)
print("ERD 設計對照檢查")
print("=" * 60)

# ============================================
# 1. 檢查 COMPANY_INFO 表
# ============================================
print("\n【1. COMPANY_INFO 表檢查】")
print("-" * 60)

# ERD 要求的欄位
company_erd_fields = {
    'company_name': {'type': 'VARCHAR(200)', 'required': True},
    'industry': {'type': 'VARCHAR(100)', 'required': False},
    'company_size': {'type': 'VARCHAR(50)', 'required': False},
    'location': {'type': 'VARCHAR(200)', 'required': False},
    'website': {'type': 'VARCHAR(500)', 'required': False},
    'description': {'type': 'TEXT', 'required': False}
}

print("✓ 檢查欄位完整性...")
missing_fields = []
for field in company_erd_fields.keys():
    if field not in companies_clean.columns:
        missing_fields.append(field)
        print(f"  ✗ 缺少欄位: {field}")
    else:
        print(f"  ✓ 欄位存在: {field}")

if missing_fields:
    print(f"\n⚠️  缺少 {len(missing_fields)} 個欄位")
else:
    print("\n✓ 所有欄位都存在")

# 檢查必填欄位
print("\n✓ 檢查必填欄位...")
required_fields = [f for f, info in company_erd_fields.items() if info['required']]
for field in required_fields:
    null_count = companies_clean[field].isna().sum()
    if null_count > 0:
        print(f"  ✗ {field}: {null_count} 筆為空（必填欄位！）")
    else:
        print(f"  ✓ {field}: 全部有值")

# 檢查欄位長度限制
print("\n✓ 檢查欄位長度限制...")
length_checks = {
    'company_name': 200,
    'industry': 100,
    'company_size': 50,
    'location': 200,
    'website': 500
}

for field, max_length in length_checks.items():
    if field in companies_clean.columns:
        max_len = companies_clean[field].astype(str).str.len().max()
        if max_len > max_length:
            print(f"  ✗ {field}: 最大長度 {max_len} > {max_length}（超出限制！）")
            long_values = companies_clean[companies_clean[field].astype(str).str.len() > max_length]
            if len(long_values) > 0:
                print(f"    範例: {str(long_values[field].iloc[0])[:100]}...")
        else:
            print(f"  ✓ {field}: 最大長度 {max_len} <= {max_length}")

# ============================================
# 2. 檢查 JOB_POSTING 表
# ============================================
print("\n【2. JOB_POSTING 表檢查】")
print("-" * 60)

print("✓ 檢查欄位完整性...")
job_required_fields = ['job_title', 'job_description', 'company_name']
job_optional_fields = ['requirements', 'salary_min', 'salary_max', 'location', 'remote_option', 
                       'job_details', 'source_platform', 'source_url', 'posted_date', 
                       'scraped_at', 'is_active', 'is_embedded', 'vector_id']

all_present = True
for field in job_required_fields + job_optional_fields:
    if field not in jobs_final.columns:
        print(f"  ✗ 缺少欄位: {field}")
        all_present = False
    else:
        print(f"  ✓ 欄位存在: {field}")

if all_present:
    print("\n✓ 所有欄位都存在（company_id 將在寫入時處理）")

# 檢查關鍵欄位是否有值
print("\n✓ 檢查關鍵欄位...")
for field in job_required_fields:
    if field in jobs_final.columns:
        null_count = jobs_final[field].isna().sum()
        if null_count > 0:
            print(f"  ✗ {field}: {null_count} 筆為空")
        else:
            print(f"  ✓ {field}: 全部有值")

# 檢查欄位長度限制
print("\n✓ 檢查欄位長度限制...")
length_checks = {
    'job_title': 200,
    'location': 100,
    'remote_option': 50,
    'source_platform': 50,
    'source_url': 500
}

for field, max_length in length_checks.items():
    if field in jobs_final.columns:
        max_len = jobs_final[field].astype(str).str.len().max()
        if max_len > max_length:
            print(f"  ✗ {field}: 最大長度 {max_len} > {max_length}（超出限制！）")
        else:
            print(f"  ✓ {field}: 最大長度 {max_len} <= {max_length}")

# 檢查資料型態
print("\n✓ 檢查資料型態...")
if 'salary_min' in jobs_final.columns:
    try:
        jobs_final['salary_min'].astype(float)
        print("  ✓ salary_min: 可轉換為數值")
    except:
        print("  ✗ salary_min: 無法轉換為數值")

if 'salary_max' in jobs_final.columns:
    try:
        jobs_final['salary_max'].astype(float)
        print("  ✓ salary_max: 可轉換為數值")
    except:
        print("  ✗ salary_max: 無法轉換為數值")

for field in ['is_active', 'is_embedded']:
    if field in jobs_final.columns:
        if jobs_final[field].dtype == bool:
            print(f"  ✓ {field}: 資料型態正確 (BOOLEAN)")
        else:
            print(f"  ⚠️  {field}: 資料型態為 {jobs_final[field].dtype}，需要轉換為 BOOLEAN")

# job_details 應該是有效的 JSON
if 'job_details' in jobs_final.columns:
    import json
    invalid_json = 0
    for idx, value in jobs_final['job_details'].items():
        if pd.notna(value):
            try:
                json.loads(str(value))
            except:
                invalid_json += 1
    if invalid_json > 0:
        print(f"  ✗ job_details: {invalid_json} 筆無效的 JSON")
    else:
        print(f"  ✓ job_details: 所有值都是有效的 JSON")

# ============================================
# 3. 檢查外鍵關聯
# ============================================
print("\n【3. 外鍵關聯檢查】")
print("-" * 60)

print("✓ 檢查 company_name 關聯...")
unique_companies_in_jobs = set(jobs_final['company_name'].dropna().unique())
unique_companies_in_companies = set(companies_clean['company_name'].dropna().unique())

missing_companies = unique_companies_in_jobs - unique_companies_in_companies
if len(missing_companies) > 0:
    print(f"  ✗ 發現 {len(missing_companies)} 個職缺的公司名稱不在公司表中")
    print(f"    範例: {list(missing_companies)[:5]}")
else:
    print(f"  ✓ 所有職缺的公司名稱都存在於公司表中")

print(f"\n  職缺表中的公司數: {len(unique_companies_in_jobs)}")
print(f"  公司表中的公司數: {len(unique_companies_in_companies)}")
print(f"  匹配的公司數: {len(unique_companies_in_jobs & unique_companies_in_companies)}")

# ============================================
# 4. 總結
# ============================================
print("\n" + "=" * 60)
print("【檢查總結】")
print("=" * 60)
print(f"公司資料: {len(companies_clean)} 筆")
print(f"職缺資料: {len(jobs_final)} 筆")
print("\n✓ 如果以上檢查都通過，資料就可以寫入資料庫了！")
print("=" * 60)

ERD 設計對照檢查

【1. COMPANY_INFO 表檢查】
------------------------------------------------------------
✓ 檢查欄位完整性...
  ✓ 欄位存在: company_name
  ✓ 欄位存在: industry
  ✓ 欄位存在: company_size
  ✓ 欄位存在: location
  ✓ 欄位存在: website
  ✓ 欄位存在: description

✓ 所有欄位都存在

✓ 檢查必填欄位...
  ✓ company_name: 全部有值

✓ 檢查欄位長度限制...
  ✓ company_name: 最大長度 90 <= 200
  ✓ industry: 最大長度 4.0 <= 100
  ✓ company_size: 最大長度 6.0 <= 50
  ✓ location: 最大長度 86.0 <= 200
  ✓ website: 最大長度 nan <= 500

【2. JOB_POSTING 表檢查】
------------------------------------------------------------
✓ 檢查欄位完整性...
  ✓ 欄位存在: job_title
  ✓ 欄位存在: job_description
  ✓ 欄位存在: company_name
  ✓ 欄位存在: requirements
  ✓ 欄位存在: salary_min
  ✓ 欄位存在: salary_max
  ✓ 欄位存在: location
  ✓ 欄位存在: remote_option
  ✓ 欄位存在: job_details
  ✓ 欄位存在: source_platform
  ✓ 欄位存在: source_url
  ✓ 欄位存在: posted_date
  ✓ 欄位存在: scraped_at
  ✓ 欄位存在: is_active
  ✓ 欄位存在: is_embedded
  ✓ 欄位存在: vector_id

✓ 所有欄位都存在（company_id 將在寫入時處理）

✓ 檢查關鍵欄位...
  ✓ job_title: 全部有值
  ✓ job_description: 全部有值
  ✓ company_n

In [12]:
# ============================================
# 修正資料以符合 ERD 限制
# ============================================

print("=" * 60)
print("修正資料以符合 ERD 限制")
print("=" * 60)

# 1. 修正 COMPANY_INFO 欄位長度
print("\n【1. 修正 COMPANY_INFO 欄位長度】")
print("-" * 60)

# 截斷過長的欄位
companies_clean['company_name'] = companies_clean['company_name'].astype(str).str[:200]
companies_clean['industry'] = companies_clean['industry'].astype(str).str[:100]
companies_clean['company_size'] = companies_clean['company_size'].astype(str).str[:50]
companies_clean['location'] = companies_clean['location'].astype(str).str[:200]
companies_clean['website'] = companies_clean['website'].astype(str).str[:500] if 'website' in companies_clean.columns else None

print("✓ 已截斷過長欄位")

# 2. 修正 JOB_POSTING 欄位長度
print("\n【2. 修正 JOB_POSTING 欄位長度】")
print("-" * 60)

jobs_final['job_title'] = jobs_final['job_title'].astype(str).str[:200]
jobs_final['location'] = jobs_final['location'].astype(str).str[:100]
jobs_final['remote_option'] = jobs_final['remote_option'].astype(str).str[:50]
jobs_final['source_platform'] = jobs_final['source_platform'].astype(str).str[:50]
jobs_final['source_url'] = jobs_final['source_url'].astype(str).str[:500] if 'source_url' in jobs_final.columns else None

print("✓ 已截斷過長欄位")

# 3. 確保資料型態正確
print("\n【3. 修正資料型態】")
print("-" * 60)

# 確保 salary_min, salary_max 是整數
jobs_final['salary_min'] = pd.to_numeric(jobs_final['salary_min'], errors='coerce').astype('Int64')
jobs_final['salary_max'] = pd.to_numeric(jobs_final['salary_max'], errors='coerce').astype('Int64')

# 確保 is_active, is_embedded 是布林值
jobs_final['is_active'] = jobs_final['is_active'].astype(bool)
jobs_final['is_embedded'] = jobs_final['is_embedded'].astype(bool)

print("✓ 已修正資料型態")

# 4. 驗證 JSON 格式
print("\n【4. 驗證 JSON 格式】")
print("-" * 60)

import json
invalid_json_count = 0
for idx, value in jobs_final['job_details'].items():
    if pd.notna(value):
        try:
            json.loads(str(value))
        except:
            invalid_json_count += 1
            # 修正無效的 JSON（設為 None）
            jobs_final.at[idx, 'job_details'] = None

if invalid_json_count > 0:
    print(f"  ⚠️  修正了 {invalid_json_count} 筆無效的 JSON（設為 None）")
else:
    print("  ✓ 所有 JSON 格式都正確")

# 5. 確保外鍵關聯正確
print("\n【5. 檢查外鍵關聯】")
print("-" * 60)

# 只保留公司名稱存在於 companies_clean 中的職缺
before_filter = len(jobs_final)
valid_companies = set(companies_clean['company_name'].dropna().unique())
jobs_final = jobs_final[jobs_final['company_name'].isin(valid_companies)]
after_filter = len(jobs_final)

if before_filter != after_filter:
    print(f"  ⚠️  移除了 {before_filter - after_filter} 筆公司名稱不存在的職缺")
else:
    print("  ✓ 所有職缺的公司名稱都存在")

print(f"\n  最終職缺數: {len(jobs_final)}")

# 6. 最終檢查
print("\n【6. 最終檢查】")
print("-" * 60)

# 檢查必填欄位
company_name_null = companies_clean['company_name'].isna().sum()
job_title_null = jobs_final['job_title'].isna().sum()
job_desc_null = jobs_final['job_description'].isna().sum()

if company_name_null == 0 and job_title_null == 0 and job_desc_null == 0:
    print("✓ 所有必填欄位都有值")
else:
    print(f"  ⚠️  發現空值: company_name={company_name_null}, job_title={job_title_null}, job_description={job_desc_null}")

# 檢查長度
max_company_name = companies_clean['company_name'].astype(str).str.len().max()
max_job_title = jobs_final['job_title'].astype(str).str.len().max()

if max_company_name <= 200 and max_job_title <= 200:
    print("✓ 所有欄位長度符合限制")
else:
    print(f"  ⚠️  長度問題: company_name={max_company_name}, job_title={max_job_title}")

print("\n" + "=" * 60)
print("✓ 資料修正完成！現在可以寫入資料庫了。")
print("=" * 60)
print(f"\n準備寫入:")
print(f"  公司資料: {len(companies_clean)} 筆")
print(f"  職缺資料: {len(jobs_final)} 筆")

修正資料以符合 ERD 限制

【1. 修正 COMPANY_INFO 欄位長度】
------------------------------------------------------------
✓ 已截斷過長欄位

【2. 修正 JOB_POSTING 欄位長度】
------------------------------------------------------------
✓ 已截斷過長欄位

【3. 修正資料型態】
------------------------------------------------------------
✓ 已修正資料型態

【4. 驗證 JSON 格式】
------------------------------------------------------------
  ✓ 所有 JSON 格式都正確

【5. 檢查外鍵關聯】
------------------------------------------------------------
  ✓ 所有職缺的公司名稱都存在

  最終職缺數: 10179

【6. 最終檢查】
------------------------------------------------------------
✓ 所有必填欄位都有值
✓ 所有欄位長度符合限制

✓ 資料修正完成！現在可以寫入資料庫了。

準備寫入:
  公司資料: 4238 筆
  職缺資料: 10179 筆


In [17]:
# ============================================
# 階段六：準備 Supabase 連線（修正版 - 清除模組快取）
# ============================================

print("=" * 60)
print("階段六：準備 Supabase 連線")
print("=" * 60)

# 清除模組快取中的 supabase（如果已導入）
import sys
if 'supabase' in sys.modules:
    del sys.modules['supabase']
    print("✓ 已清除 supabase 模組快取")

# 暫時重命名本地 supabase.py 以避免衝突
import os
if os.path.exists('supabase.py'):
    if not os.path.exists('supabase.py.bak'):
        os.rename('supabase.py', 'supabase.py.bak')
        print("✓ 已暫時重命名 supabase.py 以避免導入衝突")

# 載入環境變數
from dotenv import load_dotenv

# 載入 .env 檔案（在 Erd 目錄下）
env_path = os.path.join('Erd', '.env')
load_dotenv(env_path)

# 取得 Supabase 連線資訊
SUPABASE_URL = os.getenv('project_url')
SUPABASE_KEY = os.getenv('service_role_key')

if not SUPABASE_URL or not SUPABASE_KEY:
    print("✗ 錯誤：無法從 .env 檔案讀取 Supabase 連線資訊")
    print("請確認 Erd/.env 檔案存在且包含 project_url 和 service_role_key")
else:
    print(f"✓ 已讀取 Supabase URL: {SUPABASE_URL[:30]}...")
    print(f"✓ 已讀取 Service Role Key: {SUPABASE_KEY[:20]}...")

# 建立 Supabase 客戶端（重新導入，確保使用套件）
from supabase import create_client, Client

try:
    supabase: Client = create_client(SUPABASE_URL, SUPABASE_KEY)
    print("\n✓ Supabase 客戶端建立成功")
    
    # 測試連線（使用小寫表名）
    print("\n✓ 測試連線...")
    test_result = supabase.table('company_info').select('company_id').limit(1).execute()
    print(f"✓ 連線測試成功！資料庫中現有 {len(test_result.data)} 筆公司資料（測試查詢）")
    
except Exception as e:
    print(f"\n✗ 連線失敗: {str(e)}")
    print("請檢查：")
    print("1. SUPABASE_URL 是否正確")
    print("2. SUPABASE_KEY 是否正確（必須是 service_role key）")
    print("3. 網路連線是否正常")
    raise

print("\n" + "=" * 60)
print("階段六完成！Supabase 連線準備就緒。")
print("=" * 60)

階段六：準備 Supabase 連線
✓ 已清除 supabase 模組快取
✓ 已讀取 Supabase URL: https://nyslsqlgsavvfwiducdu.s...
✓ 已讀取 Service Role Key: sb_secret_kf_aqclzhv...

✓ Supabase 客戶端建立成功

✓ 測試連線...
✓ 連線測試成功！資料庫中現有 1 筆公司資料（測試查詢）

階段六完成！Supabase 連線準備就緒。


In [None]:
# 測試 supabase_connection.py 連線功能

# 導入連線函數
from supabase_connection import connect_to_supabase

# 執行連線測試
print("=" * 60)
print("測試 Supabase 連線函數")
print("=" * 60)

try:
    # 連線到 Supabase（會自動尋找 .env 檔案）
    supabase = connect_to_supabase()
    
    print("\n✓ 連線成功！")
    
    # 測試查詢公司資料
    print("\n【測試查詢】")
    print("-" * 60)
    result = supabase.table('company_info').select('company_id, company_name').limit(5).execute()
    print(f"✓ 查詢成功，取得 {len(result.data)} 筆公司資料")
    
    if len(result.data) > 0:
        print("\n前 5 筆公司資料：")
        for idx, company in enumerate(result.data, 1):
            print(f"  {idx}. ID: {company['company_id']}, 名稱: {company['company_name']}")
    
    # 測試查詢職缺資料
    print("\n【測試查詢職缺】")
    print("-" * 60)
    job_result = supabase.table('job_posting').select('job_id, job_title, company_id').limit(5).execute()
    print(f"✓ 查詢成功，取得 {len(job_result.data)} 筆職缺資料")
    
    if len(job_result.data) > 0:
        print("\n前 5 筆職缺資料：")
        for idx, job in enumerate(job_result.data, 1):
            print(f"  {idx}. ID: {job['job_id']}, 職缺: {job['job_title']}, 公司ID: {job['company_id']}")
    
    print("\n" + "=" * 60)
    print("✓ 所有測試通過！連線功能正常。")
    print("=" * 60)
    
except Exception as e:
    print(f"\n✗ 測試失敗: {e}")
    import traceback
    traceback.print_exc()

測試 Supabase 連線函數
✓ Supabase 連線成功！資料庫中現有 1 筆公司資料（測試查詢）

✓ 連線成功！

【測試查詢】
------------------------------------------------------------
✓ 查詢成功，取得 5 筆公司資料

前 5 筆公司資料：
  1. ID: 1, 名稱: (台泥)臺灣水泥股份有限公司
  2. ID: 2, 名稱: (嘉義市)陽明醫院
  3. ID: 3, 名稱: (捷普集團)綠點高新科技股份有限公司捷普設計服務分公司
  4. ID: 4, 名稱: (總公司)南山人壽保險股份有限公司
  5. ID: 5, 名稱: (遠東集團)鼎鼎企業管理顧問股份有限公司

【測試查詢職缺】
------------------------------------------------------------
✓ 查詢成功，取得 0 筆職缺資料

✓ 所有測試通過！連線功能正常。


In [None]:
# ============================================
# 重新匯出清理後的資料為 JSON（修正產業分類後）
# ============================================

import json
import os

print("=" * 60)
print("重新匯出清理後的資料為 JSON（修正產業分類後）")
print("=" * 60)

# 在轉換成字典之前，先將所有 NaN 轉換為 None
import numpy as np

# 將 DataFrame 中的 NaN 替換為 None
companies_dict = companies_clean.replace({np.nan: None, pd.NA: None}).to_dict('records')
jobs_dict = jobs_final.replace({np.nan: None, pd.NA: None}).to_dict('records')

# 準備匯出的資料
export_data = {
    'metadata': {
        'export_date': pd.Timestamp.now().isoformat(),
        'total_companies': len(companies_clean),
        'total_jobs': len(jobs_final),
        'description': '清理後的職缺資料（已修正產業分類），準備寫入 Supabase 資料庫'
    },
    'companies': companies_dict,
    'jobs': jobs_dict
}

# 匯出為 JSON 檔案（覆蓋舊檔案）
# 定義 JSON default 函數，正確處理 NaN/None 和日期時間類型
from datetime import date, datetime

def json_default(obj):
    if pd.isna(obj) or obj is None:
        return None
    # 處理 datetime.date
    if isinstance(obj, date):
        return obj.isoformat()
    # 處理 datetime.datetime
    if isinstance(obj, datetime):
        return obj.isoformat()
    # 處理 pandas Timestamp
    if isinstance(obj, (pd.Timestamp, pd.DatetimeTZDtype)):
        return obj.isoformat()
    raise TypeError(f"Object of type {type(obj)} is not JSON serializable")

output_file = '最終清整後資料.json'
with open(output_file, 'w', encoding='utf-8') as f:
    json.dump(export_data, f, ensure_ascii=False, indent=2, default=json_default)

file_size = os.path.getsize(output_file) / (1024 * 1024)  # MB

print(f"\n✓ 資料重新匯出成功！")
print(f"  檔案名稱: {output_file}")
print(f"  檔案位置: {os.path.abspath(output_file)}")
print(f"  檔案大小: {file_size:.2f} MB")
print(f"  公司資料: {len(companies_clean)} 筆")
print(f"  職缺資料: {len(jobs_final)} 筆")

# 顯示修正後的產業分布
print(f"\n【修正後的產業分布】")
print("-" * 60)
industry_counts = companies_clean['industry'].value_counts()
for industry, count in industry_counts.items():
    print(f"  {industry}: {count} 家公司")


print("\n✓ 可以使用文字編輯器或 JSON 檢視器開啟檔案瀏覽內容")
print("=" * 60)

重新匯出清理後的資料為 JSON（修正產業分類後）

✓ 資料重新匯出成功！
  檔案名稱: 最終清整後資料.json
  檔案位置: c:\Users\Elvis\git\final\supabase_control\最終清整後資料.json
  檔案大小: 34.94 MB
  公司資料: 4238 筆
  職缺資料: 10179 筆

【修正後的產業分布】
------------------------------------------------------------
  資訊科技: 3335 家公司
  製造業: 277 家公司
  醫療: 107 家公司
  金融: 102 家公司
  其他: 87 家公司
  營建: 72 家公司
  設計: 45 家公司
  教育: 35 家公司
  管理: 29 家公司
  商業: 21 家公司
  行銷: 16 家公司
  服務業: 10 家公司
  零售: 8 家公司

✓ 可以使用文字編輯器或 JSON 檢視器開啟檔案瀏覽內容


In [None]:
# ============================================
# 階段七：寫入 Supabase 資料庫
# ============================================

from supabase_connection import connect_to_supabase
import json
from datetime import datetime

print("=" * 60)
print("階段七：寫入 Supabase 資料庫")
print("=" * 60)

# 1. 連線到 Supabase
print("\n【步驟 1】連線到 Supabase...")
print("-" * 60)
try:
    supabase = connect_to_supabase()
    print("✓ Supabase 連線成功")
except Exception as e:
    print(f"✗ 連線失敗: {e}")
    raise

# 2. 準備公司資料（對應 COMPANY_INFO 表）
print("\n【步驟 2】準備公司資料...")
print("-" * 60)

# 準備寫入的公司資料（只包含 ERD 定義的欄位）
companies_to_insert = []
for idx, row in companies_clean.iterrows():
    company_data = {
        'company_name': row['company_name'],
        'industry': row.get('industry') if pd.notna(row.get('industry')) else None,
        'company_size': row.get('company_size') if pd.notna(row.get('company_size')) else None,
        'location': row.get('location') if pd.notna(row.get('location')) else None,
        'website': row.get('website') if pd.notna(row.get('website')) else None,
        'description': row.get('description') if pd.notna(row.get('description')) else None,
        'created_at': datetime.now().isoformat()
    }
    companies_to_insert.append(company_data)

print(f"準備寫入 {len(companies_to_insert)} 家公司資料")

# 3. 批次寫入公司資料（每次 100 筆，避免超過 API 限制）
print("\n【步驟 3】批次寫入公司資料...")
print("-" * 60)

batch_size = 100
company_name_to_id = {}  # 用於建立 company_name -> company_id 對應表
total_inserted = 0
total_errors = 0

for i in range(0, len(companies_to_insert), batch_size):
    batch = companies_to_insert[i:i+batch_size]
    batch_inserted = 0
    
    # 逐筆處理：先檢查本地快取，再查詢資料庫，不存在才插入
    for company in batch:
        company_name = company['company_name']
        
        # 先檢查本地快取，避免重複查詢和插入
        if company_name in company_name_to_id:
            continue  # 已經處理過，跳過
        
        try:
            # 查詢資料庫是否已存在
            existing = supabase.table('company_info').select('company_id').eq('company_name', company_name).execute()
            
            if existing.data and len(existing.data) > 0:
                # 已存在，取得 company_id（不會重複插入）
                company_name_to_id[company_name] = existing.data[0]['company_id']
            else:
                # 不存在，插入新公司
                result = supabase.table('company_info').insert(company).execute()
                if result.data and len(result.data) > 0:
                    company_name_to_id[company_name] = result.data[0]['company_id']
                    batch_inserted += 1
                    total_inserted += 1
                else:
                    total_errors += 1
                    print(f"    ✗ 公司 '{company_name}' 插入後未返回 ID")
                    
        except Exception as e:
            total_errors += 1
            print(f"    ✗ 公司 '{company_name}' 處理失敗: {e}")
    
    print(f"  批次 {i//batch_size + 1}: 新增 {batch_inserted} 家公司，總共 {len(company_name_to_id)} 家公司已建立對應")

print(f"\n✓ 公司資料寫入完成: 成功 {total_inserted} 筆, 失敗 {total_errors} 筆")

# 如果還有公司沒有取得 company_id，查詢資料庫補齊
if len(company_name_to_id) < len(companies_to_insert):
    print("\n【補齊 company_id 對應表】...")
    print("-" * 60)
    missing_companies = [c['company_name'] for c in companies_to_insert 
                        if c['company_name'] not in company_name_to_id]
    
    for company_name in missing_companies:
        try:
            result = supabase.table('company_info').select('company_id').eq('company_name', company_name).execute()
            if result.data:
                company_name_to_id[company_name] = result.data[0]['company_id']
        except Exception as e:
            print(f"  ✗ 查詢公司 '{company_name}' 失敗: {e}")

print(f"✓ 已建立 {len(company_name_to_id)} 家公司的 ID 對應表")

# 4. 準備職缺資料（對應 JOB_POSTING 表）
print("\n【步驟 4】準備職缺資料...")
print("-" * 60)

jobs_to_insert = []
jobs_without_company = 0

for idx, row in jobs_final.iterrows():
    company_name = row['company_name']
    company_id = company_name_to_id.get(company_name)
    
    if company_id is None:
        jobs_without_company += 1
        continue  # 跳過沒有對應 company_id 的職缺
    
    # 處理 job_details（如果是字串則轉為 JSON，如果是 dict 則保持）
    job_details = row.get('job_details')
    if isinstance(job_details, str):
        try:
            job_details = json.loads(job_details)
        except:
            job_details = None
    elif pd.isna(job_details):
        job_details = None
    
    job_data = {
        'company_id': company_id,
        'job_title': row['job_title'],
        'job_description': row.get('job_description'),
        'requirements': row.get('requirements'),
        'salary_min': int(row['salary_min']) if pd.notna(row.get('salary_min')) else None,
        'salary_max': int(row['salary_max']) if pd.notna(row.get('salary_max')) else None,
        'location': row.get('location'),  # 保留原始 CSV 的完整地址
        'city': row.get('city') if pd.notna(row.get('city')) else None,
        'district': row.get('district') if pd.notna(row.get('district')) else None,
        'full_address': row.get('full_address') if pd.notna(row.get('full_address')) else None,
        'remote_option': row.get('remote_option'),
        'job_details': job_details,  # JSONB 欄位
        'source_platform': row.get('source_platform'),
        'source_url': row.get('source_url') if pd.notna(row.get('source_url')) else None,
        'posted_date': row.get('posted_date').isoformat() if pd.notna(row.get('posted_date')) else None,
        'scraped_at': row.get('scraped_at').isoformat() if pd.notna(row.get('scraped_at')) else None,
        'is_active': bool(row.get('is_active', True)),
        'is_embedded': bool(row.get('is_embedded', False)),
        'vector_id': row.get('vector_id') if pd.notna(row.get('vector_id')) else None
    }
    jobs_to_insert.append(job_data)

print(f"準備寫入 {len(jobs_to_insert)} 筆職缺資料")
if jobs_without_company > 0:
    print(f"⚠️  跳過 {jobs_without_company} 筆沒有對應公司的職缺")

# 5. 批次寫入職缺資料
print("\n【步驟 5】批次寫入職缺資料...")
print("-" * 60)

batch_size = 100
total_jobs_inserted = 0
total_jobs_errors = 0

for i in range(0, len(jobs_to_insert), batch_size):
    batch = jobs_to_insert[i:i+batch_size]
    try:
        result = supabase.table('job_posting').insert(batch).execute()
        inserted_count = len(result.data) if result.data else len(batch)
        total_jobs_inserted += inserted_count
        print(f"  批次 {i//batch_size + 1}: 寫入 {inserted_count} 筆職缺")
    except Exception as e:
        total_jobs_errors += len(batch)
        print(f"  ✗ 批次 {i//batch_size + 1} 寫入失敗: {e}")
        # 如果批次插入失敗，嘗試逐筆插入
        for job in batch:
            try:
                result = supabase.table('job_posting').insert(job).execute()
                if result.data:
                    total_jobs_inserted += 1
                    total_jobs_errors -= 1
            except Exception as e2:
                print(f"    ✗ 職缺 '{job.get('job_title', 'Unknown')}' 寫入失敗: {e2}")

print(f"\n✓ 職缺資料寫入完成: 成功 {total_jobs_inserted} 筆, 失敗 {total_jobs_errors} 筆")

# 6. 驗證寫入結果
print("\n【步驟 6】驗證寫入結果...")
print("-" * 60)

try:
    # 查詢公司數量
    company_result = supabase.table('company_info').select('company_id', count='exact').execute()
    print(f"✓ 資料庫中的公司數: {company_result.count}")
    
    # 查詢職缺數量
    job_result = supabase.table('job_posting').select('job_id', count='exact').execute()
    print(f"✓ 資料庫中的職缺數: {job_result.count}")
    
    # 顯示前 3 筆職缺
    sample_jobs = supabase.table('job_posting').select('job_id, job_title, company_id').limit(3).execute()
    print(f"\n【前 3 筆職缺範例】")
    for job in sample_jobs.data:
        print(f"  ID: {job['job_id']}, 職缺: {job['job_title']}, 公司ID: {job['company_id']}")
        
except Exception as e:
    print(f"✗ 驗證失敗: {e}")

print("\n" + "=" * 60)
print("✓ 階段七完成！資料已成功寫入 Supabase 資料庫")
print("=" * 60)

階段七：寫入 Supabase 資料庫

【步驟 1】連線到 Supabase...
------------------------------------------------------------
✓ Supabase 連線成功！資料庫中現有 1 筆公司資料（測試查詢）
✓ Supabase 連線成功

【步驟 2】準備公司資料...
------------------------------------------------------------
準備寫入 4238 家公司資料

【步驟 3】批次寫入公司資料...
------------------------------------------------------------
  批次 1: 新增 0 家公司，總共 100 家公司已建立對應
  批次 2: 新增 0 家公司，總共 200 家公司已建立對應
  批次 3: 新增 0 家公司，總共 300 家公司已建立對應
  批次 4: 新增 0 家公司，總共 400 家公司已建立對應
  批次 5: 新增 0 家公司，總共 500 家公司已建立對應
  批次 6: 新增 0 家公司，總共 600 家公司已建立對應
  批次 7: 新增 0 家公司，總共 700 家公司已建立對應
  批次 8: 新增 0 家公司，總共 800 家公司已建立對應
  批次 9: 新增 0 家公司，總共 900 家公司已建立對應
  批次 10: 新增 0 家公司，總共 1000 家公司已建立對應
  批次 11: 新增 0 家公司，總共 1100 家公司已建立對應
  批次 12: 新增 0 家公司，總共 1200 家公司已建立對應
  批次 13: 新增 0 家公司，總共 1300 家公司已建立對應
  批次 14: 新增 0 家公司，總共 1400 家公司已建立對應
  批次 15: 新增 0 家公司，總共 1500 家公司已建立對應
  批次 16: 新增 0 家公司，總共 1600 家公司已建立對應
  批次 17: 新增 0 家公司，總共 1700 家公司已建立對應
  批次 18: 新增 0 家公司，總共 1800 家公司已建立對應
  批次 19: 新增 0 家公司，總共 1900 家公司已建立對應
  批次 20: 新增 0 家公司，總共 2