In [1]:
import pandas as pd
from collections import defaultdict
import numpy as np

In [2]:
# --------------------------
# 1. 스케줄 파서 함수
# --------------------------
def parse_schedule(text):
    schedule = defaultdict(list)
    for line in text.strip().split('\n'):
        parts = line.strip().split()
        if len(parts) < 4:
            continue
        item = parts[0].replace('??', '')
        machine = parts[1]
        date = int(parts[2].replace('date', ''))
        qty = int(parts[3])
        schedule[item].append((machine, date, qty))
    return dict(schedule)

In [3]:
# --------------------------
# 2. 구조적 유사도 (F1)
# --------------------------
def structural_similarity(gt, pred):
    gt_set = set((item, m, d) for item in gt for m, d, _ in gt[item])
    pred_set = set((item, m, d) for item in pred for m, d, _ in pred[item])
    
    tp = len(gt_set & pred_set)
    fp = len(pred_set - gt_set)
    fn = len(gt_set - pred_set)
    
    precision = tp / (tp + fp + 1e-6)
    recall = tp / (tp + fn + 1e-6)
    f1 = 2 * precision * recall / (precision + recall + 1e-6)
    
    return f1, precision, recall

In [4]:
# --------------------------
# 3. 목적함수 (기계 부하 분산)
#  - 기계별로 작업량(qty)이 균등하게 분배되는 것
# --------------------------
def machine_load_variance(schedule):
    machine_loads = defaultdict(int)
    for ops in schedule.values():
        for m, _, qty in ops:
            machine_loads[m] += qty
    loads = list(machine_loads.values())
    return np.std(loads)

In [5]:
# --------------------------
# 4. 종합 점수 계산
# --------------------------
def combined_score(f1, gt_std, pred_std, alpha=0.5):
    eps = 1e-6
    variance_score = max(0.0, 1 - (pred_std - gt_std) / (gt_std + eps))
    return alpha * f1 + (1 - alpha) * variance_score, variance_score

In [6]:
# --------------------------
# 5. CSV 파일 읽고 평가
# --------------------------
def evaluate_from_csv(csv_path):
    df = pd.read_csv(csv_path)
    total_f1, total_var_score, total_final = 0, 0, 0

    for i, row in df.iterrows():
        pred = parse_schedule(row['output'])
        gt = parse_schedule(row['gt'])

        f1, _, _ = structural_similarity(gt, pred)
        gt_std = machine_load_variance(gt)
        pred_std = machine_load_variance(pred)
        final_score, var_score = combined_score(f1, gt_std, pred_std)

        print(f"\n 샘플 {i+1}")
        print(f" - F1 구조 유사도      : {f1:.4f}")
        print(f" - 부하 분산 점수       : {var_score:.4f}")
        print(f" - 최종 종합 점수       : {final_score:.4f}")

        total_f1 += f1
        total_var_score += var_score
        total_final += final_score

    n = len(df)
    print("\n==========================")
    print(f"전체 평균 F1 점수       : {total_f1 / n:.4f}")
    print(f"전체 평균 부하 점수     : {total_var_score / n:.4f}")
    print(f"전체 평균 종합 점수     : {total_final / n:.4f}")
    print("==========================")

In [7]:
# --------------------------
# 6. 실행
# --------------------------
evaluate_from_csv('infilling_gt.csv')


 샘플 1
 - F1 구조 유사도      : 0.0000
 - 부하 분산 점수       : 1.4334
 - 최종 종합 점수       : 0.7167

전체 평균 F1 점수       : 0.0000
전체 평균 부하 점수     : 1.4334
전체 평균 종합 점수     : 0.7167
