In [2]:
import os, json, torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

base_dir = os.path.dirname(os.path.abspath(__file__))
device   = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 숫자→문자 레이블 맵 (필요하시면 사용)
label_map = {
    0: "졸업요건",
    1: "학교 공지사항",
    2: "학사일정",
    3: "식단 안내",
    4: "통학/셔틀 버스",
}

# 토크나이저·모델 로드
model_dir = os.path.join(base_dir, "roberta")
tokenizer = AutoTokenizer.from_pretrained(model_dir)
model     = AutoModelForSequenceClassification.from_pretrained(model_dir)
model.to(device).eval()

# 테스트 데이터 로드 (question + true label)
test_path = os.path.join(base_dir, "data", "cls_test.json")
with open(test_path, "r", encoding="utf-8") as f:
    samples = json.load(f)

outputs = []
correct = 0

for entry in samples:
    text    = entry["question"]
    true_id = int(entry["label"])    #  실제 정답

    # 토크나이징
    inputs = tokenizer(
        text,
        return_tensors="pt",
        truncation=True,
        padding=True,
        max_length=128
    ).to(device)

    # 순전파
    with torch.no_grad():
        logits = model(**inputs).logits

    # 예측 ID
    pred_id = int(logits.argmax(dim=-1).cpu())

    if pred_id == true_id:
        correct += 1
    # 출력용 리스트에 저장
    outputs.append({
        "question":  text,
        "label": pred_id
    })

total = len(samples)
accuracy = correct / total if total > 0 else 0.0

# 결과 저장
out_path = os.path.join(base_dir, "outputs","cls_output.json")
with open(out_path, "w", encoding="utf-8") as f:
    json.dump(outputs, f, ensure_ascii=False, indent=2)

# 정확도 출력
print(f">>> {total}건 예측 완료 → {out_path}")
print(f">>> 정확도: {correct}/{total} = {accuracy*100:.2f}%")


NameError: name '__file__' is not defined