In [2]:
import pandas as pd
from sentence_transformers import SentenceTransformer
import numpy as np

# 테스트 데이터 로드
test_file = "../../data/test.csv"  # 실제 test.csv 경로 설정
test_df = pd.read_csv(test_file)

# 모든 정답을 동일한 문장으로 설정
fixed_answer = "작업자 안전교육 실시를 통한 재발 방지 대책 및 향후 조치 계획"
test_results = [fixed_answer] * len(test_df)

# 1. 임베딩 생성 (한 번만 수행)
print("단일 문장 임베딩 생성 중...")

embedding_model_name = "jhgan/ko-sbert-sts"
embedding_model = SentenceTransformer(embedding_model_name)

# 단일 문장에 대한 임베딩 생성 (한 번만 수행)
single_embedding = embedding_model.encode(fixed_answer).reshape(1, -1)

# 동일한 벡터를 전체 데이터 개수만큼 복제
pred_embeddings = np.repeat(single_embedding, len(test_df), axis=0)

print(f"임베딩 생성 완료! Shape: {pred_embeddings.shape}")  # (샘플 개수, 768)

# 2. 샘플 Submission 파일 로드
submission_file = "../../data/sample_submission.csv"
submission = pd.read_csv(submission_file, encoding="utf-8-sig")

# 3. 정답 컬럼 채우기
submission.iloc[:, 1] = test_results  # 모든 정답을 동일한 문장으로 설정

# 4. 임베딩 값을 채우기 (numpy 배열 → DataFrame 변환 후 삽입)
embedding_df = pd.DataFrame(pred_embeddings, columns=[f"embedding_{i}" for i in range(pred_embeddings.shape[1])])
submission.iloc[:, 2:] = embedding_df.values

# 5. 최종 결과 저장
output_file = "./fake_submission.csv"
submission.to_csv(output_file, index=False, encoding="utf-8-sig")

print(f"테스트용 submission 파일 생성 완료 → {output_file}")


단일 문장 임베딩 생성 중...
임베딩 생성 완료! Shape: (964, 768)
테스트용 submission 파일 생성 완료 → ./fake_submission.csv
