In [1]:
import os, sys, builtins, logging

# repo 루트 기준으로 utils 임포트 가능하도록 경로 추가
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), '..')))

from utils.logging_setup import setup_logging

# UTF-8 파일 핸들러로 로그 초기화 (logs/{timestamp}.log)
# print를 직접 로거로 보낼 것이므로 redirect_prints는 False
setup_logging(force=True, redirect_prints=False)

# print를 로거로 보내되, 기존 콘솔 출력도 유지
_original_print = builtins.print

def print(*args, **kwargs):  # noqa: A001 (shadow builtins)
    message = " ".join(str(a) for a in args)
    logging.info(message)
    try:
        _original_print(*args, **kwargs)
    except Exception:
        # 콘솔 출력 실패 시에도 로깅은 유지
        pass

# Hybrid Search Test (Query)




## OpenAI & prompt 설정

In [3]:
# OpenAI API 설정 및 라이브러리 import
from openai import OpenAI
import os, sys
from typing import List, Dict
import dotenv
import sys

# 프로젝트 루트 디렉토리를 Python 경로에 추가
project_root = os.path.abspath(os.path.join(os.getcwd(), '..'))
if project_root not in sys.path:
    sys.path.append(project_root)


dotenv.load_dotenv()

True

In [4]:
# openai 설정

# API 키 설정 (환경변수에서 가져오기)
client = OpenAI(
    api_key=os.getenv("OPENAI_API_KEY")  # 환경변수에 API 키를 설정해주세요
)


response_format = {
    "type": "json_schema",          # JSON 스키마 강제 모드
    "json_schema": {
        "name": "translate_result",
        "schema": {
            "type": "object",
            "properties": {
                "translated": { "type": "string" },
                "mongo_query": {
                    "type": "array",
                    "minItems": 1,
                    # 각 stage는 자유형 객체로 허용(예: {"$search": {...}}, {"$project": {...}})
                    "items": {
                        "type": "object",
                        "additionalProperties": True
                    }
                }
            },
            "required": ["translated", "mongo_query"],
            "additionalProperties": False
        }
    },
    # 스키마를 더 엄격히 따르게 함(모델이 스키마 밖 형식을 내보내지 않도록)
    "strict": True
}

def chat(
    messages: List[Dict[str, str]], 
    model: str = "gpt-4o-mini",
    response_format: dict = None,
    **kwargs
) -> str:
    """
    OpenAI GPT-4o-mini API를 사용하여 채팅 완성을 수행합니다.
    
    Args:
        messages: 대화 메시지 리스트 [{"role": "user", "content": "메시지"}]
        model: 사용할 모델명 (기본값: gpt-4o-mini)
        **kwargs: OpenAI API 매개변수들
            - temperature: 창의성 조절 (0.0-2.0, 기본값: 0.7)
            - max_tokens: 최대 토큰 수 (기본값: 1000)
            - top_p: 확률 임계값 (기본값: 0.95)
            - frequency_penalty: 빈도 페널티 (기본값: 0.0)
            - presence_penalty: 존재 페널티 (기본값: 0.0)
            - stream: 스트리밍 여부 (기본값: False)
            - 기타 OpenAI API가 지원하는 모든 매개변수
        
    Returns:
        GPT 응답 텍스트
    """
    # 기본값 설정
    default_params = {
        "temperature": 0.1,
        "max_tokens": 2048,
        "top_p": 0.95,
        "frequency_penalty": 0.0,
        "presence_penalty": 0.0
    }
    
    # 기본값과 사용자 입력 병합
    params = {**default_params, **kwargs}
    
    try:
        response = client.chat.completions.create(
            model=model,
            messages=messages,
            response_format=response_format,
            **params
        )
        
        return response.choices[0].message.content
        
    except Exception as e:
        print(f"API 호출 중 오류 발생: {e}")
        return None


In [5]:
# MongoDB 연결 테스트
import json
import os
import pymongo
from pymongo import MongoClient

print("=" * 50)
print("MongoDB 연결 테스트 시작")
print("=" * 50)

# 설정 파일 로드
with open('../configs/config.json', 'r', encoding='utf-8') as f:
    config = json.load(f)

# MongoDB 클라이언트 연결
mongodb_client = MongoClient(os.getenv("MONGODB_URI"))
print("🔗 MongoDB 클라이언트 연결 완료")

try:
    # 연결 상태 확인
    mongodb_client.admin.command('ping')
    print("✅ MongoDB 연결 성공!")
    
    # 서버 정보 가져오기
    server_info = mongodb_client.server_info()
    print(f"📊 MongoDB 버전: {server_info['version']}")
    
    # 데이터베이스 목록 확인
    db_list = mongodb_client.list_database_names()
    print(f"📁 사용 가능한 데이터베이스: {db_list}")
    
    # 현재 데이터베이스 정보
    current_db = mongodb_client[config['path']['db_name']]
    print(f"🎯 현재 데이터베이스: {config['path']['db_name']}")
    
    # 컬렉션 목록 확인
    collections = current_db.list_collection_names()
    print(f"📋 컬렉션 목록: {collections}")
    
    # 타겟 컬렉션 확인
    target_collection = current_db[config['path']['collection_name']]
    print(f"🎯 타겟 컬렉션: {config['path']['collection_name']}")
    
    # 컬렉션 통계 정보
    stats = current_db.command("collStats", config['path']['collection_name'])
    print(f"📈 문서 개수: {stats['count']:,}")
    print(f"💾 컬렉션 크기: {stats['size']:,} bytes ({stats['size']/1024/1024:.2f} MB)")
    
    # 샘플 문서 확인
    sample_doc = target_collection.find_one()
    if sample_doc:
        print(f"📄 샘플 문서 키: {list(sample_doc.keys())}")
        print(f"📄 샘플 문서 ID: {sample_doc.get('_id', 'N/A')}")
    else:
        print("⚠️ 컬렉션에 문서가 없습니다.")
    
    # 인덱스 정보 확인
    indexes = target_collection.list_indexes()
    print(f"🔍 인덱스 정보:")
    for idx in indexes:
        print(f"   - {idx['name']}: {idx['key']}")
    
    print("=" * 50)
    print("✅ MongoDB 연결 테스트 완료!")
    print("=" * 50)
    
except pymongo.errors.ConnectionFailure as e:
    print(f"❌ MongoDB 연결 실패: {e}")
except pymongo.errors.ServerSelectionTimeoutError as e:
    print(f"❌ 서버 선택 타임아웃: {e}")
except Exception as e:
    print(f"❌ 예상치 못한 오류: {e}")


MongoDB 연결 테스트 시작
🔗 MongoDB 클라이언트 연결 완료
✅ MongoDB 연결 성공!
📊 MongoDB 버전: 8.0.14
📁 사용 가능한 데이터베이스: ['HelloWorld-AI', 'admin', 'local']
🎯 현재 데이터베이스: HelloWorld-AI
📋 컬렉션 목록: ['foreigner_legalQA_v2', 'foreigner_legal_test', 'foreigner_legalQA', 'foreigner_legalQA_v3']
🎯 타겟 컬렉션: foreigner_legalQA_v3
📈 문서 개수: 867
💾 컬렉션 크기: 37,616,750 bytes (35.87 MB)
📄 샘플 문서 키: ['_id', 'title', 'contents', 'url', 'Embedding']
📄 샘플 문서 ID: 689b3a86ffd306c1cd3c0679
🔍 인덱스 정보:
   - _id_: SON([('_id', 1)])
   - title_text: SON([('_fts', 'text'), ('_ftsx', 1)])
✅ MongoDB 연결 테스트 완료!


## 번역 & 쿼리 추출 생성

In [6]:
# CSV 파일 불러오기 및 데이터프레임 생성
import pandas as pd

# CSV 파일 불러오기
query_df = pd.read_csv('../data/helloworld_test_query.csv')
print(f"불러온 데이터 개수: {len(query_df)}")
print("\n데이터프레임 컬럼:")
print(query_df.columns.tolist())
print("\n첫 3개 행:")
print(query_df.head(3))


불러온 데이터 개수: 20

데이터프레임 컬럼:
['query', 'translated_query', '언어', 'ground_truth_id', 'category', 'source', '작성자', '비고', '소스']

첫 3개 행:
                                               query  \
0  제 여자친구가 단속으로 출입국 보호소에 있습니다. 월급이 아직 들어오지 않았는데, ...   
1  안녕하세요, 건설 현장에서 일하고 있는 사람인데, 사장님이 월급을 안줘서 계좌가 압...   
2  안녕하세요, 저는 필리핀에서 온 노동자입니다. 5년 동안 근무를 하고 이제 제 나라...   

                                    translated_query            언어  \
0  แฟนของผมถูกจับกุมและอยู่ที่ศูนย์กักตัวตรวจคนเข...           태국어   
1     你好，我是在建筑工地工作的，但老板没有发工资，我的账户可能会被查封。遇到这种情况该怎么办呢？           중국어   
2  Magandang araw, ako ay isang manggagawang mula...  필리핀어 (타갈로그어)   

                                     ground_truth_id category  \
0  ['689b3a86ffd306c1cd3c09a4', '689b3a86ffd306c1...     임금체불   
1  ['689b3a86ffd306c1cd3c06e8', '689b3a86ffd306c1...     임금체불   
2                       ['689b3a86ffd306c1cd3c09a4']     임금체불   

            source  작성자                                       비고  \
0  경기도외국인지원센터_상담사례  황예원          

In [7]:
# 번역 프롬프트 가져오기
from prompts.prompts import load_prompt

translate_prompt = load_prompt("query_translate")
print("번역 프롬프트 로드 완료")

# 번역 함수 정의
def translate_query(query_text):
    """번역 쿼리를 GPT-4o-mini로 번역하여 JSON 응답을 받는다"""
    messages = [
        {"role": "system", "content": translate_prompt},
        {"role": "user", "content": query_text}
    ]
    
    try:
        response = chat(messages)
        result = json.loads(response)
        return result
    except Exception as e:
        print(f"번역 오류: {e}")
        return None


번역 프롬프트 로드 완료


In [8]:
# 모든 쿼리 처리
from tqdm import tqdm
import time

# 결과를 저장할 리스트
all_results = []
translated_results = []
query_results = []

print(f"총 {len(query_df)}개의 쿼리를 처리합니다...")

# 각 쿼리 처리
for idx, row in tqdm(query_df.iterrows(), total=len(query_df), desc="번역 진행"):
    query_text = row['translated_query']
    
    # 번역 수행
    result = translate_query(query_text)
    
    if result is not None:
        # 전체 결과 저장
        all_results.append(result)
        
        # 개별 필드 저장
        translated_results.append(result.get('translated', ''))
        query_results.append(result.get('mongo_query', []))
        
        print(f"[{idx+1}/{len(query_df)}] 완료: {result.get('translated', '')[:50]}...")
    else:
        # 오류 발생 시 빈 값 추가
        all_results.append(None)
        translated_results.append('')
        query_results.append([])
        print(f"[{idx+1}/{len(query_df)}] 오류 발생")
    
    # API 호출 제한을 위한 잠시 대기
    time.sleep(0.5)

print(f"\n번역 완료! 총 {len([r for r in all_results if r is not None])}개 성공")
print(f"오류 발생: {len([r for r in all_results if r is None])}개")


총 20개의 쿼리를 처리합니다...


번역 진행:   0%|          | 0/20 [00:00<?, ?it/s]

[1/20] 완료: 제 여자친구가 체포되어 이민 구금 센터에 있습니다. 지금 급여를 받지 못하고 있는데, 태국...


번역 진행:   5%|▌         | 1/20 [00:07<02:14,  7.07s/it]

[2/20] 완료: 저는 건설 현장에서 일하고 있지만, 사장이 급여를 지급하지 않았습니다. 제 계좌가 압류될 ...


번역 진행:  10%|█         | 2/20 [00:14<02:09,  7.18s/it]

[3/20] 완료: 안녕하세요, 저는 필리핀에서 온 근로자입니다. 5년 동안 일했으며 이제 제 나라로 돌아가고...


번역 진행:  15%|█▌        | 3/20 [00:21<02:03,  7.25s/it]

[4/20] 완료: 제가 직장 변경을 신청한 후, 불법 체류자가 될 수 있다는 편지를 받았습니다. 8월 22일...


번역 진행:  20%|██        | 4/20 [00:30<02:03,  7.74s/it]

[5/20] 완료: 저는 중간에 퇴사했지만, 소득세 체납 때문에 비자를 연장할 수 없습니다. 관련 통지 내용을...


번역 진행:  25%|██▌       | 5/20 [00:38<01:59,  8.00s/it]

[6/20] 완료: 회사가 갑자기 더 이상 출근하지 말라고 해서, 제가 체류 자격을 잃을 수 있습니다. 어떻게...


번역 진행:  30%|███       | 6/20 [00:45<01:48,  7.77s/it]

[7/20] 완료: 저는 건설 산업에서 일하는 외국인 노동자입니다. 어떤 경우에 작업 중 사고로 간주되는지 알...


번역 진행:  35%|███▌      | 7/20 [00:52<01:36,  7.40s/it]

[8/20] 완료: 안녕하세요, 저는 베트남에 거주하는 교포입니다. 이번에 특별 노동 허가 제도를 통해 한국에...


번역 진행:  40%|████      | 8/20 [00:59<01:28,  7.38s/it]

[9/20] 완료: H-2 비자를 가지고 있는데, 현재 고용주를 떠나 다른 직장으로 옮길 수 있는지 궁금합니다...


번역 진행:  45%|████▌     | 9/20 [01:07<01:20,  7.34s/it]

[10/20] 완료: 고용주가 지속적으로 급여를 체불하고 있어 저는 직장을 옮기고 싶습니다....


번역 진행:  50%|█████     | 10/20 [01:15<01:16,  7.68s/it]

[11/20] 완료: 실업급여를 받고 있는 중에 조기 재취업을 하면 '조기 재취업 수당'을 받을 수 있다고 들었...


번역 진행:  55%|█████▌    | 11/20 [01:23<01:08,  7.61s/it]

[12/20] 완료: E9 비전 소지 비전문 외국인 노동자가 근무하는 사업장이 폐업하거나 임금 체불 등의 이유로...


번역 진행:  60%|██████    | 12/20 [01:29<00:58,  7.37s/it]

[13/20] 완료: 고용 계약이 종료된 후, 새로운 직장을 찾고 싶다면 언제까지 고용 센터에 신청서를 제출해야...


번역 진행:  65%|██████▌   | 13/20 [01:37<00:52,  7.49s/it]

[14/20] 완료: E-9 비자를 가진 외국인 노동자가 근무 조건이 노동 계약과 다르다고 주장할 경우, 이는 ...


번역 진행:  70%|███████   | 14/20 [01:44<00:44,  7.38s/it]

[15/20] 완료: 비자 만료 전에 연장을 신청하고 싶습니다. 어떤 기관에 가야 하며 온라인으로도 신청할 수 ...


번역 진행:  75%|███████▌  | 15/20 [01:53<00:39,  7.86s/it]

[16/20] 완료: 만약 세금이나 건강 보험 기여금이 미납된 경우 비자를 갱신할 수 있나요? 그리고 만약 채무...


번역 진행:  80%|████████  | 16/20 [02:02<00:32,  8.11s/it]

[17/20] 완료: 이 과정에서 부상을 입고 병원에서 치료를 받아야 하는 경우, 만약 고용주가 산업재해 보험에...


번역 진행:  85%|████████▌ | 17/20 [02:11<00:24,  8.31s/it]

[18/20] 완료: 근무 중 전염병에 감염되었을 때, 이를 직업병으로 인정하기 위해 어떤 기준이 사용되나요?...


번역 진행:  90%|█████████ | 18/20 [02:19<00:16,  8.23s/it]

[19/20] 완료: 출국 만기 보험금을 신청하려면 어떤 자격 조건을 충족해야 하나요? 언제부터 신청할 수 있나...


번역 진행:  95%|█████████▌| 19/20 [02:26<00:07,  7.82s/it]

[20/20] 완료: 내 고국으로 돌아갈 때, 언제부터 귀국 비용 보험을 신청할 수 있으며, 어떤 서류를 준비해...


번역 진행: 100%|██████████| 20/20 [02:33<00:00,  7.68s/it]


번역 완료! 총 20개 성공
오류 발생: 0개





In [9]:
# 결과 저장
import datetime

# 1. JSONL 파일로 전체 결과 저장
timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
jsonl_filename = f"../data/translation_query_results_{timestamp}.jsonl"

print(f"JSONL 파일 저장: {jsonl_filename}")

with open(jsonl_filename, 'w', encoding='utf-8') as f:
    for result in all_results:
        if result is not None:
            f.write(json.dumps(result, ensure_ascii=False) + '\n')
        else:
            f.write(json.dumps({"error": "translation_failed"}, ensure_ascii=False) + '\n')

print(f"JSONL 파일 저장 완료: {len(all_results)}개 레코드")

# 2. 데이터프레임에 새 컬럼 추가
query_df['translated_4o_mini'] = translated_results
query_df['mongo_query_4o_mini'] = query_results

print("\n데이터프레임 새 컬럼 추가 완료:")
print(f"- translated_4o_mini: {len(translated_results)}개")
print(f"- mongo_query_4o_mini: {len(query_results)}개")

# 3. 업데이트된 CSV 저장
updated_csv_filename = f"../data/helloworld_test_query_with_translation_query_{timestamp}.csv"
query_df.to_csv(updated_csv_filename, index=False, encoding='utf-8')

print(f"\n업데이트된 CSV 파일 저장: {updated_csv_filename}")


JSONL 파일 저장: ../data/translation_query_results_20250930_191253.jsonl
JSONL 파일 저장 완료: 20개 레코드

데이터프레임 새 컬럼 추가 완료:
- translated_4o_mini: 20개
- mongo_query_4o_mini: 20개

업데이트된 CSV 파일 저장: ../data/helloworld_test_query_with_translation_query_20250930_191253.csv


In [10]:
query_df[['query', 'translated_4o_mini', 'mongo_query_4o_mini']]
query_df.head()

Unnamed: 0,query,translated_query,언어,ground_truth_id,category,source,작성자,비고,소스,translated_4o_mini,mongo_query_4o_mini
0,"제 여자친구가 단속으로 출입국 보호소에 있습니다. 월급이 아직 들어오지 않았는데, ...",แฟนของผมถูกจับกุมและอยู่ที่ศูนย์กักตัวตรวจคนเข...,태국어,"['689b3a86ffd306c1cd3c09a4', '689b3a86ffd306c1...",임금체불,경기도외국인지원센터_상담사례,황예원,,https://gmhr.or.kr/case/1529?sca=%EC%9E%84%EA%...,제 여자친구가 체포되어 이민 구금 센터에 있습니다. 지금 급여를 받지 못하고 있는데...,"[{'$search': {'index': 'text', 'compound': {'s..."
1,"안녕하세요, 건설 현장에서 일하고 있는 사람인데, 사장님이 월급을 안줘서 계좌가 압...",你好，我是在建筑工地工作的，但老板没有发工资，我的账户可能会被查封。遇到这种情况该怎么办呢？,중국어,"['689b3a86ffd306c1cd3c06e8', '689b3a86ffd306c1...",임금체불,경기도외국인지원센터_상담사례,황예원,"임금체불 및 ""압류방지 통장"" (=임금채권 전용통장) 관련 데이터 필요",https://gmhr.or.kr/case/1493?sca=%EC%9E%84%EA%...,"저는 건설 현장에서 일하고 있지만, 사장이 급여를 지급하지 않았습니다. 제 계좌가 ...","[{'$search': {'index': 'text', 'compound': {'s..."
2,"안녕하세요, 저는 필리핀에서 온 노동자입니다. 5년 동안 근무를 하고 이제 제 나라...","Magandang araw, ako ay isang manggagawang mula...",필리핀어 (타갈로그어),['689b3a86ffd306c1cd3c09a4'],임금체불,경기도외국인지원센터_상담사례,황예원,체당금 관련 데이터 필요,https://gmhr.or.kr/case/1667?sca=%EC%9E%84%EA%...,"안녕하세요, 저는 필리핀에서 온 근로자입니다. 5년 동안 일했으며 이제 제 나라로 ...","[{'$search': {'index': 'text', 'compound': {'s..."
3,사업장 변경 신청 이후 제가 불법체류자가 될 수 있다는 우편이 날아왔어요. 8월 2...,在申请变更工作单位之后，我收到了一封信，说我可能会变成非法滞留者。只被允许停留到8月22日，...,중국어,"['689b3a86ffd306c1cd3c0680', '689b3a86ffd306c1...",체류자격,경기도외국인지원센터_상담사례,황예원,,https://gmhr.or.kr/case/1679?sca=%EC%B2%B4%EB%...,"제가 직장 변경을 신청한 후, 불법 체류자가 될 수 있다는 편지를 받았습니다. 8월...","[{'$search': {'index': 'text', 'compound': {'s..."
4,"제가 중간에 퇴직을 하게 되었는데, 소득세가 체납되어 비자 연장이 안된대요. 그런데...",我中途离职了，但是因为拖欠所得税，签证无法延期。可是我听不懂相关的通知内容。,중국어,"['689b3a86ffd306c1cd3c08f8', '689b3a86ffd306c1...",체류자격,경기도외국인지원센터_상담사례,황예원,,https://gmhr.or.kr/case/1703?sca=%EC%B2%B4%EB%...,"저는 중간에 퇴사했지만, 소득세 체납 때문에 비자를 연장할 수 없습니다. 관련 통지...","[{'$search': {'index': 'text', 'compound': {'s..."


In [11]:
for i, row in query_df.iterrows():
    print(row['query'])
    print(row['translated_4o_mini'])
    print(row['mongo_query_4o_mini'])
    print('-'*100)

제 여자친구가 단속으로 출입국 보호소에 있습니다. 월급이 아직 들어오지 않았는데, 태국으로 가버리면 밀린 월급은 어떻게 받죠..
제 여자친구가 체포되어 이민 구금 센터에 있습니다. 지금 급여를 받지 못하고 있는데, 태국으로 돌아가야 한다면 밀린 급여를 어떻게 받을 수 있을까요?
[{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['임금체불', '체불임금', '급여 미지급', '임금 청구'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '임금 체불', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
----------------------------------------------------------------------------------------------------
안녕하세요, 건설 현장에서 일하고 있는 사람인데, 사장님이 월급을 안줘서 계좌가 압류될 것 같습니다. 이런 경우 어떻게 해야 하나요?
저는 건설 현장에서 일하고 있지만, 사장이 급여를 지급하지 않았습니다. 제 계좌가 압류될 수 있는 상황인데, 이런 경우 어떻게 해야 하나요?
[{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['임금체불', '급여 미지급', '계좌 압류', '임금 

# [실험2] 쿼리 기반 검색

In [12]:
import os, sys
import pandas as pd

# 프로젝트 루트 디렉토리를 Python 경로에 추가
project_root = os.path.abspath(os.path.join(os.getcwd(), '..'))
if project_root not in sys.path:
    sys.path.append(project_root)

query_df = pd.read_csv("../data/helloworld_test_query_with_translation_query_20250930_191253.csv")
query_df.head()

Unnamed: 0,query,translated_query,언어,ground_truth_id,category,source,작성자,비고,소스,translated_4o_mini,mongo_query_4o_mini
0,"제 여자친구가 단속으로 출입국 보호소에 있습니다. 월급이 아직 들어오지 않았는데, ...",แฟนของผมถูกจับกุมและอยู่ที่ศูนย์กักตัวตรวจคนเข...,태국어,"['689b3a86ffd306c1cd3c09a4', '689b3a86ffd306c1...",임금체불,경기도외국인지원센터_상담사례,황예원,,https://gmhr.or.kr/case/1529?sca=%EC%9E%84%EA%...,제 여자친구가 체포되어 이민 구금 센터에 있습니다. 지금 급여를 받지 못하고 있는데...,"[{'$search': {'index': 'text', 'compound': {'s..."
1,"안녕하세요, 건설 현장에서 일하고 있는 사람인데, 사장님이 월급을 안줘서 계좌가 압...",你好，我是在建筑工地工作的，但老板没有发工资，我的账户可能会被查封。遇到这种情况该怎么办呢？,중국어,"['689b3a86ffd306c1cd3c06e8', '689b3a86ffd306c1...",임금체불,경기도외국인지원센터_상담사례,황예원,"임금체불 및 ""압류방지 통장"" (=임금채권 전용통장) 관련 데이터 필요",https://gmhr.or.kr/case/1493?sca=%EC%9E%84%EA%...,"저는 건설 현장에서 일하고 있지만, 사장이 급여를 지급하지 않았습니다. 제 계좌가 ...","[{'$search': {'index': 'text', 'compound': {'s..."
2,"안녕하세요, 저는 필리핀에서 온 노동자입니다. 5년 동안 근무를 하고 이제 제 나라...","Magandang araw, ako ay isang manggagawang mula...",필리핀어 (타갈로그어),['689b3a86ffd306c1cd3c09a4'],임금체불,경기도외국인지원센터_상담사례,황예원,체당금 관련 데이터 필요,https://gmhr.or.kr/case/1667?sca=%EC%9E%84%EA%...,"안녕하세요, 저는 필리핀에서 온 근로자입니다. 5년 동안 일했으며 이제 제 나라로 ...","[{'$search': {'index': 'text', 'compound': {'s..."
3,사업장 변경 신청 이후 제가 불법체류자가 될 수 있다는 우편이 날아왔어요. 8월 2...,在申请变更工作单位之后，我收到了一封信，说我可能会变成非法滞留者。只被允许停留到8月22日，...,중국어,"['689b3a86ffd306c1cd3c0680', '689b3a86ffd306c1...",체류자격,경기도외국인지원센터_상담사례,황예원,,https://gmhr.or.kr/case/1679?sca=%EC%B2%B4%EB%...,"제가 직장 변경을 신청한 후, 불법 체류자가 될 수 있다는 편지를 받았습니다. 8월...","[{'$search': {'index': 'text', 'compound': {'s..."
4,"제가 중간에 퇴직을 하게 되었는데, 소득세가 체납되어 비자 연장이 안된대요. 그런데...",我中途离职了，但是因为拖欠所得税，签证无法延期。可是我听不懂相关的通知内容。,중국어,"['689b3a86ffd306c1cd3c08f8', '689b3a86ffd306c1...",체류자격,경기도외국인지원센터_상담사례,황예원,,https://gmhr.or.kr/case/1703?sca=%EC%B2%B4%EB%...,"저는 중간에 퇴사했지만, 소득세 체납 때문에 비자를 연장할 수 없습니다. 관련 통지...","[{'$search': {'index': 'text', 'compound': {'s..."


In [13]:
# 키워드 기반 하이브리드 검색 모델 평가
from Azure.query_model import ChatModel
from dotenv import load_dotenv
import json

# 환경 설정
load_dotenv()

# 설정 파일 로드
with open('../configs/config.json', 'r', encoding='utf-8') as f:
    config = json.load(f)

# 키워드 모델 인스턴스 생성
query_chat_model = ChatModel(config)

print("쿼리 기반 하이브리드 검색 모델 설정 완료")

# 키워드 기반 검색 함수
def get_query_model_response_with_docs(query_text, mongo_query):
    """
    키워드 기반 하이브리드 검색 모델로부터 답변을 생성하고 검색된 문서들의 인덱스를 반환
    """
    try:
        # 빈 대화 히스토리로 시작
        conversation_history = []
        
        # 키워드 기반 모델 답변 생성
        response = query_chat_model.generate_ai_response(
            conversation_history, 
            query_text, 
            target_collection, 
            mongo_query=mongo_query
        )
        
        return {
            "answer": response["answer"],
            "retrieved_doc_ids": response["retrieved_doc_ids"],
            "retrieved_docs": response["retrieved_docs"]
        }
        
    except Exception as e:
        print(f"오류 발생: {e}")
        return {
            "answer": "",
            "retrieved_doc_ids": [],
            "retrieved_docs": []
        }

print("쿼리 기반 검색 함수 정의 완료")


쿼리 기반 하이브리드 검색 모델 설정 완료
쿼리 기반 검색 함수 정의 완료


In [14]:
# Retrieval Correctness 계산 함수
def calculate_retrieval_correctness(retrieved_doc_ids, ground_truth_ids):
    """
    검색된 문서 ID들과 ground truth ID들을 비교하여 correctness 계산
    """
    if not retrieved_doc_ids or not ground_truth_ids:
        return 0
    
    # ground_truth_ids가 문자열 리스트인 경우 처리
    if isinstance(ground_truth_ids, str):
        try:
            # 문자열을 리스트로 변환 (예: "['id1', 'id2']" -> ['id1', 'id2'])
            import ast
            ground_truth_list = ast.literal_eval(ground_truth_ids)
        except:
            ground_truth_list = [ground_truth_ids]
    else:
        ground_truth_list = ground_truth_ids
    
    # 검색된 문서 중 하나라도 ground truth에 있으면 1, 아니면 0
    for doc_id in retrieved_doc_ids:
        if doc_id in ground_truth_list:
            return 1
    
    return 0

print("Retrieval Correctness 계산 함수 정의 완료")

# 확장된 Retrieval 메트릭 계산 함수들
def calculate_recall_at_k(retrieved_doc_ids, ground_truth_ids, k=None):
    """
    Recall@k 계산: 검색된 문서 중 관련 문서의 비율
    """
    if not retrieved_doc_ids or not ground_truth_ids:
        return 0.0
    
    # ground_truth_ids가 문자열 리스트인 경우 처리
    if isinstance(ground_truth_ids, str):
        try:
            import ast
            ground_truth_list = ast.literal_eval(ground_truth_ids)
        except:
            ground_truth_list = [ground_truth_ids]
    else:
        ground_truth_list = ground_truth_ids
    
    # k가 지정되지 않으면 검색된 문서 수만큼 사용
    if k is None:
        k = len(retrieved_doc_ids)
    
    # 상위 k개 문서만 고려
    top_k_retrieved = retrieved_doc_ids[:k]
    
    # 관련 문서 수 계산
    relevant_retrieved = sum(1 for doc_id in top_k_retrieved if doc_id in ground_truth_list)
    
    # Recall = 관련 문서 수 / 전체 관련 문서 수
    if len(ground_truth_list) == 0:
        return 0.0
    
    return relevant_retrieved / len(ground_truth_list)


def calculate_all_metrics(retrieved_doc_ids, ground_truth_ids, k=None):
    """
    모든 메트릭을 한 번에 계산
    """
    return {
        "correctness": calculate_retrieval_correctness(retrieved_doc_ids, ground_truth_ids),
        "recall_at_k": calculate_recall_at_k(retrieved_doc_ids, ground_truth_ids, k)
    }

print("확장된 Retrieval 메트릭 계산 함수들 정의 완료")


Retrieval Correctness 계산 함수 정의 완료
확장된 Retrieval 메트릭 계산 함수들 정의 완료


In [15]:
# 안전한 mongo_query 파싱 및 평가 루프 대체
import json, ast, time
from tqdm import tqdm

def parse_mongo_query(query_raw):
    # 이미 리스트[dict]
    if isinstance(query_raw, list):
        return query_raw
    # 문자열이면 ast 우선 → json → 마지막으로 단순치환 후 json
    if isinstance(query_raw, str):
        for parser in (ast.literal_eval, json.loads):
            try:
                return parser(query_raw)
            except Exception:
                pass
        # 단순 따옴표 치환 시도 (가능한 경우에만)
        try:
            sanitized = query_raw.replace("'", '"')
            return json.loads(sanitized)
        except Exception as e:
            raise e
    raise ValueError("Unsupported mongo_query type: {}".format(type(query_raw)))

# 평가 실행 (기존 변수들 재사용)
baseline_results = []
retrieved_doc_ids_list = []
correctness_scores = []
recall_at_k_scores = []

print(f"총 {len(query_df)}개의 쿼리에 대해 쿼리 기반 하이브리드 검색 평가를 시작합니다...")

for idx, row in tqdm(query_df.iterrows(), total=len(query_df), desc="쿼리 하이브리드 검색 평가"): 
    query_text = row['translated_4o_mini']
    ground_truth_ids = row['ground_truth_id']

    try:
        mongo_query = parse_mongo_query(row['mongo_query_4o_mini'])
    except Exception as e:
        print(f"파싱 실패로 해당 샘플 건너뜀: {e}")
        baseline_results.append("")
        retrieved_doc_ids_list.append([])
        correctness_scores.append(0)
        recall_at_k_scores.append(0.0)
        continue

    print(f"\n[{idx+1}/{len(query_df)}] 처리 중: {query_text[:50]}...")
    print(f"사용할 쿼리: {mongo_query}")

    result = get_query_model_response_with_docs(query_text, mongo_query)

    baseline_results.append(result['answer'])
    retrieved_doc_ids_list.append(result['retrieved_doc_ids'])

    metrics = calculate_all_metrics(result['retrieved_doc_ids'], ground_truth_ids)
    correctness_scores.append(metrics['correctness'])
    recall_at_k_scores.append(metrics['recall_at_k'])

    print(f"검색된 문서 수: {len(result['retrieved_doc_ids'])}")
    print(f"Correctness: {metrics['correctness']}")
    print(f"Recall@k: {metrics['recall_at_k']:.3f}")

    time.sleep(1)

print(f"\n=== 키워드 기반 하이브리드 검색 평가 완료! ===")
print(f"평균 Correctness: {sum(correctness_scores) / len(correctness_scores):.3f}")
print(f"평균 Recall@k: {sum(recall_at_k_scores) / len(recall_at_k_scores):.3f}")


총 20개의 쿼리에 대해 쿼리 기반 하이브리드 검색 평가를 시작합니다...


쿼리 하이브리드 검색 평가:   0%|          | 0/20 [00:00<?, ?it/s]


[1/20] 처리 중: 제 여자친구가 체포되어 이민 구금 센터에 있습니다. 지금 급여를 받지 못하고 있는데, 태국...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['임금체불', '체불임금', '급여 미지급', '임금 청구'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '임금 체불', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 1
Recall@k: 0.571


쿼리 하이브리드 검색 평가:   5%|▌         | 1/20 [00:12<03:58, 12.56s/it]


[2/20] 처리 중: 저는 건설 현장에서 일하고 있지만, 사장이 급여를 지급하지 않았습니다. 제 계좌가 압류될 ...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['임금체불', '급여 미지급', '계좌 압류', '임금 청구'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '임금 체불', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 1
Recall@k: 0.312


쿼리 하이브리드 검색 평가:  10%|█         | 2/20 [00:23<03:32, 11.83s/it]


[3/20] 처리 중: 안녕하세요, 저는 필리핀에서 온 근로자입니다. 5년 동안 일했으며 이제 제 나라로 돌아가고...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['임금체불', '체불임금', '급여 미지급', '임금 청구'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '급여 회수', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 1
Recall@k: 1.000


쿼리 하이브리드 검색 평가:  15%|█▌        | 3/20 [00:36<03:24, 12.00s/it]


[4/20] 처리 중: 제가 직장 변경을 신청한 후, 불법 체류자가 될 수 있다는 편지를 받았습니다. 8월 22일...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['불법 체류', '추방', '비자 문제', '체류 허가'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '불법 체류', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 0
Recall@k: 0.000


쿼리 하이브리드 검색 평가:  20%|██        | 4/20 [00:46<03:03, 11.49s/it]


[5/20] 처리 중: 저는 중간에 퇴사했지만, 소득세 체납 때문에 비자를 연장할 수 없습니다. 관련 통지 내용을...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['소득세 체납', '비자 연장', '퇴사', '통지 내용'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '소득세 체납', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 1
Recall@k: 0.667


쿼리 하이브리드 검색 평가:  25%|██▌       | 5/20 [00:57<02:48, 11.27s/it]


[6/20] 처리 중: 회사가 갑자기 더 이상 출근하지 말라고 해서, 제가 체류 자격을 잃을 수 있습니다. 어떻게...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['체류 자격', '비자 문제', '이민 상담', '체류 허가'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '체류 자격', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 1
Recall@k: 0.375


쿼리 하이브리드 검색 평가:  30%|███       | 6/20 [01:08<02:35, 11.09s/it]


[7/20] 처리 중: 저는 건설 산업에서 일하는 외국인 노동자입니다. 어떤 경우에 작업 중 사고로 간주되는지 알...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['작업 중 사고', '산업 재해', '보상', '외국인 노동자'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '작업 중 사고', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 1
Recall@k: 0.200


쿼리 하이브리드 검색 평가:  35%|███▌      | 7/20 [01:24<02:43, 12.57s/it]


[8/20] 처리 중: 안녕하세요, 저는 베트남에 거주하는 교포입니다. 이번에 특별 노동 허가 제도를 통해 한국에...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['특별 노동 허가', '한국 취업 절차', '외국인 노동자', '비자 신청'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '특별 노동 허가 절차', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 1
Recall@k: 0.133


쿼리 하이브리드 검색 평가:  40%|████      | 8/20 [01:33<02:19, 11.65s/it]


[9/20] 처리 중: H-2 비자를 가지고 있는데, 현재 고용주를 떠나 다른 직장으로 옮길 수 있는지 궁금합니다...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['H-2 비자', '고용주 변경', '직장 이동', '비자 절차'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': 'H-2 비자 변경', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 1
Recall@k: 0.250


쿼리 하이브리드 검색 평가:  45%|████▌     | 9/20 [01:42<01:57, 10.72s/it]


[10/20] 처리 중: 고용주가 지속적으로 급여를 체불하고 있어 저는 직장을 옮기고 싶습니다....
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['임금체불', '급여 미지급', '직장 옮기기'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '급여 체불', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 0
Recall@k: 0.000


쿼리 하이브리드 검색 평가:  50%|█████     | 10/20 [01:53<01:47, 10.78s/it]


[11/20] 처리 중: 실업급여를 받고 있는 중에 조기 재취업을 하면 '조기 재취업 수당'을 받을 수 있다고 들었...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['조기 재취업 수당', '재취업 조건', '근무 기간', '지급 제한'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '조기 재취업', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 0
Recall@k: 0.000


쿼리 하이브리드 검색 평가:  55%|█████▌    | 11/20 [02:05<01:40, 11.17s/it]


[12/20] 처리 중: E9 비전 소지 비전문 외국인 노동자가 근무하는 사업장이 폐업하거나 임금 체불 등의 이유로...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['E9 비자', '근무지 변경', '임금 체불', '사업장 폐업'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': 'E9 비자 근무지 변경', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 1
Recall@k: 0.750


쿼리 하이브리드 검색 평가:  60%|██████    | 12/20 [02:10<01:14,  9.30s/it]


[13/20] 처리 중: 고용 계약이 종료된 후, 새로운 직장을 찾고 싶다면 언제까지 고용 센터에 신청서를 제출해야...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['고용 계약 종료', '직장 변경', '신청서 제출 기한', '새로운 직장 찾기'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '고용 센터 신청', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 1
Recall@k: 0.500


쿼리 하이브리드 검색 평가:  65%|██████▌   | 13/20 [02:17<01:00,  8.59s/it]


[14/20] 처리 중: E-9 비자를 가진 외국인 노동자가 근무 조건이 노동 계약과 다르다고 주장할 경우, 이는 ...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['E-9 비자', '근무 조건', '노동 계약', '근무지 변경'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '근무 조건 불일치', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 1
Recall@k: 1.000


쿼리 하이브리드 검색 평가:  70%|███████   | 14/20 [02:28<00:56,  9.41s/it]


[15/20] 처리 중: 비자 만료 전에 연장을 신청하고 싶습니다. 어떤 기관에 가야 하며 온라인으로도 신청할 수 ...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['비자 연장', '비자 신청', '비자 만료', '온라인 신청'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '비자 연장 신청', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 1
Recall@k: 1.000


쿼리 하이브리드 검색 평가:  75%|███████▌  | 15/20 [02:36<00:44,  8.89s/it]


[16/20] 처리 중: 만약 세금이나 건강 보험 기여금이 미납된 경우 비자를 갱신할 수 있나요? 그리고 만약 채무...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['비자 갱신', '세금 미납', '건강 보험', '처벌'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '비자 갱신', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 1
Recall@k: 1.000


쿼리 하이브리드 검색 평가:  80%|████████  | 16/20 [02:47<00:37,  9.46s/it]


[17/20] 처리 중: 이 과정에서 부상을 입고 병원에서 치료를 받아야 하는 경우, 만약 고용주가 산업재해 보험에...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['산업재해 보상', '부상 보상', '고용주 보험 미가입', '부상 치료'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '부상 보상', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 1
Recall@k: 0.500


쿼리 하이브리드 검색 평가:  85%|████████▌ | 17/20 [02:54<00:26,  8.96s/it]


[18/20] 처리 중: 근무 중 전염병에 감염되었을 때, 이를 직업병으로 인정하기 위해 어떤 기준이 사용되나요?...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['직업병', '감염병', '근무 중 감염', '전염병'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '직업병 기준', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 1
Recall@k: 1.000


쿼리 하이브리드 검색 평가:  90%|█████████ | 18/20 [03:05<00:18,  9.36s/it]


[19/20] 처리 중: 출국 만기 보험금을 신청하려면 어떤 자격 조건을 충족해야 하나요? 언제부터 신청할 수 있나...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['출국 보험금', '만기 보험금', '보험금 신청 자격', '보험금 신청 시기'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '보험금 신청', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 1
Recall@k: 0.500


쿼리 하이브리드 검색 평가:  95%|█████████▌| 19/20 [03:11<00:08,  8.47s/it]


[20/20] 처리 중: 내 고국으로 돌아갈 때, 언제부터 귀국 비용 보험을 신청할 수 있으며, 어떤 서류를 준비해...
사용할 쿼리: [{'$search': {'index': 'text', 'compound': {'should': [{'text': {'query': ['귀국 비용 보험', '보험 신청', '서류 준비', '귀국 절차'], 'path': ['title', 'contents'], 'fuzzy': {'maxEdits': 1, 'prefixLength': 2}}}, {'phrase': {'query': '귀국 비용 보험', 'path': 'title', 'slop': 2}}], 'minimumShouldMatch': 1}, 'highlight': {'path': ['title', 'contents']}}}, {'$project': {'_id': 1, 'title': 1, 'contents': 1, 'url': 1, 'score': {'$meta': 'searchScore'}, 'highlights': {'$meta': 'searchHighlights'}}}, {'$limit': 20}]
검색된 문서 수: 20
Correctness: 1
Recall@k: 1.000


쿼리 하이브리드 검색 평가: 100%|██████████| 20/20 [03:17<00:00,  9.85s/it]


=== 키워드 기반 하이브리드 검색 평가 완료! ===
평균 Correctness: 0.850
평균 Recall@k: 0.538





In [16]:
# 키워드 기반 검색 결과 저장 및 비교 분석
import datetime

# 데이터프레임에 키워드 기반 검색 결과 추가
query_df['answer'] = baseline_results
query_df['retrieved_doc_ids'] = retrieved_doc_ids_list
query_df['correctness'] = correctness_scores
query_df['recall_at_k'] = recall_at_k_scores

# 결과 저장
timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")
evaluation_csv_filename = f"../data/evaluation_results_{timestamp}.csv"
query_df.to_csv(evaluation_csv_filename, index=False, encoding='utf-8')

print(f"\n키워드 기반 검색 결과 저장 완료:")
print(f"- answer: {len(baseline_results)}개")
print(f"- retrieved_doc_ids: {len(retrieved_doc_ids_list)}개") 
print(f"- correctness: {len(correctness_scores)}개")
print(f"- recall_at_k: {len(recall_at_k_scores)}개")
print(f"- CSV 파일: {evaluation_csv_filename}")

# 평가 결과 상세 요약
total_queries = len(query_df)
correct_retrievals = sum(correctness_scores)
avg_correctness = correct_retrievals / total_queries
avg_recall = sum(recall_at_k_scores) / len(recall_at_k_scores)

print(f"\n=== 키워드 기반 하이브리드 검색 평가 결과 요약 ===")
print(f"총 쿼리 수: {total_queries}")
print(f"정확한 검색 수: {correct_retrievals}")
print(f"평균 Correctness: {avg_correctness:.3f} ({avg_correctness*100:.1f}%)")
print(f"평균 Recall@k: {avg_recall:.3f} ({avg_recall*100:.1f}%)")



키워드 기반 검색 결과 저장 완료:
- answer: 20개
- retrieved_doc_ids: 20개
- correctness: 20개
- recall_at_k: 20개
- CSV 파일: ../data/evaluation_results_20250930_191635.csv

=== 키워드 기반 하이브리드 검색 평가 결과 요약 ===
총 쿼리 수: 20
정확한 검색 수: 17
평균 Correctness: 0.850 (85.0%)
평균 Recall@k: 0.538 (53.8%)
