# 평가용 쿼리 테스트셋 생성
- 테스트셋을 만들기 위한 MongoDB 연결 및 데이터 확인

In [1]:
from pymongo import MongoClient

client = MongoClient("mongodb+srv://hwyewon:001101@helloworld-ai.fpdjl.mongodb.net/")
collection = client["HelloWorld-AI"]["foreigner_legalQA_v3"]

In [2]:
# Collection 구조 확인
print("Collection 이름:", collection.name)
print("Database 이름:", collection.database.name)
print("전체 문서 개수:", collection.count_documents({}))

# 샘플 문서 확인
sample_doc = collection.find_one()
if sample_doc:
    print("\n샘플 문서 구조:")
    for key in sample_doc.keys():
        print(f"- {key}: {type(sample_doc[key])}")
    print(f"\n샘플 문서 내용:\n{sample_doc}")
else:
    print("Collection이 비어있습니다.")


Collection 이름: foreigner_legalQA_v3
Database 이름: HelloWorld-AI
전체 문서 개수: 867

샘플 문서 구조:
- _id: <class 'bson.objectid.ObjectId'>
- title: <class 'str'>
- contents: <class 'str'>
- url: <class 'str'>
- Embedding: <class 'list'>

샘플 문서 내용:
{'_id': ObjectId('689b3a86ffd306c1cd3c0679'), 'title': '보험가입/납부\n외국인 근로자 2023년 체류자격 변동으로 인하여 2023년분 보수총액 수정신고를 진행하였습니다.\n수정신고 후 변경된 보험료 조회는 어떻게 해야하나요?', 'contents': '고객님 안녕하십니까?\n근로복지공단 고객센터입니다.\n먼저 근로복지공단에 대한 고객님의 관심에 깊이 감사드립니다.\n\n※ 사이버상담은 고객센터에서 답변 드리고 있어 기준, 원칙, 민원신청 절차 안내 등 일반적인 단순문의에 대한 답변만 가능하고 직접 민원업무 처리를 하지 않으므로 개별적인 업무에 대한 확인 및 판단을 해드릴 수 없는 점 양해 부탁드립니다.\n\n○ 문의하신 내용에 아래와 같이 답변 드립니다.\n\n일반적으로 민원서류가 보험료 고지작업 기준일(보통 매월15일) 이전에 처리되는 경우 고지작업 기준일이 속한 달의 월별보험료로 반영되며 이후 처리되는 경우 고지작업 기준일이 속한달의 다음 달 월별보험료로 반영하게 됩니다. 재산정 보험료는 고용산재토탈서비스를 통해 확인가능합니다.\n* 예: 11.16~12.15. 처리완료건은 12.18일 이후 재산정 내역 확인가능.\n \n▶ 고용산재보험토탈서비스[ https://total.comwel.or.kr ] (사업장으로 로그인)\n•정보조회 > 보험료정보 조회 >부과고지 보험료 조회(20209)\n•정보조회 > 보험료정보 조회 >개인별 부과고지보험료 조회(20210)\n\n사이버 상담은 제공하신 제한된 정

In [3]:
def search_documents_by_text(search_text, collection):
    """
    MongoDB collection에서 'text' 필드에 search_text를 포함하거나 일치하는 documents를 모두 찾아오는 함수
    
    Args:
        search_text (str): 검색할 텍스트
        collection: MongoDB collection 객체
        
    Returns:
        list: 매칭되는 문서들의 리스트
    """
    try:
        # 정확히 일치하는 문서와 부분 일치하는 문서를 모두 찾기
        # $regex를 사용하여 대소문자 구분 없이 검색
        query = {
            "text": {
                "$regex": search_text,
                "$options": "i"  # case insensitive
            }
        }
        
        # 검색 실행
        results = list(collection.find(query))
        
        print(f"검색어 '{search_text}'에 대한 결과: {len(results)}개 문서 발견")
        
        return results
        
    except Exception as e:
        print(f"검색 중 오류 발생: {e}")
        return []

# 사용 예시
# search_results = search_documents_by_text("비자", collection)
# for doc in search_results[:3]:  # 상위 3개만 출력
#     print(f"ID: {doc.get('_id', 'N/A')}")
#     print(f"Text: {doc.get('text', 'N/A')[:100]}...")  # 첫 100자만 출력
#     print("-" * 50)


In [4]:
import re
from typing import List, Optional, Dict, Any, Iterable, Tuple


def search_documents_advanced(search_text, collection, exact_match=False, limit=None, fields_to_return=None):
    """
    더 고급 검색 기능을 제공하는 함수
    
    Args:
        search_text (str): 검색할 텍스트
        collection: MongoDB collection 객체
        exact_match (bool): True면 정확히 일치하는 것만, False면 부분 일치도 포함
        limit (int): 반환할 최대 문서 수 (None이면 모든 결과)
        fields_to_return (list): 반환할 필드 목록 (None이면 모든 필드)
        
    Returns:
        list: 매칭되는 문서들의 리스트
    """
    try:
        # 쿼리 구성
        if exact_match:
            query = {"contents": search_text}
        else:
            query = {
                "contents": {
                    "$regex": search_text,
                    "$options": "i"
                }
            }
        
        # 검색 실행
        cursor = collection.find(query)
        
        # 필드 제한
        if fields_to_return:
            projection = {field: 1 for field in fields_to_return}
            cursor = collection.find(query, projection)
        
        # 결과 수 제한
        if limit:
            cursor = cursor.limit(limit)
        
        results = list(cursor)
        
        match_type = "정확 일치" if exact_match else "부분 일치"
        print(f"검색어 '{search_text}' ({match_type}): {len(results)}개 문서 발견")
        
        return results
        
    except Exception as e:
        print(f"검색 중 오류 발생: {e}")
        return []

# 키워드별 검색 함수
def search_by_keywords(keywords, collection, match_all=False):
    """
    여러 키워드로 검색하는 함수
    
    Args:
        keywords (list): 검색할 키워드 리스트
        collection: MongoDB collection 객체
        match_all (bool): True면 모든 키워드 포함, False면 하나라도 포함
        
    Returns:
        list: 매칭되는 문서들의 리스트
    """
    try:
        if match_all:
            # 모든 키워드를 포함하는 문서 찾기
            query = {
                "$and": [
                    {"contents": {"$regex": keyword, "$options": "i"}} 
                    for keyword in keywords
                ]
            }
        else:
            # 하나라도 포함하는 문서 찾기
            query = {
                "$or": [
                    {"contents": {"$regex": keyword, "$options": "i"}} 
                    for keyword in keywords
                ]
            }
        
        results = list(collection.find(query))
        
        match_type = "모든 키워드 포함" if match_all else "하나 이상 키워드 포함"
        print(f"키워드 {keywords} ({match_type}): {len(results)}개 문서 발견")
        
        return results
        
    except Exception as e:
        print(f"검색 중 오류 발생: {e}")
        return []

def search_by_keywords(
    collection,
    keywords: List[str],
    field: str = "text",
    require_all: bool = True,          # True: 모든 키워드 포함(AND), False: 하나 이상 포함(OR)
    case_insensitive: bool = True,     # 대소문자 무시
    limit: Optional[int] = None,
    projection: Optional[Iterable[str]] = None,  # 반환할 필드 리스트
    sort: Optional[Iterable[Tuple[str, int]]] = None  # 예: [("createdAt", -1)]
) -> List[Dict[str, Any]]:
    if not keywords:
        return []

    # 정규식 메타문자 이스케이프
    escaped = [re.escape(k) for k in keywords if isinstance(k, str) and k.strip()]
    if not escaped:
        return []

    regex_options = "i" if case_insensitive else ""
    conditions = [{field: {"$regex": kw, "$options": regex_options}} for kw in escaped]

    if len(conditions) == 1:
        query = conditions[0]
    else:
        query = {"$and": conditions} if require_all else {"$or": conditions}

    proj_dict = {f: 1 for f in projection} if projection else None

    cursor = collection.find(query, proj_dict) if proj_dict else collection.find(query)
    if sort:
        cursor = cursor.sort(list(sort))
    if limit:
        cursor = cursor.limit(int(limit))

    return list(cursor)


In [5]:
# 검색 함수 테스트 및 사용 예시

print("=== 기본 텍스트 검색 테스트 ===")
# 기본 검색 함수 테스트
search_results = search_documents_by_text("비자", collection)

if search_results:
    print(f"\n첫 번째 검색 결과:")
    first_doc = search_results[0]
    for key, value in first_doc.items():
        if key != '_id':
            print(f"{key}: {str(value)[:200]}...")  # 첫 200자만 출력
    print("-" * 80)

print("\n=== 고급 검색 테스트 ===")
# 정확 일치 검색
exact_results = search_documents_advanced("비자", collection, exact_match=True, limit=5)

# 부분 일치 검색 (상위 10개만)
partial_results = search_documents_advanced("비자", collection, exact_match=False, limit=10)

# 특정 필드만 반환
limited_fields = search_documents_advanced("비자", collection, limit=5, fields_to_return=['text'])

=== 기본 텍스트 검색 테스트 ===
검색어 '비자'에 대한 결과: 0개 문서 발견

=== 고급 검색 테스트 ===
검색어 '비자' (정확 일치): 0개 문서 발견
검색어 '비자' (부분 일치): 10개 문서 발견
검색어 '비자' (부분 일치): 5개 문서 발견


In [6]:
# 모든 키워드를 포함(AND)
docs = search_by_keywords(collection, ["답변"], field="contents", require_all=True)

# # 하나 이상 포함(OR)
# docs_any = search_by_keywords(collection, ["방문취업 동포", "H-2"], field="contents", require_all=False, projection=["_id", "contents"])

In [None]:
print(len(docs))
for doc in docs:
    print(f"ID: {doc.get('_id', 'N/A')}")
    print(f"contents: {doc.get('contents', 'N/A')}")  # 첫 100자만 출력
    print("-" * 50)

289
ID: 689b3a86ffd306c1cd3c0679
contents: 고객님 안녕하십니까?
근로복지공단 고객센터입니다.
먼저 근로복지공단에 대한 고객님의 관심에 깊이 감사드립니다.

※ 사이버상담은 고객센터에서 답변 드리고 있어 기준, 원칙, 민원신청 절차 안내 등 일반적인 단순문의에 대한 답변만 가능하고 직접 민원업무 처리를 하지 않으므로 개별적인 업무에 대한 확인 및 판단을 해드릴 수 없는 점 양해 부탁드립니다.

○ 문의하신 내용에 아래와 같이 답변 드립니다.

일반적으로 민원서류가 보험료 고지작업 기준일(보통 매월15일) 이전에 처리되는 경우 고지작업 기준일이 속한 달의 월별보험료로 반영되며 이후 처리되는 경우 고지작업 기준일이 속한달의 다음 달 월별보험료로 반영하게 됩니다. 재산정 보험료는 고용산재토탈서비스를 통해 확인가능합니다.
* 예: 11.16~12.15. 처리완료건은 12.18일 이후 재산정 내역 확인가능.
 
▶ 고용산재보험토탈서비스[ https://total.comwel.or.kr ] (사업장으로 로그인)
•정보조회 > 보험료정보 조회 >부과고지 보험료 조회(20209)
•정보조회 > 보험료정보 조회 >개인별 부과고지보험료 조회(20210)

사이버 상담은 제공하신 제한된 정보를 근거로한 일반적인 사항을 안내드린 것으로 기타 궁금한 사항이 있으시면 근로복지공단 고객센터(☎1588-0075)로 전화를 주시면 성심 성의껏 답변 드리겠습니다. 이용해 주셔서 감사합니다. 오늘도 행복한 하루 보내시길 바랍니다.

※ 인터넷 질의응답은 법적인 효력을 갖는 결정이나 판단이 아니므로 각종 권리 주장의 근거 또는 증거 자료등으로 사용할 수 없으니 참고하시기 바랍니다.
--------------------------------------------------
ID: 689b3a86ffd306c1cd3c067a
contents: 고객님 안녕하십니까?
근로복지공단 고객센터입니다.
먼저 근로복지공단에 대한 고객님의 관심에 깊이 감사드립니다.

※ 사이버상담

: 

## 검색

In [None]:
# 사용 예시
search_results = search_documents_by_text("상담 내용 작성 후 경기지방노동위원회에 부당해고 구제 신청서", collection)
for doc in search_results:  # 상위 3개만 출력
    print(f"ID: {doc.get('_id', 'N/A')}")
    print(f"Text: {doc.get('text', 'N/A')}")  # 첫 100자만 출력
    print("-" * 50)
