# make testset
- 테스트셋을 만들기 위한 MongoDB 연결 및 데이터 확인

In [1]:
from pymongo import MongoClient

client = MongoClient("mongodb+srv://hwyewon:001101@helloworld-ai.fpdjl.mongodb.net/")
collection = client["HelloWorld-AI"]["foreigner_legalQA"]

In [2]:
# Collection 구조 확인
print("Collection 이름:", collection.name)
print("Database 이름:", collection.database.name)
print("전체 문서 개수:", collection.count_documents({}))

# 샘플 문서 확인
sample_doc = collection.find_one()
if sample_doc:
    print("\n샘플 문서 구조:")
    for key in sample_doc.keys():
        print(f"- {key}: {type(sample_doc[key])}")
    print(f"\n샘플 문서 내용:\n{sample_doc}")
else:
    print("Collection이 비어있습니다.")


Collection 이름: foreigner_legalQA
Database 이름: HelloWorld-AI
전체 문서 개수: 8360

샘플 문서 구조:
- _id: <class 'str'>
- text: <class 'str'>
- embedding: <class 'list'>
- source: <class 'str'>

샘플 문서 내용:
{'_id': 'c0278b9e-16d5-4f4e-ad5a-7f08d82ddce9', 'text': '중도 퇴사 후 근로소득 신고되지 않아 고용허가연장 안된 노동자 지원 작성일: 23-11-27\n상담유형: 체류자격\n거주지역: 여주시\n국적: 우즈베키스탄\n체류자격: E-9\n상담내용: 중도 퇴직하는 외국인 근로자의 추가 납부세액 사례\n진행 과정 및 결과: 2023-09-18\n- 고용노동부에서 외국인근로자의 2020년 종합소득세 체납을   확인하여 고용허가제 연장 불가능 안내받았음 \n 회사 담당자하고 여주세무서에 방문 및 체납된 세금의 원인 상담 내용을 통역 요청으로 전화 상담 \n타행송금; 자동차세-7.360원, 2021년 주민세-11,330원, 2022년 주민세-11,330원, 2022년 지방세 44,630원, 2022년 소득세 – 476,590원, 2021년 지방세 173,140원, \n공과금 2020년 1,808,950원 안내 통역함\n\n2020-09-20\n- 2021년에 연말정산 신청하여 469,520원 환급받았음 \n- 체류자격 연장을 위해서 합계 2,533,330원을 납부함 \n공과금 납부 내용을 상담하러 이천세무서에 동시 통역 가능한지 문의로 전화 상담 \n10월 21일 오전 10시에 이천세무서에 방문 예정 안내함', 'embedding': [0.0025941352359950542, -0.018451696261763573, 0.018465233966708183, -0.05620795488357544, -0.03140714392066002, 0.023650120943784714, -0.02888915

In [3]:
def search_documents_by_text(search_text, collection):
    """
    MongoDB collection에서 'text' 필드에 search_text를 포함하거나 일치하는 documents를 모두 찾아오는 함수
    
    Args:
        search_text (str): 검색할 텍스트
        collection: MongoDB collection 객체
        
    Returns:
        list: 매칭되는 문서들의 리스트
    """
    try:
        # 정확히 일치하는 문서와 부분 일치하는 문서를 모두 찾기
        # $regex를 사용하여 대소문자 구분 없이 검색
        query = {
            "text": {
                "$regex": search_text,
                "$options": "i"  # case insensitive
            }
        }
        
        # 검색 실행
        results = list(collection.find(query))
        
        print(f"검색어 '{search_text}'에 대한 결과: {len(results)}개 문서 발견")
        
        return results
        
    except Exception as e:
        print(f"검색 중 오류 발생: {e}")
        return []

# 사용 예시
# search_results = search_documents_by_text("비자", collection)
# for doc in search_results[:3]:  # 상위 3개만 출력
#     print(f"ID: {doc.get('_id', 'N/A')}")
#     print(f"Text: {doc.get('text', 'N/A')[:100]}...")  # 첫 100자만 출력
#     print("-" * 50)


In [4]:
def search_documents_advanced(search_text, collection, exact_match=False, limit=None, fields_to_return=None):
    """
    더 고급 검색 기능을 제공하는 함수
    
    Args:
        search_text (str): 검색할 텍스트
        collection: MongoDB collection 객체
        exact_match (bool): True면 정확히 일치하는 것만, False면 부분 일치도 포함
        limit (int): 반환할 최대 문서 수 (None이면 모든 결과)
        fields_to_return (list): 반환할 필드 목록 (None이면 모든 필드)
        
    Returns:
        list: 매칭되는 문서들의 리스트
    """
    try:
        # 쿼리 구성
        if exact_match:
            query = {"text": search_text}
        else:
            query = {
                "text": {
                    "$regex": search_text,
                    "$options": "i"
                }
            }
        
        # 검색 실행
        cursor = collection.find(query)
        
        # 필드 제한
        if fields_to_return:
            projection = {field: 1 for field in fields_to_return}
            cursor = collection.find(query, projection)
        
        # 결과 수 제한
        if limit:
            cursor = cursor.limit(limit)
        
        results = list(cursor)
        
        match_type = "정확 일치" if exact_match else "부분 일치"
        print(f"검색어 '{search_text}' ({match_type}): {len(results)}개 문서 발견")
        
        return results
        
    except Exception as e:
        print(f"검색 중 오류 발생: {e}")
        return []

# 키워드별 검색 함수
def search_by_keywords(keywords, collection, match_all=False):
    """
    여러 키워드로 검색하는 함수
    
    Args:
        keywords (list): 검색할 키워드 리스트
        collection: MongoDB collection 객체
        match_all (bool): True면 모든 키워드 포함, False면 하나라도 포함
        
    Returns:
        list: 매칭되는 문서들의 리스트
    """
    try:
        if match_all:
            # 모든 키워드를 포함하는 문서 찾기
            query = {
                "$and": [
                    {"text": {"$regex": keyword, "$options": "i"}} 
                    for keyword in keywords
                ]
            }
        else:
            # 하나라도 포함하는 문서 찾기
            query = {
                "$or": [
                    {"text": {"$regex": keyword, "$options": "i"}} 
                    for keyword in keywords
                ]
            }
        
        results = list(collection.find(query))
        
        match_type = "모든 키워드 포함" if match_all else "하나 이상 키워드 포함"
        print(f"키워드 {keywords} ({match_type}): {len(results)}개 문서 발견")
        
        return results
        
    except Exception as e:
        print(f"검색 중 오류 발생: {e}")
        return []


In [5]:
# 검색 함수 테스트 및 사용 예시

print("=== 기본 텍스트 검색 테스트 ===")
# 기본 검색 함수 테스트
search_results = search_documents_by_text("비자", collection)

if search_results:
    print(f"\n첫 번째 검색 결과:")
    first_doc = search_results[0]
    for key, value in first_doc.items():
        if key != '_id':
            print(f"{key}: {str(value)[:200]}...")  # 첫 200자만 출력
    print("-" * 80)

print("\n=== 고급 검색 테스트 ===")
# 정확 일치 검색
exact_results = search_documents_advanced("비자", collection, exact_match=True, limit=5)

# 부분 일치 검색 (상위 10개만)
partial_results = search_documents_advanced("비자", collection, exact_match=False, limit=10)

# 특정 필드만 반환
limited_fields = search_documents_advanced("비자", collection, limit=5, fields_to_return=['text'])

print("\n=== 키워드 검색 테스트 ===")
# 여러 키워드 검색 (하나라도 포함)
or_results = search_by_keywords(["비자", "체류"], collection, match_all=False)

# 여러 키워드 검색 (모두 포함)
and_results = search_by_keywords(["비자", "체류"], collection, match_all=True)


=== 기본 텍스트 검색 테스트 ===
검색어 '비자'에 대한 결과: 666개 문서 발견

첫 번째 검색 결과:
text: 국민연금 반환일시금 신청 지원 작성일: 23-11-27
상담유형: 기타
거주지역: 남양주시
국적: 필리핀
체류자격: 미등록
상담내용: 2023년 8월 중순 미등록체류 상황에서 본국으로 강제출국 당한 필리핀 국적의 이주 노동자로. 2006년 최초 한국에 입국했을 당시 E-9비자였음. 강제 출국하는 과정에서 국민연금 반환일시금 신청을 하지 못함.
필리핀 본국에...
embedding: [-0.012290622107684612, -0.018469296395778656, 0.0051110838539898396, -0.054046712815761566, -0.03992784023284912, 0.021084889769554138, -0.03264154493808746, -0.008360559120774269, -0.039447426795959...
source: 경기도외국인지원센터_상담사례...
--------------------------------------------------------------------------------

=== 고급 검색 테스트 ===
검색어 '비자' (정확 일치): 0개 문서 발견
검색어 '비자' (부분 일치): 10개 문서 발견
검색어 '비자' (부분 일치): 5개 문서 발견

=== 키워드 검색 테스트 ===
키워드 ['비자', '체류'] (하나 이상 키워드 포함): 2337개 문서 발견
키워드 ['비자', '체류'] (모든 키워드 포함): 332개 문서 발견


## 검색

In [17]:
# 사용 예시
search_results = search_documents_by_text("상담 내용 작성 후 경기지방노동위원회에 부당해고 구제 신청서", collection)
for doc in search_results:  # 상위 3개만 출력
    print(f"ID: {doc.get('_id', 'N/A')}")
    print(f"Text: {doc.get('text', 'N/A')}")  # 첫 100자만 출력
    print("-" * 50)


검색어 '상담 내용 작성 후 경기지방노동위원회에 부당해고 구제 신청서'에 대한 결과: 1개 문서 발견
ID: 19aa9163-b992-41e6-9cb4-b6e4066319e8
Text: 부당해고 구제신청을 통해 사업장 이동한 사례 작성일: 23-02-24
상담유형: 부당해고
거주지역: 수원시
국적: 캄보디아
체류자격: E-9
상담내용: 회사에서 더 이상 근무하러 나오지 말라고 하여 합법 체류 자격 박탈 예정된 근로자(3번 사업장 변경 사유), 경기지방노동위원회에 부당해고 구제신청
진행 과정 및 결과: 1월 20일
- 회사에서 갑자기 퇴사 통보를 받음. 사업장 3번 변경 사유로 인하여 합법 체류 자격이 박탈되어 강제 출국이 염려되어 센터에 방문

1월 24일
- 상담 내용 작성 후 경기지방노동위원회에 부당해고 구제 신청서 작성 및 팩스 발송

1월 25일 
- C와 동행하여 평택고용센터에 방문했으나, 화성으로 사업장 소재지가 변경되어 재방문. 아직 퇴사처리 되지 않아 해결 방법이 없다고 함 

1월 26일
- 담당 조사관 배정되어 통화하여 근로자의 복귀의사 밝힘. 사업장 측에서도 원만한 합의를 원한다하여 통화 원함

1월 27일
- 사업주와 연락했으나, 근로자와 관리자 간의 사이가 좋지 않아 사업장 복귀 어렵다고 함

1월 30일
- 사업주와 합의 하에 사직 사유를 사업장 귀책 사유로 변경하여 퇴직시키기로 함 

2월 3일
- 퇴직 사유 변경 및 고용 변동 신고 완료되어 체류자격 복원되었음을 확인함

2월 4일
- C가 재차 센터 방문하여 해고예고수당 지급받길 원한다고 하여 다시 조사관 연락. C와 경기지방노동위원회 동행.
--------------------------------------------------
