# ChromaDB 패널 검색 (메타데이터 필터 적용)

## 주요 개선사항
- **메타데이터 필터 적용**: 지역, 연령대, 성별 필터링
- **Fallback 메커니즘**: 메타데이터 필터로 0건이면 topic만으로 재검색

## 검색 파이프라인
1. **메타데이터 추출**: LLM으로 검색 쿼리에서 구조화된 메타데이터 추출
2. **카테고리 분류**: LLM으로 메타데이터를 카테고리별로 분류
3. **텍스트 생성**: 카테고리별로 자연어 텍스트 생성
4. **임베딩 생성**: Upstage Solar로 임베딩
5. **Topic + 메타데이터 필터링 검색**: 카테고리(topic)와 메타데이터로 필터링
6. **단계적 필터링**: 여러 카테고리를 순차적으로 적용하여 후보 축소

## 필요한 패키지
```bash
pip install anthropic langchain-upstage langchain-chroma chromadb
```

## 1. 라이브러리 import

In [1]:
import os
import json
import re
from typing import List, Dict, Any, Optional
from anthropic import Anthropic
from langchain_upstage import UpstageEmbeddings
from langchain_chroma import Chroma
from collections import defaultdict

# ⭐ 파일 핸들 제한 확인 및 조정 (Windows는 자동 조정됨)
import sys
if sys.platform != 'win32':
    import resource
    try:
        soft, hard = resource.getrlimit(resource.RLIMIT_NOFILE)
        print(f"현재 파일 핸들 제한: {soft} (최대: {hard})")
        # 가능한 최대값으로 설정
        resource.setrlimit(resource.RLIMIT_NOFILE, (min(4096, hard), hard))
        print(f"조정된 파일 핸들 제한: {min(4096, hard)}")
    except:
        pass

print("라이브러리 import 완료")

라이브러리 import 완료


## 2. 설정 및 Config 로드

In [2]:
# ChromaDB 저장 경로
CHROMA_BASE_DIR = r"C:\Capstone\Chroma_db"

# API Keys
UPSTAGE_API_KEY = os.getenv('UPSTAGE_API_KEY', 'up_2KGGBmZpBmlePxUyk3ouWBf9iqOmJ')
ANTHROPIC_API_KEY = os.getenv('ANTHROPIC_API_KEY', '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')

# category_config.json 로드
CATEGORY_CONFIG_PATH = r"C:\Capstone\search2\category_config.json"

with open(CATEGORY_CONFIG_PATH, 'r', encoding='utf-8') as f:
    CATEGORY_CONFIG = json.load(f)

print("✅ 환경 설정 완료")
print(f"   카테고리 수: {len(CATEGORY_CONFIG)}개")

✅ 환경 설정 완료
   카테고리 수: 17개


## 3. 메타데이터 추출기 (LLM)

In [3]:
class MetadataExtractor:
    """LLM으로 검색 쿼리에서 메타데이터 추출"""

    def __init__(self, api_key: str):
        self.client = Anthropic(api_key=api_key)
        self.model = "claude-sonnet-4-5-20250929"

    def extract(self, query: str) -> Dict[str, Any]:
        """
        자연어 쿼리에서 구조화된 메타데이터 추출 (다중 값/범위 지원)

        Args:
            query: 검색 쿼리 (예: "서울 강남구 27세 기혼 남자")

        Returns:
            메타데이터 딕셔너리 (예: {"지역": "서울", "지역구": "강남구", "나이": 27, "연령대": "20대", "성별": "남", "결혼여부": "기혼"})
        """
        prompt = f"""당신은 자연어 질의에서 메타데이터를 추출하는 전문가입니다.

자연어 질의를 분석하여 모든 정보를 메타데이터로 추출하세요.

=== 추출 규칙 ===

1. **지역 관련 정보는 모두 "지역" 키로 추출** (매우 중요!)
   - 국내 지역: "서울", "경기", "부산" 등 → "지역" 키 사용
   - 지역구: "강남구", "서초구", "양산시" 등 → "지역구" 키로 별도 추출
   - 해외 관련: "해외", "외국", "국외", "외국인", "해외 거주" 등 → "지역": "해외"
   - "거주지", "거주", "사는 곳" 등의 키 사용 금지
   - 반드시 "지역" 키만 사용할 것

2. **다중 값은 리스트로 표현**
   - "서울, 경기" → "지역": ["서울", "경기"]
   - "서울 또는 경기" → "지역": ["서울", "경기"]
   - "20대, 30대" → "연령대": ["20대", "30대"]

3. **나이와 연령대 모두 추출**
   - "27세" → "나이": 27, "연령대": "20대"
   - "35세" → "나이": 35, "연령대": "30대"
   - 연령대만 있으면: "20대" → "연령대": "20대"

4. **범위는 연령대 리스트로 변환**
   - "10~20세" → "연령대": ["10대", "20대"]
   - "20대~30대" → "연령대": ["20대", "30대"]
   - **"40세 이하" → "연령대": ["10대", "20대", "30대", "40대"]** ⭐
   - **"40대 이하" → "연령대": ["10대", "20대", "30대", "40대"]** ⭐

5. **성별 정규화**
   - "남성", "남자", "남" → "남자"
   - "여성", "여자", "여" → "여자"

6. **결혼여부 추출** (⭐⭐⭐ 가장 중요! 절대 지켜야 함!)
   - 반드시 "결혼여부" 키만 사용 (다른 키 사용 절대 금지!)
   - "기혼", "결혼한", "결혼한 사람", "결혼함" → "결혼여부": "기혼"
   - "미혼", "미혼인", "결혼 안한" → "결혼여부": "미혼"
   - ⚠️ 절대 사용 금지 키: "결혼상태", "결혼상황", "혼인", "결혼" (이런 키 쓰면 안됨!)

7. **자녀수/가족수 추출** (⭐⭐⭐ 매우 중요!)
   - 반드시 "자녀수", "가족수" 키만 사용 (다른 키 사용 절대 금지!)
   - "자녀 2명" → "자녀수": 2
   - "가족 3명", "가족 구성 3명" → "가족수": 3
   - **"혼자 사는", "1인 가구", "독거", "혼자 거주" → "가족수": 1** ⭐
   - **"2인 가구" → "가족수": 2** ⭐
   - ⚠️ 절대 사용 금지 키: "가구형태", "가구유형", "거주형태" (이런 키 쓰면 안됨!)

8. **학력 추출**
   - "고졸", "고등학교 졸업" → "학력": "고등학교 졸업 이하"
   - "대학생", "대학 재학" → "학력": "대학교 재학"
   - "대졸", "대학교 졸업" → "학력": "대학교 졸업"
   - "대학원", "석사", "박사" → "학력": "대학원 재학/졸업 이상"

9. **직업 추출** (⭐ 중요: 정규화하여 추출)
   - "전문직", "의사", "간호사", "변호사" 등 → "직업": "전문직"
   - "교직", "교수", "교사", "강사" → "직업": "교직"
   - "경영관리직", "사장", "임원" → "직업": "경영관리직"
   - "사무직", "공무원", "직장인" → "직업": "사무직"
   - "자영업", "사업" → "직업": "자영업"
   - "판매직", "세일즈" → "직업": "판매직"
   - "서비스직" → "직업": "서비스직"
   - "생산직", "노무직" → "직업": "생산/노무직"
   - "기능직", "기술직" → "직업": "기능직"
   - "농업", "임업", "축산업", "수산업" → "직업": "농업/임업/축산업/광업/수산업"
   - "임대업" → "직업": "임대업"
   - "학생", "중학생", "고등학생" → "직업": "중/고등학생"
   - "대학생", "대학원생" → "직업": "대학생/대학원생"
   - "전업주부", "주부" → "직업": "전업주부"
   - "퇴직", "은퇴", "연금생활자" → "직업": "퇴직/연금생활자"
   - "일하는", "근무하는", "종사하는" 등의 표현에서 직업 추출

10. **모호한 표현 해석**
   - "젊은층", "청년" → "연령대": ["20대", "30대"]
   - "중년층", "장년" → "연령대": ["40대", "50대"]
   - "MZ세대" → "연령대": ["20대", "30대"]

11. **전국/전체는 빈 값으로 처리**
   - "전국" → 지역 필드 생성하지 않음

12. **수도권 특별 처리**
   - "수도권" → "지역": ["서울", "경기", "인천"]

=== 예시 ===

입력: "서울 강남구 27세 기혼 남자"
출력:
{{
    "지역": "서울",
    "지역구": "강남구",
    "나이": 27,
    "연령대": "20대",
    "결혼여부": "기혼",
    "성별": "남자"
}}

입력: "전문직에서 일하는 사람"
출력:
{{
    "직업": "전문직"
}}

입력: "의사 선생님"
출력:
{{
    "직업": "전문직"
}}

입력: "교사로 근무하는 30대"
출력:
{{
    "직업": "교직",
    "연령대": "30대"
}}

입력: "회사원"
출력:
{{
    "직업": "사무직"
}}

입력: "대학생"
출력:
{{
    "직업": "대학생/대학원생"
}}

질의: {query}

⚠️⚠️⚠️ 필수 주의사항:
- 직업은 15개 보기 중 하나로 정규화하여 추출 (정확히 매칭)
- 결혼 관련 정보는 반드시 "결혼여부" 키만 사용!
- 가족/가구 관련 정보는 반드시 "가족수" 키만 사용!
- "혼자 사는", "1인 가구", "독거" 등은 모두 "가족수": 1로 변환!
- "XX세 이하"는 해당 연령대까지 모든 연령대를 리스트로 반환

JSON만 반환하세요. 다른 설명은 하지 마세요.
"""

        try:
            response = self.client.messages.create(
                model=self.model,
                max_tokens=1024,
                temperature=0.0,
                messages=[{"role": "user", "content": prompt}]
            )

            text = response.content[0].text
            
            # JSON 파싱 (코드블록 제거)
            if '```json' in text:
                json_text = text.split('```json')[1].split('```')[0].strip()
            elif '```' in text:
                json_text = text.split('```')[1].strip()
            else:
                json_text = text.strip()
            
            metadata = json.loads(json_text)
            
            # ===== 후처리: 키 이름 및 값 정규화 =====
            print(f"\n[메타데이터 추출 - LLM 원본] {metadata}")

            # 1. 지역 키 정규화
            if "거주지" in metadata and "지역" not in metadata:
                metadata["지역"] = metadata.pop("거주지")
            if "거주" in metadata and "지역" not in metadata:
                metadata["지역"] = metadata.pop("거주")

            # 2. 결혼여부 키 정규화
            marriage_keys = ["결혼상태", "결혼상황", "혼인", "혼인여부", "결혼"]
            for key in marriage_keys:
                if key in metadata and "결혼여부" not in metadata:
                    metadata["결혼여부"] = metadata.pop(key)
                    print(f"   [후처리] '{key}' → '결혼여부'로 키 정규화")
                    break

            # 3. 결혼여부 값 정규화
            if "결혼여부" in metadata:
                marriage = metadata["결혼여부"]
                if isinstance(marriage, str):
                    original = marriage
                    if marriage in ["결혼함", "결혼", "결혼한", "기혼자", "유부남", "유부녀"]:
                        metadata["결혼여부"] = "기혼"
                        print(f"   [후처리] 결혼여부 값 '{original}' → '기혼'으로 정규화")
                    elif marriage in ["미혼인", "결혼 안함", "미혼자"]:
                        metadata["결혼여부"] = "미혼"
                        print(f"   [후처리] 결혼여부 값 '{original}' → '미혼'으로 정규화")

            # 4. 가족수 키 정규화
            household_keys = ["가구형태", "가구유형", "거주형태", "가구구성"]
            for key in household_keys:
                if key in metadata and "가족수" not in metadata:
                    value = metadata.pop(key)
                    if isinstance(value, str):
                        import re
                        match = re.search(r'(\d+)인', value)
                        if match:
                            metadata["가족수"] = int(match.group(1))
                            print(f"   [후처리] '{key}: {value}' → '가족수: {metadata['가족수']}'로 변환")
                    break

            # 5. ⭐ 직업 정규화 (15개 보기로 매핑)
            if "직업" in metadata:
                job = metadata["직업"]
                job_normalized = self._normalize_job(job)
                if job_normalized != job:
                    print(f"   [후처리] 직업 '{job}' → '{job_normalized}'로 정규화")
                    metadata["직업"] = job_normalized

            # 6. 성별 정규화
            if "성별" in metadata:
                gender = metadata["성별"]
                if isinstance(gender, str):
                    if gender in ["남성", "남자", "male", "M"]:
                        metadata["성별"] = "남"
                    elif gender in ["여성", "여자", "female", "F"]:
                        metadata["성별"] = "여"
                elif isinstance(gender, list):
                    normalized = []
                    for g in gender:
                        if g in ["남성", "남자", "male", "M"]:
                            normalized.append("남")
                        elif g in ["여성", "여자", "female", "F"]:
                            normalized.append("여")
                        else:
                            normalized.append(g)
                    metadata["성별"] = normalized
            
            print(f"[메타데이터 추출 - 최종] {metadata}")
            return metadata

        except Exception as e:
            print(f"[ERROR] 메타데이터 추출 실패: {e}")
            return {}

    def _normalize_job(self, job: str) -> str:
        """직업을 15개 보기 중 하나로 정규화"""
        job_lower = job.lower()
        
        # 15개 보기 매핑
        if any(kw in job_lower for kw in ["전문직", "의사", "간호사", "변호사", "회계사", "예술가", "종교인", "엔지니어", "프로그래머", "기술사"]):
            return "전문직"
        elif any(kw in job_lower for kw in ["교직", "교수", "교사", "강사"]):
            return "교직"
        elif any(kw in job_lower for kw in ["경영", "관리직", "사장", "임원", "대기업 간부", "고위 공무원"]):
            return "경영/관리직"
        elif any(kw in job_lower for kw in ["사무직", "공무원", "회사원", "직장인", "은행원", "군인", "경찰", "소방관"]):
            return "사무직"
        elif any(kw in job_lower for kw in ["자영업", "사업"]):
            return "자영업"
        elif any(kw in job_lower for kw in ["판매직", "세일즈", "보험설계사", "영업"]):
            return "판매직"
        elif any(kw in job_lower for kw in ["서비스직", "미용", "요식업"]):
            return "서비스직"
        elif any(kw in job_lower for kw in ["생산직", "노무직", "운전", "현장직"]):
            return "생산/노무직"
        elif any(kw in job_lower for kw in ["기능직", "기술직", "제빵", "목수", "전기공", "정비사", "배관공"]):
            return "기능직"
        elif any(kw in job_lower for kw in ["농업", "임업", "축산", "수산", "광업"]):
            return "농업/임업/축산업/광업/수산업"
        elif "임대" in job_lower:
            return "임대업"
        elif any(kw in job_lower for kw in ["중학생", "고등학생", "학생"]) and "대학" not in job_lower:
            return "중/고등학생"
        elif any(kw in job_lower for kw in ["대학생", "대학원생"]):
            return "대학생/대학원생"
        elif any(kw in job_lower for kw in ["주부", "전업주부"]):
            return "전업주부"
        elif any(kw in job_lower for kw in ["퇴직", "은퇴", "연금"]):
            return "퇴직/연금생활자"
        
        # 15개 보기에 해당하지 않으면 그대로 반환
        return job


print("MetadataExtractor 클래스 정의 완료 (직업 15개 보기 정규화 추가)")

MetadataExtractor 클래스 정의 완료 (직업 15개 보기 정규화 추가)


## 4. 메타데이터 필터 추출기

카테고리별로 사용할 메타데이터 필터를 추출합니다.

In [4]:
class MetadataFilterExtractor:
    """LLM으로 카테고리별 메타데이터 필터 추출 및 정규화 (복수 값 지원)"""

    def __init__(self, api_key: str):
        self.client = Anthropic(api_key=api_key)
        self.model = "claude-sonnet-4-5-20250929"

    def extract_filters(self, metadata: Dict[str, Any], category: str) -> Dict[str, Any]:
        """
        특정 카테고리에 적용할 메타데이터 필터를 추출 및 정규화
        
        Args:
            metadata: 전체 메타데이터
            category: 카테고리명 (예: "기본정보")
        
        Returns:
            정규화된 메타데이터 필터 (복수 값 포함)
            예: {"지역": ["서울", "경기"], "연령대": ["10대", "20대"], "성별": "남", "결혼여부": "기혼"}
        """
        # 카테고리별 메타데이터 매핑
        # ⚠️ 주의: "직업", "소득"은 ChromaDB에 메타데이터로 저장되지 않았으므로 제외
        # → 벡터 유사도 검색으로만 처리
        CATEGORY_METADATA_MAPPING = {
            "기본정보": ["지역", "지역구", "연령대", "성별", "나이", "결혼여부", "자녀수", "가족수", "학력"],
            "직업소득": ["학력"],  # ⭐ "직업", "소득" 제거 (벡터 검색으로만 처리)
            "건강": ["활동", "운동"],
        }
        
        applicable_keys = CATEGORY_METADATA_MAPPING.get(category, [])
        
        if not applicable_keys:
            return {}
        
        # 해당 카테고리에 적용 가능한 메타데이터만 추출
        relevant_metadata = {}
        for key in applicable_keys:
            if key in metadata:
                relevant_metadata[key] = metadata[key]
        
        if not relevant_metadata:
            return {}
        
        # ⭐ 복수 값 보존을 위해 rule-based 정규화 직접 사용
        # LLM이 리스트를 단일 값으로 변환하는 문제를 해결
        normalized_filter = self._rule_based_normalize(relevant_metadata)
        
        print(f"   [{category}] 필터 정규화: {relevant_metadata} → {normalized_filter}")
        return normalized_filter

    def _rule_based_normalize(self, metadata: Dict[str, Any]) -> Dict[str, Any]:
        """규칙 기반 정규화 (복수 값 지원, 새 필터 포함)"""
        filter_dict = {}
        
        # 지역명 매핑
        region_mapping = {
            "서울특별시": "서울", "서울시": "서울",
            "부산광역시": "부산", "부산시": "부산",
            "대구광역시": "대구", "대구시": "대구",
            "인천광역시": "인천", "인천시": "인천",
            "광주광역시": "광주", "광주시": "광주",
            "대전광역시": "대전", "대전시": "대전",
            "울산광역시": "울산", "울산시": "울산",
            "세종특별자치시": "세종", "세종시": "세종",
            "경기도": "경기", "강원도": "강원", "강원특별자치도": "강원",
            "충청북도": "충북", "충북도": "충북",
            "충청남도": "충남", "충남도": "충남",
            "전라북도": "전북", "전북도": "전북", "전북특별자치도": "전북",
            "전라남도": "전남", "전남도": "전남",
            "경상북도": "경북", "경북도": "경북",
            "경상남도": "경남", "경남도": "경남",
            "제주특별자치도": "제주", "제주도": "제주", "제주시": "제주",
            "해외": "해외", "외국": "해외", "국외": "해외",
        }
        
        # 학력 매핑 (텍스트 정규화)
        education_mapping = {
            "고졸": "고등학교 졸업 이하",
            "고등학교": "고등학교 졸업 이하",
            "고등학교 졸업": "고등학교 졸업 이하",
            "대학생": "대학교 재학",
            "대학 재학": "대학교 재학",
            "대학교 재학": "대학교 재학",
            "대재": "대학교 재학",
            "대졸": "대학교 졸업",
            "대학 졸업": "대학교 졸업",
            "대학교 졸업": "대학교 졸업",
            "대학원": "대학원 재학/졸업 이상",
            "석사": "대학원 재학/졸업 이상",
            "박사": "대학원 재학/졸업 이상",
            "대학원 재학": "대학원 재학/졸업 이상",
            "대학원 졸업": "대학원 재학/졸업 이상",
        }
        
        for key, value in metadata.items():
            if not value or value == '':
                continue
            
            # 리스트인 경우 모든 값을 정규화
            if isinstance(value, list):
                normalized_list = []
                for item in value:
                    if key == "지역":
                        normalized_list.append(region_mapping.get(item, item))
                    elif key == "성별":
                        if item in ["남성", "남자", "male", "M"]:
                            normalized_list.append("남")
                        elif item in ["여성", "여자", "female", "F"]:
                            normalized_list.append("여")
                        else:
                            normalized_list.append(item)
                    elif key == "학력":
                        normalized_list.append(education_mapping.get(item, item))
                    else:
                        normalized_list.append(item)
                filter_dict[key] = normalized_list
            else:
                # 단일 값인 경우
                if key == "지역":
                    value = region_mapping.get(value, value)
                elif key == "성별":
                    if value in ["남성", "남자", "male", "M"]:
                        value = "남"
                    elif value in ["여성", "여자", "female", "F"]:
                        value = "여"
                elif key == "학력":
                    value = education_mapping.get(value, value)
                elif key == "결혼여부":
                    # 결혼여부 정규화: "기혼", "미혼", "기타" 중 하나
                    if value in ["결혼", "결혼한", "기혼자"]:
                        value = "기혼"
                    elif value in ["미혼자", "결혼 안한"]:
                        value = "미혼"
                # 나이, 자녀수, 가족수는 숫자 그대로 유지
                elif key in ["나이", "자녀수", "가족수"]:
                    # 문자열이면 int로 변환 시도
                    if isinstance(value, str) and value.isdigit():
                        value = int(value)
                
                filter_dict[key] = value
        
        return filter_dict


print("✅ MetadataFilterExtractor 클래스 정의 완료 (직업/소득 필터 제거, 벡터 검색으로만 처리)")

✅ MetadataFilterExtractor 클래스 정의 완료 (직업/소득 필터 제거, 벡터 검색으로만 처리)


## 5. 카테고리 분류기 (간소화)

In [5]:
class CategoryClassifier:
    """LLM으로 메타데이터를 카테고리별로 분류 (panel_search.ipynb와 동일)"""

    def __init__(self, category_config: Dict[str, Any], api_key: str):
        self.category_config = category_config
        self.client = Anthropic(api_key=api_key)
        self.model = "claude-sonnet-4-5-20250929"

    def _build_prompt(self, metadata: Dict[str, Any]) -> str:
        """카테고리 설명 + 메타데이터를 포함한 LLM용 프롬프트 생성"""
        
        # 카테고리 설명
        category_desc = "\n".join([
            f"- {cat}: {info.get('description', ', '.join(info.get('keywords', [])))}"
            for cat, info in self.category_config.items()
        ])

        # 키: 값 형식으로 메타데이터 나열
        meta_lines = [f"{k}: {v}" for k, v in metadata.items()]
        meta_text = "\n".join(meta_lines)

        # 사용 가능한 키 이름 목록
        meta_keys = ", ".join(metadata.keys())

        prompt = f"""
당신은 메타데이터를 카테고리로 분류하는 전문가입니다.

다음은 사용할 수 있는 카테고리 목록과 설명입니다:
{category_desc}

다음은 분류해야 할 메타데이터입니다 (키: 값 형식):
{meta_text}

이때 사용할 수 있는 '키 이름' 목록은 다음과 같습니다:
{meta_keys}

당신의 작업:
각 메타데이터의 "키 이름"을 정확히 하나의 카테고리에 배정하세요.

출력은 반드시 아래 JSON 형식을 따라야 합니다 (예시는 구조만 참고):

{{
  "기본정보": ["지역", "성별"],
  "미디어": ["조건"],
  "스트레스": [],
  "기타": []
}}

카테고리 작업 규칙:
1. 각 메타데이터 키는 반드시 1개의 카테고리에만 속해야 합니다.
2. "키: 값" 전체를 쓰지 말고, 오직 '키 이름'만 써야 합니다.
3. 값(value)이나 새로운 문장, 설명문, 여분의 텍스트는 절대 포함하지 마세요.
4. 반드시 위에 나열된 키 이름만 사용하세요. 값이나 문장을 JSON에 넣으면 안 됩니다.

JSON만 반환하세요:
"""
        return prompt.strip()

    def classify(self, metadata: Dict[str, Any]) -> Dict[str, List[str]]:
        """
        메타데이터를 LLM을 통해 카테고리별로 분류

        Returns:
            {"카테고리명": ["키: 값", "키: 값", ...]}
        """
        if not metadata:
            return {}

        prompt = self._build_prompt(metadata)

        try:
            # LLM 호출
            response = self.client.messages.create(
                model=self.model,
                max_tokens=1024,
                temperature=0.2,
                messages=[{"role": "user", "content": prompt}]
            )
            
            raw_output = response.content[0].text.strip()

            # JSON 파싱
            mapping_tokens = self._parse_llm_output(raw_output)

            # 토큰들을 실제 메타데이터 키로 매핑
            categorized: Dict[str, List[str]] = {}
            used_keys: set = set()

            for cat, tokens in mapping_tokens.items():
                for token in tokens:
                    meta_key = self._match_llm_token_to_key(token, metadata, used_keys)
                    if meta_key is None:
                        continue
                    categorized.setdefault(cat, []).append(f"{meta_key}: {metadata[meta_key]}")
                    used_keys.add(meta_key)

            # 아무 것도 매핑 안 됐으면 rule-based로 폴백
            if not categorized:
                print("[WARN] LLM 기반 분류 결과 매핑 실패 -> rule-based로 대체")
                return self._rule_based_classify(metadata)

            print(f"\n[카테고리 분류] {dict(categorized)}")
            return categorized

        except Exception as e:
            print(f"[WARN] LLM 분류/파싱 실패 ({e}) -> rule-based로 대체")
            return self._rule_based_classify(metadata)

    def _parse_llm_output(self, raw_output: str) -> Dict[str, List[str]]:
        """LLM이 반환한 raw 문자열을 JSON으로 파싱"""
        # 코드블록 제거
        if "```json" in raw_output:
            try:
                raw_output = raw_output.split("```json", 1)[1].split("```", 1)[0].strip()
            except:
                pass
        elif "```" in raw_output:
            try:
                raw_output = raw_output.split("```", 1)[1].split("```", 1)[0].strip()
            except:
                pass

        # JSON 파싱
        parsed = json.loads(raw_output)

        # 값들을 전부 리스트[str] 형태로 정규화
        mapping_tokens: Dict[str, List[str]] = {}
        for cat, vals in parsed.items():
            if isinstance(vals, list):
                tokens = [str(v).strip() for v in vals if str(v).strip()]
            elif isinstance(vals, str):
                tokens = [vals.strip()] if vals.strip() else []
            elif isinstance(vals, dict):
                tokens = [str(k).strip() for k in vals.keys() if str(k).strip()]
            else:
                tokens = [str(vals).strip()]

            if tokens:
                mapping_tokens[cat] = tokens

        return mapping_tokens

    def _match_llm_token_to_key(self, token: str, metadata: Dict[str, Any], used_keys: set) -> Optional[str]:
        """LLM이 JSON에 넣은 토큰을 실제 메타데이터 키로 매핑"""
        t = token.strip()
        if not t:
            return None

        # 1) 정확히 같은 키 이름
        if t in metadata and t not in used_keys:
            return t

        # 2) "키: 값" 형식으로 온 경우
        if ":" in t:
            left = t.split(":", 1)[0].strip()
            if left in metadata and left not in used_keys:
                return left

        # 3) 값 문자열과의 유사 매칭
        t_lower = t.lower()
        for meta_key, meta_value in metadata.items():
            if meta_key in used_keys:
                continue
            v_lower = str(meta_value).lower()

            if t_lower in v_lower or v_lower in t_lower:
                return meta_key

        return None

    def _rule_based_classify(self, metadata: Dict[str, Any]) -> Dict[str, List[str]]:
        """백업용: 기존 키워드 기반 규칙 분류"""
        categorized: Dict[str, List[str]] = {}
        for meta_key, meta_value in metadata.items():
            matched_categories = self._match_categories(meta_value)
            for category in matched_categories:
                categorized.setdefault(category, []).append(f"{meta_key}: {meta_value}")
        return categorized

    def _match_categories(self, value) -> List[str]:
        matched: List[str] = []
        if isinstance(value, list):
            for item in value:
                if isinstance(item, str):
                    matched.extend(self._match_single_value(item))
        elif isinstance(value, str):
            matched = self._match_single_value(value)
        return list(set(matched))

    def _match_single_value(self, value: str) -> List[str]:
        matched: List[str] = []
        value_lower = value.lower()
        for category_name, category_info in self.category_config.items():
            for keyword in category_info.get("keywords", []):
                if keyword.lower() in value_lower:
                    matched.append(category_name)
                    break
        return matched


print("CategoryClassifier 클래스 정의 완료")

CategoryClassifier 클래스 정의 완료


## 6. 텍스트 생성기 (LLM)

In [6]:
class CategoryTextGenerator:
    """카테고리별로 자연어 텍스트 생성 (ChromaDB 저장 형식에 맞춤)"""

    def __init__(self, api_key: str):
        self.client = Anthropic(api_key=api_key)
        self.model = "claude-sonnet-4-5-20250929"

    def generate(self, category: str, metadata_items: List[str]) -> str:
        """
        카테고리별 자연어 텍스트 생성 (ChromaDB 실제 저장 형식 참고)
        
        ⭐ 중요: ChromaDB에 저장된 텍스트 형식을 최대한 유사하게 생성해야 벡터 유사도가 높아짐
        """
        if not metadata_items:
            return ""

        # 메타데이터를 딕셔너리로 파싱
        metadata_dict = {}
        for item in metadata_items:
            if ": " in item:
                key, value = item.split(": ", 1)
                metadata_dict[key] = value

        try:
            # 카테고리별 템플릿 기반 텍스트 생성
            text = self._generate_by_template(category, metadata_dict)
            
            if text:
                print(f"\n[{category}] {text[:80]}...")
                return text
            
            # 템플릿이 없으면 LLM으로 생성
            return self._generate_by_llm(category, metadata_items)

        except Exception as e:
            print(f"[ERROR] 텍스트 생성 실패 ({category}): {e}")
            return ", ".join(metadata_items)

    def _generate_by_template(self, category: str, metadata: Dict[str, str]) -> str:
        """
        ChromaDB 저장 형식을 참고한 템플릿 기반 텍스트 생성
        
        실제 ChromaDB 저장 예시:
        - 인구: "경기 성남시에 거주하는 48세 남이며 미혼, 가족 구성은 2명, 최종 학력은 대학교 재학입니다."
        - 직업소득: "현재 직업은 전문직 (의사, 간호사, 변호사, 회계사, 예술가, 종교인, 엔지니어, 프로그래머, 기술사 등)이며, 직무는 IT입니다. 월평균 개인 소득은 월 600~699만원이고, 가구 소득은 월 600~699만원입니다."
        """
        
        if category == "기본정보":
            # ChromaDB topic="인구" 형식
            parts = []
            
            # 지역 정보
            if "지역" in metadata or "지역구" in metadata:
                region_text = ""
                if "지역" in metadata and "지역구" in metadata:
                    region_text = f"{metadata['지역']} {metadata['지역구']}"
                elif "지역구" in metadata:
                    region_text = metadata['지역구']
                elif "지역" in metadata:
                    region_text = metadata['지역']
                
                if region_text:
                    parts.append(f"{region_text}에 거주하는")
            
            # 나이
            if "나이" in metadata:
                parts.append(f"{metadata['나이']}세")
            
            # 성별
            if "성별" in metadata:
                parts.append(metadata['성별'])
            
            # 기본 정보 연결
            base_text = " ".join(parts) if parts else ""
            
            # 추가 정보 (이며 ~)
            additional = []
            if "결혼여부" in metadata:
                additional.append(metadata['결혼여부'])
            
            if "자녀수" in metadata:
                additional.append(f"자녀는 {metadata['자녀수']}명")
            
            if "가족수" in metadata:
                additional.append(f"가족 구성은 {metadata['가족수']}명")
            
            if "학력" in metadata:
                additional.append(f"최종 학력은 {metadata['학력']}")
            
            # 최종 조합
            if base_text and additional:
                return f"{base_text}이며 {', '.join(additional)}입니다."
            elif base_text:
                return f"{base_text}입니다."
            elif additional:
                return f"{', '.join(additional)}입니다."
            
            return ""
        
        elif category == "직업소득":
            # ChromaDB topic="직업소득" 형식
            # ⭐ 핵심: 실제 저장 형식은 매우 상세함
            # "현재 직업은 전문직 (의사, 간호사, 변호사, 회계사, 예술가, 종교인, 엔지니어, 프로그래머, 기술사 등)이며, 직무는 IT입니다. 월평균 개인 소득은 월 600~699만원이고, 가구 소득은 월 600~699만원입니다."
            
            # 직업별 상세 설명 매핑 (ChromaDB 실제 패턴)
            job_details = {
                "전문직": " (의사, 간호사, 변호사, 회계사, 예술가, 종교인, 엔지니어, 프로그래머, 기술사 등)",
                "사무직": " (일반 사무직, 은행원, 공무원, 군인, 경찰, 소방관 등)",
                "서비스직": " (미용, 통신, 안내, 요식업 직원 등)",
                "판매직": " (매장 판매직, 세일즈, 보험설계사, 텔레마케터, 영업 등)",
                "생산직": " (차량운전자, 현장직, 생산직 등)",
                "생산/노무직": " (차량운전자, 현장직, 생산직 등)",
                "교직": " (교수, 교사, 강사 등)",
                "자영업": " (제조업, 건설업, 도소매업, 운수업, 무역업, 서비스업 경영)",
                "농/임/수산/축산업": "",
                "대학생/대학원생": "",
                "중/고등학생": "",
                "전업주부": "",
                "무직": "",
                "은퇴": "",
                "프리랜서": "",
                "회사원": "",  # 일반적인 경우
            }
            
            parts = []
            
            if "직업" in metadata:
                job = metadata['직업']
                # 상세 설명 추가
                job_detail = job_details.get(job, "")
                parts.append(f"현재 직업은 {job}{job_detail}입니다")
            
            # 학력이 있으면 추가 (직업 정보와 함께)
            if "학력" in metadata:
                parts.append(f"최종 학력은 {metadata['학력']}입니다")
            
            # 소득 정보는 쿼리에서 제공되지 않으므로 생략
            # (실제 ChromaDB에는 있지만, 검색 시에는 직업만으로 충분)
            
            return ". ".join(parts) + "." if parts else ""
        
        elif category == "전자제품":
            # ChromaDB topic="전자제품" 형식
            # "TV, 냉장고, 세탁기 등 전자제품을 보유하고 있습니다."
            if "전자제품" in metadata:
                products = metadata['전자제품']
                return f"{products} 등 전자제품을 보유하고 있습니다."
            return ""
        
        elif category == "휴대폰":
            # ChromaDB topic="휴대폰" 형식
            # "현재 사용 중인 휴대폰은 삼성전자의 갤럭시 M 시리즈입니다."
            if "휴대폰" in metadata:
                return f"현재 사용 중인 휴대폰은 {metadata['휴대폰']}입니다."
            return ""
        
        elif category == "자동차":
            # ChromaDB topic="자동차" 형식
            # "현재 보유 차량은 없습니다." 또는 "지프 컴패스 모델의 자동차를 보유하고 있습니다."
            if "자동차" in metadata:
                car = metadata['자동차']
                if car in ["없음", "없습니다", "보유하지 않음"]:
                    return "현재 보유 차량은 없습니다."
                else:
                    return f"{car} 모델의 자동차를 보유하고 있습니다."
            return ""
        
        elif category == "흡연":
            # ChromaDB topic="흡연" 형식
            # "일반 담배를 경험한 적이 있습니다."
            if "흡연" in metadata:
                smoking = metadata['흡연']
                if smoking in ["흡연", "일반담배", "담배"]:
                    return "일반 담배를 경험한 적이 있습니다."
                elif smoking in ["비흡연", "없음"]:
                    return "흡연 경험이 없습니다."
                else:
                    return f"{smoking}를 경험한 적이 있습니다."
            return ""
        
        elif category == "음주":
            # ChromaDB topic="음주" 형식
            # "음주 경험이 있는 술 종류는 소주, 맥주입니다."
            if "음주" in metadata:
                drinks = metadata['음주']
                return f"음주 경험이 있는 술 종류는 {drinks}입니다."
            return ""
        
        elif category == "건강":
            # ChromaDB에는 건강 topic이 없지만, 활동/운동 정보 생성
            parts = []
            if "활동" in metadata:
                parts.append(f"{metadata['활동']} 활동을 합니다")
            if "운동" in metadata:
                parts.append(f"{metadata['운동']} 운동을 합니다")
            return ". ".join(parts) + "." if parts else ""
        
        elif category == "미디어":
            # ChromaDB에는 미디어 topic 형식 참고
            if "OTT" in metadata:
                return f"현재 이용 중인 OTT 서비스는 {metadata['OTT']}개입니다."
            return ""
        
        # 기본 템플릿이 없는 경우
        return ""

    def _generate_by_llm(self, category: str, metadata_items: List[str]) -> str:
        """LLM으로 텍스트 생성 (템플릿이 없는 경우)"""
        metadata_str = ", ".join(metadata_items)
        
        prompt = f"""다음 메타데이터를 자연스러운 한국어 문장으로 변환하세요.

카테고리: {category}
메타데이터: {metadata_str}

규칙:
- 존댓말 사용 (입니다/습니다)
- 제공된 정보만 사용
- 카테고리 이름 포함하지 말 것

문장만 출력하세요:"""

        try:
            response = self.client.messages.create(
                model=self.model,
                max_tokens=512,
                temperature=0.3,
                messages=[{"role": "user", "content": prompt}]
            )
            
            text = response.content[0].text.strip()
            text = text.replace('"', '').replace("'", '').replace('```', '').strip()
            
            print(f"\n[{category}] {text[:80]}...")
            return text
        
        except Exception as e:
            print(f"[ERROR] LLM 텍스트 생성 실패: {e}")
            return metadata_str


print("CategoryTextGenerator 클래스 정의 완료 (ChromaDB 저장 형식 + 직업 상세 설명)")

CategoryTextGenerator 클래스 정의 완료 (ChromaDB 저장 형식 + 직업 상세 설명)


## 7. 임베딩 생성기

In [7]:
class EmbeddingGenerator:
    """Upstage Solar로 임베딩 생성"""

    def __init__(self, api_key: str):
        self.embeddings = UpstageEmbeddings(
            api_key=api_key,
            model="solar-embedding-1-large-query"
        )

    def generate(self, texts: Dict[str, str]) -> Dict[str, List[float]]:
        """카테고리별 임베딩 생성"""
        result = {}

        for category, text in texts.items():
            if not text:
                continue

            try:
                embedding = self.embeddings.embed_query(text)
                result[category] = embedding
                print(f"✅ [{category}] 임베딩 생성 완료")
            except Exception as e:
                print(f"❌ [{category}] 임베딩 생성 실패: {e}")

        return result


print("✅ EmbeddingGenerator 클래스 정의 완료")

✅ EmbeddingGenerator 클래스 정의 완료


## 8. ChromaDB 검색기 (Topic + 메타데이터 필터링) ⭐

In [8]:
class ChromaPanelSearcher:
    """ChromaDB에서 topic + 단계적 완화 필터링 검색 (복수 값 OR 조건 지원)"""

    def __init__(self, chroma_base_dir: str, category_config: Dict[str, Any], upstage_api_key: str):
        self.chroma_base_dir = chroma_base_dir
        self.category_config = category_config
        self.embeddings = UpstageEmbeddings(
            api_key=upstage_api_key,
            model="solar-embedding-1-large"
        )

    def get_available_panels(self) -> List[str]:
        """사용 가능한 패널 목록"""
        if not os.path.exists(self.chroma_base_dir):
            return []

        panels = []
        for item in os.listdir(self.chroma_base_dir):
            full_path = os.path.join(self.chroma_base_dir, item)
            if os.path.isdir(full_path) and item.startswith("panel_"):
                mb_sn = item.replace("panel_", "").replace("_", "-")
                panels.append(mb_sn)

        return panels

    def _is_no_response(self, text: str) -> bool:
        """텍스트가 무응답인지 확인"""
        no_response_patterns = [
            "무응답", "응답하지 않았", "정보 없음", "해당 없음",
            "해당사항 없음", "기록 없음", "데이터 없음"
        ]
        text_lower = text.lower()
        return any(pattern in text_lower for pattern in no_response_patterns)

    def _has_valid_metadata(self, doc_metadata: Dict[str, Any], required_keys: List[str]) -> bool:
        """
        메타데이터가 유효한지 확인 (빈 문자열이 아닌 실제 값이 있는지)
        
        Args:
            doc_metadata: 문서의 메타데이터
            required_keys: 확인할 키 목록 (예: ["지역", "연령대", "성별"])
        
        Returns:
            최소 1개 이상의 키에 빈 문자열이 아닌 값이 있으면 True
        """
        for key in required_keys:
            value = doc_metadata.get(key, '')
            if value and value != '':
                return True
        return False

    def _has_all_required_keys(self, doc_metadata: Dict[str, Any], required_keys: List[str]) -> bool:
        """
        문서 메타데이터에 필요한 모든 키가 존재하고 값이 있는지 확인
        
        Args:
            doc_metadata: 문서의 메타데이터
            required_keys: 필수 키 목록
        
        Returns:
            모든 키가 존재하고 빈 문자열이 아니면 True
        """
        for key in required_keys:
            value = doc_metadata.get(key, '')
            if not value or value == '':
                return False
        return True

    def _build_filter_condition(self, key: str, value: Any) -> Dict[str, Any]:
        """
        메타데이터 필터 조건 생성 (리스트는 OR 조건으로 변환)

        Args:
            key: 메타데이터 키
            value: 단일 값 또는 리스트

        Returns:
            ChromaDB 필터 조건
            - 단일 값: {key: value}
            - 리스트: {"$or": [{key: v1}, {key: v2}, ...]}
        """
        if isinstance(value, list) and len(value) > 0:
            # 리스트인 경우 OR 조건으로 변환
            return {"$or": [{key: item} for item in value]}
        else:
            # 단일 값인 경우
            return {key: value}

    def _partial_match_score(self, doc_metadata: Dict[str, Any], required_filters: Dict[str, Any]) -> float:
        """
        부분 매칭 스코어 계산 (복수 값 OR 조건 지원)

        Returns:
            0.0 ~ 1.0 (일치하는 필터 비율)
        """
        if not required_filters:
            return 1.0

        matched = 0
        total = len(required_filters)

        for key, expected_value in required_filters.items():
            actual_value = doc_metadata.get(key, '')

            # 빈값 체크
            if not actual_value or actual_value == '':
                continue

            # expected_value가 리스트인 경우 OR 조건 (하나라도 일치하면 매칭)
            if isinstance(expected_value, list):
                if str(actual_value) in [str(v) for v in expected_value]:
                    matched += 1
            else:
                # 단일 값인 경우 정확히 일치
                if str(actual_value) == str(expected_value):
                    matched += 1

        return matched / total if total > 0 else 0.0

    def search_by_category(
        self,
        mb_sn: str,
        category: str,
        query_embedding: List[float],
        metadata_filter: Dict[str, Any] = None,
        top_k: int = 5
    ) -> Optional[Dict[str, Any]]:
        """
        특정 패널의 특정 카테고리에서 단계적 완화 필터링 검색 (복수 값 OR 조건 지원)

        1단계: 모든 메타데이터 필터 적용 (리스트는 OR 조건)
        2단계: 부분 매칭 (일부 메타데이터만 일치, 모든 필터 키가 존재해야 함)
        ** 3단계 제거: topic만으로 검색하면 빈 메타데이터도 반환되므로 제거 **

        예시:
            metadata_filter = {"지역": ["서울", "경기"], "성별": "남"}
            → WHERE topic="인구" AND (지역="서울" OR 지역="경기") AND 성별="남"
        """
        topic = self.category_config.get(category, {}).get("pinecone_topic", category)
        collection_name = f"panel_{mb_sn}".replace("-", "_")
        persist_directory = os.path.join(self.chroma_base_dir, collection_name)

        if not os.path.exists(persist_directory):
            return None

        vectorstore = None
        try:
            vectorstore = Chroma(
                collection_name=collection_name,
                embedding_function=self.embeddings,
                persist_directory=persist_directory
            )

            # ===== 1단계: 엄격한 필터링 (모든 메타데이터 일치, 리스트는 OR 조건) =====
            if metadata_filter:
                filter_conditions = [{"topic": topic}]
                for key, value in metadata_filter.items():
                    if value:
                        # 리스트는 OR 조건으로, 단일 값은 그대로 추가
                        condition = self._build_filter_condition(key, value)
                        filter_conditions.append(condition)
                where_filter = {"$and": filter_conditions}
            else:
                where_filter = {"topic": topic}

            results = vectorstore.similarity_search_by_vector_with_relevance_scores(
                embedding=query_embedding,
                k=top_k * 10,
                filter=where_filter
            )

            # 무응답 제외
            valid_results = []
            for doc, score in results:
                if not self._is_no_response(doc.page_content):
                    valid_results.append((doc, score))

            # 1단계 성공
            if valid_results:
                best_doc, best_score = valid_results[0]
                return {
                    "mb_sn": mb_sn,
                    "category": category,
                    "topic": best_doc.metadata.get("topic"),
                    "score": float(best_score),
                    "metadata": best_doc.metadata,
                    "text": best_doc.page_content[:200],
                    "filter_level": "strict"
                }

            # ===== 2단계: 부분 매칭 (topic만 필터링 후 후처리, 모든 필터 키 존재 필수) =====
            if metadata_filter:
                results = vectorstore.similarity_search_by_vector_with_relevance_scores(
                    embedding=query_embedding,
                    k=top_k * 20,
                    filter={"topic": topic}
                )

                # 부분 매칭 + 무응답 제외 + 모든 필터 키 존재 확인
                partial_results = []
                required_keys = list(metadata_filter.keys())
                
                for doc, score in results:
                    if self._is_no_response(doc.page_content):
                        continue
                    
                    # ⭐ 핵심 수정: 모든 필터 키가 존재하고 값이 있어야 함
                    # 예: {"결혼여부": "기혼"} 필터인데 문서에 "결혼여부" 키가 없으면 제외
                    if not self._has_all_required_keys(doc.metadata, required_keys):
                        continue

                    match_score = self._partial_match_score(doc.metadata, metadata_filter)
                    if match_score > 0:  # 최소 1개 이상 일치
                        # 스코어 = 유사도 * 부분매칭비율
                        combined_score = score * (0.5 + 0.5 * match_score)
                        partial_results.append((doc, combined_score, match_score))

                # 부분 매칭 스코어로 정렬
                partial_results.sort(key=lambda x: x[1], reverse=True)

                if partial_results:
                    best_doc, combined_score, match_ratio = partial_results[0]
                    return {
                        "mb_sn": mb_sn,
                        "category": category,
                        "topic": best_doc.metadata.get("topic"),
                        "score": float(combined_score),
                        "metadata": best_doc.metadata,
                        "text": best_doc.page_content[:200],
                        "filter_level": "partial",
                        "match_ratio": match_ratio
                    }

            # ⭐ 3단계 제거: 메타데이터 필터가 있는 경우 topic만으로 검색하지 않음
            # 이유: 빈 메타데이터 패널도 반환되어 검색 품질이 떨어짐
            
            return None

        except Exception as e:
            return None
        finally:
            if vectorstore is not None:
                try:
                    if hasattr(vectorstore, '_client'):
                        vectorstore._client = None
                    del vectorstore
                except:
                    pass


print("✅ ChromaPanelSearcher 클래스 정의 완료 (복수 값 OR 조건, 필터 키 존재 확인)")

✅ ChromaPanelSearcher 클래스 정의 완료 (복수 값 OR 조건, 필터 키 존재 확인)


## 9. 결과 필터 (단계적 필터링)

In [9]:
from concurrent.futures import ThreadPoolExecutor, as_completed
import gc

class ResultFilter:
    """단계적 필터링으로 최종 후보 선별 (병렬 검색 최적화)"""

    def __init__(self, searcher: ChromaPanelSearcher, max_workers: int = 5):  # ⭐ 20 → 5로 감소
        self.searcher = searcher
        self.max_workers = max_workers

    def filter_by_categories(
        self,
        available_panels: List[str],
        category_embeddings: Dict[str, List[float]],
        category_filters: Dict[str, Dict[str, Any]],
        category_order: List[str],
        final_count: int = 10
    ) -> List[str]:
        """
        단계적 필터링 (병렬 검색)

        Args:
            available_panels: 검색 대상 패널 리스트
            category_embeddings: 카테고리별 임베딩
            category_filters: 카테고리별 메타데이터 필터
            category_order: 카테고리 적용 순서
            final_count: 최종 반환 개수

        Returns:
            최종 선별된 mb_sn 리스트
        """
        print(f"\n단계적 필터링 시작 (병렬 검색 활성화, workers={self.max_workers})")
        print(f"   초기 후보: {len(available_panels)}개")
        print(f"   카테고리 순서: {category_order}")
        print("=" * 80)

        # 1단계: 첫 번째 카테고리로 초기 후보 선별 (병렬 검색)
        first_category = category_order[0]
        first_embedding = category_embeddings[first_category]
        first_filter = category_filters.get(first_category, {})

        print(f"\n[1단계] {first_category} 카테고리로 검색 (병렬)")
        print(f"   메타데이터 필터: {first_filter}")
        
        candidate_scores = {}

        # 병렬 검색 실행
        with ThreadPoolExecutor(max_workers=self.max_workers) as executor:
            future_to_mb_sn = {
                executor.submit(
                    self.searcher.search_by_category,
                    mb_sn,
                    first_category,
                    first_embedding,
                    first_filter,
                    1
                ): mb_sn
                for mb_sn in available_panels
            }

            for future in as_completed(future_to_mb_sn):
                mb_sn = future_to_mb_sn[future]
                try:
                    result = future.result()
                    if result:
                        candidate_scores[mb_sn] = result["score"]
                except Exception as e:
                    pass

        # ⭐ 가비지 컬렉션으로 메모리 정리
        gc.collect()

        candidates = sorted(candidate_scores.items(), key=lambda x: x[1])[:100]
        candidate_mb_sns = [mb_sn for mb_sn, _ in candidates]

        print(f"   -> {len(candidate_mb_sns)}개 후보 선별")

        # 2단계 이후: 순차적으로 필터링 (병렬 검색)
        for step, category in enumerate(category_order[1:], 2):
            if category not in category_embeddings:
                continue

            print(f"\n[{step}단계] {category} 카테고리로 필터링 (병렬)")
            embedding = category_embeddings[category]
            cat_filter = category_filters.get(category, {})
            print(f"   메타데이터 필터: {cat_filter}")

            new_scores = {}

            # 병렬 검색 실행
            with ThreadPoolExecutor(max_workers=self.max_workers) as executor:
                future_to_mb_sn = {
                    executor.submit(
                        self.searcher.search_by_category,
                        mb_sn,
                        category,
                        embedding,
                        cat_filter,
                        1
                    ): mb_sn
                    for mb_sn in candidate_mb_sns
                }

                for future in as_completed(future_to_mb_sn):
                    mb_sn = future_to_mb_sn[future]
                    try:
                        result = future.result()
                        if result:
                            prev_score = candidate_scores.get(mb_sn, 0)
                            new_scores[mb_sn] = prev_score + result["score"]
                    except Exception as e:
                        pass

            # ⭐ 가비지 컬렉션
            gc.collect()

            candidates = sorted(new_scores.items(), key=lambda x: x[1])[:final_count * 3]
            candidate_mb_sns = [mb_sn for mb_sn, _ in candidates]
            candidate_scores = dict(candidates)

            print(f"   -> {len(candidate_mb_sns)}개 후보로 축소")

        final_mb_sns = candidate_mb_sns[:final_count]

        print(f"\n최종 {len(final_mb_sns)}개 패널 선별 완료")
        print("=" * 80)

        return final_mb_sns


print("✅ ResultFilter 클래스 정의 완료 (병렬 검색 + 연결 관리)")

✅ ResultFilter 클래스 정의 완료 (병렬 검색 + 연결 관리)


## 10. 전체 검색 파이프라인

In [10]:
class PanelSearchPipeline:
    """전체 검색 파이프라인 (LLM 기반 메타데이터 필터 적용)"""

    def __init__(
        self,
        chroma_base_dir: str,
        category_config: Dict[str, Any],
        anthropic_api_key: str,
        upstage_api_key: str
    ):
        self.metadata_extractor = MetadataExtractor(anthropic_api_key)
        self.filter_extractor = MetadataFilterExtractor(anthropic_api_key)  # ⭐ LLM 기반 필터 추출기 추가
        self.category_classifier = CategoryClassifier(category_config, anthropic_api_key)
        self.text_generator = CategoryTextGenerator(anthropic_api_key)
        self.embedding_generator = EmbeddingGenerator(upstage_api_key)
        self.searcher = ChromaPanelSearcher(chroma_base_dir, category_config, upstage_api_key)
        self.result_filter = ResultFilter(self.searcher)

    def search(self, query: str, top_k: int = 10) -> List[str]:
        """
        자연어 쿼리로 패널 검색

        Args:
            query: 검색 쿼리 (예: "서울 20대 남자")
            top_k: 반환할 패널 수

        Returns:
            mb_sn 리스트
        """
        print("\n" + "=" * 80)
        print(f"검색 쿼리: '{query}'")
        print("=" * 80)

        # 1단계: 메타데이터 추출
        print("\n[1단계] 메타데이터 추출")
        metadata = self.metadata_extractor.extract(query)

        if not metadata:
            print("[ERROR] 메타데이터 추출 실패")
            return []

        # 2단계: 카테고리 분류
        print("\n[2단계] 카테고리 분류")
        classified = self.category_classifier.classify(metadata)

        if not classified:
            print("[ERROR] 카테고리 분류 실패")
            return []

        # 2.5단계: LLM으로 카테고리별 메타데이터 필터 추출 및 정규화
        print("\n[2.5단계] 카테고리별 메타데이터 필터 추출 (LLM)")
        category_filters = {}
        for category in classified.keys():
            cat_filter = self.filter_extractor.extract_filters(metadata, category)  # ⭐ LLM 사용
            if cat_filter:
                category_filters[category] = cat_filter

        # 3단계: 자연어 텍스트 생성
        print("\n[3단계] 자연어 텍스트 생성")
        texts = {}
        for category, items in classified.items():
            text = self.text_generator.generate(category, items)
            if text:
                texts[category] = text

        # 4단계: 임베딩 생성
        print("\n[4단계] 임베딩 생성")
        embeddings = self.embedding_generator.generate(texts)

        if not embeddings:
            print("[ERROR] 임베딩 생성 실패")
            return []

        # 5단계: 단계적 필터링 검색
        available_panels = self.searcher.get_available_panels()
        print(f"\n[5단계] 검색 가능한 패널: {len(available_panels)}개")

        category_order = list(embeddings.keys())
        final_mb_sns = self.result_filter.filter_by_categories(
            available_panels=available_panels,
            category_embeddings=embeddings,
            category_filters=category_filters,
            category_order=category_order,
            final_count=top_k
        )

        return final_mb_sns


print("PanelSearchPipeline 클래스 정의 완료 (LLM 기반 필터)")

PanelSearchPipeline 클래스 정의 완료 (LLM 기반 필터)


## 11. 파이프라인 초기화

In [11]:
# 검색 파이프라인 재초기화 (수정된 클래스 적용)

# 이전 파이프라인 객체가 있으면 정리
if 'pipeline' in locals() or 'pipeline' in globals():
    try:
        if hasattr(pipeline, 'searcher') and hasattr(pipeline.searcher, 'embeddings'):
            del pipeline.searcher.embeddings
        if hasattr(pipeline, 'embedding_generator') and hasattr(pipeline.embedding_generator, 'embeddings'):
            del pipeline.embedding_generator.embeddings
        del pipeline
        print("기존 파이프라인 객체 정리 완료")
    except:
        pass

# 가비지 컬렉션 강제 실행
import gc
gc.collect()

try:
    pipeline = PanelSearchPipeline(
        chroma_base_dir=CHROMA_BASE_DIR,
        category_config=CATEGORY_CONFIG,
        anthropic_api_key=ANTHROPIC_API_KEY,
        upstage_api_key=UPSTAGE_API_KEY
    )
    print("\n[SUCCESS] 검색 파이프라인 재초기화 완료 (복수 값 OR 조건 지원)")
except Exception as e:
    print(f"\n[ERROR] 파이프라인 초기화 실패:")
    print(f"  오류 타입: {type(e).__name__}")
    print(f"  오류 메시지: {str(e)}")
    print("\n⚠️ 해결 방법: Kernel → Restart를 실행한 후 모든 셀을 다시 실행하세요")
    import traceback
    print(f"\n상세 오류:")
    traceback.print_exc()


[SUCCESS] 검색 파이프라인 재초기화 완료 (복수 값 OR 조건 지원)


## 12. 테스트: 검색 실행

In [12]:
# 테스트 쿼리: "서울 20대 남자"
# → 메타데이터 필터: {"지역": "서울", "연령대": "20대", "성별": "남"}
test_query = "전문직에서 일하는 사람"

# 검색 실행
results = pipeline.search(test_query, top_k=10)

# 결과 출력
print("\n" + "=" * 80)
print("최종 검색 결과")
print("=" * 80)
print(f"\n총 {len(results)}개 패널 발견")

if len(results) > 0:
    print("\n패널 목록:")
    for i, mb_sn in enumerate(results, 1):
        print(f"  {i}. {mb_sn}")
else:
    print("\n조건에 맞는 패널이 없습니다.")

print("\n" + "=" * 80)
print("\n상세 메타데이터 확인을 위해 아래 셀을 실행하세요.")
print("=" * 80)


검색 쿼리: '전문직에서 일하는 사람'

[1단계] 메타데이터 추출

[메타데이터 추출 - LLM 원본] {'직업': '전문직'}
[메타데이터 추출 - 최종] {'직업': '전문직'}

[2단계] 카테고리 분류

[카테고리 분류] {'직업소득': ['직업: 전문직']}

[2.5단계] 카테고리별 메타데이터 필터 추출 (LLM)

[3단계] 자연어 텍스트 생성

[직업소득] 현재 직업은 전문직 (의사, 간호사, 변호사, 회계사, 예술가, 종교인, 엔지니어, 프로그래머, 기술사 등)입니다....

[4단계] 임베딩 생성
✅ [직업소득] 임베딩 생성 완료

[5단계] 검색 가능한 패널: 1000개

단계적 필터링 시작 (병렬 검색 활성화, workers=5)
   초기 후보: 1000개
   카테고리 순서: ['직업소득']

[1단계] 직업소득 카테고리로 검색 (병렬)
   메타데이터 필터: {}
   -> 100개 후보 선별

최종 10개 패널 선별 완료

최종 검색 결과

총 10개 패널 발견

패널 목록:
  1. w306685176992186
  2. w204143358246717
  3. w13098273102471
  4. w400924534362360
  5. w172120326756432
  6. w14921881
  7. w442231461680470
  8. w239359745099662
  9. w318138049327041
  10. w6681942458341


상세 메타데이터 확인을 위해 아래 셀을 실행하세요.


## 13. 검색 결과 상세 확인

**주의**: 이 셀은 검색 결과(results)가 있을 때만 실행하세요.