필요한 라이브러리 설치

In [1]:
!pip install qdrant-client sentence-transformers pandas rich

Collecting qdrant-client
  Downloading qdrant_client-1.15.1-py3-none-any.whl.metadata (11 kB)
Collecting portalocker<4.0,>=2.7.0 (from qdrant-client)
  Downloading portalocker-3.2.0-py3-none-any.whl.metadata (8.7 kB)
Downloading qdrant_client-1.15.1-py3-none-any.whl (337 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m337.3/337.3 kB[0m [31m4.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading portalocker-3.2.0-py3-none-any.whl (22 kB)
Installing collected packages: portalocker, qdrant-client
Successfully installed portalocker-3.2.0 qdrant-client-1.15.1


## 2단계: 데이터 로드 및 전처리

In [2]:
import pandas as pd
from tqdm.auto import tqdm

# 1. CSV 파일 로드
# Colab에 파일을 업로드한 후 파일 경로를 확인하세요.
file_path = 'gov24_services_with_tags (1).csv'
df = pd.read_csv(file_path)

# 2. 벡터화를 위한 텍스트 생성
# NaN(결측치) 값을 안전하게 처리하기 위해 fillna('')를 사용합니다.
df['combined_text'] = (
    (df['서비스명'].fillna('') + " " + df['tags'].fillna('')) * 3 + # 중요 정보를 3번 반복
    " " + df['지원내용'].fillna('')
)

# 3. 페이로드(Payload) 데이터 준비
# 각 행을 dictionary 형태로 변환하여 리스트에 저장합니다.
# 이렇게 하면 각 서비스의 모든 정보를 페이로드로 저장할 수 있습니다.
payloads = df.to_dict(orient='records')

# 4. 벡터화할 텍스트 리스트 준비
documents = df['combined_text'].tolist()

print(f"총 {len(documents)}개의 서비스를 처리합니다.")
print("벡터화 예시 텍스트:", documents[0])

총 300개의 서비스를 처리합니다.
벡터화 예시 텍스트: 유아학비 (누리과정) 지원 ['유아학비', '저소득층', '유치원', '교육비', '지원대상', '유아', '사립유치원']유아학비 (누리과정) 지원 ['유아학비', '저소득층', '유치원', '교육비', '지원대상', '유아', '사립유치원']유아학비 (누리과정) 지원 ['유아학비', '저소득층', '유치원', '교육비', '지원대상', '유아', '사립유치원'] ○ 3~5세에 대해 교육비를 지급합니다.
- 국공립 100,000원, 사립 280,000원
○ 3~5세에 대해 방과후과정비를 지급합니다.
- 국공립 50,000원, 사립 70,000원
○ 사립유치원을 다니는 법정저소득층 유아에게 저소득층 유아학비를 추가 지급합니다.
- 사립 200,000원


## 3단계: 모델 및 Qdrant 클라이언트 준비

In [3]:
from sentence_transformers import SentenceTransformer
from qdrant_client import QdrantClient, models

# 1. 사용할 모델 이름을 'BAAI/bge-m3'로 변경합니다.
model_name = 'BAAI/bge-m3'
print(f"선택한 모델: '{model_name}'")

# 2. 모델 로드 (처음 실행 시 모델 파일을 다운로드하므로 시간이 다소 걸릴 수 있습니다)
model = SentenceTransformer(model_name)

# 3. 모델의 벡터 차원을 자동으로 가져옵니다.
# bge-m3 모델의 벡터 크기는 1024입니다.
vector_size = model.get_sentence_embedding_dimension()
print(f"모델의 벡터 차원: {vector_size}")

# 4. Qdrant 클라이언트 초기화 (In-memory storage)
client = QdrantClient(":memory:")

# 5. Qdrant 컬렉션을 새로운 벡터 크기에 맞춰서 '다시' 생성합니다.
collection_name = "gov_services"
client.recreate_collection(
    collection_name=collection_name,
    vectors_config=models.VectorParams(
        size=vector_size,  # ✨ 여기서 새로운 벡터 크기(1024)가 적용됩니다.
        distance=models.Distance.COSINE
    )
)
print(f"'{collection_name}' 컬렉션이 새로운 벡터 크기({vector_size})로 생성되었습니다!")

선택한 모델: 'BAAI/bge-m3'


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/123 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/54.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/687 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/444 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/191 [00:00<?, ?B/s]

모델의 벡터 차원: 1024
'gov_services' 컬렉션이 새로운 벡터 크기(1024)로 생성되었습니다!


  client.recreate_collection(


## 4단계: 벡터 생성 및 Qdrant에 업로드

In [4]:
# 텍스트를 벡터로 변환 (시간이 다소 소요될 수 있습니다)
print("임베딩 생성 중...")
vectors = model.encode(documents, show_progress_bar=True)

# Qdrant에 데이터 포인트 업로드
print("Qdrant에 데이터 업로드 중...")
client.upload_points(
    collection_name=collection_name,
    points=[
        models.PointStruct(
            id=idx,
            vector=vector.tolist(),
            payload=payload
        )
        for idx, (vector, payload) in enumerate(zip(vectors, payloads))
    ],
    batch_size=256, # 한 번에 업로드할 데이터 수
    wait=True
)

print("업로드 완료!")

임베딩 생성 중...


Batches:   0%|          | 0/10 [00:00<?, ?it/s]

Qdrant에 데이터 업로드 중...
업로드 완료!


## 5단계: 의미 기반 검색 테스트

In [5]:
from rich.console import Console
from rich.table import Table
import re # 태그를 파싱하기 위해 정규식 라이브러리 import

def search_services(query_text, top_k=3):
    """(최종 개선) 필드별 가중치를 적용한 정교한 Reranking 검색 함수"""

    # 1. Qdrant에서 후보군 넉넉하게 가져오기 (limit=10)
    response = client.query_points(
        collection_name=collection_name,
        query=model.encode(query_text).tolist(),
        limit=10
    )
    hits = response.points

    # 2. 정교한 Reranking 수행
    reranked_hits = []
    query_keywords = query_text.split()

    for hit in hits:
        payload = hit.payload
        bonus = 0

        # --- 필드별 가중치 차등 적용 ---

        # 1. Tags 필드: 가장 높은 가중치 (+0.5)
        # "노인,일자리,건강" 형태의 태그 문자열을 리스트로 변환 -> ['노인', '일자리', '건강']
        tags_text = str(payload.get('tags', ''))
        # 쉼표, 공백, 세미콜론 등 다양한 구분자를 기준으로 태그를 분리합니다.
        tag_list = [tag.strip() for tag in re.split(r'[,;\s]\s*', tags_text) if tag]

        for keyword in query_keywords:
            if keyword in tag_list:
                bonus += 0.5  # 태그가 정확히 일치하면 큰 보너스!

        # 2. 서비스명 필드: 중간 가중치 (+0.2)
        service_name = str(payload.get('서비스명', ''))
        for keyword in query_keywords:
            if keyword in service_name:
                bonus += 0.2

        # 3. 지원내용 필드: 낮은 가중치 (+0.05)
        support_content = str(payload.get('지원내용', ''))
        for keyword in query_keywords:
            if keyword in support_content:
                bonus += 0.05

        reranked_hits.append({'original_hit': hit, 'final_score': hit.score + bonus})

    # 'final_score'가 높은 순으로 다시 정렬
    reranked_hits.sort(key=lambda x: x['final_score'], reverse=True)

    # 3. 최종 결과 출력
    console = Console()
    table = Table(title=f"'{query_text}' 검색 결과 (Top {top_k})")
    table.add_column("Final Score", style="cyan")
    table.add_column("Original Score", style="dim cyan")
    table.add_column("서비스명", style="magenta")
    table.add_column("Tags", style="green") # Tags를 직접 확인하기 위해 추가

    for item in reranked_hits[:top_k]:
        hit = item['original_hit']
        payload = hit.payload
        table.add_row(
            f"{item['final_score']:.4f}",
            f"{hit.score:.4f}",
            str(payload.get('서비스명', 'N/A')),
            str(payload.get('tags', 'N/A'))
        )

    console.print(table)


# --- 검색 테스트 ---
search_services("우리 아이 학비 지원해주는 정책 알려줘")
search_services("사업 시작하는데 자금이 부족해")
search_services("나이 많은 어르신들을 위한 일자리 없을까?")