In [3]:
from elasticsearch import Elasticsearch

es = Elasticsearch("http://localhost:9200")  # 또는 본인 ES 주소

index_name = "law-index"

mapping = {
    "settings": {
        "number_of_shards": 1,
        "number_of_replicas": 0
    },
    "mappings": {
        "properties": {
            "text": {"type": "text"},
            "article": {"type": "keyword"},
            "source": {"type": "keyword"},
            "embedding": {
                "type": "dense_vector",
                "dims": 768,  # 사용하는 임베딩 차원
                "index": True,
                "similarity": "cosine"
            }
        }
    }
}

# 기존 인덱스 삭제 (선택)
if es.indices.exists(index=index_name):
    es.indices.delete(index=index_name)

# 새 인덱스 생성
es.indices.create(index=index_name, body=mapping)
print(f"✅ 인덱스 '{index_name}'가 생성되었습니다.")

  if es.indices.exists(index=index_name):


✅ 인덱스 'law-index'가 생성되었습니다.


  es.indices.create(index=index_name, body=mapping)
  es.indices.create(index=index_name, body=mapping)
  es.indices.create(index=index_name, body=mapping)


In [4]:
from elasticsearch import Elasticsearch
from uuid import uuid4

es = Elasticsearch("http://localhost:9200")

def upload_documents_to_es(docs, embedding_model, index_name="law-index"):
    for doc in docs:
        text = doc.page_content
        article = doc.metadata.get("article", "")
        source = doc.metadata.get("source", "")
        embedding = embedding_model.embed_query(text)

        es.index(
            index=index_name,
            id=str(uuid4()),
            body={
                "text": text,
                "article": article,
                "source": source,
                "embedding": embedding
            }
        )

    print(f"✅ {len(docs)}개의 문서가 Elasticsearch에 업로드되었습니다.")

In [7]:
from elasticsearch import Elasticsearch

es = Elasticsearch("http://localhost:9200")
index_name = "law-index"

mapping = {
    "settings": {
        "number_of_shards": 1,
        "number_of_replicas": 0
    },
    "mappings": {
        "properties": {
            "text": {"type": "text"},
            "article": {"type": "keyword"},
            "source": {"type": "keyword"},
            "embedding": {
                "type": "dense_vector",
                "dims": 768  # ✅ index/similarity 제거
            }
        }
    }
}

# 인덱스 삭제 후 재생성
if es.indices.exists(index=index_name):
    es.indices.delete(index=index_name)
es.indices.create(index=index_name, body=mapping)
print("✅ law-index 인덱스 재생성 완료 (dense_vector 설정 수정됨)")

  if es.indices.exists(index=index_name):
  es.indices.delete(index=index_name)


✅ law-index 인덱스 재생성 완료 (dense_vector 설정 수정됨)


  es.indices.create(index=index_name, body=mapping)


In [12]:
from elasticsearch import Elasticsearch

es = Elasticsearch("http://localhost:9200")
index_name = "law-index"

# 🔁 인덱스 삭제
if es.indices.exists(index=index_name):
    es.indices.delete(index=index_name)

# ✅ 수정된 매핑: 오직 dims만 포함
mapping = {
    "settings": {
        "number_of_shards": 1,
        "number_of_replicas": 0
    },
    "mappings": {
        "properties": {
            "text": {"type": "text"},
            "article": {"type": "keyword"},
            "source": {"type": "keyword"},
            "embedding": {
                "type": "dense_vector",
                "dims": 1024  # ✅ 반드시 float list여야 함
            }
        }
    }
}

es.indices.create(index=index_name, body=mapping)
print("✅ law-index 인덱스 클린 재생성 완료!")

✅ law-index 인덱스 클린 재생성 완료!


  if es.indices.exists(index=index_name):
  es.indices.delete(index=index_name)
  es.indices.create(index=index_name, body=mapping)


In [13]:
sample_doc = stored['documents'][0]
sample_meta = stored['metadatas'][0]
sample_embedding = list(map(float, stored['embeddings'][0]))  # 꼭 float list로!

print(f"sample_doc 길이: {len(sample_doc)}")
print(f"embedding 차원 수: {len(sample_embedding)}, 타입: {type(sample_embedding[0])}")

es.index(
    index=index_name,
    id=str(uuid4()),
    body={
        "text": sample_doc,
        "article": sample_meta.get("article", ""),
        "source": sample_meta.get("source", ""),
        "embedding": sample_embedding
    }
)

sample_doc 길이: 179
embedding 차원 수: 1024, 타입: <class 'float'>


  es.index(


ObjectApiResponse({'_index': 'law-index', '_type': '_doc', '_id': 'b6e41640-fc8f-4676-8b1c-220b040ddfbb', '_version': 1, 'result': 'created', '_shards': {'total': 1, 'successful': 1, 'failed': 0}, '_seq_no': 0, '_primary_term': 1})

In [14]:
import numpy as np

embedding_raw = stored['embeddings'][0]
assert isinstance(embedding_raw, (list, np.ndarray))
assert all(isinstance(x, (int, float)) for x in embedding_raw)
assert len(embedding_raw) == 1024

embedding_vector = list(map(float, embedding_raw))

In [15]:
sample_doc = stored['documents'][0]
sample_meta = stored['metadatas'][0]
sample_embedding = list(map(float, stored['embeddings'][0]))

es.index(
    index="law-index",
    id=str(uuid4()),
    body={
        "text": sample_doc,
        "article": sample_meta.get("article", ""),
        "source": sample_meta.get("source", ""),
        "embedding": sample_embedding
    }
)

  es.index(


ObjectApiResponse({'_index': 'law-index', '_type': '_doc', '_id': 'd000e6e3-bf8d-420a-9326-b732f4976444', '_version': 1, 'result': 'created', '_shards': {'total': 1, 'successful': 1, 'failed': 0}, '_seq_no': 1, '_primary_term': 1})

In [16]:
from langchain.vectorstores import Chroma
from elasticsearch import Elasticsearch
from uuid import uuid4

CHROMA_DIR = "chroma_data_folder_final_copy"
ES_URL = "http://localhost:9200"
INDEX_NAME = "law-index"

class DummyEmbedding:
    def embed_documents(self, texts):
        return [[0.0] * 768 for _ in texts]

    def embed_query(self, text):
        return [0.0] * 768

chroma_store = Chroma(persist_directory=CHROMA_DIR, embedding_function=DummyEmbedding())
collection = chroma_store._collection
stored = collection.get(include=['documents', 'metadatas', 'embeddings'])

es = Elasticsearch(ES_URL)

from tqdm import tqdm

for doc, meta, embedding in tqdm(zip(stored['documents'], stored['metadatas'], stored['embeddings']), total=len(stored['documents'])):
    embedding_vector = list(map(float, embedding))  # ✅ 형 변환 추가

    es.index(
        index=INDEX_NAME,
        id=str(uuid4()),
        body={
            "text": doc,
            "article": meta.get("article", ""),
            "source": meta.get("source", ""),
            "embedding": embedding_vector
        }
    )

print(f"✅ 총 {len(stored['documents'])}개의 문서를 Elasticsearch로 마이그레이션 완료했습니다.")

In [23]:
from elasticsearch import Elasticsearch

es = Elasticsearch("http://localhost:9200")
index_name = "law-index-v2"

mapping = {
    "settings": {
        "number_of_shards": 1,
        "number_of_replicas": 0
    },
    "mappings": {
        "properties": {
            "text": {"type": "text"},
            "article": {"type": "keyword"},
            "source": {"type": "keyword"},
            "embedding": {
                "type": "dense_vector",
                "dims": 1024,  # 너의 embedding 차원 수
                "index": True,
                "similarity": "cosine"  # ES 8부터 지원됨
            }
        }
    }
}

# 인덱스 삭제 후 재생성
if es.indices.exists(index=index_name):
    es.indices.delete(index=index_name)
es.indices.create(index=index_name, body=mapping)
print("✅ law-index-v2 인덱스가 생성되었습니다.")

✅ law-index-v2 인덱스가 생성되었습니다.


In [24]:
from langchain.vectorstores import Chroma
from elasticsearch import Elasticsearch
from uuid import uuid4
from tqdm import tqdm

# 설정
CHROMA_DIR = "chroma_data_folder_final_copy"
INDEX_NAME = "law-index-v2"
ES_URL = "http://localhost:9200"

# Dummy embedding (불러오기용)
class DummyEmbedding:
    def embed_documents(self, texts):
        return [[0.0] * 768 for _ in texts]
    def embed_query(self, text):
        return [0.0] * 768

# 1. Chroma에서 문서 불러오기
chroma_store = Chroma(persist_directory=CHROMA_DIR, embedding_function=DummyEmbedding())
collection = chroma_store._collection
stored = collection.get(include=['documents', 'metadatas', 'embeddings'])

# 2. Elasticsearch 연결
es = Elasticsearch(ES_URL)

# 3. 마이그레이션 실행
for doc, meta, embedding in tqdm(zip(stored['documents'], stored['metadatas'], stored['embeddings']), total=len(stored['documents'])):
    if not isinstance(embedding, list):
        embedding = list(embedding)  # numpy array일 경우
    embedding = list(map(float, embedding))  # float 변환

    es.index(
        index=INDEX_NAME,
        id=str(uuid4()),
        body={
            "text": doc,
            "article": meta.get("article", ""),
            "source": meta.get("source", ""),
            "embedding": embedding
        }
    )

print(f"✅ 총 {len(stored['documents'])}개 문서를 Elasticsearch 8로 마이그레이션 완료!")

100%|██████████| 120730/120730 [10:44<00:00, 187.40it/s]

✅ 총 120730개 문서를 Elasticsearch 8로 마이그레이션 완료!





In [1]:
import torch
from sentence_transformers import SentenceTransformer
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI
from elasticsearch import Elasticsearch
from operator import itemgetter

RAG_PROMPT_TEMPLATE = (
"""
절대 한국어로만 답변하십시오. 영어를 사용하지 마십시오.  
You must always respond in Korean. Do not use English.  

당신은 대한민국 현행 법령을 기반으로 답변하는 RAG 챗봇입니다.  
아래 지침을 따르고, 명확하고 간결한 답변을 제공하세요.

- 질문이 단순하면 한 문장으로 답변하세요.  
- 질문이 복잡하면 2~3문장 이내로 답변하세요.  
- 법 조항을 직접 나열하지 말고, 질문과 관련된 핵심 내용을 요약하여 자연스럽게 설명하세요.  
- 각 문장에 해당하는 법적 근거 조항을 괄호 안에 정확히 명시하세요. (예: 도로교통법 제12조 제1항)  
- 질문을 반복하지 말고, 불필요한 형식적인 표현을 포함하지 마세요.  
- **정확도, 확률, 신뢰도 같은 수치를 답변에 절대 포함하지 마세요.**  
- Context 내에서만 답변을 생성하고, 모르는 내용은 \"제가 제공할 수 있는 정보가 없습니다.\"라고만 답변하세요.  

{question}에 대한 답변을 다음 Context를 참고하여 작성하세요.

Context:  
{context}  

답변:
"""
)

SYS_PROMPT_TEMPLATE = (
"""
당신은 대한민국 현행 법령을 기반으로 작동하는 RAG 챗봇입니다.  
절대 한국어로만 답변하십시오. 영어를 사용하지 마십시오.  

답변을 생성할 때, 다음 원칙을 따르세요.

1. **간결한 답변 제공**  
   - 단순한 질문 → 한 문장  
   - 복잡한 질문 → 2~3문장  
   - 불필요한 설명, 배경 정보, 반복 표현 금지  

2. **법 조항 요약 방식**  
   - 법 조항을 직접 나열하지 않고 질문과 관련된 핵심 내용을 요약  
   - 각 문장에 해당하는 법적 근거 조항을 괄호 안에 명확히 표기 (예: 도로교통법 제17조 제2항)

3. **불필요한 정보 제한**  
   - \"정확도\", \"신뢰도\", \"확률\" 등의 수치는 절대 포함 금지  
   - \"또한\", \"추가로\", \"이 외에도\"와 같은 확장 표현 사용 금지  

4. **추론 및 임의 해석 금지**  
   - 제공된 Context 범위 내에서만 답변 작성  
   - 필요한 정보가 없으면 \"제가 제공할 수 있는 정보가 없습니다.\"라고만 답변  
"""
)

DEVICE = "cpu"

class SentenceTransformerEmbedding:
    def __init__(self, model_name):
        self.model = SentenceTransformer(model_name, trust_remote_code=True, device=DEVICE)

    def embed_query(self, text):
        return self.model.encode([text], convert_to_tensor=True).cpu().tolist()[0]


class ReRanker:
    def __init__(self, model_name):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.reranker = AutoModelForSequenceClassification.from_pretrained(model_name).to("mps" if torch.backends.mps.is_available() else "cpu")

    def re_rank(self, query, docs):
        if not docs:
            return []

        inputs = self.tokenizer([(query, doc) for doc in docs], padding=True, truncation=True, return_tensors='pt').to("mps" if torch.backends.mps.is_available() else "cpu")

        with torch.no_grad():
            scores = self.reranker(**inputs).logits.squeeze(-1).cpu()

        return [doc for _, doc in sorted(zip(scores, docs), reverse=True)]


class ElasticsearchHybridRetriever:
    def __init__(self, index_name, embedding_model):
        self.index = index_name
        self.es = Elasticsearch("http://localhost:9200")
        self.embedder = embedding_model

    def retrieve_bm25_only(self, query, k=10):
        bm25_query = {
            "size": k,
            "query": {
                "match": {
                    "text": query
                }
            }
        }
        results = self.es.search(index=self.index, body=bm25_query)["hits"]["hits"]
        return [hit["_source"]["text"] for hit in results]

    def retrieve_knn_only(self, query, k=10):
        query_vector = self.embedder.embed_query(query)
        knn_query = {
            "size": k,
            "knn": {
                "field": "embedding",
                "k": k,
                "num_candidates": k * 2,
                "query_vector": query_vector
            }
        }
        results = self.es.search(index=self.index, body=knn_query)["hits"]["hits"]
        return [hit["_source"]["text"] for hit in results]

    def retrieve(self, query, k=10):
        bm25_docs = self.retrieve_bm25_only(query, k)
        knn_docs = self.retrieve_knn_only(query, k)
        combined = {doc: None for doc in bm25_docs + knn_docs}  # dedup
        return list(combined.keys())


def setup_rag_system_with_reranker(llm_base_url):
    llm = ChatOpenAI(
        base_url=llm_base_url,
        api_key="lm-studio",
        model="teddylee777/EEVE-Korean-Instruct-10.8B-v1.0-gguf",
        temperature=0.2,
    )
    prompt_template = ChatPromptTemplate.from_messages([
        ("system", SYS_PROMPT_TEMPLATE),
        ("user", RAG_PROMPT_TEMPLATE),
    ])
    rag_chain = prompt_template | llm | StrOutputParser()
    return llm, rag_chain


def run_pipeline(question, llm_base_url="http://localhost:1234/v1", index_name="law-index-v2", embedding_model_name="jinaai/jina-embeddings-v3", reranker_model_name="BAAI/bge-reranker-base"):
    if not question.strip():
        return "질문을 입력해주세요.", [], []

    embedding_model = SentenceTransformerEmbedding(embedding_model_name)
    retriever = ElasticsearchHybridRetriever(index_name, embedding_model)
    reranker = ReRanker(reranker_model_name)

    retrieved_docs = retriever.retrieve(question)
    if not retrieved_docs:
        return "제가 제공할 수 있는 정보가 없습니다.", [], []

    ranked_docs = reranker.re_rank(question, retrieved_docs)
    if not ranked_docs:
        return "제가 제공할 수 있는 정보가 없습니다.", retrieved_docs, []

    context = " ".join(ranked_docs)
    llm, rag_chain = setup_rag_system_with_reranker(llm_base_url)
    response = rag_chain.invoke({"question": question, "context": context})
    return response, retrieved_docs, ranked_docs

In [7]:
# hybird Search 가중치 조절


import torch
from sentence_transformers import SentenceTransformer
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI
from elasticsearch import Elasticsearch
from operator import itemgetter

RAG_PROMPT_TEMPLATE = (
"""
절대 한국어로만 답변하십시오. 영어를 사용하지 마십시오.  
You must always respond in Korean. Do not use English.  

당신은 대한민국 현행 법령을 기반으로 답변하는 RAG 챗봇입니다.  
아래 지침을 따르고, 명확하고 간결한 답변을 제공하세요.

- 질문이 단순하면 한 문장으로 답변하세요.  
- 질문이 복잡하면 2~3문장 이내로 답변하세요.  
- 법 조항을 직접 나열하지 말고, 질문과 관련된 핵심 내용을 요약하여 자연스럽게 설명하세요.  
- 각 문장에 해당하는 법적 근거 조항을 괄호 안에 정확히 명시하세요. (예: 도로교통법 제12조 제1항)  
- 질문을 반복하지 말고, 불필요한 형식적인 표현을 포함하지 마세요.  
- **정확도, 확률, 신뢰도 같은 수치를 답변에 절대 포함하지 마세요.**  
- Context 내에서만 답변을 생성하고, 모르는 내용은 \"제가 제공할 수 있는 정보가 없습니다.\"라고만 답변하세요.  

{question}에 대한 답변을 다음 Context를 참고하여 작성하세요.

Context:  
{context}  

답변:
"""
)

SYS_PROMPT_TEMPLATE = (
"""
당신은 대한민국 현행 법령을 기반으로 작동하는 RAG 챗봇입니다.  
절대 한국어로만 답변하십시오. 영어를 사용하지 마십시오.  

답변을 생성할 때, 다음 원칙을 따르세요.

1. **간결한 답변 제공**  
   - 단순한 질문 → 한 문장  
   - 복잡한 질문 → 2~3문장  
   - 불필요한 설명, 배경 정보, 반복 표현 금지  

2. **법 조항 요약 방식**  
   - 법 조항을 직접 나열하지 않고 질문과 관련된 핵심 내용을 요약  
   - 각 문장에 해당하는 법적 근거 조항을 괄호 안에 명확히 표기 (예: 도로교통법 제17조 제2항)

3. **불필요한 정보 제한**  
   - \"정확도\", \"신뢰도\", \"확률\" 등의 수치는 절대 포함 금지  
   - \"또한\", \"추가로\", \"이 외에도\"와 같은 확장 표현 사용 금지  

4. **추론 및 임의 해석 금지**  
   - 제공된 Context 범위 내에서만 답변 작성  
   - 필요한 정보가 없으면 \"제가 제공할 수 있는 정보가 없습니다.\"라고만 답변  
"""
)

DEVICE = "cpu"

class SentenceTransformerEmbedding:
    def __init__(self, model_name):
        self.model = SentenceTransformer(model_name, trust_remote_code=True, device=DEVICE)

    def embed_query(self, text):
        return self.model.encode([text], convert_to_tensor=True).cpu().tolist()[0]


class ReRanker:
    def __init__(self, model_name):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.reranker = AutoModelForSequenceClassification.from_pretrained(model_name).to("mps" if torch.backends.mps.is_available() else "cpu")

    def re_rank(self, query, docs):
        if not docs:
            return []

        inputs = self.tokenizer([(query, doc) for doc in docs], padding=True, truncation=True, return_tensors='pt').to("mps" if torch.backends.mps.is_available() else "cpu")

        with torch.no_grad():
            scores = self.reranker(**inputs).logits.squeeze(-1).cpu()

        return [doc for _, doc in sorted(zip(scores, docs), reverse=True)]


class ElasticsearchHybridRetriever:
    def __init__(self, index_name, embedding_model):
        self.index = index_name
        self.es = Elasticsearch("http://localhost:9200")
        self.embedder = embedding_model

    def retrieve_bm25_only(self, query, k=10):
        bm25_query = {
            "size": k,
            "query": {
                "match": {
                    "text": query
                }
            }
        }
        results = self.es.search(index=self.index, body=bm25_query)["hits"]["hits"]
        return [hit["_source"]["text"] for hit in results]

    def retrieve_knn_only(self, query, k=10):
        query_vector = self.embedder.embed_query(query)
        knn_query = {
            "size": k,
            "knn": {
                "field": "embedding",
                "k": k,
                "num_candidates": k * 2,
                "query_vector": query_vector
            }
        }
        results = self.es.search(index=self.index, body=knn_query)["hits"]["hits"]
        return [hit["_source"]["text"] for hit in results]

    def retrieve(self, query, k=10):
        # 단순 병합 (기존 방식)
        bm25_docs = self.retrieve_bm25_only(query, k)
        knn_docs = self.retrieve_knn_only(query, k)
        combined = {doc: None for doc in bm25_docs + knn_docs}  # dedup
        return list(combined.keys())

    def hybrid_retrieve(self, query, k=10, alpha=0.3):
        """
        Elasticsearch 8.x 기반 하이브리드 검색 (BM25 + dense vector)
        alpha: BM25 가중치 (0.0 ~ 1.0), 나머지는 dense 가중치
        """
        query_vector = self.embedder.embed_query(query)
        query_body = {
            "size": k,
            "query": {
                "script_score": {
                    "query": {
                        "match": {
                            "text": query
                        }
                    },
                    "script": {
                        "source": f"{alpha} * _score + {(1 - alpha)} * cosineSimilarity(params.query_vector, 'embedding') + 1.0",
                        "params": {
                            "query_vector": query_vector
                        }
                    }
                }
            }
        }
        results = self.es.search(index=self.index, body=query_body)["hits"]["hits"]
        return [hit["_source"]["text"] for hit in results]


def setup_rag_system_with_reranker(llm_base_url):
    llm = ChatOpenAI(
        base_url=llm_base_url,
        api_key="lm-studio",
        model="teddylee777/EEVE-Korean-Instruct-10.8B-v1.0-gguf",
        temperature=0.2,
    )
    prompt_template = ChatPromptTemplate.from_messages([
        ("system", SYS_PROMPT_TEMPLATE),
        ("user", RAG_PROMPT_TEMPLATE),
    ])
    rag_chain = prompt_template | llm | StrOutputParser()
    return llm, rag_chain


def run_pipeline(question, llm_base_url="http://localhost:1234/v1", index_name="law-index-v2", embedding_model_name="jinaai/jina-embeddings-v3", reranker_model_name="BAAI/bge-reranker-base"):
    if not question.strip():
        return "질문을 입력해주세요.", [], []

    embedding_model = SentenceTransformerEmbedding(embedding_model_name)
    retriever = ElasticsearchHybridRetriever(index_name, embedding_model)
    reranker = ReRanker(reranker_model_name)

    retrieved_docs = retriever.hybrid_retrieve(question, k=10, alpha=0.3)
    if not retrieved_docs:
        return "제가 제공할 수 있는 정보가 없습니다.", [], []

    ranked_docs = reranker.re_rank(question, retrieved_docs)
    if not ranked_docs:
        return "제가 제공할 수 있는 정보가 없습니다.", retrieved_docs, []

    context = " ".join(ranked_docs)
    llm, rag_chain = setup_rag_system_with_reranker(llm_base_url)
    response = rag_chain.invoke({"question": question, "context": context})
    return response, retrieved_docs, ranked_docs

In [8]:
import pandas as pd

simple_question = pd.read_csv('score_check/question/simple_questions_1.csv')
complex_question = pd.read_csv('score_check/question/complex_questions_1.csv')

In [9]:
simple_answer = []

for i in simple_question['질문']:
    response, retrieved_docs, ranked_docs = run_pipeline(i)

    simple_answer.append({
        "질문": i,
        "내 모델 답변": response,
        "검색된 문서": retrieved_docs,
        "재정렬된 문서": ranked_docs
    })

In [10]:
ls = pd.DataFrame(simple_answer)
ls.to_csv('score_check/simple_answer_1(es_test2).csv', index=False)

In [15]:
simple_answer[2]

{'질문': '대한민국에서 음주운전의 혈중알코올농도 기준은?',
 '내 모델 답변': '\n대한민국에서는 음주운전 시 혈중알코올농도가 0.03% 이상이면 처벌을 받게 됩니다. 이는 도로교통법 제44조 제1항에 명시되어 있습니다. 이 법은 대한민국에서 음주운전을 엄격히 금지하고 있으며, 적발될 경우 상당한 벌금이나 징역형을 받을 수 있음을 의미합니다. 또한, 혈중알코올농도가 0.08% 이상이면 면허가 취소되고, 3회 이상 적발되면 운전면허가 영구적으로 정지됩니다 (도로교통법 제44조 제2항).\n\n따라서 대한민국에서 음주운전을 피하기 위해서는 절대 술을 마시고 운전을 해서는 안 되며, 대리운전이나 대중교통을 이용하는 것이 좋습니다. 또한, 음주 후 일정 시간 동안에는 운전하지 않는 것이 좋으며, 혈중알코올농도가 0%가 될 때까지 기다리는 것이 안전합니다.',
 '검색된 문서': ['국제사법 제44조(불법행위에 관한 소의 특별관할) 불법행위에 관한 소는 그 행위가 대한민국에서 행하여지거나 대한민국을 향하\n여 행하여지는 경우 또는 대한민국에서 그 결과가 발생하는 경우 법원에 제기할 수 있다. 다만, 불법행위의 결과가\n대한민국에서 발생할 것을 예견할 수 없었던 경우에는 그러하지 아니하다.\n제2절 준거법',
  '보험업법 제75조(국내자산 보유의무) ① 외국보험회사국내지점은 대한민국에서 체결한 보험계약에 관하여 제120조에 따라 적립\n한 책임준비금 및 비상위험준비금에 상당하는 자산을 대한민국에서 보유하여야 한다.',
  '상법 제617조(유사외국회사) 외국에서 설립된 회사라도 대한민국에 그 본점을 설치하거나 대한민국에서 영업할 것을 주된\n목적으로 하는 때에는 대한민국에서 설립된 회사와 같은 규정에 따라야 한다.',
  '인터넷주소자원에 관한 법률 제4조(적용범위) 이 법은 대한민국에서 할당되는 인터넷 프로토콜 주소와 대한민국에서 등록ㆍ보유 또는 사용되는 도\n메인이름등의 인터넷주소자원에 대하여 적용한다.\n\n제2장 인터넷주소자원에 관한 정책의 추진 등',


In [39]:
retriever = ElasticsearchHybridRetriever("law-index-v2", "jinaai/jina-embeddings-v3")
reranker = ReRanker("BAAI/bge-reranker-base")

In [33]:
question = "음주운전의 처벌 기주은 무엇인가요?"

response, retrieved_docs, ranked_docs = run_pipeline(question)

print(response)


이 규칙은 「중대재해 처벌 등에 관한 법률」, 「성폭력범죄의 처벌 등에 관한 특례법」, 「아동학대범죄의 처벌 등에 관한 특례법」, 「스토킹범죄의 처벌 등에 관한 법률」, 「장애인복지법」, 「아동·청소년의 성보호에 관한 법률」 및 「인신매매등방지 및 피해자보호 등에 관한 법률」 등에 따른 검사


In [34]:
retrieved_docs

['가정폭력범죄의 처벌 등에 관한 특례법 제369조(특수손괴)제1항의 죄\n카. 「성폭력범죄의 처벌 등에 관한 특례법」',
 '성폭력범죄의 처벌 등에 관한 특례법 제299조(준강간, 준강제추행)의 죄를 범한 사람은 제1항 또는 제2항의 예에 따라 처벌\n한다.',
 '아동학대범죄의 처벌 등에 관한 특례법 시행규칙 제1조(목적) 이 규칙은 「아동학대범죄의 처벌 등에 관한 특례법」 및 같은 법 시행령의 시행에 필요한 사항을 규정함을\n목적으로 한다.',
 '중대재해 처벌 등에 관한 법률 시행령 제1조(목적) 이 영은 「중대재해 처벌 등에 관한 법률」에서 위임된 사항과 그 시행에 필요한 사항을 규정함을 목적으로\n한다.',
 '가정폭력범죄의 처벌 등에 관한 특례법 시행령 제1조(목적) 이 영은 「가정폭력범죄의 처벌 등에 관한 특례법」에서 위임된 사항과 그 시행에 필요한 사항을 규정함을\n목적으로 한다.',
 '스토킹범죄의 처벌 등에 관한 법률 시행령 제1조(목적) 이 영은 「스토킹범죄의 처벌 등에 관한 법률」에서 위임된 사항과 그 시행에 필요한 사항을 규정함을 목적\n으로 한다.',
 '성폭력범죄의 처벌 등에 관한 특례법 제15조(미수범)까지의 죄\n② 제1항 각 호의 범죄로서 다른 법률에 따라 가중처벌되는 죄는 성폭력범죄로 본다.\n제2장 성폭력범죄의 처벌 및 절차에 관한 특례',
 '검사의 국선변호사 선정 등에 관한 규칙 제1조(목적) 이 규칙은 「성폭력범죄의 처벌 등에 관한 특례법」, 「아동학대범죄의 처벌 등에 관한 특례법」, 「스토킹범죄\n의 처벌 등에 관한 법률」, 「장애인복지법」, 「아동ㆍ청소년의 성보호에 관한 법률」 및 「인신매매등방지 및 피해자보\n호 등에 관한 법률」 등에 따른 검사의 국선변호사 선정 등에 필요한 사항을 정함을 목적으로 한다. <개정 2024. 4.\n3.>\n\n제1조의2(정의) 이 규칙에서 사용하는 용어의 뜻은 다음과 같다. <개정 2022. 5. 9., 2024. 4. 3.>\n1. “피해자”란 다음 각 목의 어느 하나에 해당하

In [35]:
ranked_docs

['도로교통법 제155조(벌칙) 제92조제2항을 위반하여 경찰공무원의 운전면허증등의 제시 요구나 운전자 확인을 위한 진술 요구에\n따르지 아니한 사람은 20만원 이하의 벌금 또는 구류에 처한다.',
 '주류 면허 등에 관한 법률 제38조(과태료) ① 다음 각 호의 어느 하나에 해당하는 자에게는 2천만원 이하의 과태료를 부과한다. <개정 2022. 1. 6.,\n2024. 2. 13.>\n1. 다음 각 목의 어느 하나에 해당하는 명령을 위반한 자\n가. 제17조에 따른 주세 보전명령\n나. 제22조에 따른 납세증명표지에 관한 명령\n2. 다음 각 목의 어느 하나에 해당하는 주류를 판매의 목적으로 소지하거나 판매한 자\n가. 제3조에 따른 면허를 받지 아니하고 제조한 주류\n나. 제22조에 따른 납세증명표지가 붙어 있지 아니한 주류\n3. 제28조에 따른 검정을 받지 아니한 기계, 기구 또는 용기를 사용한 자\n4. 제37조의2에 따른 금품 제공 등의 금지 의무를 위반한 자',
 '도로교통법 제44조(술에 취한 상태에서의 운전 금지) ① 누구든지 술에 취한 상태에서 자동차등(「건설기계관리법」 제26조제1항 단\n서에 따른 건설기계 외의 건설기계를 포함한다. 이하 이 조, 제45조, 제47조, 제50조의3, 제93조제1항제1호부터 제\n4호까지 및 제148조의2에서 같다), 노면전차 또는 자전거를 운전하여서는 아니 된다. <개정 2018. 3. 27., 2023. 10.\n24.>\n② 경찰공무원은 교통의 안전과 위험방지를 위하여 필요하다고 인정하거나 제1항을 위반하여 술에 취한 상태에서\n자동차등, 노면전차 또는 자전거를 운전하였다고 인정할 만한 상당한 이유가 있는 경우에는 운전자가 술에 취하였\n는지를 호흡조사로 측정할 수 있다. 이 경우 운전자는 경찰공무원의 측정에 응하여야 한다.<개정 2014. 12. 30.,\n2018. 3. 27.>\n③ 제2항에 따른 측정 결과에 불복하는 운전자에 대하여는 그 운전자의 동의를 받아 혈액 채취 등의 방법으로 다시\n측정할

In [49]:
from pprint import pprint

# 1. 설정
question = "어린이 보호구역에서의 제한속도는 몇인가요?"
embedding_model_name = "jinaai/jina-embeddings-v3"
reranker_model_name = "BAAI/bge-reranker-base"
reranker_model_name2 = "Alibaba-NLP/gte-multilingual-reranker-base"
index_name = "law-index-v2"

# 2. 임베딩 모델 로드
embedding_model = SentenceTransformerEmbedding(embedding_model_name)

# 3. Elasticsearch retriever 초기화
retriever = ElasticsearchHybridRetriever(index_name, embedding_model)

# 4. 리랭커 초기화
reranker = ReRanker(reranker_model_name)
reranker2 = ReRanker(reranker_model_name2)

# 5. Retriever로 문서 검색 (BM25 + 벡터 검색 통합)
retrieved_docs = retriever.retrieve(question, k=10)
reranked_docs = reranker.re_rank(question, retrieved_docs)
reranked_docs2 = reranker2.re_rank(question, retrieved_docs)

In [None]:
from pprint import pprint

# 1. 설정
question = "어린이 보호구역에서의 제한속도는 몇인가요?"
embedding_model_name = "jinaai/jina-embeddings-v3"
reranker_model_name = "Alibaba-NLP/gte-multilingual-reranker-base"
index_name = "law-index-v2"

# 2. 임베딩 모델 로드
embedding_model = SentenceTransformerEmbedding(embedding_model_name)

# 3. Elasticsearch retriever 초기화
retriever = ElasticsearchHybridRetriever(index_name, embedding_model)

# 4. 리랭커 초기화
reranker = ReRanker(reranker_model_name)

# 5. Retriever로 문서 검색 (BM25 + 벡터 검색 통합)
retrieved_docs = retriever.retrieve(question, k=10)

In [50]:
retrieved_docs

['어린이 식생활안전관리 특별법 시행령 제2조(어린이 기호식품) 「어린이 식생활안전관리 특별법」(이하 “법”이라 한다) 제2조제2호에 따른 어린이 기호식품은\n별표 1과 같다.',
 '어린이 식생활안전관리 특별법 제6조(어린이 기호식품 조리ㆍ판매업소 관리) ① 특별자치시장ㆍ특별자치도지사ㆍ시장ㆍ군수ㆍ구청장은 어린이 식품\n안전보호구역에서 어린이 기호식품을 조리 또는 진열ㆍ판매하는 업소 중 대통령령으로 정하는 업소를 어린이 기호\n식품 조리ㆍ판매업소(이하 “조리ㆍ판매업소”라 한다)로 관리하여야 한다. <개정 2021. 7. 27.>',
 '철도차량운전규칙 제83조(차내신호) 차내신호의 종류 및 그 제한속도는 다음 각 호와 같다.\n1. 정지신호：열차운행에 지장이 있는 구간으로 운행하는 열차에 대하여 정지하도록 하는 것\n2. 15신호：정지신호에 의하여 정지한 열차에 대한 신호로서 1시간에 15킬로미터 이하의 속도로 운전하게 하는 것\n3. 야드신호：입환차량에 대한 신호로서 1시간에 25킬로미터 이하의 속도로 운전하게 하는 것\n4. 진행신호：열차를 지정된 속도 이하로 운전하게 하는 것',
 '어린이 식생활안전관리 특별법 제5조(어린이 식품안전보호구역 지정) ① 특별자치시장ㆍ특별자치도지사ㆍ시장ㆍ군수ㆍ구청장(자치구의 구청장을 말\n한다. 이하 같다)은 안전하고 위생적인 식품판매 환경의 조성으로 어린이를 보호하기 위하여 학교와 해당 학교의 경\n계선으로부터 직선거리 200미터의 범위 안의 구역을 어린이 식품안전보호구역(이하 “어린이 식품안전보호구역”이라\n한다)으로 지정ㆍ관리할 수 있다. <개정 2021. 7. 27.>\n② 어린이 식품안전보호구역 지정에 관한 세부사항은 대통령령으로 정한다.',
 '어린이 식생활안전관리 특별법 시행규칙 제3조(어린이 식품안전보호구역 표지판 설치 및 관리기준) 영 제4조에 따른 어린이 식품안전보호구역을 알리는 표지판\n의 설치 및 관리기준은 별표 1과 같다.',
 '어린이 식생활안전관리 특별법 시행규칙 제19조(식생활 안전ㆍ영양수준 평가

In [51]:
reranked_docs

['어린이 식생활안전관리 특별법 시행령 제2조(어린이 기호식품) 「어린이 식생활안전관리 특별법」(이하 “법”이라 한다) 제2조제2호에 따른 어린이 기호식품은\n별표 1과 같다.',
 '도로교통법 제11조(어린이 등에 대한 보호) ① 어린이의 보호자는 교통이 빈번한 도로에서 어린이를 놀게 하여서는 아니 되며, 영\n유아(6세 미만인 사람을 말한다. 이하 같다)의 보호자는 교통이 빈번한 도로에서 영유아가 혼자 보행하게 하여서는\n아니 된다. <개정 2014. 12. 30.>\n② 앞을 보지 못하는 사람(이에 준하는 사람을 포함한다. 이하 같다)의 보호자는 그 사람이 도로를 보행할 때에는 흰\n색 지팡이를 갖고 다니도록 하거나 앞을 보지 못하는 사람에게 길을 안내하는 개로서 행정안전부령으로 정하는 개\n(이하 “장애인보조견”이라 한다)를 동반하도록 하는 등 필요한 조치를 하여야 한다.<개정 2013. 3. 23., 2014. 11.\n19., 2015. 8. 11., 2017. 7. 26.>\n③ 어린이의 보호자는 도로에서 어린이가 자전거를 타거나 행정안전부령으로 정하는 위험성이 큰 움직이는 놀이기\n구를 타는 경우에는 어린이의 안전을 위하여 행정안전부령으로 정하는 인명보호 장구(裝具)를 착용하도록 하여야\n한다.<개정 2013. 3. 23., 2014. 11. 19., 2017. 7. 26.>\n④ 어린이의 보호자는 도로에서 어린이가 개인형 이동장치를 운전하게 하여서는 아니 된다.<신설 2020. 6. 9.>\n⑤ 경찰공무원은 신체에 장애가 있는 사람이 도로를 통행하거나 횡단하기 위하여 도움을 요청하거나 도움이 필요\n하다고 인정하는 경우에는 그 사람이 안전하게 통행하거나 횡단할 수 있도록 필요한 조치를 하여야 한다.<개정\n2020. 6. 9.>\n⑥ 경찰공무원은 다음 각 호의 어느 하나에 해당하는 사람을 발견한 경우에는 그들의 안전을 위하여 적절한 조치를\n하여야 한다.<개정 2014. 12. 30., 2015. 8. 11., 2020. 6. 9.>\n1. 교

In [52]:
reranked_docs2

['도로교통법 시행규칙 제36조(어린이 보호표지) 영 제31조제2호에 따른 어린이 보호표지는 별표 14와 같다.',
 '어린이 식생활안전관리 특별법 제5조(어린이 식품안전보호구역 지정) ① 특별자치시장ㆍ특별자치도지사ㆍ시장ㆍ군수ㆍ구청장(자치구의 구청장을 말\n한다. 이하 같다)은 안전하고 위생적인 식품판매 환경의 조성으로 어린이를 보호하기 위하여 학교와 해당 학교의 경\n계선으로부터 직선거리 200미터의 범위 안의 구역을 어린이 식품안전보호구역(이하 “어린이 식품안전보호구역”이라\n한다)으로 지정ㆍ관리할 수 있다. <개정 2021. 7. 27.>\n② 어린이 식품안전보호구역 지정에 관한 세부사항은 대통령령으로 정한다.',
 '청소년 보호법 시행령 제29조(청소년 통행금지구역 등의 설정) 법 제31조에 따른 청소년 통행금지구역은 청소년의 통행을 24시간 금지하는\n구역으로 하고, 청소년 통행제한구역은 청소년의 통행을 일정 시간 제한하는 구역으로 한다. 다만, 친권자, 후견인,\n교사 그 밖에 해당 청소년을 보호할 수 있는 보호자를 동반하는 때에는 통행할 수 있다.',
 '어린이ㆍ노인 및 장애인 보호구역의 지정 및 관리에 관한 규칙 제6조(교통안전시설의 설치) ① 시ㆍ도경찰청장이나 경찰서장은 제3조제6항에 따라 보호구역으로 지정한 시설 또는\n장소의 주 출입문과 가장 가까운 거리에 위치한 간선도로의 횡단보도에는 신호기를 우선적으로 설치ㆍ관리해야 한\n다. <개정 2020. 12. 31., 2022. 4. 20.>\n② 제1항에 따라 설치되는 보행 신호등의 녹색신호시간은 어린이, 노인 또는 장애인의 평균 보행속도를 기준으로\n하여 설정하여야 한다.\n③ 시ㆍ도경찰청장이나 경찰서장은 제3조제6항에 따라 지정된 보호구역에 다음 각 호의 구분에 따라 안전표지를\n설치하여야 한다.<개정 2020. 12. 31.>\n1. 어린이 보호구역: 「도로교통법 시행규칙」(이하 이 조에서 “시행규칙”이라 한다) 별표 6 Ⅱ. 개별기준의 제133호ㆍ\n제324호 및 제536호의 안전표지\

In [59]:
# 초기화
embedding_model = SentenceTransformerEmbedding("jinaai/jina-embeddings-v3")
retriever = ElasticsearchHybridRetriever("law-index-v2", embedding_model)
question = "아르바이트생도 퇴직금을 받을수 있나요?"

# BM25 전용 검색
bm25_results = retriever.retrieve_bm25_only(question)

# KNN 전용 검색
knn_results = retriever.retrieve_knn_only(question)

# Hybrid (BM25 + KNN 합본)
hybrid_results = retriever.retrieve(question)

In [60]:
bm25_results

['근로자퇴직급여 보장법 제10조(퇴직금의 시효) 이 법에 따른 퇴직금을 받을 권리는 3년간 행사하지 아니하면 시효로 인하여 소멸한다.',
 '근로자퇴직급여 보장법 제14조(가입기간) ① 제13조제3호에 따른 가입기간은 퇴직연금제도의 설정 이후 해당 사업에서 근로를 제공하는 기간\n으로 한다.\n② 해당 퇴직연금제도의 설정 전에 해당 사업에서 제공한 근로기간에 대하여도 가입기간으로 할 수 있다. 이 경우\n제8조제2항에 따라 퇴직금을 미리 정산한 기간은 제외한다.',
 '청원경찰법 제7조(보상금) 청원주는 청원경찰이 다음 각 호의 어느 하나에 해당하게 되면 대통령령으로 정하는 바에 따라 청원경찰\n본인 또는 그 유족에게 보상금을 지급하여야 한다.\n1. 직무수행으로 인하여 부상을 입거나, 질병에 걸리거나 또는 사망한 경우\n2. 직무상의 부상ㆍ질병으로 인하여 퇴직하거나, 퇴직 후 2년 이내에 사망한 경우\n\n제7조의2(퇴직금) 청원주는 청원경찰이 퇴직할 때에는 「근로자퇴직급여 보장법」에 따른 퇴직금을 지급하여야 한다. 다\n만, 국가기관이나 지방자치단체에 근무하는 청원경찰의 퇴직금에 관하여는 따로 대통령령으로 정한다.',
 '청원산림보호직원 배치에 관한 법률 시행령 제6조(보수 등의 지급) ①산림보호직원의 봉급 및 수당 등의 지급에 관하여는 「공무원보수규정」 및 「공무원수당 등에\n관한 규정」중 임업서기에 관한 규정을 준용한다. <개정 2005. 6. 30.>\n②산림보호직원이 퇴직한 때에는 「근로자퇴직급여 보장법」에 의한 퇴직금을 지급하여야 한다. 다만, 국가기관 또는\n지방자치단체가 청원하여 배치하는 산림보호직원에 대하여는 공무원연금 법령이 정하는 바에 의한다.<개정 2005.\n6. 30., 2005. 8. 19.>\n③산림보호직원의 봉급산정의 기준에 있어서의 경력에 산입하는 경력의 범위는 농림축산식품부령으로 정한다.<개\n정 2008. 2. 29., 2013. 3. 23.>',
 '근로자퇴직급여 보장법 제44조(벌칙) 다음 각 호의 어느 하나에 해당하

In [61]:
knn_results

['1959년 12월 31일 이전에 퇴직한 군인의 퇴직급여금지급에 관한 특별법 시행령 제12조(지급방법) 법 제10조의 규정에 의한 퇴직급여금은 신청인이 지정한 금융기관 등의 예금계좌를 이용하여 지급한\n다. 이 경우 지정한 예금계좌에 퇴직급여금이 입금된 때에는 신청인이 이를 수령한 것으로 본다.',
 '근로자퇴직급여 보장법 제10조(퇴직금의 시효) 이 법에 따른 퇴직금을 받을 권리는 3년간 행사하지 아니하면 시효로 인하여 소멸한다.',
 '국가정보원직원법 제20조(당연 퇴직) 직원이 제8조제2항 각 호(제6호는 제외한다)의 어느 하나에 해당할 때에는 당연히 퇴직한다.',
 '근로기준법 제86조(보상 청구권) 보상을 받을 권리는 퇴직으로 인하여 변경되지 아니하고, 양도나 압류하지 못한다.',
 '건설근로자의 고용개선 등에 관한 법률 제21조(시효) ① 퇴직공제금을 지급받을 권리와 반환금을 징수할 권리는 5년간 행사하지 아니하면 시효(時效)로 소멸한\n다. <개정 2019. 11. 26.>\n② 제1항의 소멸시효에 관하여는 이 법에 규정된 것 외에는 「민법」에 따른다.\n\n제4장 보칙 <개정 2007. 12. 27.>',
 '근로자퇴직급여 보장법 제7조(수급권의 보호) ① 퇴직연금제도(중소기업퇴직연금기금제도를 포함한다. 이하 이 조에서 같다)의 급여를 받을 권\n리는 양도 또는 압류하거나 담보로 제공할 수 없다. <개정 2021. 4. 13.>\n② 제1항에도 불구하고 가입자는 주택구입 등 대통령령으로 정하는 사유와 요건을 갖춘 경우에는 대통령령으로 정\n하는 한도에서 퇴직연금제도의 급여를 받을 권리를 담보로 제공할 수 있다. 이 경우 제26조에 따라 등록한 퇴직연\n금사업자[중소기업퇴직연금기금제도의 경우 「산업재해보상보험법」 제10조에 따른 근로복지공단(이하 “공단”이라\n한다)을 말한다]는 제공된 급여를 담보로 한 대출이 이루어지도록 협조하여야 한다.<개정 2021. 4. 13.>',
 '진폐의 예방과 진폐근로자의 보호 등에 관한 법률 시행규칙 제36조(작

In [62]:
hybrid_results

['근로자퇴직급여 보장법 제10조(퇴직금의 시효) 이 법에 따른 퇴직금을 받을 권리는 3년간 행사하지 아니하면 시효로 인하여 소멸한다.',
 '근로자퇴직급여 보장법 제14조(가입기간) ① 제13조제3호에 따른 가입기간은 퇴직연금제도의 설정 이후 해당 사업에서 근로를 제공하는 기간\n으로 한다.\n② 해당 퇴직연금제도의 설정 전에 해당 사업에서 제공한 근로기간에 대하여도 가입기간으로 할 수 있다. 이 경우\n제8조제2항에 따라 퇴직금을 미리 정산한 기간은 제외한다.',
 '청원경찰법 제7조(보상금) 청원주는 청원경찰이 다음 각 호의 어느 하나에 해당하게 되면 대통령령으로 정하는 바에 따라 청원경찰\n본인 또는 그 유족에게 보상금을 지급하여야 한다.\n1. 직무수행으로 인하여 부상을 입거나, 질병에 걸리거나 또는 사망한 경우\n2. 직무상의 부상ㆍ질병으로 인하여 퇴직하거나, 퇴직 후 2년 이내에 사망한 경우\n\n제7조의2(퇴직금) 청원주는 청원경찰이 퇴직할 때에는 「근로자퇴직급여 보장법」에 따른 퇴직금을 지급하여야 한다. 다\n만, 국가기관이나 지방자치단체에 근무하는 청원경찰의 퇴직금에 관하여는 따로 대통령령으로 정한다.',
 '청원산림보호직원 배치에 관한 법률 시행령 제6조(보수 등의 지급) ①산림보호직원의 봉급 및 수당 등의 지급에 관하여는 「공무원보수규정」 및 「공무원수당 등에\n관한 규정」중 임업서기에 관한 규정을 준용한다. <개정 2005. 6. 30.>\n②산림보호직원이 퇴직한 때에는 「근로자퇴직급여 보장법」에 의한 퇴직금을 지급하여야 한다. 다만, 국가기관 또는\n지방자치단체가 청원하여 배치하는 산림보호직원에 대하여는 공무원연금 법령이 정하는 바에 의한다.<개정 2005.\n6. 30., 2005. 8. 19.>\n③산림보호직원의 봉급산정의 기준에 있어서의 경력에 산입하는 경력의 범위는 농림축산식품부령으로 정한다.<개\n정 2008. 2. 29., 2013. 3. 23.>',
 '근로자퇴직급여 보장법 제44조(벌칙) 다음 각 호의 어느 하나에 해당하

In [63]:
knn_docs = retriever.retrieve_knn_only("어린이 보호구역 속도 제한")
print("KNN 결과 개수:", len(knn_docs))

KNN 결과 개수: 10


In [64]:
bm25_docs = retriever.retrieve_bm25_only("어린이 보호구역 속도 제한")
print("BM25 결과 개수:", len(bm25_docs))

BM25 결과 개수: 10


In [65]:
curl -X POST "localhost:9200/law-index-v2/_search" -H 'Content-Type: application/json' -d '
{
  "query": {
    "match": {
      "text": "어린이 보호구역 속도 제한"
    }
  }
}'

SyntaxError: invalid syntax (18905694.py, line 1)