In [2]:
from langchain_chroma import Chroma
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_core.documents import Document
import logging

# Configure logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import CrossEncoderReranker
from langchain_community.cross_encoders import HuggingFaceCrossEncoder

In [3]:
def pretty_print_docs(docs: list[Document]):
    print(
        f"\n{'-' * 100}\n".join(
            [f"Document {i+1}:\n\n" + d.page_content for i, d in enumerate(docs)]
        )
    )

In [4]:
logging.info("Loading embedding model...")

embedding_model = HuggingFaceEmbeddings(
    model_name="jinaai/jina-embeddings-v3",
    model_kwargs={"trust_remote_code": True},
    encode_kwargs={"normalize_embeddings": True}
)
logging.info("Embedding model loaded successfully")

2025-06-17 11:03:08,959 - INFO - Loading embedding model...
  from .autonotebook import tqdm as notebook_tqdm
2025-06-17 11:03:12,523 - INFO - Note: NumExpr detected 22 cores but "NUMEXPR_MAX_THREADS" not set, so enforcing safe limit of 16.
2025-06-17 11:03:12,523 - INFO - NumExpr defaulting to 16 threads.
2025-06-17 11:03:14,437 - INFO - Use pytorch device_name: cpu
2025-06-17 11:03:14,437 - INFO - Load pretrained SentenceTransformer: jinaai/jina-embeddings-v3
2025-06-17 11:03:23,621 - INFO - 5 prompts are loaded, with the keys: ['retrieval.query', 'retrieval.passage', 'separation', 'classification', 'text-matching']
2025-06-17 11:03:23,622 - INFO - Embedding model loaded successfully


In [5]:
logging.info("Loading Chroma vectorstore...")
persist_directory = r"C:\kha\project\rfpTest\chroma_db"
vectorstore = Chroma(
    persist_directory=persist_directory,
    embedding_function=embedding_model
)
logging.info("Chroma vectorstore loaded successfully")

2025-06-17 11:03:23,631 - INFO - Loading Chroma vectorstore...
2025-06-17 11:03:23,657 - INFO - Anonymized telemetry enabled. See                     https://docs.trychroma.com/telemetry for more information.
2025-06-17 11:03:23,760 - INFO - Chroma vectorstore loaded successfully


In [6]:
query_retrieve = "기초학력 진단평가"
logging.info(f"Retrieving documents for query: {query_retrieve}")

retriever = vectorstore.as_retriever(search_kwargs={"k": 30})

logging.info("Starting document retrieval...")
results = retriever.invoke(query_retrieve)
logging.info(f"Retrieved {len(results)} documents")

for i, doc in enumerate(results):
    logging.info(f"Document {i+1} metadata: {doc.metadata}")
    print(i+1, doc.metadata)
    print(doc.page_content)
    print()

2025-06-17 11:03:26,047 - INFO - Retrieving documents for query: 기초학력 진단평가
2025-06-17 11:03:26,049 - INFO - Starting document retrieval...
2025-06-17 11:03:26,543 - INFO - Retrieved 30 documents
2025-06-17 11:03:26,543 - INFO - Document 1 metadata: {'bidding_info_id': 221}
2025-06-17 11:03:26,543 - INFO - Document 2 metadata: {'bidding_info_id': 40}
2025-06-17 11:03:26,553 - INFO - Document 3 metadata: {'bidding_info_id': 29}
2025-06-17 11:03:26,554 - INFO - Document 4 metadata: {'bidding_info_id': 348}
2025-06-17 11:03:26,554 - INFO - Document 5 metadata: {'bidding_info_id': 34}
2025-06-17 11:03:26,554 - INFO - Document 6 metadata: {'bidding_info_id': 294}
2025-06-17 11:03:26,556 - INFO - Document 7 metadata: {'bidding_info_id': 492}
2025-06-17 11:03:26,557 - INFO - Document 8 metadata: {'bidding_info_id': 411}
2025-06-17 11:03:26,557 - INFO - Document 9 metadata: {'bidding_info_id': 122}
2025-06-17 11:03:26,557 - INFO - Document 10 metadata: {'bidding_info_id': 441}
2025-06-17 11:03:

1 {'bidding_info_id': 221}
제목: 2021년 기초학력 진단-보정 시스템 응용S/W 유지관리 및 서비스 운영
내용: 유지관리 및 운영을 위한 요구사항을 충족시키기 위해 응용S/W의 기능 및 보안 요구사항을 개발하고, 테스트 요구사항을 기반으로 성능 및 품질을 보장하는 시스템을 구축한다.

2 {'bidding_info_id': 40}
제목: 2021년 기초학력 진단-보정 시스템 응용S/W 유지관리 및 서비스 운영
내용: 유지관리 및 운영 수행 요구사항을 충족시키기 위한 응용S/W의 기능 및 보안 요구사항을 개발하고, 테스트 요구사항을 기반으로 한 품질 보증 및 하자보수 계획을 수립한다.

3 {'bidding_info_id': 29}
제목: 고성군 비시가화지역 토지적성평가 용역
내용: 기초자료조사 및 정비, 평가지표 선정 및 DB 구축, 지표별 평가기준 설정 및 평가점수 산정, 특성별 적성값 및 종합적성값 산정, 관리시스템 등재 및 사용자 교육.

4 {'bidding_info_id': 348}
제목: 고성군 비시가화지역 토지적성평가 용역
내용: 기초자료조사 및 정비, 평가지표 선정 및 DB 구축, 지표별 평가기준 설정 및 평가점수 산정, 특성별 적성값 및 종합적성값 산정, 관리시스템 등재 및 사용자 교육.

5 {'bidding_info_id': 34}
제목: 봉화군 토지적성평가 용역
내용: 기초자료조사 및 정비, 평가지표 선정 및 DB 구축, 지표별 평가기준 설정 및 평가점수 산정, 특성별 적성값 및 종합적성값 산정, 관리프로그램 등재 및 사용자 교육.

6 {'bidding_info_id': 294}
제목: 봉화군 토지적성평가 용역
내용: 기초자료조사 및 정비, 평가지표 선정 및 DB 구축, 지표별 평가기준 설정 및 평가점수 산정, 특성별 적성값 및 종합적성값 산정, 관리프로그램 등재 및 사용자 교육.

7 {'bidding_info_id': 492}
제목: 2021년 학점은행제 독학학위제 정보시스템 운영 및 유지보수
내용: 학사관리시

In [11]:
# 모델 초기화
model = HuggingFaceCrossEncoder(model_name="BAAI/bge-reranker-v2-m3")

# 상위 n개의 문서 선택
compressor = CrossEncoderReranker(model=model, top_n=20)

# 문서 압축 검색기 초기화
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor, base_retriever=retriever
)

# 압축된 문서 검색
compressed_docs = compression_retriever.invoke(query_retrieve)

2025-06-17 11:10:18,016 - INFO - Use pytorch device: cpu
Batches: 100%|██████████| 1/1 [00:06<00:00,  6.40s/it]


In [12]:
# 문서 출력
pretty_print_docs(compressed_docs)

Document 1:

제목: 2021년 기초학력 진단-보정 시스템 응용S/W 유지관리 및 서비스 운영
내용: 유지관리 및 운영을 위한 요구사항을 충족시키기 위해 응용S/W의 기능 및 보안 요구사항을 개발하고, 테스트 요구사항을 기반으로 성능 및 품질을 보장하는 시스템을 구축한다.
----------------------------------------------------------------------------------------------------
Document 2:

제목: 2021년 기초학력 진단-보정 시스템 응용S/W 유지관리 및 서비스 운영
내용: 유지관리 및 운영 수행 요구사항을 충족시키기 위한 응용S/W의 기능 및 보안 요구사항을 개발하고, 테스트 요구사항을 기반으로 한 품질 보증 및 하자보수 계획을 수립한다.
----------------------------------------------------------------------------------------------------
Document 3:

제목: 고성군 비시가화지역 토지적성평가 용역
내용: 기초자료조사 및 정비, 평가지표 선정 및 DB 구축, 지표별 평가기준 설정 및 평가점수 산정, 특성별 적성값 및 종합적성값 산정, 관리시스템 등재 및 사용자 교육.
----------------------------------------------------------------------------------------------------
Document 4:

제목: 고성군 비시가화지역 토지적성평가 용역
내용: 기초자료조사 및 정비, 평가지표 선정 및 DB 구축, 지표별 평가기준 설정 및 평가점수 산정, 특성별 적성값 및 종합적성값 산정, 관리시스템 등재 및 사용자 교육.
----------------------------------------------------------------------------------------------------
Document 5:



In [13]:
pretty_print_docs(results[:20])

Document 1:

제목: 2021년 기초학력 진단-보정 시스템 응용S/W 유지관리 및 서비스 운영
내용: 유지관리 및 운영을 위한 요구사항을 충족시키기 위해 응용S/W의 기능 및 보안 요구사항을 개발하고, 테스트 요구사항을 기반으로 성능 및 품질을 보장하는 시스템을 구축한다.
----------------------------------------------------------------------------------------------------
Document 2:

제목: 2021년 기초학력 진단-보정 시스템 응용S/W 유지관리 및 서비스 운영
내용: 유지관리 및 운영 수행 요구사항을 충족시키기 위한 응용S/W의 기능 및 보안 요구사항을 개발하고, 테스트 요구사항을 기반으로 한 품질 보증 및 하자보수 계획을 수립한다.
----------------------------------------------------------------------------------------------------
Document 3:

제목: 고성군 비시가화지역 토지적성평가 용역
내용: 기초자료조사 및 정비, 평가지표 선정 및 DB 구축, 지표별 평가기준 설정 및 평가점수 산정, 특성별 적성값 및 종합적성값 산정, 관리시스템 등재 및 사용자 교육.
----------------------------------------------------------------------------------------------------
Document 4:

제목: 고성군 비시가화지역 토지적성평가 용역
내용: 기초자료조사 및 정비, 평가지표 선정 및 DB 구축, 지표별 평가기준 설정 및 평가점수 산정, 특성별 적성값 및 종합적성값 산정, 관리시스템 등재 및 사용자 교육.
----------------------------------------------------------------------------------------------------
Document 5:

