In [None]:
# 문맥 압축 검색기(ContextualCompressionRetriever)
# 검색된 문서를 그대로 즉시 반환하는 대신, 주어진 질의의 맥락을 사용하여 문서를 압축함으로써 관련 정보만 반환되도록 할 수 있습니다.
# 여기서 "압축"은 개별 문서의 내용을 압축하는 것과 문서를 전체적으로 필터링하는 것 모두를 의미합니다.
#
# Contextual Compression Retriever를 사용하려면 다음이 필요합니다.
# - Base Retriever
# - Document Compressor
# ContextualCompressionRetriever 는 질의를 base retriever에 전달하고, 초기 문서를 가져와 Document Compressor를 통과시킵니다.
# Document Compressor는 문서 목록을 가져와 문서의 내용을 줄이거나 문서를 완전히 삭제하여 목록을 축소합니다.

In [1]:
# 루트경로에 .env 파일을 만들고, OPENAI_API_KEY='{API_KEY}' 식으로 입력한다.
# API 키를 환경변수로 관리하기 위한 .env설정 파일 로딩
import os
from dotenv import load_dotenv

load_dotenv() # API 키 정보 로드
print(f"[OPENAI_API_KEY]\n{os.environ['OPENAI_API_KEY']}\n")
print(f"[HUGGINGFACEHUB_API_TOKEN]\n{os.environ['HUGGINGFACEHUB_API_TOKEN']}")

[OPENAI_API_KEY]
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

[HUGGINGFACEHUB_API_TOKEN]
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


In [2]:
# 문서를 예쁘게 출력하기 위한 도우미 함수
def pretty_print_docs(docs):
    print(
        f"\n{'-' * 100}\n".join(
            [f"문서 {i+1}:\n\n" + d.page_content for i, d in enumerate(docs)]
        )
    )

In [3]:
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

# FAISS에서 AVX2 최적화를 사용하지 않으려면 다음 줄의 주석을 해제하세요.
# import os
#
# os.environ['FAISS_NO_AVX2'] = '1'

# TextLoader를 사용하여 텍스트 파일을 로드합니다.
loader = TextLoader("../data/08.보안관리규정_11.10.01.txt")

# 로드된 문서를 가져옵니다.
documents = loader.load()

# CharacterTextSplitter를 사용하여 문서를 분할합니다.
text_splitter = CharacterTextSplitter(chunk_size=300, chunk_overlap=0)

# 분할된 문서를 가져옵니다.
docs = text_splitter.split_documents(documents)
print(f'*docs 길이: {len(docs)}')

# OpenAIEmbeddings를 사용하여 임베딩을 생성합니다.
embeddings = OpenAIEmbeddings()

# FAISS를 사용하여 문서와 임베딩으로부터 데이터베이스를 생성합니다.
db = FAISS.from_documents(docs, embeddings)

# 데이터베이스를 검색기로 사용하기 위해 retriever 변수에 할당합니다.
retriever = db.as_retriever()

# 관련 문서를 검색합니다. => get_relevant_documents() 이용해서 검색
docs = retriever.get_relevant_documents("패스워드 정책에는 어떤것이 있나요?")

for doc in docs:
    print(doc, end="\n====================================\n")

Created a chunk of size 635, which is longer than the specified 300
Created a chunk of size 463, which is longer than the specified 300
Created a chunk of size 405, which is longer than the specified 300
Created a chunk of size 492, which is longer than the specified 300
Created a chunk of size 335, which is longer than the specified 300


*docs 길이: 29


  warn_deprecated(


page_content='정책 \n특별한 규칙은 없으나 기억하기 쉽고 빨리 타이핑 할 수 있는 걸로 정한다.\n패스워드는 숫자와 문자를 조합할 것 – 누구나 알 수 있는 숫자 등은 피할 것.\n메일, 개인용 PC의 로그온 정보 등 사내에서 사용하는 비밀번호 들은 일치하여 사용하도록 한다. 개인이 사용중인 계정이나 패스워드를 타인에게 공개를 하지 않는다.\n개인이 사용중인 계정이나 패스워드를 타인에게 공개를 하지 않는다.\n사내에서 사용중인 모든 계정 / Password 관리는 전산담당자가 총괄 관리한다.' metadata={'source': '../data/08.보안관리규정_11.10.01.txt'}
page_content='[제 3 장 세부 보안 정책]\n제6조 (비밀번호(Password) 정책)\n내용 : 사용자 이름과 패스워드 조합에 의해 네트워크상의 시스템에서 사용자가 식별된다. 시스템 로그온 계정은 두 문자(Acronym)를 이용하여 만드는 게 좋다.' metadata={'source': '../data/08.보안관리규정_11.10.01.txt'}
page_content='[제 3 장 세부 보안 정책]\n제8조 (네트워크 정책)\n네트워크에의 연결\n회사의 전산 책임자의 승인이 없는 네트워크 자원의 사용은 제한할 수 있다.\n외부 (공중/사설) 네트워크에의 접근은 방화벽을 반드시 거쳐 일어나야 한다.\n모든 방화벽은 회사 보안 규정에 따라 설치 및 운영 되어야 한다.\n\n모뎀\n업무 담당자들은 모뎀을 이용한 데이터의 전송을 할 수가 없다.\n사내 LAN으로의 Dial-In 접속은 일정한 사용자에게는 허용된다.' metadata={'source': '../data/08.보안관리규정_11.10.01.txt'}
page_content='보안관리규정' metadata={'source': '../data/08.보안관리규정_11.10.01.txt'}


In [7]:
#LLMChainExtractor를 사용하여 맥락적 압축 추가하기
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor
from langchain_openai import OpenAI

# LLM을 사용하여 문서 압축기 생성
llm = OpenAI(temperature=0) # OpenAI 모델 초기화 

compressor = LLMChainExtractor.from_llm(llm)

compression_retriever = ContextualCompressionRetriever(
    # 문서압축기와 리트리버를 이용해서 압축 리트리버 생성
    base_compressor = compressor,
    base_retriever = retriever,
)

compressed_docs = compression_retriever.get_relevant_documents(  # 컨텍스트 압축 리트리버를 사용하여 관련 문서 검색
    "패스워드 정책에는 어떤것이 있나요?"
)
pretty_print_docs(compressed_docs)  # 검색된 문서를 예쁘게 출력

문서 1:

- 패스워드는 숫자와 문자를 조합할 것 – 누구나 알 수 있는 숫자 등은 피할 것.
- 메일, 개인용 PC의 로그온 정보 등 사내에서 사용하는 비밀번호 들은 일치하여 사용하도록 한다.
- 개인이 사용중인 계정이나 패스워드를 타인에게 공개를 하지 않는다.
- 사내에서 사용중인 모든 계정 / Password 관리는 전산담당자가 총괄 관리한다.
----------------------------------------------------------------------------------------------------
문서 2:

제6조 (비밀번호(Password) 정책)
내용 : 사용자 이름과 패스워드 조합에 의해 네트워크상의 시스템에서 사용자가 식별된다. 시스템 로그온 계정은 두 문자(Acronym)를 이용하여 만드는 게 좋다.
----------------------------------------------------------------------------------------------------
문서 3:

- 제 3 장 세부 보안 정책
- 제8조 (네트워크 정책)
- 네트워크에의 연결
- 외부 (공중/사설) 네트워크에의 접근은 방화벽을 반드시 거쳐 일어나야 한다.
- 모든 방화벽은 회사 보안 규정에 따라 설치 및 운영 되어야 한다.
----------------------------------------------------------------------------------------------------
문서 4:

보안관리규정


In [8]:
#LLMChainFilter 사용하여 필터추가하
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainFilter
from langchain_openai import OpenAI

# LLM을 사용하여 문서 압축기 생성
llm = OpenAI(temperature=0) # OpenAI 모델 초기화 

_filter = LLMChainFilter.from_llm(llm)

compression_retriever = ContextualCompressionRetriever(
    # LLMChainFilter와 리트리버를 이용해서 압축 리트리버 생성
    base_compressor = _filter,
    base_retriever = retriever,
)

compressed_docs = compression_retriever.get_relevant_documents(  # 컨텍스트 압축 리트리버를 사용하여 관련 문서 검색
    "패스워드 정책에는 어떤것이 있나요?"
)
pretty_print_docs(compressed_docs)  # 검색된 문서를 예쁘게 출력

문서 1:

정책 
특별한 규칙은 없으나 기억하기 쉽고 빨리 타이핑 할 수 있는 걸로 정한다.
패스워드는 숫자와 문자를 조합할 것 – 누구나 알 수 있는 숫자 등은 피할 것.
메일, 개인용 PC의 로그온 정보 등 사내에서 사용하는 비밀번호 들은 일치하여 사용하도록 한다. 개인이 사용중인 계정이나 패스워드를 타인에게 공개를 하지 않는다.
개인이 사용중인 계정이나 패스워드를 타인에게 공개를 하지 않는다.
사내에서 사용중인 모든 계정 / Password 관리는 전산담당자가 총괄 관리한다.
----------------------------------------------------------------------------------------------------
문서 2:

[제 3 장 세부 보안 정책]
제6조 (비밀번호(Password) 정책)
내용 : 사용자 이름과 패스워드 조합에 의해 네트워크상의 시스템에서 사용자가 식별된다. 시스템 로그온 계정은 두 문자(Acronym)를 이용하여 만드는 게 좋다.
----------------------------------------------------------------------------------------------------
문서 3:

[제 3 장 세부 보안 정책]
제8조 (네트워크 정책)
네트워크에의 연결
회사의 전산 책임자의 승인이 없는 네트워크 자원의 사용은 제한할 수 있다.
외부 (공중/사설) 네트워크에의 접근은 방화벽을 반드시 거쳐 일어나야 한다.
모든 방화벽은 회사 보안 규정에 따라 설치 및 운영 되어야 한다.

모뎀
업무 담당자들은 모뎀을 이용한 데이터의 전송을 할 수가 없다.
사내 LAN으로의 Dial-In 접속은 일정한 사용자에게는 허용된다.


In [9]:
# EmbeddingsFilter
# 각각의 검색된 문서에 대해 추가적인 LLM 호출을 수행하는 것은 비용이 많이 들고 속도가 느립니다.
# EmbeddingsFilter는 문서와 쿼리를 임베딩하고 쿼리와 충분히 유사한 임베딩을 가진 문서만 반환함으로써 더 저렴하고 빠른 옵션을 제공합니다.
# 이를 통해 검색 결과의 관련성을 유지하면서도 계산 비용과 시간을 절약할 수 있습니다.

from langchain.retrievers.document_compressors import EmbeddingsFilter
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings()

# 유사도 임계값이 0.85인 EmbeddingsFilter 객체 생성
embeddings_filter = EmbeddingsFilter(
    embeddings=embeddings, 
    similarity_threshold=0.85
)

compression_retriever = ContextualCompressionRetriever(
    # EmbeddingsFilter와 리트리버를 이용해서 압축 리트리버 생성
    base_compressor = embeddings_filter,
    base_retriever = retriever,
)

compressed_docs = compression_retriever.get_relevant_documents(  # 컨텍스트 압축 리트리버를 사용하여 관련 문서 검색
    "패스워드 정책에는 어떤것이 있나요?"
)
pretty_print_docs(compressed_docs)  # 검색된 문서를 예쁘게 출력

문서 1:

정책 
특별한 규칙은 없으나 기억하기 쉽고 빨리 타이핑 할 수 있는 걸로 정한다.
패스워드는 숫자와 문자를 조합할 것 – 누구나 알 수 있는 숫자 등은 피할 것.
메일, 개인용 PC의 로그온 정보 등 사내에서 사용하는 비밀번호 들은 일치하여 사용하도록 한다. 개인이 사용중인 계정이나 패스워드를 타인에게 공개를 하지 않는다.
개인이 사용중인 계정이나 패스워드를 타인에게 공개를 하지 않는다.
사내에서 사용중인 모든 계정 / Password 관리는 전산담당자가 총괄 관리한다.
----------------------------------------------------------------------------------------------------
문서 2:

[제 3 장 세부 보안 정책]
제6조 (비밀번호(Password) 정책)
내용 : 사용자 이름과 패스워드 조합에 의해 네트워크상의 시스템에서 사용자가 식별된다. 시스템 로그온 계정은 두 문자(Acronym)를 이용하여 만드는 게 좋다.


In [10]:
# 파이프라인 생성(압축기+문서 변환기)
# DocumentCompressorPipeline 을 사용하면 여러 compressor를 순차적으로 결합할 수 있습니다.
# Compressor와 함께 BaseDocumentTransformer를 파이프라인에 추가할 수 있는데, 이는 맥락적 압축을 수행하지 않고 단순히 문서 집합에 대한 변환을 수행합니다.
# 예를 들어, TextSplitter는 문서를 더 작은 조각으로 분할하기 위해 document transformer로 사용될 수 있으며, 
# EmbeddingsRedundantFilter는 문서 간의 임베딩 유사성을 기반으로 중복 문서를 필터링하는 데 사용될 수 있습니다.
#아래에서는 먼저 문서를 더 작은 청크로 분할한 다음, 중복 문서를 제거하고, 쿼리와의 관련성을 기준으로 필터링하여 compressor pipeline을 생성합니다.

from langchain.retrievers.document_compressors import DocumentCompressorPipeline
from langchain_community.document_transformers import EmbeddingsRedundantFilter
from langchain_openai import OpenAIEmbeddings
from langchain_community.document_loaders import TextLoader

# TextLoader를 사용하여 텍스트 파일을 로드합니다.
loader = TextLoader("../data/08.보안관리규정_11.10.01.txt")

# 로드된 문서를 가져옵니다.
documents = loader.load()

# CharacterTextSplitter를 사용하여 문서를 분할합니다.
text_splitter = CharacterTextSplitter(chunk_size=300, chunk_overlap=0)

embeddings = OpenAIEmbeddings()

# 임베딩을 사용하여 중복 필터를 생성합니다.
redundant_filter = EmbeddingsRedundantFilter(embeddings=embeddings)

# 임베딩을 사용하여 관련성 필터를 생성하고, 유사도 임계값을 0.85으로 설정합니다.
relevant_filter = EmbeddingsFilter(
    embeddings=embeddings, 
    similarity_threshold=0.85
)

pipeline_compressor = DocumentCompressorPipeline(
    # 문서 압축 파이프라인을 생성하고, 분할기, 중복 필터, 관련성 필터를 변환기로 설정합니다.
    transformers=[text_splitter, redundant_filter, relevant_filter]
)


compression_retriever = ContextualCompressionRetriever(
    # EmbeddingsFilter와 리트리버를 이용해서 압축 리트리버 생성
    base_compressor = pipeline_compressor,
    base_retriever = retriever,
)

compressed_docs = compression_retriever.get_relevant_documents(  # 컨텍스트 압축 리트리버를 사용하여 관련 문서 검색
    "패스워드 정책에는 어떤것이 있나요?"
)
pretty_print_docs(compressed_docs)  # 검색된 문서를 예쁘게 출력

문서 1:

정책 
특별한 규칙은 없으나 기억하기 쉽고 빨리 타이핑 할 수 있는 걸로 정한다.
패스워드는 숫자와 문자를 조합할 것 – 누구나 알 수 있는 숫자 등은 피할 것.
메일, 개인용 PC의 로그온 정보 등 사내에서 사용하는 비밀번호 들은 일치하여 사용하도록 한다. 개인이 사용중인 계정이나 패스워드를 타인에게 공개를 하지 않는다.
개인이 사용중인 계정이나 패스워드를 타인에게 공개를 하지 않는다.
사내에서 사용중인 모든 계정 / Password 관리는 전산담당자가 총괄 관리한다.
----------------------------------------------------------------------------------------------------
문서 2:

[제 3 장 세부 보안 정책]
제6조 (비밀번호(Password) 정책)
내용 : 사용자 이름과 패스워드 조합에 의해 네트워크상의 시스템에서 사용자가 식별된다. 시스템 로그온 계정은 두 문자(Acronym)를 이용하여 만드는 게 좋다.
