In [None]:
# VectorStore 지원 검색기
# VectorStore 지원 검색기 는 vector store를 사용하여 문서를 검색하는 retriever입니다.
# 이는 vector store 클래스를 retriever 인터페이스에 맞게 래핑한 경량 래퍼(wrapper)입니다.
# Vector store에 구현된 유사도 검색(similarity search) 이나 MMR 과 같은 검색 메서드를 사용하여 vector store 내의 텍스트를 쿼리합니다.

In [1]:
# 루트경로에 .env 파일을 만들고, OPENAI_API_KEY='{API_KEY}' 식으로 입력한다.
# API 키를 환경변수로 관리하기 위한 .env설정 파일 로딩
import os
from dotenv import load_dotenv

load_dotenv() # API 키 정보 로드
print(f"[OPENAI_API_KEY]\n{os.environ['OPENAI_API_KEY']}\n")
print(f"[HUGGINGFACEHUB_API_TOKEN]\n{os.environ['HUGGINGFACEHUB_API_TOKEN']}")

[OPENAI_API_KEY]
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

[HUGGINGFACEHUB_API_TOKEN]
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


In [2]:
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

# FAISS에서 AVX2 최적화를 사용하지 않으려면 다음 줄의 주석을 해제하세요.
# import os
#
# os.environ['FAISS_NO_AVX2'] = '1'

# TextLoader를 사용하여 텍스트 파일을 로드합니다.
loader = TextLoader("../data/08.보안관리규정_11.10.01.txt")

# 로드된 문서를 가져옵니다.
documents = loader.load()

# CharacterTextSplitter를 사용하여 문서를 분할합니다.
text_splitter = CharacterTextSplitter(chunk_size=300, chunk_overlap=0)

# 분할된 문서를 가져옵니다.
docs = text_splitter.split_documents(documents)
print(f'*docs 길이: {len(docs)}')

# OpenAIEmbeddings를 사용하여 임베딩을 생성합니다.
embeddings = OpenAIEmbeddings()

# FAISS를 사용하여 문서와 임베딩으로부터 데이터베이스를 생성합니다.
db = FAISS.from_documents(docs, embeddings)

Created a chunk of size 635, which is longer than the specified 300
Created a chunk of size 463, which is longer than the specified 300
Created a chunk of size 405, which is longer than the specified 300
Created a chunk of size 492, which is longer than the specified 300
Created a chunk of size 335, which is longer than the specified 300


*docs 길이: 29


In [8]:
# 데이터베이스를 검색기로 사용하기 위해 retriever 변수에 할당합니다.
retriever = db.as_retriever()

# 관련 문서를 검색합니다. => get_relevant_documents() 이용해서 검색
docs = retriever.get_relevant_documents("패스워드 정책에는 어떤것이 있나요?")

for doc in docs:
    print(doc, end="\n====================================\n")

page_content='정책 \n특별한 규칙은 없으나 기억하기 쉽고 빨리 타이핑 할 수 있는 걸로 정한다.\n패스워드는 숫자와 문자를 조합할 것 – 누구나 알 수 있는 숫자 등은 피할 것.\n메일, 개인용 PC의 로그온 정보 등 사내에서 사용하는 비밀번호 들은 일치하여 사용하도록 한다. 개인이 사용중인 계정이나 패스워드를 타인에게 공개를 하지 않는다.\n개인이 사용중인 계정이나 패스워드를 타인에게 공개를 하지 않는다.\n사내에서 사용중인 모든 계정 / Password 관리는 전산담당자가 총괄 관리한다.' metadata={'source': '../data/08.보안관리규정_11.10.01.txt'}
page_content='[제 3 장 세부 보안 정책]\n제6조 (비밀번호(Password) 정책)\n내용 : 사용자 이름과 패스워드 조합에 의해 네트워크상의 시스템에서 사용자가 식별된다. 시스템 로그온 계정은 두 문자(Acronym)를 이용하여 만드는 게 좋다.' metadata={'source': '../data/08.보안관리규정_11.10.01.txt'}
page_content='[제 3 장 세부 보안 정책]\n제8조 (네트워크 정책)\n네트워크에의 연결\n회사의 전산 책임자의 승인이 없는 네트워크 자원의 사용은 제한할 수 있다.\n외부 (공중/사설) 네트워크에의 접근은 방화벽을 반드시 거쳐 일어나야 한다.\n모든 방화벽은 회사 보안 규정에 따라 설치 및 운영 되어야 한다.\n\n모뎀\n업무 담당자들은 모뎀을 이용한 데이터의 전송을 할 수가 없다.\n사내 LAN으로의 Dial-In 접속은 일정한 사용자에게는 허용된다.' metadata={'source': '../data/08.보안관리규정_11.10.01.txt'}
page_content='보안관리규정' metadata={'source': '../data/08.보안관리규정_11.10.01.txt'}


In [7]:
# MMR (Max Marginal Relevance: 최대 한계 관련성)
# => search_type 매개변수를 "mmr" 로 설정하여 MMR(Maximal Marginal Relevance) 검색 알고리즘을 사용합니다.

retriever = db.as_retriever(search_type="mmr")

# 관련 문서를 검색합니다. => get_relevant_documents() 이용해서 검색
docs = retriever.get_relevant_documents("패스워드 정책에는 어떤것이 있나요?")

for doc in docs:
    print(doc, end="\n====================================\n")

page_content='정책 \n특별한 규칙은 없으나 기억하기 쉽고 빨리 타이핑 할 수 있는 걸로 정한다.\n패스워드는 숫자와 문자를 조합할 것 – 누구나 알 수 있는 숫자 등은 피할 것.\n메일, 개인용 PC의 로그온 정보 등 사내에서 사용하는 비밀번호 들은 일치하여 사용하도록 한다. 개인이 사용중인 계정이나 패스워드를 타인에게 공개를 하지 않는다.\n개인이 사용중인 계정이나 패스워드를 타인에게 공개를 하지 않는다.\n사내에서 사용중인 모든 계정 / Password 관리는 전산담당자가 총괄 관리한다.' metadata={'source': '../data/08.보안관리규정_11.10.01.txt'}
page_content='보안관리규정' metadata={'source': '../data/08.보안관리규정_11.10.01.txt'}
page_content='[제 3 장 세부 보안 정책]\n제11조 (랩탑 및 휴대용 컴퓨터 관련 정책)\n전산 담당자가 랩탑의 준비 및 설치를 책임진다.\n랩탑의 신규 구매 시 모델 선택에 대해 전산 담당자의 조언을 받은 후 구매한다.\n랩탑 컴퓨터에 자동 화면 보호 메커니즘과 일반 사용자가 패스워드를 모르면 시스템에 접근할 수 없는 운영체제를 설치한다.\n사용자가 회사 건물 밖에서의 랩탑에 대한 책임을 진다.\n반드시 능동적인 바이러스 백신 프로그램을 설치 해야 한다.' metadata={'source': '../data/08.보안관리규정_11.10.01.txt'}
page_content='[제 3 장 세부 보안 정책]\n제14조 (IP 관리)\n1. IP 관리\n(1) 사내 사용 모든 IP 는 2원화 하여 분리 관리 사용 한다.\n사내사용자 및 외부 사용자 와 의 IP는 네트워크 단에 분리 하여 관리 한다.\n(2) 모든 IP는 전산 파트에서 통제 관리하며 모든 유휴 IP는 차단 사용통제 한다. \n단 추가 사용 요청이 있을 경우 전자결재의 전산 요청서를 작성하여\n팀장/임원의 제가 후 전산 파트에 협조 요청 한다.' meta

In [6]:
# 유사도 점수 임계값 검색기(Similarity Score Threshold Retrieval)
# 유사도 점수 임계값을 설정하고 해당 임계값 이상의 점수를 가진 문서만 반환하는 검색 방법을 설정할 수 있습니다.

retriever = db.as_retriever(
    # 검색 유형을 "유사도 점수 임계값"으로 설정합니다.
    search_type="similarity_score_threshold",
    # 검색 인자로 점수 임계값을 0.75로 지정합니다.
    search_kwargs={"score_threshold": 0.75},
)

# 관련 문서를 검색합니다. => get_relevant_documents() 이용해서 검색
docs = retriever.get_relevant_documents("패스워드 정책에는 어떤것이 있나요?")

for doc in docs:
    print(doc, end="\n====================================\n")


page_content='정책 \n특별한 규칙은 없으나 기억하기 쉽고 빨리 타이핑 할 수 있는 걸로 정한다.\n패스워드는 숫자와 문자를 조합할 것 – 누구나 알 수 있는 숫자 등은 피할 것.\n메일, 개인용 PC의 로그온 정보 등 사내에서 사용하는 비밀번호 들은 일치하여 사용하도록 한다. 개인이 사용중인 계정이나 패스워드를 타인에게 공개를 하지 않는다.\n개인이 사용중인 계정이나 패스워드를 타인에게 공개를 하지 않는다.\n사내에서 사용중인 모든 계정 / Password 관리는 전산담당자가 총괄 관리한다.' metadata={'source': '../data/08.보안관리규정_11.10.01.txt'}
page_content='[제 3 장 세부 보안 정책]\n제6조 (비밀번호(Password) 정책)\n내용 : 사용자 이름과 패스워드 조합에 의해 네트워크상의 시스템에서 사용자가 식별된다. 시스템 로그온 계정은 두 문자(Acronym)를 이용하여 만드는 게 좋다.' metadata={'source': '../data/08.보안관리규정_11.10.01.txt'}
page_content='[제 3 장 세부 보안 정책]\n제8조 (네트워크 정책)\n네트워크에의 연결\n회사의 전산 책임자의 승인이 없는 네트워크 자원의 사용은 제한할 수 있다.\n외부 (공중/사설) 네트워크에의 접근은 방화벽을 반드시 거쳐 일어나야 한다.\n모든 방화벽은 회사 보안 규정에 따라 설치 및 운영 되어야 한다.\n\n모뎀\n업무 담당자들은 모뎀을 이용한 데이터의 전송을 할 수가 없다.\n사내 LAN으로의 Dial-In 접속은 일정한 사용자에게는 허용된다.' metadata={'source': '../data/08.보안관리규정_11.10.01.txt'}


In [4]:
# 검색 계수 지정
# Top K

retriever = db.as_retriever(search_kwargs={"k": 1})

# 관련 문서를 검색합니다. => get_relevant_documents() 이용해서 검색
docs = retriever.get_relevant_documents("패스워드 정책에는 어떤것이 있나요?")

for doc in docs:
    print(doc, end="\n====================================\n")

page_content='정책 \n특별한 규칙은 없으나 기억하기 쉽고 빨리 타이핑 할 수 있는 걸로 정한다.\n패스워드는 숫자와 문자를 조합할 것 – 누구나 알 수 있는 숫자 등은 피할 것.\n메일, 개인용 PC의 로그온 정보 등 사내에서 사용하는 비밀번호 들은 일치하여 사용하도록 한다. 개인이 사용중인 계정이나 패스워드를 타인에게 공개를 하지 않는다.\n개인이 사용중인 계정이나 패스워드를 타인에게 공개를 하지 않는다.\n사내에서 사용중인 모든 계정 / Password 관리는 전산담당자가 총괄 관리한다.' metadata={'source': '../data/08.보안관리규정_11.10.01.txt'}
