# FAISS 관리

## FAISS 저장시 생기는 파일
### 1. **.faiss 파일**
- **내용**: `.faiss` 파일은 FAISS 인덱스를 저장. 벡터 데이터에 대한 인덱스 구조와 해당 데이터를 검색하기 위한 최적화된 인덱스를 포함.
- **용도**: 인덱스를 다시 로드하여 검색 작업을 수행할 수 있다. 이 파일만 있으면 벡터 데이터에 대한 검색 작업을 다시 수행할 수 있다.

### 2. **.pkl 파일**
- **내용**: `.pkl` 파일은 일반적으로 Python에서 사용하는 피클(pickle) 파일 형식으로 주로 벡터 데이터의 메타정보 또는 인덱스와 관련된 추가 데이터가 저장. 예를 들어, 벡터에 대한 ID, 메타데이터, 인덱스 구성 설정 등이 포함된다.
- **용도**: `.pkl` 파일은 Python 객체를 직렬화하여 저장한 것으로, 인덱스를 다시 로드할 때 사용된다. 이를 통해 검색 과정에서 필요한 부가적인 정보나 설정을 복원할 수 있다.

### 요약
- **.faiss 파일**: 벡터 인덱스 데이터를 저장하는 파일로, 벡터 검색 작업에 직접 사용.
- **.pkl 파일**: Python 객체의 직렬화된 데이터를 저장하는 파일로, 인덱스와 관련된 메타정보나 설정을 포함.

이 파일들은 함께 사용되어 벡터 검색 작업을 빠르게 수행할 수 있도록 한다. 인덱스를 로드할 때 두 파일을 모두 사용하여 완전한 검색 환경을 복원할 수 있다.

In [2]:
# 한번만 수행하면 됨
# 필요한 라이브러리 설치
# !pip install chardet



# 변수 선언

In [20]:
# 경로 추가
import sys
import os

sys.path.append(os.path.dirname(os.getcwd()))
sys.path.append(os.path.abspath(os.path.join(os.path.dirname(os.getcwd()), '..')))

from app.utils import get_embedding_model


# 변수 선언
ROOT_PATH = '/Users/passion1014/project/langchain/rag_server'
INDEX_ID = "SAMPLE_simple" # VectorDB INDEX 명
FILE_NAME = f'{INDEX_ID}.txt' # 파일이름

# 임베딩 선언
embeddings = get_embedding_model()

# 데이터 저장

In [None]:
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.vectorstores import FAISS
from dotenv import load_dotenv
from app.vectordb import upload_vectordb
from langchain.docstore.document import Document

# upload_vectordb.main(f'{ROOT_PATH}/data/{INDEX_ID}.txt', INDEX_ID)

# 파일 내용 로드 및 처리
text = upload_vectordb.load_and_detect_encoding(f'{ROOT_PATH}/data/{INDEX_ID}.txt')


# 2. 의미별로 chunk로 나누기
text_splitter = CharacterTextSplitter(chunk_size=100, chunk_overlap=10)
chunks = text_splitter.split_text(text)

# 각 chunk를 문서 객체로 변환
docs = text_splitter.create_documents(chunks)

# 각 chunk를 문서 객체로 변환 이 과정에서 각 청크를 개별 문서로 다룬다
docs = [Document(page_content=chunk) for chunk in chunks]

# FAISS 인덱스 생성 및 문서 추가
db = FAISS.from_documents(docs, embeddings)

# FAISS 인덱스 저장
db.save_local(f'{ROOT_PATH}/data/vector/{INDEX_ID}')


# 저장된 파일 확인

In [17]:
import pickle
import faiss

# 파일 경로
pkl_file_path = f'{ROOT_PATH}/data/vector/{INDEX_ID}/index'


# .pkl 파일 읽기
with open(f'{pkl_file_path}.pkl', 'rb') as f:
    docstore, uuid_mapping = pickle.load(f)

# 데이터를 출력하여 확인
print(f'# pkl [docstore] = {docstore}')
print(f'# pkl [uuid_mapping][{len(uuid_mapping)}] = {uuid_mapping}')


# .faiss 파일 읽기
index = faiss.read_index(f'{pkl_file_path}.faiss')

# 인덱스 정보 출력
print(f'# 인덱스 정보 출력 = {index}')

# docstore 객체의 메서드와 속성 확인
# print(dir(docstore))

# UUID로 데이터를 조회
for i in uuid_mapping:
    document = docstore.search(uuid_mapping[i])
    print(f'******* {uuid_mapping[i]} = {document}')


# pkl [docstore] = <langchain_community.docstore.in_memory.InMemoryDocstore object at 0x10c7bebd0>
# pkl [uuid_mapping][430] = {0: '14d7b57b-f5d7-4b9b-820a-f63380f90514', 1: '92dad966-0dbc-4923-a2d9-76eeb9f456fb', 2: 'cf1eac4e-1fb2-4a24-a326-ae8d1aefbe1a', 3: 'a5d057a8-d488-4df8-8c70-ef35ece9cf34', 4: '1ef2b30f-de70-4f68-a711-cdc574bd2cf1', 5: '8a8383a1-f3d6-4cde-8e97-cd048845acc4', 6: '8bee91a8-b93c-485b-a1bb-cd2f54abf1b6', 7: '52bf7031-03d9-4b7c-b314-99eec7b0b952', 8: '5ecdd9c9-f3b5-42b2-afc4-c8a3f74e5595', 9: 'cd046903-36a1-41e8-8924-3d7a364a0375', 10: '9e64cf44-0e62-4db3-8f27-813f69ecdb7b', 11: '0374555c-69a1-4cd7-af57-dcf3c2772388', 12: 'c7b9cd26-322c-4cfe-824f-eee102c81a56', 13: '235fce61-ca6c-4217-a33c-4e10d83bdd39', 14: '9e4cbbca-0c3b-402c-9d6f-489cff89be38', 15: '8b9fbcef-05fc-4e1e-8773-fa7ca86ee056', 16: '7ff27303-5b15-4bb4-a089-29bb6b7719ff', 17: 'fcb8cdf1-27ad-4aa1-beb6-1a0113e3c544', 18: 'adef82bd-4748-40c0-9272-a314a6898b90', 19: 'a1282a55-c766-40ed-ba5c-8e2b3669a13a', 20

# 데이터 조회

In [19]:
from langchain_community.vectorstores import FAISS


# 파일 로드
db = FAISS.load_local(f'{ROOT_PATH}/data/vector/{INDEX_ID}', embeddings, allow_dangerous_deserialization=True)
    
retriever = db.as_retriever(search_kwargs={"k": 3})
query = "보증서특기사항 테이블을 찾아주세요"
# doc = retriever.get_relevant_documents(query)
doc = retriever.invoke(
    input=query,
    config=None,  # 실행 구성을 위해 RunnableConfig 객체를 사용할 수 있음
    search_kwargs={"k": 1}  # 명시적으로 k=1을 전달
)

for d in doc:
    print(d)



page_content='}
### ZGU_GUAS_SPAB_MATR(영업_보증_보증서특기사항){'
page_content='}
### ZGU_GUAS_PSSL_H(영업_보증_보증서_현황_이력){'
page_content='}
### ZGU_GUAS_ISSU_CRDR_DTL(영업_보증_보증서발행_채권자_명세){'


# code assist 기능 구현을 위한 메모

## I. vector database에 파일 내용 저장하기

1. 소스 폴더의 ROOT로 부터 모든 파일들을 읽어서 메타 정보를 수집한다.
    
    메타정보는 [경로, 파일명, 확장자, 유형등]이 있다

2. 파일을 확장자/유형 에 따라서 Split 한다.

    ex) 자바는 함수 단위, xml은 쿼리 단위

3. FAISSS등 vector database에 저장한다.

    저장된 이후 uuid등을 조회하여 메타정보와 chunk 내용을 변수에 셋팅한다. 

3. RDB의 VECTOR_DATA 테이블에 저장한다.

    위 단계에서 나온 결과를 테이블에 저장한다.



# 테이블 정보



