# Section 1 : VectorDB Operations with Faiss

In [2]:
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import FAISS
from langchain.document_loaders import DirectoryLoader, PyPDFLoader
from langchain import OpenAI, VectorDBQA
from langchain.chains import RetrievalQAWithSourcesChain
import pandas as pd
import os
from dotenv import load_dotenv # openai api key 입력을 위해서 필요

In [3]:
OPENAI_API_KEY_PATH = "/Users/eugene/Dropbox/0_Dev/07_LLM/project/env_folder/tonchat_key/.env"
# 셋째, .env 파일을 현재 실행환경에 등록. 그 결과, 개별 API 함수의 인자에 KEY값을 일일이 넣지 않아도 됨
load_dotenv(OPENAI_API_KEY_PATH)
# 넷째, 현재 실행환경에서 "OPENAI_API_KEY"라고 명명된 값을 불러오기
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

In [4]:
# DirectoryLoader 객체 생성
loader = DirectoryLoader("./faiss/", loader_cls=PyPDFLoader)

# load_and_split() 메소드를 호출하여 문서를 로드하고 page 단위로 분할저장
pages = loader.load_and_split()

# CharacterTextSplitter 객체 생성
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)

# page 단위로 저장된 문서를 일정갯수의 character 갯수로 분할 후, document 단위로 분할저장
docs = text_splitter.split_documents(pages)

embeddings = OpenAIEmbeddings()


  warn_deprecated(


In [5]:
# 현재 파이썬 라이브러리가 설치된 장소를 알아보자
import sys
sys.path

['/Users/eugene/Dropbox/0_Dev/07_LLM/project/tonchat',
 '/Users/eugene/opt/anaconda3/envs/LLM/lib/python310.zip',
 '/Users/eugene/opt/anaconda3/envs/LLM/lib/python3.10',
 '/Users/eugene/opt/anaconda3/envs/LLM/lib/python3.10/lib-dynload',
 '',
 '/Users/eugene/opt/anaconda3/envs/LLM/lib/python3.10/site-packages']

In [None]:
# 위의 경로에 패키지들이 제대로 설칭되었는지 확인
!pip list -v

In [5]:
# docs에 저장된 문서들을 embeddings변수에 저장해둔 구체적인 embedding model을 이용하여 vector DB를 생성
db = FAISS.from_documents(docs, embeddings)

## 01. similarity search

In [85]:
# similarity_search(query) 메소드를 이용 : SQL언어가 아닌 자연어인 query와 가장 유사한 문서를 찾아냄
query = 'fee'
docs_result = db.similarity_search(query)
docs_result

[Document(page_content="24. 1. 4. 오전  10:49 L2 fee - (current) User Guide\nhttps://tokamaknetwork.gitbook.io/home/02-service-guide/titan/user-guide/l2-fee 1/1L2 fee\nThis document outlines the calculation process for transaction fees on Titan, emphasizing their lower\ncost compared to Ethereum.\nTitan's transaction fees are determined by adding two components together:\nL2 execution fee\nL1 security fee\nL2 execution fee\ntx.gasPrice * l2GasUsed\nThe L2 execution fee refers to the fee incurred when a user's transaction is processed within the\nTitan layer2 network. It follows a calculation method shown above, identical to the standard\nEthereum transaction fee computation. However, the distinction lies in the fact that the gas price on\nTitan is significantly lower compared to Ethereum.\nL1 security fee\nl1_base_fee * (tx_data_gas + overhaed) * scalar\nThe L1 security fee is an essential fee required in the context of Optimistic Rollup. With Optimistic\nRollup, all L2 transactions are 

In [6]:
# db검색을 위한 vector DBQA 객체를 생성
retriever = db.as_retriever()
# OpenAI(model="gpt-3.5-turbo-instruct") 처럼 ()안에 사용할 모델을 명시하지 않으면 text-davinci-003을 사용하는데, 이는 legacy model이라 헌재 지원안됨
# 따라서 OpenAI(model="gpt-3.5-turbo-instruct") 처럼 ()안에 사용할 모델을 명시해야 함
# 지시사항을 수행하는 용도인 InstructGPT을 선택해야 하며, 대화용도의 ChatGPT 모델을 선택하면 안됨
model = RetrievalQAWithSourcesChain.from_chain_type(llm=OpenAI(model="gpt-3.5-turbo-instruct"), chain_type="stuff", retriever=retriever)

  warn_deprecated(


In [7]:
question = "metamask에 titan 네트워크를 추가하는 방법은 알려주세요 "

# model() 메소드는 langchain 라이브러리의 RetrievalQAWithSourcesChain 클래스의 인스턴스 메서드
# 질의응답, context 등은 dictionary 자료형임
response = model({"question": question}, return_only_outputs=True)
print("Answer: ", response['answer'])
print("Source", response['sources'])

  warn_deprecated(


Answer:   To add the Titan network in Metamask, follow the instructions in the user guide provided by Tokamak Network. 

Source faiss/Add Titan Network in Metamask_KR.pdf


## 02. Saving & loading

In [8]:
# 폴더명 지정
save_directory = "store"
# save_local 메소드는 "store" 폴더가 없으면 erro 출력대신 해당폴더를 생성한다는 장점이 있다
# 해당폴더안에 기존의 index.faiss, index.pkl 파일이 있는 경우에는 덮어쓴다
db.save_local(save_directory)

In [9]:
# saving, loading 둘다 폴더명을 인자로 받는다는 점을 주의해야 함 (파일명 x)
new_db = FAISS.load_local(save_directory, embeddings)


In [10]:
type(new_db)

langchain_community.vectorstores.faiss.FAISS

In [11]:
import sys
size_1 = sys.getsizeof(new_db)
size_2 = sys.getsizeof(db)
print("Size of new_db:", size_1, "bytes")
print("Size of db:", size_2, "bytes")


Size of new_db: 48 bytes
Size of db: 48 bytes


In [20]:
print(dir(new_db))

['_FAISS__add', '_FAISS__from', '__abstractmethods__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__slots__', '__str__', '__subclasshook__', '__weakref__', '_abc_impl', '_aembed_documents', '_aembed_query', '_asimilarity_search_with_relevance_scores', '_cosine_relevance_score_fn', '_embed_documents', '_embed_query', '_euclidean_relevance_score_fn', '_get_retriever_tags', '_max_inner_product_relevance_score_fn', '_normalize_L2', '_select_relevance_score_fn', '_similarity_search_with_relevance_scores', 'aadd_documents', 'aadd_texts', 'add_documents', 'add_embeddings', 'add_texts', 'adelete', 'afrom_documents', 'afrom_embeddings', 'afrom_texts', 'amax_marginal_relevance_search', 'amax_marginal_relevance_search_by_vector', 'amax_marginal_

## 03. View documenents

FAISS.from_documents(docs, embeddings) 생성자를 통해 생성된 FAISS 객체의 자료구조를 확인 --> vectorstore update에 필요

In [12]:
# 일단 dataframe으로 변환하여 시각화  : display() 사용
def show_vstore(_store):
    vector_df = store_to_df(_store)
    display(vector_df)

# vectorstore는 dictionay 자료형
# FAISS.load_local()로 vectorstore 객체의 docstore속성의 하위 속성인 _dict 속성을 이용하여 dictionary형으로 자료를 추출해야 함
# dictionary의 key값은 chunk_id 이므로 .keys() 메소드를 이용하여 추출 (for문을 이용하여 순차적으로 추출)
# value값은 metadata 속성이며, 그 하위에 document, page, content 등으로 존재함
# 먼저 dictionary의 metadata에서 source, page, page_content 등 3가지 value를 추출한 후
# name, page number, content 등의 이름으로 저장 --> 이를 data_rows에 추가
def store_to_df(_store):
    v_dict = _store.docstore._dict
    data_rows = []
    for k in v_dict.keys():
        doc_name = v_dict[k].metadata['source'].split('/')[-1]
        page_number = v_dict[k].metadata['page']+1
        content = v_dict[k].page_content
        # key값과 함께 3개의 value값을 dictionary로 만들어서 data_rows에 추가
        data_rows.append({'chunk_id': k, 'document': doc_name, 'page': page_number, 'content': content})
    vector_df = pd.DataFrame(data_rows)
    return vector_df

# '''
# metadata는 faiss의 데이터 구조인 vectorstore의 일부로서, 그 안에는 사전(dictionary) 형태의 데이터 구조를 가짐
# 사전의 key, value구조를 통해 문서의 출처(source), 페이지 번호(page)와 같은 문서에 대한 중요한 정보를 포함
# 이 정보를 통해 각 데이터 항목이 어디에서 왔는지, 어떤 특성을 가지고 있는지 등을 파악할 수 있습니다.
# '''

In [13]:
show_vstore(new_db)

Unnamed: 0,chunk_id,document,page,content
0,deb297c6-ba9f-478b-99c0-42d5334c3dc0,Gas Estimation.pdf,1,24. 1. 4. 오전 10:59 Gas Estimation - (current)...
1,5f17dab3-9c54-4298-a48c-93f5e7d378ba,Gas Estimation.pdf,2,24. 1. 4. 오전 10:59 Gas Estimation - (current)...
2,1a2331e3-69e4-4ba0-99c4-add19ad2388a,Gas Estimation.pdf,3,24. 1. 4. 오전 10:59 Gas Estimation - (current)...
3,7afbe081-9ee6-4f4f-b704-482a70b866fd,Gas Estimation.pdf,4,24. 1. 4. 오전 10:59 Gas Estimation - (current)...
4,39d45e1a-ca40-4e69-a268-2e02607fa808,L2 fee.pdf,1,24. 1. 4. 오전 10:49 L2 fee - (current) User Gu...
...,...,...,...,...
79,cb2ad5bd-2656-411d-b7e9-b6af31459895,How to Create a Standard ERC20 Token in L2.pdf,3,24. 1. 4. 오전 10:50 How to Create a Standard E...
80,590c86ce-0caf-49aa-b275-fe58fb49533a,How to Create a Standard ERC20 Token in L2.pdf,4,24. 1. 4. 오전 10:50 How to Create a Standard E...
81,9ee0d69a-c54a-4bb8-a638-9826ee595c0e,How to Create a Standard ERC20 Token in L2.pdf,5,24. 1. 4. 오전 10:50 How to Create a Standard E...
82,3c9a43db-9d16-4e21-a58b-11f498a4ea76,How to Create a Standard ERC20 Token in L2.pdf,6,24. 1. 4. 오전 10:50 How to Create a Standard E...


## 04. Delete documents from the database


In [30]:
# vectorstore update (via delete)
# name of the document you want to delete
def delete_document(_store,_document):
    # 우선 vectorstore 자료를 store_to_df() 함수를 이용하여 dataframe으로 변환
    vector_df = store_to_df(_store)
    # 삭제할 문서가 여러개의 chunk_id로 나뉘어져 있을 수 있으므로, 이를 모두 삭제해야 함
    # 삭제할 문서의 이름과 일치하는 문서의 모든 chunk_id만 추출해서 pandas의 tolist()메소드를 이용하여 list자료형으로 chunk_list에 저장
    chunk_list = vector_df.loc[vector_df['document']==_document]['chunk_id'].tolist()
    # FAISS 객체의 .delete() 메소드를 이용하여 chunk_list 해당부분 삭제
    _store.delete(chunk_list)

# model update (via retriever and chain)
def refresh_model(_new_store):
    retriever = _new_store.as_retriever()
    model = RetrievalQAWithSourcesChain.from_chain_type(llm=OpenAI(model="gpt-3.5-turbo-instruct"), chain_type="stuff", retriever=retriever)
    return model


In [31]:
delete_document(new_db, "Gas Estimation.pdf")
show_vstore(new_db)

Unnamed: 0,chunk_id,document,page,content
0,39d45e1a-ca40-4e69-a268-2e02607fa808,L2 fee.pdf,1,24. 1. 4. 오전 10:49 L2 fee - (current) User Gu...
1,703f3d0e-82ed-4f59-8caa-29c61f46e71c,Running a local development environment_KR.pdf,1,24. 1. 4. 오후 1:01 Running a local development...
2,6cc06eae-3cc3-4f71-b826-a32ef69c454d,Running a local development environment_KR.pdf,2,24. 1. 4. 오후 1:01 Running a local development...
3,e6aaf1a3-135a-43a0-9972-56a277b754e3,Running a local development environment_KR.pdf,3,24. 1. 4. 오후 1:01 Running a local development...
4,260c0b4d-1874-4444-b38d-340905244350,Contract Addresses.pdf,1,24. 1. 4. 오전 10:52 Contract Addresses - (curr...
...,...,...,...,...
75,cb2ad5bd-2656-411d-b7e9-b6af31459895,How to Create a Standard ERC20 Token in L2.pdf,3,24. 1. 4. 오전 10:50 How to Create a Standard E...
76,590c86ce-0caf-49aa-b275-fe58fb49533a,How to Create a Standard ERC20 Token in L2.pdf,4,24. 1. 4. 오전 10:50 How to Create a Standard E...
77,9ee0d69a-c54a-4bb8-a638-9826ee595c0e,How to Create a Standard ERC20 Token in L2.pdf,5,24. 1. 4. 오전 10:50 How to Create a Standard E...
78,3c9a43db-9d16-4e21-a58b-11f498a4ea76,How to Create a Standard ERC20 Token in L2.pdf,6,24. 1. 4. 오전 10:50 How to Create a Standard E...


In [32]:
# refresh_model

model = refresh_model(new_db)

In [44]:
# check deletion
question = "explain fee briefly"
response = model({"question": question}, return_only_outputs=True)

print("Answer: ", response['answer'])
print("Source", response['sources'])

Retrying langchain_community.embeddings.openai.embed_with_retry.<locals>._embed_with_retry in 4.0 seconds as it raised APIConnectionError: Error communicating with OpenAI: HTTPSConnectionPool(host='api.openai.com', port=443): Max retries exceeded with url: /v1/embeddings (Caused by NameResolutionError("<urllib3.connection.HTTPSConnection object at 0x13ae39a80>: Failed to resolve 'api.openai.com' ([Errno 8] nodename nor servname provided, or not known)")).


APIConnectionError: Error communicating with OpenAI: HTTPSConnectionPool(host='api.openai.com', port=443): Max retries exceeded with url: /v1/embeddings (Caused by NameResolutionError("<urllib3.connection.HTTPSConnection object at 0x13ae3a350>: Failed to resolve 'api.openai.com' ([Errno 8] nodename nor servname provided, or not known)"))

## 05. Add new document

In [19]:
temp = 0

In [40]:
def temp_var():
    global temp
    temp += 1

In [42]:
temp_var()
temp

2