In [5]:
from langchain.chat_models import ChatOpenAI
from langchain.document_loaders import UnstructuredFileLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings, CacheBackedEmbeddings
from langchain.vectorstores import FAISS
from langchain.storage import LocalFileStore
from langchain.chains import RetrievalQA

llm = ChatOpenAI()

cache_dir = LocalFileStore("./.cache/")

splitter = CharacterTextSplitter.from_tiktoken_encoder(
    separator="\n",
    chunk_size=600,
    chunk_overlap=100,
)

loader = UnstructuredFileLoader("./files/chapter_one.docx")

docs = loader.load_and_split(text_splitter=splitter)

embeddings = OpenAIEmbeddings()

cached_embeddings = CacheBackedEmbeddings.from_bytes_store(embeddings, cache_dir)

vectorstore = FAISS.from_documents(docs, cached_embeddings)

chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff", # refine, etc...
    retriever= vectorstore.as_retriever(),
)

chain.run("Describe Victory Mansions")


'Victory Mansions is the dilapidated residential building where Winston Smith resides in George Orwell\'s novel "1984." The building is located in London, chief city of Airstrip One, which is the third most populous province of Oceania. The apartments in Victory Mansions are small and cramped, lacking basic amenities, reflecting the grim and depressing atmosphere of the oppressive and totalitarian society depicted in the novel. The building is surrounded by rotting nineteenth-century houses, bombed sites, and sordid colonies of wooden dwellings. The residents of Victory Mansions are under constant surveillance through telescreens, leaving them with no privacy and subject to the scrutiny of the ruling Party, led by Big Brother.\n\nWinston\'s living situation within Victory Mansions is further explored through his strategic positioning in the alcove to avoid the telescreen\'s view while engaging in forbidden activities, such as reading the old book he acquired. The book, with its smooth 

In [None]:
# Langchain 라이브러리의 여러 모듈을 불러옵니다.
from langchain.chat_models import ChatOpenAI
from langchain.document_loaders import UnstructuredFileLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings, CacheBackedEmbeddings
from langchain.vectorstores import FAISS
from langchain.storage import LocalFileStore
from langchain.chains import RetrievalQA

# ChatOpenAI 모델 인스턴스를 생성합니다.
llm = ChatOpenAI()

# 캐시 디렉토리를 로컬 파일 저장소로 설정합니다.
cache_dir = LocalFileStore("./.cache/")

# 텍스트 분할기를 생성합니다. 이는 문서를 특정 크기의 청크로 나눕니다.
splitter = CharacterTextSplitter.from_tiktoken_encoder(
    separator="\n",
    chunk_size=600,
    chunk_overlap=100,
)

# 비구조화된 파일 로더를 사용하여 문서를 불러옵니다.
loader = UnstructuredFileLoader("./files/chapter_one.docx")

# 로더를 사용하여 문서를 로드하고 분할합니다.
docs = loader.load_and_split(text_splitter=splitter)

# OpenAI의 임베딩 모델을 생성합니다.
embeddings = OpenAIEmbeddings()

# 임베딩을 캐시와 연동하여 캐시된 임베딩을 생성합니다.
cached_embeddings = CacheBackedEmbeddings.from_bytes_store(embeddings, cache_dir)

# 문서들로부터 FAISS 벡터 스토어를 생성합니다.
vectorstore = FAISS.from_documents(docs, cached_embeddings)

# 검색 기반 QA 체인을 설정합니다.
chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff", # 이 부분은 상세한 설정이 필요합니다 (예: refine 등).
    retriever=vectorstore.as_retriever(),
)

# 체인을 실행하여 'Victory Mansions'에 대한 설명을 요청합니다.
chain.run("Describe Victory Mansions")


Source -> Load -> Transform -> Embed -> Store -> Retrieve

오늘 배운 내용은 비구조화된 문서를 로딩하고, 텍스트를 적절한 크기로 분할한 후, OpenAI의 임베딩을 사용하여 문서의 벡터 표현을 생성하고, FAISS를 이용하여 이 벡터들을 저장하는 과정입니다. 마지막으로, 저장된 벡터를 검색기로 사용하여 특정 질문에 대한 답을 찾는 RetrievalQA 체인을 실행하는 방법을 학습하셨습니다.