# 주어진 텍스트 파일 및 PDF로 Vector DB 만들기

### 이 코드 작동을 위해서는 PyPDF 및 ChromaDB가 설치되어 있어야 합니다.

In [9]:
import sys
sys.executable

'/Users/heavenly/opt/anaconda3/envs/flask/bin/python'

# texts 폴더 내에서 PDF, text 파일 추출하기

In [10]:
from langchain.document_loaders import PyPDFLoader, DirectoryLoader, TextLoader
from PyPDF2 import PdfReader
import os

In [11]:
source_folder = './texts' # texts라는 폴더 안에 있는 파일을 분석하여 Text DB로 만들게 됨

In [12]:
# 폴더 내 모든 파일 리스트 가져오기
pdf_list = []
txt_list = []

for root, dirs, files in os.walk(source_folder):
    for file in files:
        if file.endswith('.pdf'):
            pdf_list.append(os.path.join(root, file))
        elif file.endswith('.txt'):
            txt_list.append(os.path.join(root, file))

In [13]:
len(pdf_list) # 전체 파일 갯수

3

In [14]:
len(txt_list)

0

In [15]:
documents = []

In [16]:
for name in pdf_list:
    try:
        print(f"{name} Loaded:::::")
        reader = PyPDFLoader(name)
        documents.extend(reader.load())
    except:
        print(f'Error occurred: {name}')
        continue

./texts/the feynman lectures on physics vol 3.pdf Loaded:::::
./texts/the feynman lectures on physics vol 2.pdf Loaded:::::
./texts/the feynman lectures on physics vol 1.pdf Loaded:::::


In [17]:
for name in txt_list:
    try:
        print(f"{name} Loaded:::::")
        reader = TextLoader(name)
        documents.extend(reader.load())
    except:
        print(f'Error occurred: {name}')
        continue

In [18]:
print (f'You have {len(documents)} document(s) in your data')

You have 2222 document(s) in your data


In [19]:
from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=100) #chunk overlap seems to work better
documents2 = text_splitter.split_documents(documents)
print(len(documents2))

2219


# 1000개의 단어를 기준으로 나누고 벡터 DB 만들기

In [21]:
from langchain.vectorstores import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings
from chromadb.config import Settings
import time

In [22]:
from dotenv import load_dotenv

load_dotenv()

OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

In [23]:
persist_directory = 'knowledge_db' # 최종적으로 생성된 결과를 저장하는 폴더
embeddings = OpenAIEmbeddings(model='text-embedding-ada-002', openai_api_key=OPENAI_API_KEY, max_retries=20)

In [24]:
i = 0

In [25]:
# 이렇게 코드를 구성한 이유는 한 번에 동작하다가 에러가 나면 처음부터 다시 해야 하는 문제를 피하기 위해서임.
# 만약 중간에 에러가 나면 해당 인덱스(i)부터 다시 시작하면 됨.
# 그 다음 계속 진행하려면 'y'라고 입력하도록 함.

while i < len(documents):
    size = i + 1000
    docs = documents[i:size]
    vectorstore = Chroma.from_documents(docs, embeddings, persist_directory=persist_directory)
    answer = input('Continue?')

    if (answer == 'y'):
        vectorstore.persist()   
        i = i + 1000
        print('finishing', i)
        time.sleep(2)
    else:
        print('aborted')
        break

Continue? y


finishing 1000


Continue? y


finishing 2000


Continue? y


finishing 3000


In [26]:
vectorstore = None