In [1]:
from langchain_community.document_loaders import PyPDFLoader    # pip install langchain-community
from langchain_text_splitters import CharacterTextSplitter
from langchain_openai import OpenAIEmbeddings   # pip install langchain-openai
# from langchain_community.vectorstores import FAISS    # pip install faiss\-c[u]
from langchain_community.vectorstores import Chroma     # pip install chromadb
import keyring


embedding_model = OpenAIEmbeddings(api_key=keyring.get_password('openai', 'key_for_windows'))
loader = PyPDFLoader('./data/bok_sample.pdf')
documents = loader.load()       # 페이지 쪼개지 않고 가져옴 (뒤 split 하기 때문에 페이지별로 나눌 필요 없음)

In [2]:
text_splitter = CharacterTextSplitter(
    separator=' .\n',
    chunk_size=500,
    chunk_overlap=100,
    length_function=len
)

texts = text_splitter.split_documents(documents)
# db = FAISS.from_documents(texts, embedding_model)     # not available in Windows
db = Chroma.from_documents(texts, embedding_model)

retriever = db.as_retriever()       # vector DB를 검색기로 사용
docs = retriever.invoke("2022년 우리나라 GDP대비 R&D 규모는?")

print(docs)

Created a chunk of size 758, which is longer than the specified 500
Created a chunk of size 1498, which is longer than the specified 500
Created a chunk of size 938, which is longer than the specified 500
Created a chunk of size 934, which is longer than the specified 500
Created a chunk of size 789, which is longer than the specified 500
Created a chunk of size 823, which is longer than the specified 500
Created a chunk of size 1248, which is longer than the specified 500
Created a chunk of size 747, which is longer than the specified 500
Created a chunk of size 523, which is longer than the specified 500
Created a chunk of size 746, which is longer than the specified 500
Created a chunk of size 607, which is longer than the specified 500
Created a chunk of size 916, which is longer than the specified 500
Created a chunk of size 629, which is longer than the specified 500
Created a chunk of size 787, which is longer than the specified 500
Created a chunk of size 803, which is longer t

[Document(metadata={'page': 2, 'source': './data/bok_sample.pdf'}, page_content='3. 주요 혁신관련지표를 보면 우리나라의 혁신활동은 그동안 투입 및 산출 측면에\n서 모두 빠르게 제고되어온 것으로 평가된다 (OECD 2023). 투입측면에서 R&D지\n출규모를보면 2022년현재우리나라는 GDP대비 5.2%로2001년2.3%, 2011년\n3.6%와비교하여크게증가하였다 (그림 1.3).동규모는 OECD회원국중이스라엘\n(6.0%)에이어 2위에해당한다 .또한산출측면에서미국특허청 USPTO에출원한특허\n건수를보면우리나라는 2000년대이후꾸준한성장세를지속하여독일 ,영국등을\n제치고 2020년현재세계 4위를차지하고있다(그림 1.4).미국은전세계기업이경\n쟁하는대규모내수시장이기때문에미국내특허출원건수는 글로벌경쟁력을갖춘\n혁신실적을측정하기위한객관적지표로널리활용되고있다 (Hsu etal2014).혁\n신자원·인프라,투자규모 ,효율성등을종합적으로고려하는 Global Innovation\nIndex 2)GII,국가과학기술혁신역 량평가 3)COSTII 등주요국가혁신평가순위에서도우리\n나라는상승세를이어왔다 (그림 1.3).\n2022년 R&D 지출규모 (GDP 대비)는 세계 2위 우리나라의 미국 내 특허출원건수는 세계 4위\n[그림1.3] R&D 지출규모와 국가혁신평가순위 [그림1.4] 국가별 미국 특허청에 출원한 특허건수\n<R&D 지출규모 >   <국가혁신평가순위1)>     <국가별 구성비1)> <2020년 출원건수 >\n1051\n4\n7\n10\n131\n6\n11\n16\n21\n26\n10년14년18년22년GII(좌축)\nCOSTII( 우축)2.3 3.6 5.2 \n23456\n01년06년11년16년21년한국\n미국\n독일(GDP 대비%)\n0246810121 미국\n2 일본\n3 중국\n4 한국\n5 대만\n6 독일(만건)\n0510152025\n01년06년11년16년한국 영국 일본\n중국 독일(%)\n