In [4]:
from langchain_community.document_loaders import PyPDFLoader

# 문서 로드
file_path = "../example_data/KCI_FI003153549_p5.pdf"
loader = PyPDFLoader(file_path)

pages = loader.load()

In [5]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 문서 분할
splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000, # 최대 길이(1000자 이하)
    chunk_overlap=200 # 정확히 200자 중첩
)

chunks = splitter.split_documents(pages)

In [9]:
from langchain_ollama import OllamaEmbeddings

import os
from dotenv import load_dotenv
load_dotenv()

gemini_api_key = os.getenv("GEMINI_API_KEY")

embedding_model = OllamaEmbeddings(model="bge-m3", base_url="http://localhost:11434")

#### PGVector 벡터스토어 저장

In [15]:
from langchain_postgres import PGVector

connection = "postgresql+psycopg://langchain:langchain@localhost:5432/langchain"  # Uses psycopg3!

db = PGVector.from_documents(
    chunks,
    embedding_model,
    connection=connection,
)

In [16]:
query = "본 연구에서 Private LLM 구축을 위해 수집한 문서의 총 페이지 수와 문서 유형별 비율은 어떻게 되나요?"

In [17]:
docs = db.similarity_search(query, k=3)

In [18]:
docs

[Document(id='48352877-c1e6-478c-a2a8-d0b1d1575f5e', metadata={'page': 0, 'source': '../example_data/KCI_FI003153549_p5.pdf', 'creator': 'PDFium', 'producer': 'PDFium', 'page_label': '1', 'total_pages': 1, 'creationdate': 'D:20250913145205'}, page_content='의료기기 임상시험 분야의 도메인 특성에 맞게 튜닝하\n기 위해 의료기기 임상시험 전문가로부터 총 158개의 문\n서(총 11,954 페이지)를 수집하였다. 수집된 문서는 다음\n과 같이 분류된다:\n\x9f 규제 문서 (30%): FDA, EMA, PMDA 가이드라인, \nGCP 문서 등\n\x9f 교육 자료 (20%): 임상시험 수행자 교육 매뉴얼, 온라\n인 강의 자료 등\n\x9f 프로토콜 및 보고서 (25%): 임상시험 프로토콜, CSR \n(Clinical Study Report) 템플릿 등\n\x9f 의료기기 특화 문서 (15%): 의료기기 임상시험 계획\n서, 기술문서 등\n\x9f 기타 (10%): 윤리위원회 관련 문서, 환자 동의서 템플\n릿 등\n1.2 Validity of Collected Data\n수집된 데이터셋은 의료기기 임상시험에 특화된 \nPrivate LLM 구축을 위해 도메인 적합성과 다양성, 그리\n고 응용 가능성 측면에서 높은 타당성을 갖추고 있다. 총 \n111,954페이지로 구성된 데이터는 의료기기 임상시험의 \n규제, 프로토콜 설계, 데이터 관리 등 전반적인 지식을 포\n괄하며, 국제 표준과 실제 임상시험 환경에서 발생할 수 \n있는 다양한 시나리오를 반영하도록 설계되었다.\n수집된 데이터는 규제 문서(30%), 교육 자료(20%), 프\n로토콜 및 보고서(25%), 의료기기 특화 문서(15%), 기타'),
 Document(id='63ee2f2f-712f-4a50-a

In [22]:
from langchain_core.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate.from_template(
    '''다음 컨텍스트만 사용해 질문에 답하세요.
컨텍스트:{context}

질문:{question}
'''
)

In [20]:
from langchain_google_genai import ChatGoogleGenerativeAI

llm = ChatGoogleGenerativeAI(model="gemini-2.5-flash",
                            google_api_key=gemini_api_key)

In [19]:
from langchain_core.output_parsers import StrOutputParser

output_parser = StrOutputParser()

In [23]:
chain = prompt | llm | output_parser

In [24]:
resonse = chain.invoke({"context": docs, "question": query})

In [25]:
print(resonse)

본 연구에서 Private LLM 구축을 위해 수집한 문서의 총 페이지 수는 **11,954 페이지**입니다.

문서 유형별 비율은 다음과 같습니다:
*   **규제 문서**: 30% (FDA, EMA, PMDA 가이드라인, GCP 문서 등)
*   **교육 자료**: 20% (임상시험 수행자 교육 매뉴얼, 온라인 강의 자료 등)
*   **프로토콜 및 보고서**: 25% (임상시험 프로토콜, CSR 템플릿 등)
*   **의료기기 특화 문서**: 15% (의료기기 임상시험 계획서, 기술문서 등)
*   **기타**: 10% (윤리위원회 관련 문서, 환자 동의서 템플릿 등)
