In [1]:
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain_community.vectorstores import FAISS
import os
from dotenv import load_dotenv

load_dotenv()

gemini_api_key = os.getenv("GEMINI_API_KEY")

# 문서 로드
loader = PyPDFLoader('../data/KCI_FI003153549.pdf')
documents = loader.load()

# 문서 분할
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200,
)
splitted_documents = text_splitter.split_documents(documents)

# 임베딩 모델 준비
embedding_model = GoogleGenerativeAIEmbeddings(
    model="models/embedding-001",
    google_api_key=gemini_api_key,
)

# # FAISS 벡터스토어 생성 및 저장
# vectorstore = FAISS.from_documents(splitted_documents, embedding_model)
# vectorstore.save_local("faiss_index")

# # 벡터스토어 재로딩
# reloaded_store = FAISS.load_local(
#     "faiss_index",
#     embedding_model,
#     allow_dangerous_deserialization=True,
# )

# FAISS 벡터스토어가 존재하는 경우에는 덮어쓰기 하지 않고 로드
FAISS_INDEX_PATH = "faiss_index"

if os.path.exists(FAISS_INDEX_PATH):
    print(f"FAISS 인덱스 {FAISS_INDEX_PATH}를 로드합니다.")
    reloaded_store = FAISS.load_local(
        FAISS_INDEX_PATH,
        embedding_model,
        allow_dangerous_deserialization=True,
    )
else:
    print(f"FAISS 인덱스 {FAISS_INDEX_PATH}가 없으므로 생성합니다.")
    # 문서 로드
    loader = PyPDFLoader('../data/KCI_FI003153549.pdf')
    documents = loader.load()

    # 문서 분할
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000,
        chunk_overlap=200,
    )
    splitted_documents = text_splitter.split_documents(documents)

    # FAISS 벡터스토어 생성 및 저장
    vectorstore = FAISS.from_documents(splitted_documents, embedding_model)
    vectorstore.save_local(FAISS_INDEX_PATH)
    print(f"FAISS 인덱스를 {FAISS_INDEX_PATH}에 저장했습니다.")

# 예시 질의
query = "본 연구에서 Private LLM 구축을 위해 수집한 문서의 총 페이지 수와 문서 유형별 비율은 어떻게 되나요?"
# query = "Advance RAG 기법이 임상시험 데이터 분석에서 수행하는 주요 역할은 무엇인가요?"
# query = "본 연구에서 Private LLM 성능을 평가하기 위해 사용한 지표 3가지는 무엇인가요?"
# query = "국내에서 LLM을 임상시험에 적용한 대표적인 기관과 그 적용 사례를 2가지 이상 말해보세요."
# query = "ROUGE 평가에서 Private LLM과 ChatGPT의 Recall 값은 각각 얼마였나요?"

# results = reloaded_store.similarity_search(query, k=3) # k는 유사도 검색에서 반환할 상위 문서 개수(top‑k)
results = reloaded_store.similarity_search(query, k=5)

for idx, doc in enumerate(results, start=1):
    print(f"[결과 {idx}]\n" + doc.page_content[:300])
    print("---")

FAISS 인덱스 faiss_index를 로드합니다.
[결과 1]
모 데이터를 효과적으로 처리하는 데 한계가 있었고, 이는 
임상시험 과정에서 오류와 지연을 초래할 수 있었다. LLM 
기반 생성형 AI는 이러한 문제를 해결할 수 있는 가능성을 
보여주고 있다. 특히 LLM은 기존 통계적 방법론과 달리, 
데이터의 양과 복잡성에 구애받지 않고 패턴을 분석하고 
중요한 정보를 추출할 수 있다. 
본 연구는 LLM 기반 생성형 AI가 임상시험에 어떻게 
적용될 수 있는지에 대해 구체적인 방법을 제시하고, 이를 
통해 임상시험의 신뢰성과 효율성을 어떻게 향상시킬 수 
있는지를 분석한다 [10]. 구체적
---
[결과 2]
정밀 의료, 임상시험 관리 자동화, 그리고 도메인 지식 기반의 질의응답 시스템에서 Private LLM
의 실질적 활용 가능성을 확인하였다.
▸주제어: 대규모 언어 모델, 생성형 인공지능, 임상시험, 의료기기, 데이터 분석
I. Introduction
대규모 언어 모델(Large Language Models, LLM)의 
발전은 최근 몇 년간 인공지능(AI) 기술의 중요한 진전으
로 자리 잡고 있다 [1]. LLM 기반 생성형 AI는 자연어 처
리와 텍스트 생성, 데이터 분석 등 다양한 분야에서 뛰어
난 성능을 보이고 있으며, 특히
---
[결과 3]
터를 효과적으로 처리할 수 있도록 조정한다 [8]. 
LLM이 학습된 후, 이를 임상시험 과정에 통합하여 실
시간으로 데이터를 분석하고 그 결과를 도출한다. 학습된 
LLM은 임상 데이터를 처리하고, 패턴을 찾아내며, 결과를 
예측하는 데 중요한 역할을 한다. 특히, 자동화된 분석 과
정을 통해 임상시험의 속도를 높이고, 신뢰할 수 있는 결
과를 빠르게 도출하는 것이 가능하다. 이러한 기술적 구현
은 임상시험의 효율성을 극대화하는 데 기여할 수 있다.
2.5 A method of research
본 연구에서는 여러 사례 연구를 통해
---
[결과 4]
였다.
2. Related works
2.1 Do

In [2]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_google_genai import ChatGoogleGenerativeAI

prompt = ChatPromptTemplate.from_template(
    '''다음 컨텍스트만 사용해 질문에 답하세요.
컨텍스트:{context}

질문: {question}
'''
)

llm = ChatGoogleGenerativeAI(model="gemini-2.5-flash", google_api_key=gemini_api_key)
llm_chain = prompt | llm

# 관련 문서를 사용한 답변
result = llm_chain.invoke({'context': results, 'question': query})

print(result)
print('\n\n')

content='본 연구에서 Private LLM 구축을 위해 수집한 문서의 총 페이지 수는 **11,954 페이지**입니다.\n\n수집된 문서 유형별 비율은 다음과 같습니다:\n*   **규제 문서**: 30%\n*   **교육 자료**: 20%\n*   **프로토콜 및 보고서**: 25%\n*   **의료기기 특화 문서**: 15%\n*   **기타**: 10%' additional_kwargs={} response_metadata={'prompt_feedback': {'block_reason': 0, 'safety_ratings': []}, 'finish_reason': 'STOP', 'model_name': 'gemini-2.5-flash', 'safety_ratings': []} id='run--4bf49da3-6559-4b24-9974-7c726f0955f2-0' usage_metadata={'input_tokens': 2684, 'output_tokens': 466, 'total_tokens': 3150, 'input_token_details': {'cache_read': 0}, 'output_token_details': {'reasoning': 361}}





In [4]:
query

'본 연구에서 Private LLM 구축을 위해 수집한 문서의 총 페이지 수와 문서 유형별 비율은 어떻게 되나요?'

In [5]:
from langchain_core.runnables import chain

# 데코레이터 @chain는 이 함수를 LangChain runnable로 변환하여
# LangChain의 chain 작업과 파이프라인과 호환되게 함
@chain
def qa(input):
    # 관련 문서 검색
    docs = reloaded_store.similarity_search(input, k=5)
    # 프롬프트 포매팅
    formatted = prompt.invoke({'context': docs, 'question': input})
    # 답변 생성
    answer = llm.invoke(formatted)
    return answer
    # return {"answer": answer, "docs": docs}

# 실행
result = qa.invoke(query)
print(result.content)

본 연구에서 Private LLM 구축을 위해 수집한 문서의 총 페이지 수는 **11,954 페이지**입니다.

문서 유형별 비율은 다음과 같습니다:
*   **규제 문서**: 30%
*   **교육 자료**: 20%
*   **프로토콜 및 보고서**: 25%
*   **의료기기 특화 문서**: 15%
*   **기타**: 10%
