In [1]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import PyMuPDFLoader
from langchain_community.vectorstores import FAISS
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI, OpenAIEmbeddings

import os
from dotenv import load_dotenv

load_dotenv(override=True)

print(f"OpenAI API Key: {os.getenv('OPENAI_API_KEY')}")
print(f"Langsmith Tracing: {os.getenv('LANGSMITH_TRACING')}")
print(f"Langsmith API Key: {os.getenv('LANGSMITH_API_KEY')}")
print(f"Langsmith Project: {os.getenv('LANGSMITH_PROJECT')}")

OpenAI API Key: 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
Langsmith Tracing: true
Langsmith API Key: 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
Langsmith Project: Retriever


In [17]:
from langsmith import Client

client = Client()

url = next(client.list_runs(project_name="Retriever")).url # 정상 실행 되면 langsmith 준비 완료

https://smith.langchain.com/o/4cde3c8f-29de-40b4-8715-cdcc4c1bd751/projects/p/355d33f4-27f0-4003-a2f1-6bce20bdf7f4/r/095e6649-36d7-46d0-bc9a-d438e6a6d186?trace_id=786214fc-da5b-4ec6-9eda-54cc178bf6be&start_time=2025-02-11T22:29:20.973000


In [8]:
# 단계 1: 문서 로드(Load Documents)
loader = PyMuPDFLoader("data/SPRI_AI_Brief_2023년12월호_F.pdf")
docs = loader.load()
# print(docs[1].page_content)
# docs[1].metadata

In [9]:
# 단계 2: 문서 분할(Split Documents)
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=50)
split_documents = text_splitter.split_documents(docs)

# 단계 3: 임베딩(Embedding) 생성
embedding = OpenAIEmbeddings()

# 단계 4: DB 생성(Create DB) 및 저장
# 벡터스토어를 생성한다.
vectorstore = FAISS.from_documents(documents=split_documents, embedding=embedding);

In [10]:
# 단계 5: 검색기(Retriever 생성
# 문서에 포함되어 있는 정보를 검색하고 생성한다.
retriever = vectorstore.as_retriever()
retriever

VectorStoreRetriever(tags=['FAISS', 'OpenAIEmbeddings'], vectorstore=<langchain_community.vectorstores.faiss.FAISS object at 0x000001FE81E98820>, search_kwargs={})

In [11]:
retriever.invoke("삼성전자가 개발한 생성AI 이름은 무엇인가요?")

[Document(id='f30cb218-e5fc-45c2-a513-1522187b551b', metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'source': 'data/SPRI_AI_Brief_2023년12월호_F.pdf', 'file_path': 'data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'format': 'PDF 1.4', 'title': '', 'author': 'dj', 'subject': '', 'keywords': '', 'moddate': '2023-12-08T13:28:38+09:00', 'trapped': '', 'modDate': "D:20231208132838+09'00'", 'creationDate': "D:20231208132838+09'00'", 'page': 12}, page_content='SPRi AI Brief |  \n2023-12월호\n10\n삼성전자, 자체 개발 생성 AI ‘삼성 가우스’ 공개\nn 삼성전자가 온디바이스에서 작동 가능하며 언어, 코드, 이미지의 3개 모델로 구성된 자체 개발 생성 \nAI 모델 ‘삼성 가우스’를 공개\nn 삼성전자는 삼성 가우스를 다양한 제품에 단계적으로 탑재할 계획으로, 온디바이스 작동이 가능한 \n삼성 가우스는 외부로 사용자 정보가 유출될 위험이 없다는 장점을 보유\nKEY Contents\n£ 언어, 코드, 이미지의 3개 모델로 구성된 삼성 가우스, 온디바이스 작동 지원\nn 삼성전자가 2023년 11월 8일 열린 ‘삼성 AI 포럼 2023’ 행사에서 자체 개발한 생성 AI 모델 \n‘삼성 가우스’를 최초 공개\n∙정규분포 이론을 정립한 천재 수학자 가우스(Gauss)의 이름을 본뜬 삼성 가우스는 다양한 상황에 \n최적화된 크기의 모델 선택이 가능\

In [12]:
# 단계 6: 프롬프트 생성(Create Prompt)
# 프롬프트를 생성한다.
prompt = PromptTemplate.from_template(
    """You are an assistant for question-answering tasks.
Use the following pieces of retrieved context to answer the question.
If you don't know the answer, just say that you don't know.
Answer in Korean.

#Question:
{question}

#Context:
{context}

#Answer:"""
)

# 단계 7: 언어모델(LLM) 생성
# 모델(LLM)을 생성합니다.
llm = ChatOpenAI(model_name="gpt-4o", temperature=0)

# 단계 8: 체인(Chain) 생성
chain = (
    {"context": retriever, "question": RunnablePassthrough()} # 1. [prompt에 들어갈 값](딕셔너리 형태)
    | prompt # 2. context와 question이 들어갈 [프롬프트]
    | llm # 3. 프롬프트가 들어갈 [LLM]
    | StrOutputParser() # 4. LLM이 내놓은 결과를 정리해줄 [Parser]
) # 배경지식과 질문 -> 프롬프트 -> LLM -> 결과 전처리 Parser 의 4단계 chain이 생성됨.

생성된 체인에 쿼리(질문)을 입력하고 실행한다.

In [13]:
# 체인 실행(Run Chain)
# 문서에 대한 질의를 입력하고, 답변을 출력한다.
def ask(question:str):
    response = chain.invoke(question)
    print(response)

In [14]:
ask("삼성전자가 자체개발한 AI의 이름은?")

삼성전자가 자체 개발한 AI의 이름은 '삼성 가우스'입니다.


In [15]:
ask("구글이 앤스로픽에 얼마를 투자했나요?")

구글은 앤스로픽에 최대 20억 달러를 투자하기로 합의하였으며, 이 중 5억 달러를 우선 투자했습니다.
