## 실습에 활용한 문서
KISTEP 이슈페이퍼 - 통권 제361호  2024년 2월호
- 저자: 박창현(KISTEDP R&D예산정책센터)
- 링크: [https://www.kistep.re.kr/boardDownload.es?bid=0031&list_no=93095&seq=1](https://www.kistep.re.kr/boardDownload.es?bid=0031&list_no=93095&seq=1)
- 파일명: `[KISTEP+브리프]+‘생성형+인공지능’+시대의+10대+미래유망기술.pdf`

실습을 위해 다운로드 받은 파일을 `data` 폴더로 복사

## 환경설정


API KEY 를 설정합니다.


In [1]:
# API 키를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API 키 정보 로드
load_dotenv()

True

## RAG 기본 파이프라인(1~8단계)


In [2]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import PyMuPDFLoader
from langchain_community.vectorstores import FAISS
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI, OpenAIEmbeddings

In [3]:
# 단계 1: 문서 로드(Load Documents)
pdf_filename = "data/[KISTEP+브리프]+‘생성형+인공지능’+시대의+10대+미래유망기술.pdf"
loader = PyMuPDFLoader(pdf_filename)
docs = loader.load()
print(f"문서의 페이지수: {len(docs)}")

문서의 페이지수: 43


In [4]:
print(docs[1].page_content)

‘생성형 인공지능’ 시대의 
10대 미래유망기술
(KISTEP 10 Emerging Technologies in the Era of Generative Artificial Intelligence)
박창현
Changhyun Park
Ⅰ. 연구 배경
Ⅱ. 연구 절차 및 세부내용
Ⅲ. 연구 결과
Ⅳ. 결론 및 시사점
[참고문헌]
I. Research Backgrounds 
II. Research Process
III. Results
Ⅳ. Conclusion and Implications
[References]



In [5]:
docs[1].metadata

{'source': 'data/[KISTEP+브리프]+‘생성형+인공지능’+시대의+10대+미래유망기술.pdf',
 'file_path': 'data/[KISTEP+브리프]+‘생성형+인공지능’+시대의+10대+미래유망기술.pdf',
 'page': 1,
 'total_pages': 43,
 'format': 'PDF 1.3',
 'title': '',
 'author': '',
 'subject': '',
 'keywords': '',
 'creator': 'PDFKit',
 'producer': 'PDFKit',
 'creationDate': 'D:20240214022819Z',
 'modDate': '',
 'trapped': ''}

In [14]:
# 단계 2: 문서 분할(Split Documents)
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=50)
split_documents = text_splitter.split_documents(docs)
print(f"분할된 청크의수: {len(split_documents)}")

분할된 청크의수: 52


In [15]:
print(split_documents[10].page_content)

patent influence, and generative AI technologies with relatively high 
competitiveness in paper influence and patent influence are expected to have 
high expected results, requiring intensive investment


In [16]:
# 단계 3: 임베딩(Embedding) 생성
embeddings = OpenAIEmbeddings()

In [17]:
# 단계 4: DB 생성(Create DB) 및 저장
# 벡터스토어를 생성합니다.
vectorstore = FAISS.from_documents(documents=split_documents, embedding=embeddings)

In [18]:
# 단계 5: 검색기(Retriever) 생성
# 문서에 포함되어 있는 정보를 검색하고 생성합니다.
retriever = vectorstore.as_retriever()

In [19]:
# retriever로 PDF내용 검색해보기
retriever.invoke('신경망처리 기반 인공지능 전용칩에 대해 설명해주세요.')

[Document(metadata={'source': 'data/[KISTEP+브리프]+‘생성형+인공지능’+시대의+10대+미래유망기술.pdf', 'file_path': 'data/[KISTEP+브리프]+‘생성형+인공지능’+시대의+10대+미래유망기술.pdf', 'page': 19, 'total_pages': 43, 'format': 'PDF 1.3', 'title': '', 'author': '', 'subject': '', 'keywords': '', 'creator': 'PDFKit', 'producer': 'PDFKit', 'creationDate': 'D:20240214022819Z', 'modDate': '', 'trapped': ''}, page_content='Ⅲ. 연구 결과\n13\n3\n신경망처리 기반 인공지능 전용칩\n(정의) 기계학습 모델을 구축하여 인공지능 소프트웨어 구현을 하기 위해 특화 설계된 시스템온칩 \n반도체로, 이 중 신경처리장치(NPU, Neural Processing Unit)는 딥뉴럴 네트워크와 관련된 \n인공지능과 머신러닝 작업을 가속시키는 하드웨어임\n(범위) (1) 뉴로모픽 컴퓨팅, (2) 추론/학습 및 분야별 활용기술, (3) NPU 하드웨어 및 소프트웨어 \n최적화 기술을 포함 \n(뉴로모픽 컴퓨팅) 신경(neuro)과 형태를 갖춘(morphic)을 합친 용어 결합처럼 인간 \n뇌의 신경망 구조와 기능에 영감을 받아 컴퓨팅 시스템을 설계하고 구축하는 인공지능 \n컴퓨팅의 특화된 분야\n(NPU 하드웨어 및 소프트웨어 최적화 기술) NPU 하드웨어를 효율적으로 실행하고 활용하기\n위한 프로그램, 라이브러리 및 프레임워크를 포함하는 NPU 소프트웨어와 결합함으로써 \n전체적인 최적화를 달성하는 기술\n(필요성) 뉴로모픽 컴퓨팅에 기반한 NPU는 로봇공학, 센서 시스템, 뇌-컴퓨터 인터페이스 \n등 다양한 분야에서 높은 에너지 효율성, 실시간 처리 및 인지 능력이 필요한 업무에 대응할 \n수 있음'),
 Document(

In [20]:
# 단계 6: 프롬프트 생성(Create Prompt)
# 프롬프트를 생성합니다.
prompt = PromptTemplate.from_template(
    """You are an assistant for question-answering tasks. 
Use the following pieces of retrieved context to answer the question. 
If you don't know the answer, just say that you don't know. 
You must include `page` number in your answer.
Answer in Korean.

#Question: 
{question} 
#Context: 
{context} 

#Answer:"""
)

In [21]:
# 단계 7: 언어모델(LLM) 생성
# 모델(LLM) 을 생성합니다.
llm = ChatOpenAI(model_name="gpt-4o", temperature=0)

In [22]:
# 단계 8: 체인(Chain) 생성
chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

생성된 체인에 쿼리(질문)을 입력하고 실행합니다.

In [23]:
# 체인 실행(Run Chain)
# 문서에 대한 질의를 입력하고, 답변을 출력합니다.
question = "신경망처리 기반 인공지능 전용칩에 대해 설명해주세요." # 20페이지
response = chain.invoke(question)
# print(response)
response

'신경망처리 기반 인공지능 전용칩은 기계학습 모델을 구축하여 인공지능 소프트웨어 구현을 위해 특화 설계된 시스템온칩 반도체입니다. 이 중 신경처리장치(NPU, Neural Processing Unit)는 딥뉴럴 네트워크와 관련된 인공지능과 머신러닝 작업을 가속시키는 하드웨어입니다. 이 기술은 뉴로모픽 컴퓨팅, 추론/학습 및 분야별 활용기술, NPU 하드웨어 및 소프트웨어 최적화 기술을 포함합니다. 뉴로모픽 컴퓨팅은 인간 뇌의 신경망 구조와 기능에 영감을 받아 컴퓨팅 시스템을 설계하고 구축하는 인공지능 컴퓨팅의 특화된 분야입니다. NPU 하드웨어 및 소프트웨어 최적화 기술은 NPU 하드웨어를 효율적으로 실행하고 활용하기 위한 프로그램, 라이브러리 및 프레임워크를 포함하여 전체적인 최적화를 달성하는 기술입니다. 이러한 기술은 로봇공학, 센서 시스템, 뇌-컴퓨터 인터페이스 등 다양한 분야에서 높은 에너지 효율성, 실시간 처리 및 인지 능력이 필요한 업무에 대응할 수 있습니다 (페이지 19).'

In [17]:
# 체인 실행(Run Chain)
# 문서에 대한 질의를 입력하고, 답변을 출력합니다.
question = "지능형 개인 맞춤 서비스 인공지능 기술의 요소기술은?"  #22페이지
response = chain.invoke(question)
print(response)

지능형 개인 맞춤 서비스 인공지능 기술의 요소기술로는 (1) 머신러닝을 비롯한 딥러닝, (2) 자연어처리, (3) 추천시스템, (4) 데이터 분석 등이 포함됩니다 (page 21).


## 전체 코드

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import PyMuPDFLoader
from langchain_community.vectorstores import FAISS
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI, OpenAIEmbeddings

# 단계 1: 문서 로드(Load Documents)
pdf_filename="data/[KISTEP+브리프]+‘생성형+인공지능’+시대의+10대+미래유망기술.pdf"
loader = PyMuPDFLoader(pdf_filename)
docs = loader.load()

# 단계 2: 문서 분할(Split Documents)
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=50)
split_documents = text_splitter.split_documents(docs)

# 단계 3: 임베딩(Embedding) 생성
embeddings = OpenAIEmbeddings()

# 단계 4: DB 생성(Create DB) 및 저장
# 벡터스토어를 생성합니다.
vectorstore = FAISS.from_documents(documents=split_documents, embedding=embeddings)

# 단계 5: 검색기(Retriever) 생성
# 문서에 포함되어 있는 정보를 검색하고 생성합니다.
retriever = vectorstore.as_retriever()

# 단계 6: 프롬프트 생성(Create Prompt)
# 프롬프트를 생성합니다.
prompt = PromptTemplate.from_template(
    """You are an assistant for question-answering tasks. 
Use the following pieces of retrieved context to answer the question. 
If you don't know the answer, just say that you don't know. 
Answer in Korean.

#Question: 
{question} 
#Context: 
{context} 

#Answer:"""
)

# 단계 7: 언어모델(LLM) 생성
# 모델(LLM) 을 생성합니다.
llm = ChatOpenAI(model_name="gpt-4o", temperature=0)

# 단계 8: 체인(Chain) 생성
chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

In [None]:
# 체인 실행(Run Chain)
# 문서에 대한 질의를 입력하고, 답변을 출력합니다.
question = "신경망처리 기반 인공지능 전용칩에 대해 설명해주세요." # 20페이지
response = chain.invoke(question)
print(response)