# **0. Intro**
LLM을 기반으로 한 RAG 파이프라인을 전체적으로 구현합니다.   
해당 실습은 LangChain의 [How to load PDFs](https://python.langchain.com/docs/how_to/document_loader_pdf/)를 참고하여 제작되었습니다.

## **0.1 OpenAI API Key 설정**

In [1]:
OPENAI_API_KEY = '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'

# **1. Indexing**
준비한 문서를 3단계에 걸쳐 indexing 진행: **Load -> Split -> Store**

[ 사용할 문서(운영체제 강의교안 PDF)의 특징 ]
- 사용할 문서(운영체제 강의교안 PDF)는 ppt 슬라이드를 pdf로 내보낸 문서.
- 주제(큰 의미단위)가 페이지별로 나뉘어져 있다
- heading, bullet list등 글의 구조를 갖추고 있다

[ 전처리 전략 ]
- 문서 내 글의 구조를 살리기 위해 텍스트는 Markdown 형식으로 추출
    - [Pinecone and Unstructured.io의 연구](https://anythingmd.com/blog/markdown-for-rag-boosting-accuracy-reducing-costs)에 따르면 Markdown 적용시 retrieval accuracy 40-60% 향상
- 문서의 내용이 슬라이드별로 나누어져있으므로 페이지 구분을 유지한다

## **1.1 Loading documents**

### LangChain의 PyPDFLoader로 문서 로드하기

In [2]:
from langchain_community.document_loaders import PyPDFLoader
import os

folder_dir = './os-lect-notes'
file_names = os.listdir(folder_dir)

# 타겟 폴더 내 문서 모두 오픈
pages = []
for fname in file_names:
    file_path = os.path.join(folder_dir, fname)
    loader = PyPDFLoader(file_path)
    doc = loader.load()
    pages.append(doc)
    print(f"{fname}: {len(doc)} pages")

ModuleNotFoundError: No module named 'langchain_community'

## **1.2. Embedding 모델 정의**


In [None]:
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-large", api_key=OPENAI_API_KEY)

## **1.3 VectorStore 정의**

In [None]:
# FAISS 벡터 저장소 생성
import faiss # Facebook AI Similarity Search - 벡터 유사도 검색을 위한 라이브러리
from langchain_community.docstore.in_memory import InMemoryDocstore # 문서 메타데이터를 메모리에 저장하는 저장소
from langchain_community.vectorstores import FAISS # faiss를 랭체인에서 사용할 수 있게 래핑한 벡터 저장소

# faiss vs FAISS
# - faiss: Meta에서 개발한 벡터 유사도 검색 라이브러리
# - FAISS: 랭체인에서 faiss를 쉽게 사용할 수 있도록 래핑한 벡터 저장소 클래스

# 임베딩 벡터의 차원을 구함 (OpenAI 임베딩 모델의 출력 차원)
embedding_dim = len(embeddings.embed_query("hello world"))
# FAISS 벡터 인덱스 생성 (L2 거리 기반의 Flat 인덱스)
index = faiss.IndexFlatL2(embedding_dim)

vector_store = FAISS(
    embedding_function=embeddings,
    index=index,
    docstore=InMemoryDocstore(),
    index_to_docstore_id={},
)

document_ids = []
for page in pages:
    document_id = vector_store.add_documents(documents=page)
    document_ids.append(document_id)

---
# **2. Retrieval**

## **2.1 사용자 질문**

In [None]:
question = "논리 주소와 물리 주소의 차이는 무엇인가요?"

## **2.2 문서 검색**

In [None]:
retrieved_docs = vector_store.similarity_search(question, k=2)
for doc in retrieved_docs:
    print(f'--------- Page {doc.metadata["page"]}:\n{doc.page_content[:300]}\n')

--------- Page 6:
Sogang University Distributed & Cloud Computing Lab.
Page  7
Background: Logical vs. Physical Address Space
 The concept of a logical address space that is bound to a 
separate physical address space is central to proper memory 
management.
 Logical address – generated by the CPU; also referred to

--------- Page 2:
Sogang University Distributed & Cloud Computing Lab.
Page  3
Virtual Memory > Physical Memory




## **2.3 검색한 문서 문자열로 변환**

In [None]:
context_texts = []
for doc in retrieved_docs:
    metadata_str = "\n".join(f"{k}: {v}" for k, v in doc.metadata.items())
    context_texts.append(f"Content:\n{doc.page_content}\n\nMetadata:\n{metadata_str}")

---
# **3. Generation**

- `chain`: prompt와 llm을 연결한 chain 구현

### **3.1 LLM 정의**

In [None]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    model="gpt-4o",
    temperature=0,
    api_key=OPENAI_API_KEY
)

## **3.2 Prompt template 정의**

In [None]:
from langchain_core.prompts import PromptTemplate

template = """다음 문맥을 바탕으로 사용자의 질문에 자세히 답변해주세요.
답변은 반드시 한국어로 작성해야 합니다.
문맥에 관련된 내용이 없다면, '주어진 문맥에서는 해당 질문에 대한 답변을 찾을 수 없습니다.'라고 답변하세요.

문맥: {context}
질문: {question}
응답:"""

prompt = PromptTemplate.from_template(template)

prompt.pretty_print()

다음 문맥을 바탕으로 사용자의 질문에 자세히 답변해주세요.
답변은 반드시 한국어로 작성해야 합니다.
문맥에 관련된 내용이 없다면, '주어진 문맥에서는 해당 질문에 대한 답변을 찾을 수 없습니다.'라고 답변하세요.

문맥: [33;1m[1;3m{context}[0m
질문: [33;1m[1;3m{question}[0m
응답:


### **3.3 RAG Pipeline**

In [None]:
chain = prompt | llm

## **3.4 응답 생성**

In [None]:
response = chain.invoke({
    'context': "\n\n".join(context_texts),
    'question': question
})

print(response.content)

논리 주소와 물리 주소의 차이는 다음과 같습니다:

- **논리 주소 (Logical Address)**: 이는 CPU에 의해 생성되는 주소로, 가상 주소라고도 불립니다. 사용자 프로그램은 이 논리 주소를 사용하여 메모리에 접근하며, 실제 물리 주소를 직접적으로 다루지 않습니다.

- **물리 주소 (Physical Address)**: 이는 메모리 유닛이 실제로 보는 주소입니다. 물리 주소는 메모리 관리 장치(MMU)에 의해 논리 주소가 변환되어 생성됩니다.

따라서, 논리 주소는 사용자 프로그램이 사용하는 주소이고, 물리 주소는 메모리 하드웨어가 실제로 접근하는 주소입니다. 논리 주소는 실행 시간에 물리 주소로 매핑되며, 이 과정은 주로 하드웨어 장치인 메모리 관리 장치(MMU)에 의해 수행됩니다.
