In [None]:
# 1. 필요한 라이브러리들을 불러옵니다.
import os
from dotenv import load_dotenv
from langchain_community.document_loaders import DirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import FAISS
from langchain_openai import ChatOpenAI
from langchain.chains import RetrievalQA

# 2. API 키 설정
# .env 파일에서 API 키를 불러옵니다.
load_dotenv()
print("API Key Loaded!")

# 3. 문서 로드 (Load)
# 'data' 폴더에 있는 모든 .txt, .md 파일을 불러옵니다.
loader = DirectoryLoader('./data', glob="**/*.md")
documents = loader.load()
print(f"Loaded {len(documents)} documents.")

# 4. 문서 분할 (Split)
# 불러온 문서를 AI가 처리하기 좋은 작은 조각(chunk)으로 나눕니다.
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
texts = text_splitter.split_documents(documents)
print(f"Split into {len(texts)} chunks.")

# 5. 임베딩 및 벡터 저장소 구축 (Embed & Store)
# 각 텍스트 조각을 벡터로 변환(임베딩)하고, 검색할 수 있도록 FAISS 벡터 저장소에 저장합니다.
embeddings = OpenAIEmbeddings()
vectorstore = FAISS.from_documents(texts, embeddings)
print("Vector store is ready.")

# 6. 검색 및 답변 생성 (Retrieve & Generate)
# LLM 모델을 설정합니다.
llm = ChatOpenAI(model_name="gpt-4o-mini-2024-07-18", temperature=0)

# RAG 체인을 생성합니다.
# 이 체인은 질문이 들어오면 벡터 저장소에서 관련 문서를 찾고(retrieve),
# 찾은 문서와 질문을 함께 LLM에 보내 답변을 생성합니다.
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vectorstore.as_retriever()
)

# 7. 질문하기!
query = "프로젝트의 목적이 뭐야?" # data 폴더에 넣은 README.md 내용과 관련된 질문
result = qa_chain.invoke(query)

print("\n--- 질문 ---")
print(query)
print("\n--- 답변 ---")
print(result['result'])