In [6]:
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from pathlib import Path
import os

# 1. 현재 작업 디렉터리 기준 경로 설정 (ex: C:\woohyun\AJIN-12th-project)
base_dir = Path(os.getcwd())

# 2. PDF 경로 (상대경로)
pdf_paths = [
    base_dir / "2023_핵심_컴퓨터활용능력1급_필기.pdf"
]

# 3. PDF 파일 존재 여부 체크
for path in pdf_paths:
    if not path.exists():
        raise FileNotFoundError(f"PDF 파일이 없습니다: {path}")

# 4. PDF 문서 로드
all_docs = []
for path in pdf_paths:
    loader = PyPDFLoader(str(path))
    docs = loader.load()
    all_docs.extend(docs)

# 5. PDF 문서를 청크로 분할
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,       # 청크 크기 (문자 기준)
    chunk_overlap=150      # 청크 겹침 크기
)
split_docs = text_splitter.split_documents(all_docs)

# 6. OpenAI API 키 설정 (환경변수 추천)
openai_api_key = "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"
embeddings = OpenAIEmbeddings(openai_api_key=openai_api_key)

# 7. 벡터스토어에 청크 저장 (FAISS 인덱스 생성)
vectorstore = FAISS.from_documents(split_docs, embeddings)

# 8. 벡터스토어 저장 폴더 생성
save_dir = base_dir / "faiss_db"
save_dir.mkdir(parents=True, exist_ok=True)

# 9. 로컬에 벡터스토어 저장
vectorstore.save_local(folder_path=str(save_dir), index_name="index")

print(f"✅ 벡터스토어 저장 완료: {save_dir.resolve()}")


  embeddings = OpenAIEmbeddings(openai_api_key=openai_api_key)


✅ 벡터스토어 저장 완료: C:\woohyun\AJIN-12th-project\faiss_db
