In [None]:
# === 1. 기본 설정 ===
import os
import pandas as pd
from datetime import datetime
from dotenv import load_dotenv
import bs4

from langchain import hub
from langchain_core.documents import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import FAISS
from langchain_core.runnables import RunnablePassthrough, RunnableLambda
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI,OpenAIEmbeddings
from langchain_community.embeddings import HuggingFaceBgeEmbeddings

# 프로젝트 이름 및 환경변수 불러오기
os.environ["LANGCHAIN_PROJECT"] = "RAG_TUTORIAL"
load_dotenv()

# 2. 웹 문서 로드
url = "https://hsel.hansung.ac.kr/intro_data.mir"
web_loader = WebBaseLoader(
    web_path=(url,),
    bs_kwargs={"parse_only": bs4.SoupStrainer("div", attrs={"id": "intro_rule"})}
)
web_docs = web_loader.load()

# 3. csv로드 월별 청크 구성
# 서명,저자,출판사,출판년도,청구기호,대출일자,신분,소속(학과),학번,학년,대출횟수,보존서가 소장처,보존서가 칸
df = pd.read_csv("book_data_RAG_location.csv", encoding="utf-8")
df["대출월"] = pd.to_datetime(df["대출일자"]).dt.to_period("M").astype(str)

# 문서 리스트 초기화 + 월별 데이터 그루핑하여 500개 단위로 문서 쪼개기
csv_docs = []
chunk_size = 100

# 월별로 그룹핑
for month, group in df.groupby("대출월"):
    for i in range(0, len(group), chunk_size):
        chunk = group.iloc[i:i+chunk_size]
        text = "\n".join(
            chunk.apply(
                lambda row: (
                    f"[서명] {row['서명']} | "
                    f"[저자] {row['저자']} | "
                    f"[출판사] {row['출판사']} | "
                    f"[출판년도] {row['출판년도']} | "
                    f"[청구기호] {row['청구기호']} | "
                    f"[대출일자] {row['대출일자']} | "
                    f"[신분] {row['신분']} | "
                    f"[소속] {row['소속(학과)']} | "
                    f"[학번] {row['학번']} | "
                    f"[학년] {row['학년']} | "
                    f"[대출횟수] {row['대출횟수']} | "
                    f"[보존서가] {row['보존서가 소장처']} - {row['보존서가 칸']}"
                ),
                axis=1
            )
        )
        csv_docs.append(Document(page_content=text, metadata={"month": month}))

# 3. 문서 통합 및 청크 분할(월 + N개 단위로 쪼개기: 200줄씩 조갬)
all_docs = web_docs + csv_docs

print(f"📄 전체 문서 수: {len(all_docs)}")

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 600,
    chunk_overlap=50,
    length_function=len,
)
splits = text_splitter.split_documents(all_docs)

print(f"문서 수: {len(all_docs)}")
print(f"청크 수: {len(splits)}")


# 4. 벡터스토어 생성 (전체 문서)
# 한국어 특화 임베딩 모델 bge-m3-korean
# 한국어 특화 임베딩 모델
embedding = HuggingFaceBgeEmbeddings(
    model_name="BAAI/bge-m3",  # 다국어 지원 모델
    model_kwargs={'device': 'cpu'},  # GPU 없으면 cpu
    encode_kwargs={'normalize_embeddings': True}  # 정규화
)

# 또는 한국어 특화 모델
# embedding = HuggingFaceBgeEmbeddings(
#     model_name="jhgan/ko-sroberta-multitask",
#     model_kwargs={'device': 'cpu'},
#     encode_kwargs={'normalize_embeddings': True}

# 벡터스토어 생성 (토큰 제한 없음)
vectorstore = FAISS.from_documents(splits, embedding=embedding)
print("✅ HuggingFace 임베딩으로 벡터스토어 생성 완료")


# 임베딩 속도 확인
import time
start = time.time()
_ = embedding.embed_documents(["테스트 문장입니다."] * 10)
print("10개 임베딩 소요 시간:", time.time() - start, "초")

In [10]:
import os
print(os.getenv("OPENAI_API_KEY"))

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


In [17]:
# === 맥북 M2 최적화 + 캐시 처리 코드 ===

import os
import torch
import time
import json
import hashlib
from datetime import datetime
from pathlib import Path
import multiprocessing

# === 1. 맥북 M2 환경 확인 및 설정 ===

def check_m2_environment():
    """맥북 M2 환경 확인 및 최적화 설정"""
    
    print("🍎 맥북 M2 환경 확인...")
    print(f"PyTorch 버전: {torch.__version__}")
    
    # MPS (Metal Performance Shaders) 확인
    mps_available = torch.backends.mps.is_available()
    mps_built = torch.backends.mps.is_built()
    
    print(f"MPS 지원: {mps_built}")
    print(f"MPS 사용 가능: {mps_available}")
    
    # CPU 정보
    cpu_cores = multiprocessing.cpu_count()
    print(f"💻 CPU 코어 수: {cpu_cores} (성능 코어 + 효율 코어)")
    
    # 디바이스 설정
    if mps_available and mps_built:
        device = 'mps'  # Apple Silicon GPU 사용
        torch_dtype = torch.float32  # MPS는 float16이 불안정할 수 있음
        print("🚀 MPS(Apple GPU) 모드 사용")
    else:
        device = 'cpu'
        torch_dtype = torch.float32
        print("💻 CPU 모드 사용")
        
        # CPU 성능 최적화 설정
        torch.set_num_threads(cpu_cores)
        os.environ["OMP_NUM_THREADS"] = str(cpu_cores)
        print(f"🔧 CPU 스레드 최적화: {cpu_cores}개 스레드 사용")
    
    return device, torch_dtype, cpu_cores

# M2 환경 확인
device, torch_dtype, cpu_cores = check_m2_environment()

# === 2. 맥북 M2 전용 캐시 관리 ===

class M2VectorStoreCache:
    """맥북 M2 최적화 캐시 관리"""
    
    def __init__(self, cache_dir="m2_vectorstore_cache"):
        self.cache_dir = Path.home() / cache_dir  # 홈 디렉토리에 저장
        self.cache_dir.mkdir(exist_ok=True)
        self.metadata_file = self.cache_dir / "m2_cache_metadata.json"
        print(f"📁 캐시 디렉토리: {self.cache_dir}")
        
    def _generate_cache_key(self, documents, model_name, chunk_size):
        """캐시 키 생성"""
        doc_sample = ""
        for doc in documents[:5]:  # 처음 5개 문서로 해시
            doc_sample += doc.page_content[:50]
        
        config_str = f"M2_{model_name}_{chunk_size}_{len(documents)}"
        full_content = doc_sample + config_str
        
        cache_key = hashlib.sha256(full_content.encode()).hexdigest()[:12]
        return f"m2_{cache_key}"
    
    def _load_metadata(self):
        """메타데이터 로드"""
        if self.metadata_file.exists():
            with open(self.metadata_file, 'r', encoding='utf-8') as f:
                return json.load(f)
        return {}
    
    def _save_metadata(self, metadata):
        """메타데이터 저장"""
        with open(self.metadata_file, 'w', encoding='utf-8') as f:
            json.dump(metadata, f, ensure_ascii=False, indent=2)
    
    def show_cache_info(self):
        """캐시 정보 표시"""
        metadata = self._load_metadata()
        
        print("\n🍎 맥북 M2 캐시 정보:")
        print("-" * 50)
        
        if not metadata:
            print("캐시된 벡터스토어가 없습니다.")
            return
        
        total_size = 0
        for cache_key, info in metadata.items():
            print(f"🔑 캐시: {cache_key}")
            print(f"📅 생성: {info['created_at'][:16]}")
            print(f"🤖 모델: {info['model_name']}")
            print(f"📄 문서: {info['document_count']}개")
            
            cache_path = self.cache_dir / cache_key
            if cache_path.exists():
                size_mb = sum(f.stat().st_size for f in cache_path.rglob('*')) / (1024*1024)
                total_size += size_mb
                print(f"💾 크기: {size_mb:.1f}MB")
            print("-" * 30)
        
        print(f"📊 총 캐시 크기: {total_size:.1f}MB")
    
    def load_if_cached(self, documents, model_name, chunk_size, embedding_model):
        """캐시 확인 및 로드"""
        cache_key = self._generate_cache_key(documents, model_name, chunk_size)
        cache_path = self.cache_dir / cache_key
        
        print(f"🔍 캐시 확인: {cache_key}")
        
        if cache_path.exists():
            try:
                print("⚡ 캐시 발견! 로드 중...")
                start_time = time.time()
                
                vectorstore = FAISS.load_local(str(cache_path), embedding_model)
                
                load_time = time.time() - start_time
                print(f"✅ 캐시 로드 성공! ({load_time:.2f}초)")
                return vectorstore
                
            except Exception as e:
                print(f"⚠️ 캐시 로드 실패: {e}")
        
        return None
    
    def save_to_cache(self, vectorstore, documents, model_name, chunk_size):
        """캐시에 저장"""
        cache_key = self._generate_cache_key(documents, model_name, chunk_size)
        cache_path = self.cache_dir / cache_key
        
        print(f"💾 캐시 저장: {cache_key}")
        
        try:
            vectorstore.save_local(str(cache_path))
            
            # 메타데이터 업데이트
            metadata = self._load_metadata()
            metadata[cache_key] = {
                'created_at': datetime.now().isoformat(),
                'model_name': model_name,
                'document_count': len(documents),
                'chunk_size': chunk_size,
                'device': device
            }
            self._save_metadata(metadata)
            
            print("✅ 캐시 저장 완료!")
            
        except Exception as e:
            print(f"❌ 캐시 저장 실패: {e}")

# === 3. 맥북 M2 최적화 임베딩 모델 ===

def create_m2_optimized_embedding(device, torch_dtype, cpu_cores):
    """맥북 M2 최적화 임베딩 모델"""
    
    # M2에 최적화된 설정
    if device == 'mps':
        # MPS 사용시 - Apple Silicon GPU 활용
        batch_size = 32
        model_name = "jhgan/ko-sroberta-multitask"  # 한국어 특화
        print("🍎 Apple Silicon GPU(MPS) 사용")
    else:
        # CPU 사용시 - 멀티코어 최적화
        batch_size = min(16, cpu_cores)  # 코어 수에 맞춰 배치 크기 조정
        model_name = "jhgan/ko-sbert-nli"  # 더 가벼운 모델
        print(f"💻 CPU 멀티코어({cpu_cores}) 사용")
    
    embedding = HuggingFaceBgeEmbeddings(
        model_name=model_name,
        model_kwargs={
            'device': device,
            'torch_dtype': torch_dtype
        },
        encode_kwargs={
            'normalize_embeddings': True,
            'batch_size': batch_size,
            'show_progress_bar': True
        }
    )
    
    print(f"📦 배치 크기: {batch_size}")
    return embedding, model_name

# M2 최적화 임베딩 모델 생성
embedding, model_name = create_m2_optimized_embedding(device, torch_dtype, cpu_cores)

# === 4. M2 최적화 벡터스토어 생성 함수 ===

def create_m2_vectorstore(documents, chunk_size=600):
    """맥북 M2 최적화 벡터스토어 생성"""
    
    # 캐시 매니저
    cache = M2VectorStoreCache()
    cache.show_cache_info()
    
    # 캐시에서 로드 시도
    vectorstore = cache.load_if_cached(documents, model_name, chunk_size, embedding)
    if vectorstore:
        return vectorstore, cache
    
    # 새로 생성
    print("🔨 맥북 M2 최적화 벡터스토어 생성 중...")
    start_time = time.time()
    
    # M2에 최적화된 배치 크기
    if device == 'mps':
        batch_size = 32  # MPS는 중간 크기
    else:
        batch_size = min(24, cpu_cores * 2)  # CPU는 코어 수 * 2
    
    print(f"⚙️ 배치 크기: {batch_size} (디바이스: {device})")
    
    # 배치 처리로 생성
    if len(documents) <= batch_size:
        vectorstore = FAISS.from_documents(documents, embedding)
    else:
        from tqdm import tqdm
        
        # 첫 번째 배치
        vectorstore = FAISS.from_documents(documents[:batch_size], embedding)
        
        # 나머지 배치
        for i in tqdm(range(batch_size, len(documents), batch_size), 
                      desc="M2 벡터스토어 생성", 
                      bar_format='{l_bar}{bar}| {n_fmt}/{total_fmt} [{elapsed}<{remaining}]'):
            batch = documents[i:i+batch_size]
            batch_store = FAISS.from_documents(batch, embedding)
            vectorstore.merge_from(batch_store)
            
            # M2 칩 과열 방지를 위한 작은 딜레이 (선택사항)
            if device == 'mps':
                time.sleep(0.1)
    
    creation_time = time.time() - start_time
    print(f"✅ 벡터스토어 생성 완료! 소요시간: {creation_time:.2f}초")
    
    # 캐시에 저장
    cache.save_to_cache(vectorstore, documents, model_name, chunk_size)
    
    return vectorstore, cache

# === 5. M2 성능 테스트 함수 ===

def test_m2_performance(vectorstore, embedding):
    """맥북 M2 성능 테스트"""
    
    print("\n🍎 맥북 M2 성능 테스트:")
    print("-" * 40)
    
    # 임베딩 속도 테스트
    test_texts = [
        "한성대학교 도서관 이용 규정",
        "컴퓨터공학과 학생 도서 대출",
        "데이터베이스 설계 관련 서적",
        "인문학 도서 대출 현황 분석"
    ] * 10  # 40개 텍스트
    
    start = time.time()
    embeddings_result = embedding.embed_documents(test_texts)
    embed_time = time.time() - start
    
    print(f"⚡ 임베딩 속도: {len(test_texts)/embed_time:.1f} 문서/초")
    print(f"📏 임베딩 차원: {len(embeddings_result[0])}차원")
    
    # 검색 속도 테스트
    queries = ["컴퓨터공학과", "도서 대출", "한성대학교", "데이터베이스"]
    
    total_search_time = 0
    for query in queries:
        start = time.time()
        results = vectorstore.similarity_search(query, k=3)
        search_time = time.time() - start
        total_search_time += search_time
    
    avg_search_time = total_search_time / len(queries)
    print(f"🔍 평균 검색 속도: {avg_search_time:.3f}초")
    
    # 메모리 사용량 (선택사항)
    try:
        import psutil
        process = psutil.Process()
        memory_mb = process.memory_info().rss / 1024 / 1024
        print(f"💾 메모리 사용량: {memory_mb:.1f}MB")
    except ImportError:
        print("💾 메모리 정보: psutil 설치 필요")

# === 6. 실제 실행 ===

print("🍎 맥북 M2 최적화 벡터스토어 생성 시작!")

# 벡터스토어 생성 (캐시 자동 처리)
vectorstore, cache_manager = create_m2_vectorstore(splits, chunk_size=600)

# 성능 테스트
test_m2_performance(vectorstore, embedding)

# 최종 캐시 정보
cache_manager.show_cache_info()

print("\n🎉 맥북 M2 최적화 완료!")
print("💡 팁: 다음 실행시에는 캐시된 벡터스토어를 즉시 로드합니다.")

🍎 맥북 M2 환경 확인...
PyTorch 버전: 2.7.1
MPS 지원: True
MPS 사용 가능: True
💻 CPU 코어 수: 8 (성능 코어 + 효율 코어)
🚀 MPS(Apple GPU) 모드 사용
🍎 Apple Silicon GPU(MPS) 사용


  embedding = HuggingFaceBgeEmbeddings(


📦 배치 크기: 32
🍎 맥북 M2 최적화 벡터스토어 생성 시작!
📁 캐시 디렉토리: /Users/songseung-yun/m2_vectorstore_cache

🍎 맥북 M2 캐시 정보:
--------------------------------------------------
캐시된 벡터스토어가 없습니다.
🔍 캐시 확인: m2_2982ed6c378f
🔨 맥북 M2 최적화 벡터스토어 생성 중...
⚙️ 배치 크기: 32 (디바이스: mps)


Batches: 100%|██████████| 1/1 [00:03<00:00,  3.66s/it]
Batches: 100%|██████████| 1/1 [00:00<00:00,  1.05it/s]
Batches: 100%|██████████| 1/1 [00:01<00:00,  1.16s/it]
Batches: 100%|██████████| 1/1 [00:01<00:00,  1.12s/it]
Batches: 100%|██████████| 1/1 [00:01<00:00,  1.36s/it]
Batches: 100%|██████████| 1/1 [00:01<00:00,  1.23s/it]
Batches: 100%|██████████| 1/1 [00:01<00:00,  1.17s/it]
Batches: 100%|██████████| 1/1 [00:01<00:00,  1.11s/it]
Batches: 100%|██████████| 1/1 [00:01<00:00,  1.00s/it]
Batches: 100%|██████████| 1/1 [00:00<00:00,  1.08it/s]
Batches: 100%|██████████| 1/1 [00:01<00:00,  1.10s/it]
Batches: 100%|██████████| 1/1 [00:01<00:00,  1.02s/it]
Batches: 100%|██████████| 1/1 [00:01<00:00,  1.31s/it]
Batches: 100%|██████████| 1/1 [00:01<00:00,  1.17s/it]
Batches: 100%|██████████| 1/1 [00:01<00:00,  1.08s/it]
Batches: 100%|██████████| 1/1 [00:00<00:00,  1.03it/s]
Batches: 100%|██████████| 1/1 [00:01<00:00,  1.04s/it]
Batches: 100%|██████████| 1/1 [00:00<00:00,  1.05it/s]
Batches: 1

✅ 벡터스토어 생성 완료! 소요시간: 476.82초
💾 캐시 저장: m2_2982ed6c378f
✅ 캐시 저장 완료!

🍎 맥북 M2 성능 테스트:
----------------------------------------


Batches: 100%|██████████| 2/2 [00:02<00:00,  1.30s/it]


⚡ 임베딩 속도: 15.3 문서/초
📏 임베딩 차원: 768차원


Batches: 100%|██████████| 1/1 [00:05<00:00,  5.32s/it]
Batches: 100%|██████████| 1/1 [00:00<00:00,  5.14it/s]
Batches: 100%|██████████| 1/1 [00:00<00:00,  4.81it/s]
Batches: 100%|██████████| 1/1 [00:00<00:00,  5.89it/s]

🔍 평균 검색 속도: 1.506초
💾 메모리 사용량: 491.1MB

🍎 맥북 M2 캐시 정보:
--------------------------------------------------
🔑 캐시: m2_2982ed6c378f
📅 생성: 2025-08-07T15:24
🤖 모델: jhgan/ko-sroberta-multitask
📄 문서: 11447개
💾 크기: 43.7MB
------------------------------
📊 총 캐시 크기: 43.7MB

🎉 맥북 M2 최적화 완료!
💡 팁: 다음 실행시에는 캐시된 벡터스토어를 즉시 로드합니다.





In [None]:
# === 1. 기본 설정 ===
import os
import pandas as pd
from datetime import datetime
from dotenv import load_dotenv
import bs4

from langchain import hub
from langchain_core.documents import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import FAISS
from langchain_core.runnables import RunnablePassthrough, RunnableLambda
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI,OpenAIEmbeddings
from langchain_community.embeddings import HuggingFaceBgeEmbeddings

# 프로젝트 이름 및 환경변수 불러오기
os.environ["LANGCHAIN_PROJECT"] = "RAG_TUTORIAL"
load_dotenv()

# 2. 웹 문서 로드
url = "https://hsel.hansung.ac.kr/intro_data.mir"
web_loader = WebBaseLoader(
    web_path=(url,),
    bs_kwargs={"parse_only": bs4.SoupStrainer("div", attrs={"id": "intro_rule"})}
)
web_docs = web_loader.load()

# 3. csv로드 월별 청크 구성
# 서명,저자,출판사,출판년도,청구기호,대출일자,신분,소속(학과),학번,학년,대출횟수,보존서가 소장처,보존서가 칸
df = pd.read_csv("book_data_RAG_location.csv", encoding="utf-8")
df["대출월"] = pd.to_datetime(df["대출일자"]).dt.to_period("M").astype(str)

# 문서 리스트 초기화 + 월별 데이터 그루핑하여 500개 단위로 문서 쪼개기
csv_docs = []
chunk_size = 100

# 월별로 그룹핑
for month, group in df.groupby("대출월"):
    for i in range(0, len(group), chunk_size):
        chunk = group.iloc[i:i+chunk_size]
        text = "\n".join(
            chunk.apply(
                lambda row: (
                    f"[서명] {row['서명']} | "
                    f"[저자] {row['저자']} | "
                    f"[출판사] {row['출판사']} | "
                    f"[출판년도] {row['출판년도']} | "
                    f"[청구기호] {row['청구기호']} | "
                    f"[대출일자] {row['대출일자']} | "
                    f"[신분] {row['신분']} | "
                    f"[소속] {row['소속(학과)']} | "
                    f"[학번] {row['학번']} | "
                    f"[학년] {row['학년']} | "
                    f"[대출횟수] {row['대출횟수']} | "
                    f"[보존서가] {row['보존서가 소장처']} - {row['보존서가 칸']}"
                ),
                axis=1
            )
        )
        csv_docs.append(Document(page_content=text, metadata={"month": month}))

# 3. 문서 통합 및 청크 분할(월 + N개 단위로 쪼개기: 200줄씩 조갬)
all_docs = web_docs + csv_docs

print(f"📄 전체 문서 수: {len(all_docs)}")

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 600,
    chunk_overlap=50,
    length_function=len,
)
splits = text_splitter.split_documents(all_docs)

print(f"문서 수: {len(all_docs)}")
print(f"청크 수: {len(splits)}")

# 또는 한국어 특화 모델
# embedding = HuggingFaceBgeEmbeddings(
#     model_name="jhgan/ko-sroberta-multitask",
#     model_kwargs={'device': 'cpu'},
#     encode_kwargs={'normalize_embeddings': True}

# 벡터스토어 생성 (토큰 제한 없음)
vectorstore = FAISS.from_documents(splits, embedding=embedding)
print("✅ HuggingFace 임베딩으로 벡터스토어 생성 완료")


# 임베딩 속도 확인
import time
start = time.time()
_ = embedding.embed_documents(["테스트 문장입니다."] * 10)
print("10개 임베딩 소요 시간:", time.time() - start, "초")