In [33]:
!pip install notion-client langchain langchain-community chromadb sentence-transformers \
            google-generative-ai langchain-google-genai -q
!pip install --upgrade --quiet google-generativeai langchain-google-genai


ERROR: Could not find a version that satisfies the requirement google-generative-ai (from versions: none)
ERROR: No matching distribution found for google-generative-ai


In [1]:
#!/usr/bin/env python3
# local_rag_gemini.py

import os
from notion_client import Client
from langchain.schema import Document
from langchain.embeddings import SentenceTransformerEmbeddings
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQA
from langchain.chat_models import ChatOpenAI
import google.generativeai as genai

# ─── 사용자 설정 ─────────────────────────────────────────────
NOTION_API_KEY = "ntn_S49134845636QN7OizYlyythCTORUXOCvYcp2U19S0P6dy"        # 예: ntn_...
PAGE_ID          = "1dd124ddd31380acb247eb0c791331d9"                       # ?pvs=11 제거된 순수 페이지 ID
VECTOR_DB_DIR    = "./vectordb"                         # 벡터 DB가 저장될 디렉토리
GOOGLE_API_KEY   = "AIzaSyDSQvjXRYlqA6nYdCSX8l6WmoZxXV0aHMo"                # Google Generative AI 키
GEMINI_MODEL     = "gemini-2.0-flash"                   # or "gemini-1.5-pro"
GENAI_TEMP       = 1.0                                  # 생성 온도

# ─── Notion 클라이언트 설정 ─────────────────────────────────
os.environ["NOTION_API_KEY"] = NOTION_API_KEY
notion = Client(auth=NOTION_API_KEY)

# ─── Google Generative AI 설정 ───────────────────────────────
os.environ["GOOGLE_API_KEY"] = GOOGLE_API_KEY
genai.configure(api_key=GOOGLE_API_KEY)
# (LangChain 래퍼는 쓰지 않고, 직접 genai.GenerativeModel 호출)

# ─── 1) Notion 페이지 블록 전부 가져오기 ───────────────────────
def fetch_all_blocks(page_id: str) -> list[dict]:
    all_blocks = []
    cursor = None
    while True:
        resp = notion.blocks.children.list(
            block_id=page_id,
            start_cursor=cursor,
            page_size=100
        )
        all_blocks.extend(resp["results"])
        if not resp.get("has_more"):
            break
        cursor = resp.get("next_cursor")
    return all_blocks

# ─── 2) 블록에서 텍스트만 뽑아내기 ────────────────────────────
def block_to_text(b: dict) -> str:
    t = ""
    typ = b["type"]
    rich = b[typ].get("rich_text", [])
    # 단순 paragraph / heading / list / code 처리
    if typ in ("paragraph", "heading_1", "heading_2", "heading_3"):
        for r in rich:
            t += r.get("plain_text", "")
        if typ.startswith("heading"):
            t = "\n" + t.upper() + "\n"
    elif typ == "bulleted_list_item":
        for r in rich:
            t += r.get("plain_text", "")
        t = "- " + t
    elif typ == "numbered_list_item":
        for r in rich:
            t += r.get("plain_text", "")
        t = "1. " + t
    elif typ == "code":
        lang = b["code"]["language"]
        for r in rich:
            t += r.get("plain_text", "")
        t = f"```{lang}\n{t}\n```"
    return t

# ─── 3) 페이지 하나를 LangChain Document로 묶기 ───────────────────
print("🔄 Notion 블록을 로드 중...")
blocks = fetch_all_blocks(PAGE_ID)
print(f"    → 로드된 블록 개수: {len(blocks)}")

full_text = "\n".join(
    txt for blk in blocks
    if (txt := block_to_text(blk).strip())
)
print(f"🔄 블록 합쳐서 텍스트 길이: {len(full_text)}")

docs = [Document(page_content=full_text, metadata={"source": PAGE_ID})]

# ─── 4) SBERT 임베딩 + Chroma DB 생성 ───────────────────────────
print("🔄 임베딩 모델 초기화 중...")
embedding = SentenceTransformerEmbeddings(model_name="jhgan/ko-sbert-sts")

print("🔄 Chroma 벡터스토어에 저장 중...")
vectordb = Chroma.from_documents(
    documents=docs,
    embedding=embedding,
    persist_directory=VECTOR_DB_DIR
)
vectordb.persist()
print("✅ 벡터 DB 저장 완료:", VECTOR_DB_DIR)

# ─── 5) Gemini를 이용한 RetrievalQA 헬퍼 ───────────────────────
def generate_gemini_answer(query: str, context: str) -> str:
    prompt = f"Context:\n{context}\n\nQuestion: {query}"
    model = genai.GenerativeModel(
        GEMINI_MODEL,
        generation_config=genai.GenerationConfig(temperature=GENAI_TEMP)
    )
    return model.generate_content(prompt).text


def ask_question(q: str) -> str:
    # 최신 DB 로드
    db = Chroma(persist_directory=VECTOR_DB_DIR, embedding_function=embedding)
    retriever = db.as_retriever()
    docs = retriever.get_relevant_documents(q)
    context = "\n\n".join(d.page_content for d in docs)
    return generate_gemini_answer(q, context)

# ─── 6) 대화형 루프 ─────────────────────────────────────────
if __name__ == "__main__":
    print("\n▶ 질의를 입력하세요 (exit 입력 시 종료)")
    while True:
        q = input("질문: ").strip()
        if q.lower() in ("exit","quit"):
            print("종료합니다.")
            break
        print("\n⏳ 답변 생성 중…")
        ans = ask_question(q)
        print("\n💡 답변:")
        print(ans)
        print("\n" + "-"*50 + "\n")


🔄 Notion 블록을 로드 중...
    → 로드된 블록 개수: 127
🔄 블록 합쳐서 텍스트 길이: 3273
🔄 임베딩 모델 초기화 중...


  embedding = SentenceTransformerEmbeddings(model_name="jhgan/ko-sbert-sts")


🔄 Chroma 벡터스토어에 저장 중...


  vectordb.persist()


✅ 벡터 DB 저장 완료: ./vectordb

▶ 질의를 입력하세요 (exit 입력 시 종료)


질문:  이 문서에 대해 요약해줘



⏳ 답변 생성 중…


  db = Chroma(persist_directory=VECTOR_DB_DIR, embedding_function=embedding)
  docs = retriever.get_relevant_documents(q)



💡 답변:
이 문서는 RAG(Retrieval-Augmented Generation) 기술의 발전 과정과 구성 요소, 그리고 관련된 다양한 최적화 기법들을 체계적으로 분석하고 있습니다.

**1. RAG 기술 발전 단계:**

*   **1단계:** Transformer 모델과 외부 지식 결합을 통한 성능 향상
*   **2단계:** ChatGPT 등장으로 LLM의 In-Context Learning 능력 강화 및 RAG를 통한 복잡한 질의 응답
*   **3단계:** RAG와 LLM의 구조적 결합 및 파인튜닝 통합

**2. RAG 개요:**

*   **기본 원리:** Indexing -> Retrieval -> Generation 의 3단계로 구성.
*   **Naive RAG:** 간단한 "Retrieve-Read" 파이프라인이지만 단점 존재.
*   **Advanced RAG:** 검색 품질 개선을 위한 pre-retrieval 및 post-retrieval 최적화 적용.
*   **Modular RAG:** 새로운 모듈과 상호작용 패턴을 추가하여 유연성 및 맞춤화 강화.
*   **RAG vs Fine-tuning:** RAG는 새로운 데이터 처리 및 Fine-tuning과 결합 시 성능 향상.

**3. Retrieval (검색) 주요 내용:**

*   **Retrieval Source:** 다양한 형태의 데이터 (비정형, 반정형, 구조화, LLM 생성 콘텐츠) 활용
*   **Retrieval Granularity:** 사용자 Prompt에 따라 검색 단위 세분성 설정 중요 (정확도 향상).
*   **Indexing Optimization:** 청크 분할 전략, 메타데이터 부착, 구조적 인덱스 구축을 통해 검색 효과 향상.
*   **Query Optimization:** 질의 확장, 변형, 라우팅을 통해 Naive RAG의 문제점 개선.
*   **Embedding:** 임베딩 모델의 의미 표현 능력 중요, 혼합 검색 및 임베딩 모델 파인

KeyboardInterrupt: Interrupted by user

In [2]:
#!/usr/bin/env python3
# local_rag_modular.py

import os
from notion_client import Client
from langchain.schema import Document
from langchain.embeddings import SentenceTransformerEmbeddings
from langchain.vectorstores import Chroma
from sentence_transformers import CrossEncoder
import google.generativeai as genai

# ─── 설정 ─────────────────────────────────────────────
NOTION_API_KEY = "ntn_S49134845636QN7OizYlyythCTORUXOCvYcp2U19S0P6dy"
PAGE_ID          = "1dd124ddd31380acb247eb0c791331d9"
VECTOR_DB_DIR    = "./vectordb"
EMBEDDING_MODEL  = "jhgan/ko-sbert-sts"
RERANKER_MODEL   = "cross-encoder/ms-marco-MiniLM-L-6-v2"
GEMINI_MODEL     = "gemini-2.0-flash"
GENAI_TEMP       = 1.0
TOP_K            = 5

# ─── Notion 클라이언트 초기화 ─────────────────────────
os.environ["NOTION_API_KEY"] = NOTION_API_KEY
notion = Client(auth=NOTION_API_KEY)

# ─── Google Generative AI 설정 ─────────────────────────
os.environ["GOOGLE_API_KEY"] = os.getenv("GOOGLE_API_KEY", "")
genai.configure(api_key=os.getenv("GOOGLE_API_KEY"))

# ─── Notion 로더 모듈 ─────────────────────────────────
class NotionLoader:
    def __init__(self, page_id: str, client: Client):
        self.page_id = page_id
        self.client = client

    def fetch_blocks(self) -> list[dict]:
        all_blocks = []
        cursor = None
        while True:
            resp = self.client.blocks.children.list(
                block_id=self.page_id,
                start_cursor=cursor,
                page_size=100
            )
            all_blocks.extend(resp["results"])
            if not resp.get("has_more"):
                break
            cursor = resp.get("next_cursor")
        return all_blocks

    def block_to_text(self, b: dict) -> str:
        t = ""
        typ = b["type"]
        rich = b[typ].get("rich_text", [])
        if typ in ("paragraph", "heading_1", "heading_2", "heading_3"):
            for r in rich:
                t += r.get("plain_text", "")
            if typ.startswith("heading"):
                t = "\n" + t.upper() + "\n"
        elif typ == "bulleted_list_item":
            for r in rich:
                t += r.get("plain_text", "")
            t = "- " + t
        elif typ == "numbered_list_item":
            for r in rich:
                t += r.get("plain_text", "")
            t = "1. " + t
        elif typ == "code":
            lang = b["code"]["language"]
            for r in rich:
                t += r.get("plain_text", "")
            t = f"```{lang}\n{t}\n```"
        return t.strip()

    def to_documents(self) -> list[Document]:
        blocks = self.fetch_blocks()
        full_text = "\n".join(
            txt for blk in blocks
            if (txt := self.block_to_text(blk))
        )
        return [Document(page_content=full_text, metadata={"source": self.page_id})]

# ─── 임베딩 및 벡터스토어 모듈 ───────────────────────────
class VectorModule:
    def __init__(self, persist_dir: str, model_name: str):
        self.persist_dir = persist_dir
        self.embedding = SentenceTransformerEmbeddings(model_name=model_name)

    def build_db(self, docs: list[Document]):
        vectordb = Chroma.from_documents(
            documents=docs,
            embedding=self.embedding,
            persist_directory=self.persist_dir
        )
        vectordb.persist()

    def load_db(self):
        return Chroma(
            persist_directory=self.persist_dir,
            embedding_function=self.embedding
        )

# ─── 랭커 모듈 ─────────────────────────────────────────
class Reranker:
    def __init__(self, model_name: str):
        self.cross_encoder = CrossEncoder(model_name)

    def rerank(self, docs: list[Document], query: str) -> list[Document]:
        # CrossEncoder 점수를 기반으로 순위 재조정 (score 만으로 정렬)
        pairs = [(query, doc.page_content) for doc in docs]
        scores = self.cross_encoder.predict(pairs)
        # scores 기준으로만 정렬하도록 key 지정
        ranked_pairs = sorted(
            zip(scores, docs),
            key=lambda x: x[0],
            reverse=True
        )
        return [doc for _, doc in ranked_pairs]

# ─── 제너레이터 모듈 ────────────────────────────────────
class GeminiGenerator:
    def __init__(self, model: str, temperature: float):
        self.model_name = model
        self.temp = temperature

    def generate(self, query: str, context: str) -> str:
        prompt = f"Context:\n{context}\n\nQuestion: {query}"
        model = genai.GenerativeModel(
            self.model_name,
            generation_config=genai.GenerationConfig(temperature=self.temp)
        )
        return model.generate_content(prompt).text

# ─── 모듈러 RAG 파이프라인 ─────────────────────────────────
class ModularRAG:
    def __init__(self):
        loader = NotionLoader(PAGE_ID, notion)
        if not os.path.exists(VECTOR_DB_DIR):
            docs = loader.to_documents()
            VectorModule(VECTOR_DB_DIR, EMBEDDING_MODEL).build_db(docs)
        self.db = VectorModule(VECTOR_DB_DIR, EMBEDDING_MODEL).load_db()
        self.reranker = Reranker(RERANKER_MODEL)
        self.generator = GeminiGenerator(GEMINI_MODEL, GENAI_TEMP)
        self.top_k = TOP_K

    def answer(self, query: str) -> str:
        retriever = self.db.as_retriever(search_kwargs={"k": self.top_k * 2})
        docs = retriever.get_relevant_documents(query)
        reranked = self.reranker.rerank(docs, query)
        selected = reranked[: self.top_k]
        context = "\n\n".join([d.page_content for d in selected])
        return self.generator.generate(query, context)

# ─── 대화형 실행 ───────────────────────────────────────
if __name__ == "__main__":
    rag = ModularRAG()
    print("▶ 질의를 입력하세요 (exit 입력 시 종료)")
    while True:
        q = input("질문: ").strip()
        if q.lower() in ("exit", "quit"):
            print("종료합니다.")
            break
        print("\n⏳ 답변 생성 중…")
        ans = rag.answer(q)
        print("\n💡 답변:\n", ans)
        print("\n" + "-"*50 + "\n")



▶ 질의를 입력하세요 (exit 입력 시 종료)


질문:  이 문서에 대해 요약해줘



⏳ 답변 생성 중…

💡 답변:
 ## RAG 기술 발전 및 LLM 통합 연구 논문 요약

**1. 서론:**

*   본 논문은 RAG(Retrieval-Augmented Generation) 기술의 발전 과정을 체계적으로 정리하고, LLM(Large Language Model)과의 통합을 중심으로 기술 패러다임과 연구 방법론을 분석합니다.
*   RAG 기술은 Transformer 모델의 등장으로 시작되어 ChatGPT와 같은 LLM의 발전과 함께 고도화되었으며, 현재는 단순 검색 보조를 넘어 LLM 파인튜닝 및 구조적 결합을 통해 더욱 발전하고 있습니다.

**2. RAG 개요:**

*   RAG는 질문에 답변하기 위해 외부 지식을 활용하는 방식으로, 일반적으로 1) Indexing, 2) Retrieval, 3) Generation의 세 단계를 거칩니다.
*   RAG는 Naive RAG에서 Advanced RAG, Modular RAG로 발전해왔으며, Fine-Tuning(FT)과 결합하여 성능을 더욱 향상시킬 수 있습니다. RAG는 특히 새로운 데이터나 보지 못한 지식을 처리하는 데 FT보다 우수한 성능을 보입니다.

**3. Retrieval:**

*   Retrieval 단계는 데이터 소스로부터 관련 문서를 효율적으로 검색하는 것이 핵심입니다.
*   **검색 소스 (Retrieval Source):** RAG는 LLM을 보완하기 위해 외부 지식에 의존하며, 데이터 구조는 비정형, 반구조화, 구조화 데이터 및 LLM 생성 콘텐츠를 포함합니다. 검색 단위 세분성은 사용자 Prompt에 따라 설정하여 검색 정확도를 높입니다.
*   **인덱싱 최적화 (Indexing Optimization):** 문서 전처리, 분할(Chunking), 임베딩 변환 후 벡터 DB에 저장하는 과정을 통해 검색 효과를 향상시킵니다. 청크 분할 전략, 메타데이터 부착, 구조적 인덱스 등이 활용됩니다.
*   **질의 최적화 (Query Optimization):** 

KeyboardInterrupt: Interrupted by user

ModuleNotFoundError: No module named 'langchain_google_genai'