# 적응형 Retrieval-Augmented Generation (RAG) 시스템

## 개요

이 시스템은 다양한 쿼리 유형에 맞춰 검색 전략을 조정하는 고급 RAG(정보 검색 증강 생성) 접근 방식을 구현합니다. 여러 단계에서 대형 언어 모델(LLM)을 활용하여 사용자 쿼리에 대해 더 정확하고 관련성 높은, 그리고 상황에 맞는 응답을 제공하는 것을 목표로 합니다.

## 동기

기존의 RAG 시스템은 검색에 일관된 접근 방식을 취하는 경우가 많지만, 이는 다양한 쿼리 유형에 대해 비효율적일 수 있습니다. 본 적응형 시스템은 다양한 질문이 서로 다른 검색 전략을 필요로 한다는 이해에서 출발했습니다. 예를 들어, 사실 기반 쿼리는 정확하고 집중적인 검색이 효과적일 수 있지만, 분석적인 쿼리는 더 광범위하고 다양한 정보가 필요할 수 있습니다.

## 주요 구성 요소

1. **쿼리 분류기**: 쿼리 유형을 결정 (사실 기반, 분석적, 의견, 상황 기반)
2. **적응형 검색 전략**: 서로 다른 쿼리 유형에 맞춘 네 가지 검색 전략
   - 사실 기반 전략
   - 분석적 전략
   - 의견 전략
   - 상황 기반 전략
3. **LLM 통합**: 검색 및 순위 매김 과정에서 LLM을 활용
4. **OpenAI GPT 모델**: 최종 응답 생성을 위해 검색된 문서를 컨텍스트로 사용

## 방법 세부사항

### 1. 쿼리 분류

시스템은 우선 사용자의 쿼리를 다음 네 가지 유형 중 하나로 분류합니다:
- **사실 기반**: 구체적이고 검증 가능한 정보를 찾는 질문
- **분석적**: 포괄적 분석이나 설명을 필요로 하는 질문
- **의견**: 주관적인 사안이나 다양한 관점을 찾는 질문
- **상황 기반**: 사용자 특정 맥락에 의존하는 질문

### 2. 적응형 검색 전략

각 쿼리 유형에 따라 고유한 검색 전략이 실행됩니다:

#### 사실 기반 전략
- 정확성을 높이기 위해 LLM을 활용하여 쿼리를 개선합니다.
- 개선된 쿼리를 바탕으로 문서를 검색합니다.
- 검색된 문서를 LLM을 이용해 관련성에 따라 순위를 매깁니다.

#### 분석적 전략
- LLM을 사용하여 주요 쿼리에 대해 다양한 측면을 다룰 수 있도록 여러 하위 쿼리를 생성합니다.
- 각 하위 쿼리에 대해 문서를 검색합니다.
- 검색된 문서의 다양성을 유지하면서 최종 문서를 선정하도록 LLM을 활용합니다.

#### 의견 전략
- LLM을 사용하여 주제에 대한 다양한 관점을 식별합니다.
- 각 관점을 대표하는 문서를 검색합니다.
- 검색된 문서들 중 다양한 의견을 포함할 수 있도록 선택하여 제공합니다.

#### 상황 기반 전략
- LLM을 사용하여 사용자 특정 맥락을 쿼리에 포함시킵니다.
- 맥락화된 쿼리에 따라 문서를 검색합니다.
- 사용자 맥락을 고려하여 관련성과 맥락적 적합성에 따라 문서를 순위 매깁니다.

### 3. LLM 기반 순위 매김

검색 후 각 전략은 최종 문서 순위를 매기기 위해 LLM을 사용합니다. 이 단계는 가장 관련성 높고 적합한 문서들이 다음 단계로 넘어가도록 보장합니다.

### 4. 응답 생성

최종 검색된 문서들은 OpenAI GPT 모델로 전달되며, 이 모델은 쿼리와 제공된 컨텍스트를 기반으로 응답을 생성합니다.

## 접근 방식의 이점

1. **정확성 향상**: 쿼리 유형에 맞는 검색 전략을 통해 더 정확하고 관련성 높은 정보를 제공합니다.
2. **유연성**: 시스템이 다양한 쿼리 유형에 맞게 적응하여 광범위한 사용자 요구를 처리할 수 있습니다.
3. **상황 인식**: 특히 상황 기반 쿼리의 경우, 사용자 특정 정보를 통합하여 더 개인화된 응답을 제공합니다.
4. **다양한 관점 제공**: 의견 기반 쿼리의 경우, 시스템이 여러 관점을 탐색하고 제시합니다.
5. **포괄적 분석**: 분석적 전략을 통해 복잡한 주제에 대해 철저한 탐색을 수행합니다.

## 결론

본 적응형 RAG 시스템은 기존 RAG 접근 방식에 비해 큰 진전을 나타냅니다. 검색 전략을 동적으로 조정하고 과정 전반에 걸쳐 LLM을 활용함으로써, 다양한 사용자 쿼리에 대해 더 정확하고, 관련성 높은, 그리고 세밀한 응답을 제공하는 것을 목표로 합니다.


<div style="text-align: center;">

<img src="../images/adaptive_retrieval.svg" alt="adaptive retrieval" style="width:100%; height:auto;">
</div>

### Import relevant libraries

In [24]:
import os
import sys
from dotenv import load_dotenv
from langchain.prompts import PromptTemplate
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.prompts import PromptTemplate

from langchain_core.retrievers import BaseRetriever
from typing import Dict, Any
from langchain.docstore.document import Document
from langchain_openai import ChatOpenAI
from langchain_core.pydantic_v1 import BaseModel, Field


sys.path.append(os.path.abspath(os.path.join(os.getcwd(), '..'))) # Add the parent directory to the path sicnce we work with notebooks
from helper_functions import *
from evaluation.evalute_rag import *

# Load environment variables from a .env file
load_dotenv()

# Set the OpenAI API key environment variable
os.environ["OPENAI_API_KEY"] = os.getenv('OPENAI_API_KEY')

### Define the query classifer class

In [25]:
class categories_options(BaseModel):
        category: str = Field(description="The category of the query, the options are: Factual, Analytical, Opinion, or Contextual", example="Factual")


class QueryClassifier:
    def __init__(self):
        self.llm = ChatOpenAI(temperature=0, model_name="gpt-4o", max_tokens=4000)
        self.prompt = PromptTemplate(
            input_variables=["query"],
            template="Classify the following query into one of these categories: Factual, Analytical, Opinion, or Contextual.\nQuery: {query}\nCategory:"
        )
        self.chain = self.prompt | self.llm.with_structured_output(categories_options)


    def classify(self, query):
        print("clasiffying query")
        return self.chain.invoke(query).category

### Define the Base Retriever class, such that the complex ones will inherit from it

In [26]:
class BaseRetrievalStrategy:
    def __init__(self, texts):
        self.embeddings = OpenAIEmbeddings()
        text_splitter = CharacterTextSplitter(chunk_size=800, chunk_overlap=0)
        self.documents = text_splitter.create_documents(texts)
        self.db = FAISS.from_documents(self.documents, self.embeddings)
        self.llm = ChatOpenAI(temperature=0, model_name="gpt-4o", max_tokens=4000)


    def retrieve(self, query, k=4):
        return self.db.similarity_search(query, k=k)

### Define Factual retriever strategy

In [27]:
class relevant_score(BaseModel):
        score: float = Field(description="The relevance score of the document to the query", example=8.0)

class FactualRetrievalStrategy(BaseRetrievalStrategy):
    def retrieve(self, query, k=4):
        print("retrieving factual")
        # Use LLM to enhance the query -> 더 나은 정보 반환을 위한 사실적 쿼리로 향상시킴 
        enhanced_query_prompt = PromptTemplate(
            input_variables=["query"],
            template="Enhance this factual query for better information retrieval: {query}"
        )
        query_chain = enhanced_query_prompt | self.llm
        enhanced_query = query_chain.invoke(query).content
        print(f'enhande query: {enhanced_query}')

        # 새로운 쿼리로 유사도검색 
        docs = self.db.similarity_search(enhanced_query, k=k*2)

        # llm으로 reranking 함 
        ranking_prompt = PromptTemplate(
            input_variables=["query", "doc"],
            template="On a scale of 1-10, how relevant is this document to the query: '{query}'?\nDocument: {doc}\nRelevance score:"
        )
        ranking_chain = ranking_prompt | self.llm.with_structured_output(relevant_score)

        ranked_docs = []
        print("ranking docs")
        for doc in docs:
            input_data = {"query": enhanced_query, "doc": doc.page_content}
            score = float(ranking_chain.invoke(input_data).score)
            ranked_docs.append((doc, score))

        # Sort by relevance score and return top k
        ranked_docs.sort(key=lambda x: x[1], reverse=True)
        return [doc for doc, _ in ranked_docs[:k]]

### Define Analytical reriever strategy

In [38]:
class SelectedIndices(BaseModel):
    indices: List[int] = Field(description="Indices of selected documents", example=[0, 1, 2, 3])

class SubQueries(BaseModel):
    sub_queries: List[str] = Field(description="List of sub-queries for comprehensive analysis", example=["What is the population of New York?", "What is the GDP of New York?"])

class AnalyticalRetrievalStrategy(BaseRetrievalStrategy):
    def retrieve(self, query, k=4):
        print("retrieving analytical")
        # 분석적 질문이므로 쿼리를 서브 쿼리로 나누는 과정이 필요함 
        sub_queries_prompt = PromptTemplate(
            input_variables=["query", "k"],
            template="Generate {k} sub-questions for: {query}"
        )

        llm = ChatOpenAI(temperature=0, model_name="gpt-4o", max_tokens=4000)
        sub_queries_chain = sub_queries_prompt | llm.with_structured_output(SubQueries)

        input_data = {"query": query, "k": k}
        sub_queries = sub_queries_chain.invoke(input_data).sub_queries
        print(f'sub queries for comprehensive analysis: {sub_queries}')

        all_docs = []
        # 하위 질문에 대해 2가지씩 답변 
        for sub_query in sub_queries:
            all_docs.extend(self.db.similarity_search(sub_query, k=2))

        # 다양하고 관련있는 문서들을 뽑아냄 
        diversity_prompt = PromptTemplate(
            input_variables=["query", "docs", "k"],
            template="""Select the most diverse and relevant set of {k} documents for the query: '{query}'\nDocuments: {docs}\n
            Return only the indices of selected documents as a list of integers."""
        )
        diversity_chain = diversity_prompt | self.llm.with_structured_output(SelectedIndices)
        docs_text = "\n".join([f"{i}: {doc.page_content[:50]}..." for i, doc in enumerate(all_docs)])
        input_data = {"query": query, "docs": docs_text, "k": k}
        selected_indices_result = diversity_chain.invoke(input_data).indices
        print(f'selected diverse and relevant documents')
        
        return [all_docs[i] for i in selected_indices_result if i < len(all_docs)]

### Define Opinion retriever strategy

In [39]:
class OpinionRetrievalStrategy(BaseRetrievalStrategy):
    def retrieve(self, query, k=3):
        print("retrieving opinion")
        # llm을 통해 다양한 주제에 대한 관점을 먼저 식별함 
        viewpoints_prompt = PromptTemplate(
            input_variables=["query", "k"],
            template="Identify {k} distinct viewpoints or perspectives on the topic: {query}"
        )
        viewpoints_chain = viewpoints_prompt | self.llm
        input_data = {"query": query, "k": k}
        viewpoints = viewpoints_chain.invoke(input_data).content.split('\n')
        print(f'viewpoints: {viewpoints}')

        all_docs = []
        for viewpoint in viewpoints:
            all_docs.extend(self.db.similarity_search(f"{query} {viewpoint}", k=2))

        # 다양한 관점을 사용하요 문서를 분류하고, 대표적인 문서를 선택함 
        opinion_prompt = PromptTemplate(
            input_variables=["query", "docs", "k"],
            template="Classify these documents into distinct opinions on '{query}' and select the {k} most representative and diverse viewpoints:\nDocuments: {docs}\nSelected indices:"
        )
        opinion_chain = opinion_prompt | self.llm.with_structured_output(SelectedIndices)
        
        docs_text = "\n".join([f"{i}: {doc.page_content[:100]}..." for i, doc in enumerate(all_docs)])
        input_data = {"query": query, "docs": docs_text, "k": k}
        selected_indices = opinion_chain.invoke(input_data).indices
        print(f'selected diverse and relevant documents')
        
        return [all_docs[int(i)] for i in selected_indices.split() if i.isdigit() and int(i) < len(all_docs)]

### Define Contextual retriever strategy

In [40]:
class ContextualRetrievalStrategy(BaseRetrievalStrategy):
    def retrieve(self, query, k=4, user_context=None):
        print("retrieving contextual")
        # 사용자가 제공한 배경 정보를 쿼리에 포함하게 함 -> 사용자 쿼리의 맥락을 이해하고 사용자의 요구에 맞게 쿼리를 재구성함 
        context_prompt = PromptTemplate(
            input_variables=["query", "context"],
            template="Given the user context: {context}\nReformulate the query to best address the user's needs: {query}"
        )
        context_chain = context_prompt | self.llm
        input_data = {"query": query, "context": user_context or "No specific context provided"}
        contextualized_query = context_chain.invoke(input_data).content
        print(f'contextualized query: {contextualized_query}')

        # 재구성된 쿼리로 k의 제곱만큼 뽑아냄 
        docs = self.db.similarity_search(contextualized_query, k=k*2)

        # 문서와 쿼리의 관련성을 점수로 평가하여 정렬한다. 
        ranking_prompt = PromptTemplate(
            input_variables=["query", "context", "doc"],
            template="Given the query: '{query}' and user context: '{context}', rate the relevance of this document on a scale of 1-10:\nDocument: {doc}\nRelevance score:"
        )
        ranking_chain = ranking_prompt | self.llm.with_structured_output(relevant_score)
        print("ranking docs")

        ranked_docs = []
        for doc in docs:
            input_data = {"query": contextualized_query, "context": user_context or "No specific context provided", "doc": doc.page_content}
            score = float(ranking_chain.invoke(input_data).score)
            ranked_docs.append((doc, score))


        # Sort by relevance score and return top k
        ranked_docs.sort(key=lambda x: x[1], reverse=True)

        return [doc for doc, _ in ranked_docs[:k]]

### Define the Adapive retriever class

In [41]:
class AdaptiveRetriever:
    def __init__(self, texts: List[str]):
        self.classifier = QueryClassifier()
        self.strategies = {
            "Factual": FactualRetrievalStrategy(texts),
            "Analytical": AnalyticalRetrievalStrategy(texts),
            "Opinion": OpinionRetrievalStrategy(texts),
            "Contextual": ContextualRetrievalStrategy(texts)
        }

    def get_relevant_documents(self, query: str) -> List[Document]:
        category = self.classifier.classify(query)
        strategy = self.strategies[category]
        return strategy.retrieve(query)

### Define aditional retriever that inherits from langchain BaseRetriever 

In [42]:
class PydanticAdaptiveRetriever(BaseRetriever):
    adaptive_retriever: AdaptiveRetriever = Field(exclude=True)

    class Config:
        arbitrary_types_allowed = True

    def get_relevant_documents(self, query: str) -> List[Document]:
        return self.adaptive_retriever.get_relevant_documents(query)

    async def aget_relevant_documents(self, query: str) -> List[Document]:
        return self.get_relevant_documents(query)

### Define the Adaptive RAG class

In [43]:
class AdaptiveRAG:
    def __init__(self, texts: List[str]):
        adaptive_retriever = AdaptiveRetriever(texts)
        self.retriever = PydanticAdaptiveRetriever(adaptive_retriever=adaptive_retriever)
        self.llm = ChatOpenAI(temperature=0, model_name="gpt-4o", max_tokens=4000)
        
        # Create a custom prompt
        prompt_template = """Use the following pieces of context to answer the question at the end. 
        If you don't know the answer, just say that you don't know, don't try to make up an answer.

        {context}

        Question: {question}
        Answer:"""
        prompt = PromptTemplate(template=prompt_template, input_variables=["context", "question"])
        
        # Create the LLM chain
        self.llm_chain = prompt | self.llm
        
      

    def answer(self, query: str) -> str:
        # 어떤 질문인지 분류함 -> 분류에 맞게 카테고리와 전략을 추출 -> 이에 맞게 수정한 후 관련 문서를 추출함 
        docs = self.retriever.get_relevant_documents(query)
        input_data = {"context": "\n".join([doc.page_content for doc in docs]), "question": query}
        return self.llm_chain.invoke(input_data)

### Demonstrate use of this model

In [44]:
# Usage
texts = [
    "The Earth is the third planet from the Sun and the only astronomical object known to harbor life."
    ]
rag_system = AdaptiveRAG(texts)

### Showcase the four different types of queries

In [None]:
factual_result = rag_system.answer("What is the distance between the Earth and the Sun?").content
print(f"Answer: {factual_result}")

analytical_result = rag_system.answer("How does the Earth's distance from the Sun affect its climate?").content
print(f"Answer: {analytical_result}")

opinion_result = rag_system.answer("What are the different theories about the origin of life on Earth?").content
print(f"Answer: {opinion_result}")

contextual_result = rag_system.answer("How does the Earth's position in the Solar System influence its habitability?").content
print(f"Answer: {contextual_result}")