# Reordering을 통한 순서 재정렬
* 현재의 언어모델들은 긴 문맥에서 정보를 잘 사용하지 못한다.
* RAG에서 문서의 순서가 중요하다. 특히, 중요한 정보가 가운데 있을 때, 성능 하락이 있음을 확인  
![image.png](attachment:image.png)  
* [관련 논문](https://arxiv.org/abs/2307.03172)
* [참고자료](https://wikidocs.net/234101)

In [1]:
from langchain.chains import LLMChain, StuffDocumentsChain
from langchain_community.vectorstores import Chroma
from langchain_community.document_transformers import (
    LongContextReorder,
)
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_core.prompts import PromptTemplate
from langchain.llms import OpenAI
# Get embeddings.
embeddings = HuggingFaceEmbeddings(
    model_name="all-MiniLM-L6-v2",
)
question = "테슬라와 일론머스크에 대해 알려줄 수 있어?"

texts = [
    "기계 학습은 많은 산업을 혁신하고 있습니다.",
    "모나리자는 세계에서 가장 유명한 그림 중 하나입니다.",
    "인공지능은 더 나은 진단을 위해 의료 분야에 적용될 수 있습니다.",
    "이 문서는 자동차 산업에 대한 AI의 영향을 다룹니다.",
    "나는 공상 과학 소설을 읽는 것을 좋아합니다.",
    "테슬라의 자율 주행 기술은 자동차 분야의 선도적인 혁신입니다.",
    "이것은 특정한 문맥이 없는 일반적인 문장입니다.",
    "신경망은 현대 AI 시스템의 핵심 구성 요소입니다.",
    "AI 윤리는 오늘날 기술 중심의 세계에서 중요한 주제입니다.",
    "일론 머스크의 사업들은 기술 분야에 큰 영향을 미쳤습니다.",
]

retriever = Chroma.from_texts(texts, embedding=embeddings).as_retriever(
    search_kwargs={"k": 10}
)
docs = retriever.invoke(question)
print("====== 기본 검색 result ========")
for i, doc in enumerate(docs):
    print(f"[문서 {i}] : {doc}")


  embeddings = HuggingFaceEmbeddings(
  from .autonotebook import tqdm as notebook_tqdm


[문서 0] : page_content='인공지능은 더 나은 진단을 위해 의료 분야에 적용될 수 있습니다.'
[문서 1] : page_content='테슬라의 자율 주행 기술은 자동차 분야의 선도적인 혁신입니다.'
[문서 2] : page_content='기계 학습은 많은 산업을 혁신하고 있습니다.'
[문서 3] : page_content='나는 공상 과학 소설을 읽는 것을 좋아합니다.'
[문서 4] : page_content='일론 머스크의 사업들은 기술 분야에 큰 영향을 미쳤습니다.'
[문서 5] : page_content='이것은 특정한 문맥이 없는 일반적인 문장입니다.'
[문서 6] : page_content='이 문서는 자동차 산업에 대한 AI의 영향을 다룹니다.'
[문서 7] : page_content='모나리자는 세계에서 가장 유명한 그림 중 하나입니다.'
[문서 8] : page_content='신경망은 현대 AI 시스템의 핵심 구성 요소입니다.'
[문서 9] : page_content='AI 윤리는 오늘날 기술 중심의 세계에서 중요한 주제입니다.'


In [2]:
reordering = LongContextReorder()
reordered_docs = reordering.transform_documents(docs)
reordered_docs

[Document(metadata={}, page_content='테슬라의 자율 주행 기술은 자동차 분야의 선도적인 혁신입니다.'),
 Document(metadata={}, page_content='나는 공상 과학 소설을 읽는 것을 좋아합니다.'),
 Document(metadata={}, page_content='이것은 특정한 문맥이 없는 일반적인 문장입니다.'),
 Document(metadata={}, page_content='모나리자는 세계에서 가장 유명한 그림 중 하나입니다.'),
 Document(metadata={}, page_content='AI 윤리는 오늘날 기술 중심의 세계에서 중요한 주제입니다.'),
 Document(metadata={}, page_content='신경망은 현대 AI 시스템의 핵심 구성 요소입니다.'),
 Document(metadata={}, page_content='이 문서는 자동차 산업에 대한 AI의 영향을 다룹니다.'),
 Document(metadata={}, page_content='일론 머스크의 사업들은 기술 분야에 큰 영향을 미쳤습니다.'),
 Document(metadata={}, page_content='기계 학습은 많은 산업을 혁신하고 있습니다.'),
 Document(metadata={}, page_content='인공지능은 더 나은 진단을 위해 의료 분야에 적용될 수 있습니다.')]

# Hypothetical Document Embeddings(Hyde)
* RAG을 더 잘하기 위해서 질문을 LLM을 통해서 답변을 하게 하고, 해당 답변을 기반으로 RAG를 진행
* [관련논문](https://arxiv.org/abs/2212.10496)

## 구현 방법
* 간단하게 RAG를 하기 전에 LLM의 응답을 한번 더 구현(속도 확인 필요)
* Langchain의 HypotheticalDocumentEmbedder 사용

In [30]:
from langchain.chat_models import ChatOpenAI
from langchain_community.document_loaders import WikipediaLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceBgeEmbeddings
from langchain.vectorstores import Chroma
from langchain.prompts.chat import SystemMessagePromptTemplate, ChatPromptTemplate

openai_api_key = "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"

llm = ChatOpenAI(openai_api_key=openai_api_key)
chunk_size = 300
chunk_overlap = 100

# loading data
loader = WikipediaLoader(query="Steve Jobs", load_max_docs=5)
documents = loader.load()

# text splitting
text_splitter = RecursiveCharacterTextSplitter(chunk_size = chunk_size, chunk_overlap = chunk_overlap)
docs = text_splitter.split_documents(documents=documents)

embedding_function = HuggingFaceBgeEmbeddings(
    model_name = "BAAI/bge-small-en-v1.5",
    model_kwargs = {'device':'cpu'},
    encode_kwargs = {'normalize_embeddings':True}
)

# creating vector store
db = Chroma.from_documents(documents = docs,embedding=embedding_function,persist_directory = "output/steve_jobs_for_hyde.db")
# create the retriever
base_retriever = db.as_retriever(search_kwargs = {"k":5})

def get_hypo_doc(query):
    template = """Imagine you are an expert writing a detailed explanation on the topic: '{query}'
    Your response should be comprehensive and include all key points that would be found in the top search result."""

    system_message_prompt = SystemMessagePromptTemplate.from_template(template = template)
    chat_prompt = ChatPromptTemplate.from_messages([system_message_prompt])
    messages = chat_prompt.format_prompt(query = query).to_messages()
    response = llm(messages = messages)
    hypo_doc = response.content
    return hypo_doc

query = 'When was Steve Jobs fired from Apple?'
print(get_hypo_doc(query=query))



  lis = BeautifulSoup(html).find_all('li')


Steve Jobs was fired from Apple on September 17, 1985. The decision to remove Jobs from his position as the company's chairman and CEO was made by the Apple board of directors, led by John Sculley, who was brought in as CEO in 1983. The power struggle between Jobs and Sculley, as well as disagreements over the direction of the company and its future product lines, ultimately led to Jobs' ousting from the company he co-founded.

Jobs' departure from Apple was a significant event in the company's history, as he was seen as the visionary behind many of Apple's early successes, including the development of the Macintosh computer. Following his departure, Jobs went on to found NeXT Inc. and later acquired Pixar Animation Studios, where he played a pivotal role in the creation of successful films like Toy Story.

Despite being fired from Apple, Jobs eventually returned to the company in 1997 when Apple acquired NeXT, bringing him back into the fold. His return marked the beginning of a new e

In [31]:
# 생성된 답변을 기반으로 문서 탐색
matched_doc = base_retriever.get_relevant_documents(query = get_hypo_doc(query))
print(matched_doc)



In [32]:
from langchain.chains import HypotheticalDocumentEmbedder

hyde_embedding_function = HypotheticalDocumentEmbedder.from_llm(llm = llm, base_embeddings = embedding_function, prompt_key = 'web_search' )
doc_db = Chroma.from_documents(docs, hyde_embedding_function,persist_directory='output/steve_job_hyde_chains')
matched_docs_new = doc_db.similarity_search(query)

for doc in matched_docs_new:
    print(doc.page_content)
    print(' ')

In 1985, Jobs departed Apple after a long power struggle with the company's board and its then-CEO, John Sculley. That same year, Jobs took some Apple employees with him to found NeXT, a computer platform development company that specialized in computers for higher-education and business markets,
 
In 1985, Jobs departed Apple after a long power struggle with the company's board and its then-CEO, John Sculley. That same year, Jobs took some Apple employees with him to found NeXT, a computer platform development company that specialized in computers for higher-education and business markets,
 
In 1985, Jobs departed Apple after a long power struggle with the company's board and its then-CEO, John Sculley. That same year, Jobs took some Apple employees with him to found NeXT, a computer platform development company that specialized in computers for higher-education and business markets,
 
In 1985, Jobs departed Apple after a long power struggle with the company's board and its then-CEO, 