LLM 생성 결과물의 특징
- 다량의 사전 학습에 기반한 유연성과 활용성
  - 자연어 처리에 대한 깊은 이해와 높은 수준의 생성
- LLM의 답변은 학습 데이터에 전적으로 의존한다.
  - 익숙하지 않은 데이터에 대한 질문은 정확하지 않을 수 있다. "확률론적 앵무새"
  

RAG: 정확성을 높이는 방법
- 검색 증강 생성(Retrieval-Augmented Generation)
  - 데이터베이스에서 질의와 관련된 정보를 검색하여 이를 프롬프트에 함께 전달하는 방법 "프롬프트를 증강시킴"
  - LLM의 가장 대표적인 어플리케이션

RAG의 활용
- 예시 프롬프트
  - Context와 Question을 구분하여 제공
  - 할루시네이션을 최소화하고, 모르는 주제에 대해서도 답변할 수 있음

RAG의 Retrieval: 검색
- 정확한 Context를 제공하는 과정
  - 검색이 제대로 되지 않는다면, 출력이 제대로 될 수 없음
- 관련성을 어떻게 측정하는가?
  - 텍스트 간의 유사도 측정 방법: 임베딩 or 키워드 기반 비교

RAG의 5 step process
- Indexing
  - 데이터베이스 구성
- Processing
  - 입력 쿼리 전처리
- Searching
  - 쿼리가 주어지면, 가장 적합한 데이터 검색
- Argumenting
  - 데이터와 쿼리를 이용해 프롬프트 증강
- Generating
  - LLM에 입력하여 답변 생성

Indexing: 데이터 준비하기
- 하나의 Context에 전체 문서를 입력하는 것은 효과적이지 않음
  - 필요한 부분만 검색할 수 있도록 분리(Chunking)
  - e.g. 페이지 단위로 데이터베이스에 저장
- 일반적인 텍스트의 경우, 문자나 토큰 단위의 청킹 수행
  - 청크 사이즈: 각 청크의 크기
  - 최적의 청크 사이즈는 도메인/데이터마다 다를 수 있음

Indexing: 적절한 청크 사이즈 선택하기
- 청크 사이즈가 작은 경우
  - 주변 정보 활용 어려움
- 청크 사이즈가 큰 경우
  - 불필요한 정보 포함
  - 임베딩의 정확도 감소

Processing: 사용자 쿼리 처리하기
- 검색이 잘 되도록 하기 위한 전처리
  - RAG로 답변할 문제인지를 사전에 파악하기
- 너무 짧은 쿼리는
  - 의미 이해를 위한 정보가 불충분
  - 이전 대화 내역을 고려하여 Contextualize
- 너무 긴 쿼리는
  - 불필요한 정보가 포함
  - 요약하거나 일부 내용 삭제

Searching: 쿼리와 적합한 데이터 검색하기
- Semantic 검색과 Lexical 검색
  - Embedding 기반의 Semantic 검색
    - 정확하게 일치하지 않아도 유사한 의미를 탐색
  - Keyword 기반의 Lexical 검색 (BM25, TF-IDF)
    - 정확하게 일치하는 경우에는 높은 가중치
    - 모델명, 법령 등 용어 검색에 유리
  - Semantic 검색의 경우, 벡터 데이터베이스를 활용
    - 최근 흐름으로 두 검색을 결합한 Hybrid Search

Searching: 벡터 데이터베이스는 임베딩 저장 공간
- 벡터 형태의 데이터 저장 및 검색에 최적화된 소프트웨어
  - 비정형 데이터를 임베딩으로 변환하고, 이를 저장 및 검색
  - 트랜스포머 기반 기존 Text Embedding 기술 활용
- 자연어, 그래프, 이미지 등의 데이터가 많아지면서 중요도 증가
  - LLM뿐만 아니라 데이터베이스 자체로도 활용

Searching: 벡터 DB 활용 예시
- 검색: 질문(Query)과 청크(Chunk) 비교
  - 질문의 임베딩과 청크들의 임베딩 유사도 계산
  - Top K Search 후 Return
- 청크 검색 후
  - Task에 따른 활용
    - RAG: LLM 프롬프트에 추가하여 답변 생성
    - Recommendation: 해당 상품 혹은 문서 전달

Searching: 대표적 Vector Database
- Pinecone: 클라우드 기반의 유료 서비스
- Milvus, Qdrant, Chroma, Weaviate: 무료 사용 지원
- Popularity 순위
  - https://db-engines.com/en/ranking/vector+dbms
  - Elasticsearch와 같이 Vector 지원되는 Engine 사용해도 됨
- Vector Database의 Metric Types
  - Cosine Distance
    - 1-Cosine Similarity
  - Euclidean Distance (L2 Distance)
    - 벡터 간의 직선 거리
  - MMR
    - 다양성을 고려한 방법
    - Alpha * 쿼리와의 유사성 - (1 - Alpha) * (Context 중 가장 가까운 청크와의 유사성) 순으로 검색

Hugging Face 공개 모델과 공개 임베딩을 이용한 RAG 실습
- RAG는 Retrieval-Augmented Generation의 약자
- 질문이 주어지면 관련 있는 문서를 찾아 프롬프트에 추가하는 방식의 어플리케이션
- RAG의 과정
1. Indexing: 문서를 받아 검색이 잘 되도록 저장
2. Processing: 입력 쿼리를 전처리하여 검색에 적절한 형태로 변환
3. Search(Retrieval): 질문이 주어진 상황에서 가장 필요한 참고자료를 검색
4. Augmenting: Retrieval의 결과와 입력 프롬프트를 이용해 LLM에 전달할 프롬프트를 생성
5. Generation: LLM이 출력을 생성
  
오른쪽 위 ▼ 화살표 클릭 --> 런타임 유형 변경 --> T4 GPU 설정  
LLM 모델은 Alibaba Cloud의 Qwen2.5-7b-instruct  
Embedding 모델은 Microsoft의 Multilingual-E5-small

In [None]:
!pip install pymupdf sentence_transformers wikipedia langchain langchain-community langchain_huggingface bitsandbytes accelerate huggingface_hub langchain_chroma

모델 불러오기

In [None]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
import transformers

model_id = 'Qwen/Qwen2.5-7B-Instruct'

# 양자화
bnb_config = BitsAndBytesConfig(
    load_in_4bits=True,  # 4비트 양화
    bnb_4bit_use_double_quant=True,  # 이중 양자화
    bnb_4bit_quant_type='nf4',  # 분위수 기반 양자화
    bnb_4bit_compute_dtype=torch.bfloat16  # 원 모델의 가중치가 bf16임을 표시
)

tokenizer = AutoTokenizer.from_pretrained(
    model_id,
)

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype='auto',
    quantization_config=bnb_config,
    device_map={"": 0},
)

In [None]:
from transformers import pipeline

gen_config = dict(
    do_sample=True,  # 확률 기반의 샘플링 표시
    max_new_tokens=512,  # 최대 512 토큰 출력
    repetition_penalty=1.05,  # 반복 페널티
    temperature=0.1,
    top_p=0.8,  # 누적확률 기반 상위 0.8 이내 토큰만 샘플링
    top_k=20,  # Top 20 토큰만 샘플링
)

pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    return_full_text=False,  # 입력을 함께 출력할지 여부
    **gen_config,
)

랭체인과 파이프라인 연결하기

In [None]:
from langchain_huggingface import HuggingFacePipeline, ChatHuggingFace

llm = HuggingFacePipeline(pipeline=pipe)
chat_model = ChatHuggingFace(llm=llm, tokenizer=tokenizer)

RAG Prompt 구성하기

In [None]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# 성능 향상을 위한 영문 프롬프트 사용
RAG_prompt = ChatPromptTemplate(
    [
        (
            'system',
            '''
            Answer the user's Question from the Context.
            Keep your answer ground in the facts of the Context.
            If the Context doesn't contain the facts to answer, just output '답변할 수 없습니다.'.
            Please answer in Korean.
            '''
        ),
        (
            'user',
            '''
            Context: {context}
            ---
            Question: {question}
            '''
        )
    ]
)

벡터 데이터베이스 만들기  
오픈 임베딩을 hugging face에서 불러와 저장

In [None]:
# 가장 많이 사용하는 좋은 성능의 임베딩 모델은 BAAI/bge-m3 2~3GB
# 이번 실습에서는, Multilingual 모델 중 작은 모델인 intfloat/multilingual-e5-small 사용
from sentence_transformers import SentenceTransformer

model_name = 'intfloat/multilingual-e5-small'
emb_model = SentenceTransformer(model_name, device='cpu')  # CPU 설정으로 모델 불러오기

emb_model.save('./e5_small')  # 로컬 폴더에 모델 저장

del emb_model

import gc
gc.collect()  # 메모리 정리

오프라인에서 저장한 임베딩 모델을 다시 불러온다.

In [None]:
from langchain_huggingface import HuggingFaceEmbeddings

# 허깅페이스 포맷의 임베딩 모델 불러오기
embeddings = HuggingFaceEmbeddings(
    model_name='./e5_small',
    model_kwargs={'device': 'cuda'}  # CUDA(GPU) 사용 시 속도도 향상되나 GPU 오버 주의
)

벡터 데이터베이스에 저장할 데이터를 수집  
papers.zip 파일을 압축 해제

In [None]:
import zipfile

with zipfile.ZipFile('papers.zip', 'r') as zip_ref:
  zip_ref.extractall('.')

In [None]:
from langchain.schema import Document
from glob import glob

path = './papers/*.pdf'
glob(path)  # glob은 경로의 목록을 모두 가져오는 파이썬 기본 라이브러리

PyMuPDFLoader는 PDF 파일의 텍스트를 불러온다.  
이 때, 데이터의 형식은 Document 형식으로 저장된다.

In [None]:
import glob
from langchain_community.document_loaders import PyMuPDFLoader

loader = PyMuPDFLoader('./papers/qwen2_5_paper.pdf')
pages = loader.load()
pages[0]  # 페이지별 Document Class로 저장

전체 파일에 대해 모두 저장  
페이지별 저장된 문서에 대해 청킹 따로하지 않음

In [None]:
# 모든 PDF 파일을 glob으로 찾음
pdf_files = glob.glob("./papers/*.pdf")

# 각 PDF 파일에서 페이지별로 내용을 불러와 하나로 합침
pages = []

for i, path_paper in enumerate(pdf_files):
  loader = PyMuPDFLoader(path_paper)
  pages += loader.load()

print('Total Pages: ', len(pages))
pages[2]

무작위 폴더명을 생성하고 데이터베이스 저장

In [None]:
# CPU 작업이므로 오래 걸릴 수 있음
import uuid
from langchain_chroma import Chroma

# 랜덤 폴더명 생성
random_dir = f"./RAG_db_{str(uuid.uuid4())[:8]}"
print(random_dir)

db = Chroma.from_documents(
    documents=pages,
    embedding=embeddings,
    persist_directory=random_dir,  # 저장할 디렉토리 위치, 생략하면 메모리 저장
    collection_metadata={'hnsw:space':'l2'}  # l2 distance 검색
  )

retriever = db.as_retriever(search_kwargs={'k': 2})  # Top 2 검색을 수행하는 retriever

In [None]:
from langchain.schema.runnable import RunnablePassthrough
from langchain_core.runnables import RunnableParallel
from langchain.schema.output_parser import StrOutputParser
from langchain.prompts import ChatPromptTemplate

RAG_prompt.pretty_print()

질문이 한국어보다는 영어면 더 잘 동작할 것이므로 영문 변환 체인을 구성

In [None]:
translate_prompt = ChatPromptTemplate(
    [
        (
            'system',
            'Trnaslate the following Question to English.'
        ),
        (
            'user',
            'Question: {question}'
        )
    ]
)

translate_chain = translate_prompt | chat_model | StrOutputParser()

translate_chain을 연결하여 전체 체인을 구성

In [None]:
def format_docs(docs):
  return "\n---\n".join([doc.page_content for doc in docs])

# retriever: question을 받아와서 context 검색하고 document 반환
# format_docs: 리스트로 document 형태를 받아 텍스트로 변환
# RunnablePassthrough(): 체인의 입력을 그대로 저장
rag_chain = (
    {"context": translate_chain | retriever | format_docs, "question": RunnablePassthrough()}
    | RAG_prompt
    | chat_model
    | StrOutputParser()
)

In [None]:
rag_chain.invoke("Qwen 2.5 Technical Report의 저자는 누구인가요?")  # 답변 18초

In [None]:
# context 증강 확인하기

rag_chain_from_docs = (
    RAG_prompt
    | chat_model
    | StrOutputParser()
)

rag_chain_with_source = RunnableParallel(
  {"context": translate_chain | retriever | format_docs, "question": RunnablePassthrough()}
).assign(answer=rag_chain_from_docs)

rag_chain_with_source.invoke("e5의 저자는 누구인가요?")

In [None]:
rag_chain_with_source.invoke("Qwen 2.5는 어떤 모델인가요?")

만약 구글 코랩이 아닌 PC 환경에서 작업을 수행하거나 모델을 API 형태로 서빙하여 구현하고 싶으면 Ollama(https://ollama.com/)을 사용하면 쉬운 구현 가능

Groq, Sambanova 등의 무료 API를 사용해 대형 모델 테스트 가능