## <span style="color: Gold"> RAG

In [None]:
# RAG
# 우리회사의 복지제도는?
# LLM은 학습데이터에 없는 최신/특정 정보를 모름
# ==> 이를 RAG로 해결함

# RAG 해결책 (Retrieval Augmented Generation 검색 기반 생성) = 검색 + 생성
# “모델이 외부 문서에서 필요한 정보를 검색해 참고한 뒤, 그 정보를 바탕으로 답변을 생성하는 기술”
# 질문(query) → 벡터화 → 문서 벡터와 유사도 계산 → 관련 문서(top-k) 추출 → LLM으로 답 생성
# 1. 회사 문서에서 관련 정보 검색
# 2. 검색된 정보를 LLM에게 컨텍스트로 제공
# 3. LLM이 컨텍스 기반으로 정확한 답변 생성

# [준비 단계]
# 문서들 --> 청크(chunk)로 분할 --> 인덱스 생성(벡터로 변환) --> 벡터DB 저장
    # chunk : 문서를 쪼갠 작은 조각, 긴 문서도 여러 청크로 나누어 검색, 검색시 유사 문서(chunk)만 모델에게 전달 --> 토큰비용 절약
    # index : chunk를 벡터화해서 저장한 자료 구조

# [쿼리 단계]
# 질문 --> 벡터변환 --> 유사도 검색 --> 상위 k개 선택 --> 컨텍스트+질문 --> LLM --> 답변

In [None]:
# %pip install llama-index
# %pip install llama-index-embeddings-huggingface


In [None]:
# llama_index 
# RAG와 다름.. RAG 기반?? 


from llama_index.core import Document, VectorStoreIndex

import os
from dotenv import load_dotenv
load_dotenv()
from openai import OpenAI
client = OpenAI()


# 1단계. 문서 준비
document = [
    Document(text='대한민국의 수도는 서울입니다.'),
    Document(text='프랑스의 수도는 파리 입니다.')
]

# 2단계. 인덱스 생성 (자동으로 벡터화) VectorStoreIndex.from_documents : "문서-->벡터화--> 저장" 과정의 결과물
    # 각 문서를 청크로 나눔 
    # 각 청크를 벡터(숫자배열)로 변환 --> 임베딩 생성 , openAI에서 제공하는 embedding 모델을 사용해서 벡터화
    # 벡터를 인메모리 벡터 스토어에 저장 --> 빠른 유사도 검색 가능
index = VectorStoreIndex.from_documents(document,
                                        # embed_model="local"  # embed_model="local" 로컬 임베딩 사용 / 혹은 상기 openai API 사용하기
                                        )   

# 3단계. Query Engine 생성
    # 사용자가 질문(query)을 던지면
    # 인덱스(vectorstoreindex) 안에서 질문과 가장 유사한 청크를 찾아냄
    # 상위 k개 청크를 LLM에게 전달 --> 답 생성
    # 역할 : "검색 + 생성 연결고리"
query_engine = index.as_query_engine(similarity_top_k=2)  # similarity_top_k=2 : 질문(query)과 가장 유사한 청크 2개만 가져와!

# 4단계. 쿼리 실행  -------------> 문서에서 답변을 찾아냄
    # 질문 --> 유사청크검색 --> 답생성
response = query_engine.query('대한민국의 수도는 어디입니까?')
print(response)

서울


In [None]:
# Chunk 청크
# 문서검색의 최소 단위
# 모델이 한번에 처리할 수 있는 길이로 잘라낸 텍스트
# 사용하는 이유 : 모델에 입력할 수 있는 길이가 제한되어 있고, 문서가 길면 한번에 처리할 수 없어서 청크로 나눠서 처리함
# 벡터 DB에서 문서전체가 아니라 청크단위로 벡터화
# 질문과 유사한 작은 단위를 찾아 답변을 생성
# 전체 문서를 이해하는 대신 청크별로 처리해서 중요한 부분에 집중

# 작을수록 정확한 검색이 가능하지만 많은 api를 호출함
# 클수록 넓은 컨텍스트를 검색하지만 작은 api를 호출함
from llama_index.core import Settings
Settings.chunk_size = 512 # 512가 기본값
# Settings.chunk_overlap = 128 # 128이 기본값
# overlap 청크 간 겹침을 나타냄 --> 겹침 --> 문맥 유지 가능?
Settings.chunk_overlap = 50

# 유사도 임계값 설정
    # similarity_top_k 값이 너무 작으면 필요한 정보가 누락될 수 있음
    # 너무 크면 불필요한 청크까지 넣어서 토큰 비용 증가
    # 보통 2~5 정도로 설정해서 실험하는 게 일반적
from llama_index.core.postprocessor import SimilarityPostprocessor
qeury_engine = index.as_query_engine(
    similarity_top_k = 2,  # 유사도 상위 2
    node_posprocessors =[
        SimilarityPostprocessor(similarity_cutoff=0.7)  #유사도 0.7 미만의 문서는 제외 (노이즈 제거)
    ]
)

# 배치 처리
Settings.embed_batch_size = 100

## <span style="color: Gold"> 한국어 데이터 RAG 구현

In [None]:
# 한국어 데이터로 RAG 구현
from llama_index.core import Document, VectorStoreIndex, Settings
from llama_index.llms.openai import OpenAI
from llama_index.embeddings.openai import OpenAIEmbedding

# 1. LLM 임베딩 모델 설정 (벡터화를 담당하는 모델이 임베딩 모델) (한국어 데이터를 위해 임베딩 모델을 설정)
# index = VectorStoreIndex.from_documents(document)  ---> 이건 LlamaIndex가 내부적으로 기본 OpenAI 임베딩 모델을 자동으로 사용함
Settings.llm = OpenAI(model='gpt-4o-mini', temperature=0.1)
Settings.embed_model = OpenAIEmbedding(model='text-embedding-3-small')


In [None]:
# 2. 문서준비
documents = [
    Document(
        text="김치는 한국의 대표적인 발효 음식입니다. 배추에 고춧가루, 마늘, 생강 등을 넣어 만듭니다.",
        metadata={"source": "한국 음식 백과", "category": "반찬"}
    ),
    Document(
        text="비빔밥은 밥 위에 여러 가지 나물과 고기, 계란을 올려 고추장과 섞어 먹는 음식입니다.",
        metadata={"source": "한국 음식 백과", "category": "밥 요리"}
    ),
    Document(
        text="불고기는 양념한 소고기를 구워 먹는 한국의 전통 음식입니다. 달콤하고 짭짤한 맛이 특징입니다.",
        metadata={"source": "한국 음식 백과", "category": "고기 요리"}
    ),
    Document(
        text="떡볶이는 가래떡에 고추장 양념을 넣어 볶은 한국의 길거리 음식입니다. 달콤하고 매운 맛이 특징입니다.",
        metadata={"source": "한국 음식 백과", "category": "분식"}
    ),
]

In [16]:
# 3. 벡터 인덱스 생성
index = VectorStoreIndex.from_documents(documents)

In [None]:
# 4. 쿼리 엔진 생성
query_engine = index.as_query_engine (
    similarity_top_k = 2,
    # node_postprocessors = [SimilarityPostprocessor(similarity_cutoff=0.7)] # 데이터가 적거나 문장 표현이 다양하면 cutoff 실행안하는게 나음
)

In [None]:
# 5. 질문하기
questions = [
    '김치는 어떤 음식인가요?',
    '비빔밥을 어떻게 먹나요?',
    '한국의 고기 요리에는 뭐가 있나요?'
]

for q in questions:
    response = query_engine.query(q)
    print(f'질문 : {q}\n답변 : {response}')

질문 : 김치는 어떤 음식인가요?
답변:김치는 한국의 대표적인 발효 음식으로, 배추에 고춧가루, 마늘, 생강 등을 넣어 만들어집니다.
질문 : 비빔밥을 어떻게 먹나요?
답변:비빔밥은 밥 위에 여러 가지 나물과 고기, 계란을 올린 후 고추장과 섞어 먹습니다.
질문 : 한국의 고기 요리에는 뭐가 있나요?
답변:한국의 고기 요리 중 하나로 불고기가 있습니다. 불고기는 양념한 소고기를 구워 먹는 전통 음식으로, 달콤하고 짭짤한 맛이 특징입니다.


## <span style="color: Gold"> LLM 캐시

In [None]:
# 캐시없이 반복 호출 (동일한 질문을 반복하면) ---> OpenAI API 호출, 매번 모델에게 요청 --> 시간 오래 걸림, 비용 발생

import os
import time
from getpass import getpass
from openai import OpenAI
from dotenv import load_dotenv
load_dotenv()
client = OpenAI()

questions = '대한민국의 수도는'

start = time.time()
for i in range(100):
    response = client.chat.completions.create(
                    model ='gpt-4o-mini',
                    messages= [{'role':'user', 'content':questions}],
                    temperature=0
    )
    answer = response.choices[0].message.content
elapsed_time = time.time() - start
print(f'elapsed_time : {elapsed_time}') 

elapsed_time : 69.46046209335327


In [None]:
# 캐시
# 완전 일치 캐시 (Exact Match Cache)
# 본 코드 : 완전 일치 캐시 (Exact Match Cache)
# 동일한 입력 --> 저장된 응답 반환
# 장점 : 구현이 간단하고 100% 정확함
# 단점 : 완전히 같아야지만 작동

# 대한민국의 수도는?  캐시 히트
# 대한민국 수도는?    캐시 미스(다른 문자열)
# 한국의 수도는?      캐시 미스

cache = {}  # key --> questions , value --> answer 
response = []
start = time.time()

questions = '대한민국의 수도는'


for i in range(100):
    if questions in cache:  # 캐시히트 : 딕셔너리에 해당 key (questions)가 존재하는지 확인. 캐시에 이미 답이 있으면(캐시히트) API 호출 없이 바로 answer 가져오기
        answer = cache[questions]
    else:    # 캐시미스 : 캐시에 없으면 API 호출 후 답을 저장: cache[questions] = answer
        response = client.chat.completions.create(
                    model ='gpt-4o-mini',
                    messages= [{'role':'user', 'content':questions}],
                    temperature=0
        )
        answer = response.choices[0].message.content
        cache[questions] = answer

elapsed_time = time.time() - start
print(f'elapsed_time : {elapsed_time}') 



elapsed_time : 0.7181918621063232


In [None]:
# 의미적 캐시 (Semantic Cache)
# 의미가 비슷한 입력 --> 저장된 응답 반환
# 1. 들어온 질문을 임베딩으로 변환
# 2. 벡터DB (벡터 스토어)에서 유사한(근접한) 기존 쿼리 벡터를 검색
# 3. 상위 결과의 유사도 점수가 사전 정의한 임계값(theshold)보다 크면, 그 항목의 저장된 응답을 사용
# 4. 없으면 LLM을 호출해 응답을 생성하고, 질문+응답을 임베딩해 벡터 DB에 추가

# 단순 문자열 비교가 아니라 임베딩(벡터) 기반 유사도(보통 코사인 유사도 사용)를 사용

# 장점 : 
# 높은 히트율
# 다양한 표현을 허용해서 유연함을 가짐
# 비용 절감

# 단점
# 약간 느림
# 벡터 DB 필요

In [None]:
# %pip install chromadb

In [None]:
# 벡터 스토어 ---> DB
# 문서나 텍스트를 벡터로 변환한 후에 저장 --> 유사도 기반 검색 기능

import os
from openai import OpenAI
from dotenv import load_dotenv
load_dotenv()

import chromadb # 벡터데이터를 DB화함 : 로컬/인메모리/디스크에 벡터와 메타데이터를 저장하고 유사도 검색해 주는 벡터 DB 라이브러리.

# 클라이언트 생성
client = chromadb.Client() 

# 컬렉션 생성
  # create_collection("my_collection")은 컬렉션(테이블 같은 개념)을 만든 것. 컬렉션은 문서·아이디·임베딩·메타데이터를 저장.
collection = client.create_collection("my_collection")

# 문서와 임베딩 준비
texts = [
    '대한민국의 수도는 서울입니다.',
    '프랑스의 수도는 파리입니다.',
    '서울은 한국의 정치, 경제 중심지 입니다.'
]

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('all-MiniLM-L6-v2') # sentence-transformers 라이브러리의 경량 임베딩 모델 all-MiniLM-L6-v2를 사용해 텍스트를 벡터(임베딩)로 변환.
embeddings = model.encode(texts).tolist()
embeddings


  from .autonotebook import tqdm as notebook_tqdm
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


[[-0.023815011605620384,
  0.08707399666309357,
  0.07979419082403183,
  -0.010389572009444237,
  -0.038701947778463364,
  -0.02934098243713379,
  0.10985814779996872,
  0.015440731309354305,
  -0.011002902872860432,
  -0.009104116819798946,
  0.08716973662376404,
  -0.0460113100707531,
  0.04907647520303726,
  -0.07741817831993103,
  0.08031680434942245,
  -0.036522649228572845,
  0.04435156285762787,
  0.05164157971739769,
  -0.10573036968708038,
  0.031718213111162186,
  0.025493724271655083,
  -0.004908705595880747,
  0.029756704345345497,
  0.028301788493990898,
  -0.06878555566072464,
  -0.02731383591890335,
  0.005474005825817585,
  -0.012014486826956272,
  0.07081888616085052,
  0.04117826744914055,
  -0.020179208368062973,
  0.06898631900548935,
  0.028437988832592964,
  0.07568582147359848,
  -0.06454996764659882,
  0.044827889651060104,
  -0.06224120408296585,
  0.019267678260803223,
  -0.017469650134444237,
  -0.00829221773892641,
  -0.15329045057296753,
  -0.14902678132057

In [None]:
# 문서 추가
# collection.add로 컬렉션에 (id, document, embedding)을 저장. 이후 유사도 검색 시 이 임베딩들을 기준으로 탐색.
ids = ['doc1', 'doc2', 'doc3']
collection.add (
    ids=ids,
    documents=texts,
    embeddings=embeddings
)

In [4]:
# 유사도 검색
query = '조선의 수도는 어디인가요?'
query_embedding = model.encode([query]).tolist()
results = collection.query(
    query_embeddings=query_embedding,
    n_results=1
)
print(results)

{'ids': [['doc1']], 'embeddings': None, 'documents': [['대한민국의 수도는 서울입니다.']], 'uris': None, 'included': ['metadatas', 'documents', 'distances'], 'data': None, 'metadatas': [[None]], 'distances': [[0.3832096457481384]]}


In [7]:
# 다층 캐시 전략
# 메모리 (완전일치) - 미스 벡터DB(의미적) - 미스 LLM 호출

In [23]:
# 1. 완전 일치
class SimpleCache:
    def __init__ (self):
        self.cache = {} #딕셔너리
        self.hits = 0
        self.misses = 0
    def get (self,key):
        if key in self.cache:
            self.hits += 1
            return self.cache[key]
        self.misses += 1
        return None
    def set (self,key,value):
        self.cache[key] = value
    def state(self):
        total=self.hits + self.misses
        hit_rate = self.hits / total*100 if total > 0 else 0
        return {
            'hits' : self.hits,
            'misses' : self.misses,
            'hit_rate': hit_rate
        }

In [24]:
import openai
from openai import OpenAI
client = OpenAI()
def call_llm(question):
  response = client.chat.completions.create(
      model = 'gpt-4o-mini',
      messages = [{'role':'user', 'content':question}],
      temperature = 0
    )
  return response.choices[0].message.content


In [None]:
cache = SimpleCache()
questions = [
    '대한민국의 수도는?',
    '대한민국의 수도는?',  # 캐시 히트
    '한국의 수도는?',      # 캐시 미스(다른 문자열)
]
for q in questions:
  cached = cache.get(q)
  if cached:
    print(f'캐시 : {cached}')
  else:
    response = call_llm(q)
    cache.set(q,response)
    print(f' llm : {response}')
print(cache.state())

 llm : 대한민국의 수도는 서울입니다.
캐시 : 대한민국의 수도는 서울입니다.
 llm : 한국의 수도는 서울입니다.
{'hits': 1, 'misses': 2, 'hit_rate': 33.33333333333333}


In [37]:
# 2. 의미적 유사성 - 벡터 DB chromadb
import chromadb
from chromadb.utils.embedding_functions import OpenAIEmbeddingFunction

import os
from openai import OpenAI
from dotenv import load_dotenv
load_dotenv()
from openai import OpenAI
# client = OpenAI(api_key=os.environ['OPENAI_KEY'])
client = OpenAI() 

class SemanticCache:
    def __init__(self, name = 'semantic_cache4'):
        self.client = chromadb.Client()
        self.embed_fn = OpenAIEmbeddingFunction(  # chromadb 할때 필요한 레퍼???? 
            api_key= os.environ['OPENAI_API_KEY'],
            model_name="text-embedding-3-small"
        )
        self.collection = self.client.create_collection(
            name=name,
            embedding_function=self.embed_fn,
            metadata={'hnsw:space':'cosine'}
        )
    
    def get (self, query, threshold=0.2):   # 유사한게 있으면 가져오게함??
        results = self.collection.query(
            query_texts = [query],
            n_results = 1
        )
        print(f'get results : {results}')
        if results['distances'][0] and results['distances'][0][0] < threshold:
            return results['metadatas'][0][0]['response']
        return None
    
    def set (self, query, response):  # 데이터베이스화..?
        import uuid  #unique id를 생성
        self.collection.add(
            documents=[query],
            metadatas = [{'response' : response}],
            ids = [str(uuid.uuid4())]
        )


In [4]:
import uuid
uuid.uuid4()

UUID('177a09a6-75f6-4c80-bd08-ff38e25173ac')

In [None]:
# SemanticCache 사용
cache=SemanticCache(name='test2')

In [None]:
# SemanticCache 사용
questions = [
    '대한민국의 수도는?',
    '대한민국의 수도는?',  # 캐시 히트
    '한국의 수도는?',      # 캐시 미스(다른 문자열)
]
for q in questions:
  cached = cache.get(q)
  if cached:
    print(f'HIT : {q} - {cached}')
  else:
    response = call_llm(q)
    cache.set(q,response)
    print(f'MISS  : {q} - {response}')


get results : {'ids': [[]], 'embeddings': None, 'documents': [[]], 'uris': None, 'included': ['metadatas', 'documents', 'distances'], 'data': None, 'metadatas': [[]], 'distances': [[]]}
MISS  : 대한민국의 수도는? - 대한민국의 수도는 서울입니다.
get results : {'ids': [['e4750b8b-44bc-498e-a4b8-5ae20b0bf7a8']], 'embeddings': None, 'documents': [['대한민국의 수도는?']], 'uris': None, 'included': ['metadatas', 'documents', 'distances'], 'data': None, 'metadatas': [[{'response': '대한민국의 수도는 서울입니다.'}]], 'distances': [[2.205371856689453e-06]]}
HIT : 대한민국의 수도는? - 대한민국의 수도는 서울입니다.
get results : {'ids': [['e4750b8b-44bc-498e-a4b8-5ae20b0bf7a8']], 'embeddings': None, 'documents': [['대한민국의 수도는?']], 'uris': None, 'included': ['metadatas', 'documents', 'distances'], 'data': None, 'metadatas': [[{'response': '대한민국의 수도는 서울입니다.'}]], 'distances': [[0.19354510307312012]]}
HIT : 한국의 수도는? - 대한민국의 수도는 서울입니다.


- L1 메모리 내부 메모리 - dictionary
- L2 메모리 벡터 DB - 의미적 유사성
- L3 메모리 LLM호출

In [38]:
class MulltiLevelCache:
    def __init__(self) -> None :
        self.l1_cache =SimpleCache() # 메모리방식 dictionary 완전 일치
        self.l2_cache =SemanticCache() # chromaDB 벡터DB 유사도 방식
    
    def stats(self):
        print(f'L1 catch: {self.l1_cach.cache}')

    def get(self, key):
        cached = self.l1_cache.get(key)
        if cached:
            print('L1 캐시')
            return cached
        cached = self.l2_cache.get(key)
        if cached:
            print('L2 캐시')
            self.l1_cache.set(key,cached)
            return cached
        # LLM 호출
        print('LLM')
        response= call_llm(key)
        self.l1_cache.set(key, response) 
        self.l2_cache.set(key, response)
        return response

In [39]:
mlc = MulltiLevelCache()

In [44]:
mlc.get('한국의 수도는')

L1 캐시


'한국의 수도는 서울입니다.'