# RAG Implementation with Dorna-Llama3-8B-Instruct

This notebook implements a Retrieval-Augmented Generation (RAG) system using:
- ChromaDB for vector storage and retrieval
- Sentence Transformer for embedding generation
- Llama3 for text generation

## 1. Import Dependencies

In [None]:
import sys
import time
import torch
import random
import chromadb
from llama_cpp import Llama
from sentence_transformers import SentenceTransformer
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

  from .autonotebook import tqdm as notebook_tqdm


## 2. Load Sample Data

In [2]:
# Define knowledge base chunks about NovaCloud service
context_data = {
    "services": '''
شرکت نواکلود سه سرویس اصلی ارائه می‌دهد:  
1. نوااستورج (NovaStorage) – یک سرویس ذخیره‌سازی ابری که برای شرکت‌های بزرگ طراحی شده است و امکان رمزگذاری سرتاسری (E2EE) و پشتیبان‌گیری خودکار را دارد.  
2. نواکامپیوتر (NovaCompute) – یک سرویس پردازش ابری که از پردازنده‌های ZetaCore X200 استفاده می‌کند و برای مدل‌های یادگیری ماشین سنگین بهینه‌سازی شده است.  
3. نواکانکت (NovaConnect) – یک پلتفرم شبکه خصوصی ابری (VPC) که به شرکت‌ها امکان ایجاد زیرشبکه‌های ایزوله با IP ثابت خصوصی را می‌دهد.  
''',
    "pricing": '''
نواکلود سه طرح قیمت‌گذاری ارائه می‌دهد:  
- طرح پایه (Basic): شامل ۵۰ گیگابایت فضای ذخیره‌سازی و ۲ هسته پردازشی با هزینه‌ی ۱۵ دلار در ماه  
- طرح حرفه‌ای (Pro): شامل ۵۰۰ گیگابایت فضای ذخیره‌سازی، ۸ هسته پردازشی و ترافیک نامحدود با هزینه‌ی ۶۰ دلار در ماه  
- طرح سازمانی (Enterprise): شامل ۵ ترابایت فضای ذخیره‌سازی، ۳۲ هسته پردازشی، و قابلیت تنظیم شبکه خصوصی اختصاصی با هزینه‌ی ۲۰۰ دلار در ماه  
''',
    "security": '''
نواکلود امنیت داده‌ها را با سه مکانیزم کلیدی تضمین می‌کند:  
- رمزگذاری سرتاسری (E2EE) برای داده‌های ذخیره‌شده در NovaStorage  
- احراز هویت چندمرحله‌ای (MFA) برای ورود به تمامی سرویس‌ها  
- فایروال هوشمند که تنها IPهای تأیید‌شده را به شبکه NovaConnect متصل می‌کند  
''',
    "uptime": '''
در سه ماه گذشته، NovaCompute در ۹۸.۹٪ مواقع بدون اختلال کار کرده است، اما یک قطعی ۲ ساعته در تاریخ ۱۵ فوریه ۲۰۲۴ به دلیل بروزرسانی سخت‌افزاری رخ داده است. در همین مدت، NovaStorage بدون هیچ اختلالی فعال بوده است.  
'''
}

# Convert dictionary to list of chunks for embedding
chunks = list(context_data.values())

## 3. Configure Embedding Model

In [3]:
# Load embedding model
def load_embedding_model(model_name='all-MiniLM-L6-v2'):
    """Load and configure the sentence transformer model for embeddings"""
    embedding_model_path = f"./models/{model_name}"
    
    # Load model from local path
    embedding_model = SentenceTransformer(embedding_model_path)
    
    # Create embedding function for ChromaDB
    sentence_transformer_ef = embedding_functions.SentenceTransformerEmbeddingFunction(
        model_name=model_name
    )
    
    return embedding_model, sentence_transformer_ef

# Initialize models
embedding_model, sentence_transformer_ef = load_embedding_model()

## 4. Set Up Vector Database

In [4]:
def setup_vector_db(collection_name="novacloud_knowledge", embedding_function=None):
    """Initialize ChromaDB and create or get collection"""
    client = chromadb.PersistentClient(path="./chromadb")
    
    # Get or create collection
    collection = client.get_or_create_collection(
        name=collection_name,
        metadata={"hnsw:space": "cosine"},  # Use cosine similarity for matching
        embedding_function=embedding_function
    )
    
    return client, collection

# Set up ChromaDB
chroma_client, collection = setup_vector_db(embedding_function=sentence_transformer_ef)

## 5. Add Documents to Vector Database

In [5]:
def add_documents_to_collection(collection, documents, embedding_model):
    """Add documents to ChromaDB collection with embeddings"""
    # Generate embeddings for documents
    embeddings = embedding_model.encode(documents)
    
    # Add documents with embeddings to collection
    collection.add(
        embeddings=embeddings,
        documents=documents,
        ids=[str(i) for i in range(len(documents))]
    )
    
    return len(documents)

# Add documents to collection
num_added = add_documents_to_collection(collection, chunks, embedding_model)
print(f"Added {num_added} documents to vector database")

Add of existing embedding ID: 0
Add of existing embedding ID: 1
Add of existing embedding ID: 2
Add of existing embedding ID: 3
Add of existing embedding ID: 0
Add of existing embedding ID: 1
Add of existing embedding ID: 2
Add of existing embedding ID: 3
Add of existing embedding ID: 0
Add of existing embedding ID: 1
Add of existing embedding ID: 2
Add of existing embedding ID: 3
Add of existing embedding ID: 0
Add of existing embedding ID: 1
Add of existing embedding ID: 2
Add of existing embedding ID: 3
Add of existing embedding ID: 0
Add of existing embedding ID: 1
Add of existing embedding ID: 2
Add of existing embedding ID: 3
Add of existing embedding ID: 0
Add of existing embedding ID: 1
Add of existing embedding ID: 2
Add of existing embedding ID: 3
Add of existing embedding ID: 0
Add of existing embedding ID: 1
Add of existing embedding ID: 2
Add of existing embedding ID: 3
Add of existing embedding ID: 0
Add of existing embedding ID: 1
Add of existing embedding ID: 2
Add of e

Added 4 documents to vector database


## 6. Implement Retrieval Function

In [6]:
def retrieve_relevant_documents(query, collection, embedding_model, top_k=1, similarity_threshold=0.7):
    """Retrieve relevant documents based on semantic similarity"""
    # Create embedding for query
    query_embedding = embedding_model.encode([query])
    
    # Query the collection
    results = collection.query(
        query_embeddings=query_embedding,
        n_results=top_k
    )
    
    # Extract results
    documents = results["documents"][0] if results["documents"] else ["No relevant information found."]
    distances = results["distances"][0] if results["distances"] else [1.0]  # Higher distance = less relevant
    
    # Print similarity scores for debugging
    print(f"Similarity scores: {[1-d for d in distances]}")
    
    # Optional: Filter by similarity threshold
    # filtered_docs = [doc for doc, dist in zip(documents, distances) if 1-dist >= similarity_threshold]
    # return filtered_docs if filtered_docs else ["No sufficiently relevant information found."]
    
    return documents

# Test retrieval function
test_query = "کدام سرویس نواکلود برای ذخیره‌سازی ابری استفاده می‌شود؟"
retrieved_docs = retrieve_relevant_documents(test_query, collection, embedding_model)
print(f"Retrieved document: {retrieved_docs[0][:100]}...")

Similarity scores: [0.5962998214527002]
Retrieved document: 
نواکلود امنیت داده‌ها را با سه مکانیزم کلیدی تضمین می‌کند:  
- رمزگذاری سرتاسری (E2EE) برای داده‌ها...


## 7. Load LLM for Generation

In [7]:
device = 'auto'
def load_llm_model(model_path="./models/Dorna-Llama3-8B-Instruct/"):
    """Load and configure the LLM for text generation"""

    tokenizer = AutoTokenizer.from_pretrained(model_path, local_files_only=True) # , local_files_only=True
    llm_model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device, local_files_only=True) # , offload_folder=offload_folder_path # local_files_only=True, 
    llm_model.config.pad_token_id = llm_model.config.eos_token_id
    llm_pipeline = pipeline(
        "text-generation", #task
        model=llm_model,
        tokenizer=tokenizer,
        torch_dtype=torch.bfloat16,
        trust_remote_code=True,
        device_map=device,
        # max_length=200,
        do_sample=True,
        top_k=10,
        temperature=0.7,
        num_return_sequences=1,
        eos_token_id=tokenizer.eos_token_id
    )
    return llm_pipeline
# Load LLM Model
# 
llm = load_llm_model()

Loading checkpoint shards: 100%|██████████| 5/5 [00:12<00:00,  2.46s/it]
Some parameters are on the meta device because they were offloaded to the cpu.
Device set to use cuda:0


## 8. Create RAG Pipeline

In [8]:
# Define prompt template
PROMPT_TEMPLATE = '''
تو یک دستیار متخصص و پشتیبانی فنی وضعیت سرویس ها هستی که با توجه به دانش پایه، به کاربر پاسخ کمک کننده میدی.

تاریخچه مکالمات:
{history}

دانش پایه:
{context}

سوال کاربر:
{prompt}
'''

# Initialize conversation history
conversation_history = []

def summarize_query(query,llm=llm):
    """Summarize query using the LLM"""

    prompt_template_summary = f'''
    تو یک دستیار هستی که وظیفه تو خلاصه کردن متن است. سعی نکن به کاربر جواب بدی فقط تشریفات رو از بین ببر و تا جایی که امکان داره خلاصه کن. فقط تا جایی پرامپت کاربر رو کوتاه کن که به هسته اصلی مطلب آسیبی وارد نشه.
    {query}
    '''

    sequences = llm(prompt_template_summary)
    response = sequences[0]['generated_text']


    print(f"Summarized version: {response}")
    return response


def retrieve_context(query, collection=collection, embedding_model=embedding_model):
    """Retrieve relevant context based on the query"""
    docs = retrieve_relevant_documents(query, collection, embedding_model)
    return "\n".join(docs)

def generate_response(model_input, llm=llm):
    """Generate response using the LLM"""

    sequences = llm(model_input)
    response = sequences[0]['generated_text']

    return response

def rag_chat(user_query, history=None):
    """Complete RAG pipeline: Retrieve → Generate → Respond"""
    if history is None:
        history = conversation_history
    
    # Summarize input query 
    # user_query_summarized = summarize_query(user_query)

    # Retrieve relevant context
    context = retrieve_context(user_query)
    
    # Format conversation history
    history_text = "\n".join(history)
    
    # Create prompt with context and history
    prompt = PROMPT_TEMPLATE.format(
        history=history_text,
        context=context, 
        prompt=user_query
    )
    
    # Generate response
    response = generate_response(prompt)
    
    # Summarize ouput query 
    # response_summarized = summarize_query(response)


    # Update conversation history
    history.append(f"سوال کاربر: {user_query}")
    history.append(f"پاسخ کمک کننده: {response}")
    
    return response

## 9. Text Streaming Utility

In [9]:
def stream_text(text, min_delay=0.02, max_delay=0.08):
    """Display text in a streaming manner, character by character"""
    for char in text:
        sys.stdout.write(char)
        sys.stdout.flush()
        
        # Dynamic delay for natural effect
        time.sleep(random.uniform(min_delay, max_delay))
    
    print()  # New line after completion

## 10. Test RAG System

In [10]:
# Example 1: Basic question
query1 = "کدام سرویس نواکلود برای ذخیره‌سازی ابری استفاده می‌شود؟"
print(f"User query: {query1}")

# Reset conversation history
conversation_history = []

# Time the response
start = time.time()
response = rag_chat(query1)
end = time.time()

# Stream or print the response
stream_option = input("Stream response? (y/n): ").lower().strip() == 'y'
if stream_option:
    stream_text(response)
else:
    print(response)

print(f"---\nProcessing time: {end - start:.2f} seconds")

User query: کدام سرویس نواکلود برای ذخیره‌سازی ابری استفاده می‌شود؟
Similarity scores: [0.5962998214527002]

تو یک دستیار متخصص و پشتیبانی فنی وضعیت سرویس ها هستی که با توجه به دانش پایه، به کاربر پاسخ کمک کننده میدی.

تاریخچه مکالمات:


دانش پایه:

نواکلود امنیت داده‌ها را با سه مکانیزم کلیدی تضمین می‌کند:  
- رمزگذاری سرتاسری (E2EE) برای داده‌های ذخیره‌شده در NovaStorage  
- احراز هویت چندمرحله‌ای (MFA) برای ورود به تمامی سرویس‌ها  
- فایروال هوشمند که تنها IPهای تأیید‌شده را به شبکه NovaConnect متصل می‌کند  


سوال کاربر:
کدام سرویس نواکلود برای ذخیره‌سازی ابری استفاده می‌شود؟
- NovaStorage
- NovaCompute
- NovaNetwork

پاسخ:
نواکلود
---
Processing time: 31.83 seconds


In [11]:
# Example 2: Follow-up question
query2 = "میشه بیشتر راجع به این سرویس توضیح بدی؟"
print(f"User query: {query2}")

# Time the response (using existing conversation history)
start = time.time()
response = rag_chat(query2)
end = time.time()

# Stream or print the response
if stream_option:
    stream_text(response)
else:
    print(response)

print(f"---\nProcessing time: {end - start:.2f} seconds")

User query: میشه بیشتر راجع به این سرویس توضیح بدی؟
Similarity scores: [0.608187841441516]


OutOfMemoryError: CUDA out of memory. Tried to allocate 1.96 GiB. GPU 0 has a total capacity of 11.76 GiB of which 276.31 MiB is free. Including non-PyTorch memory, this process has 11.47 GiB memory in use. Of the allocated memory 9.42 GiB is allocated by PyTorch, and 1.93 GiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)

In [None]:
# Example 3: Different topic question
query3 = '''
سلام و عرض ادب
وقت شما بخیر
من یک سوالی داشتم ازتون
امکانش هست بفرمایید که در طرح Pro چند هسته پردازشی ارائه می‌شود؟
ممنون از شما
'''
print(f"User query: {query3}")

# Reset conversation history
conversation_history = []

# Time the response
start = time.time()
response = rag_chat(query3)
end = time.time()

# Stream or print the response
if stream_option:
    stream_text(response)
else:
    print(response)

print(f"---\nProcessing time: {end - start:.2f} seconds")

## 11. RAG System Evaluation

Test with more complex queries to evaluate retrieval performance and answer quality.

In [None]:
# Add evaluation functions here if needed
def evaluate_retrieval(test_queries, ground_truth_answers):
    """Simple evaluation for retrieval quality"""
    # TODO: Implement evaluation metrics
    pass