### Import Necessary Dependencies

In [1]:
import fitz
from PIL import Image
import pytesseract
import io
import re
import os
import requests
import pickle
import numpy as np
from langchain.text_splitter import RecursiveCharacterTextSplitter
from sentence_transformers import SentenceTransformer
import faiss
from langchain.memory import ConversationBufferMemory
from sklearn.metrics.pairwise import cosine_similarity
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)

  from .autonotebook import tqdm as notebook_tqdm


### OCR for data extraction and Clean text function

In [2]:

def extract_text_from_pdf(pdf_path: str) -> str:
    custom_config = r'--oem 3 --psm 6 -l ben+eng'
    doc = fitz.open(pdf_path)
    all_text = ""
    for page_num in range(len(doc)):
        page = doc.load_page(page_num)
        pix = page.get_pixmap(dpi=300)
        img = Image.open(io.BytesIO(pix.tobytes("png")))
        text = pytesseract.image_to_string(img, config=custom_config)
        all_text += text + "\n\n"
    return all_text

def clean_bangla_ocr_text(raw_text: str) -> str:
    text = re.sub(r'\n{3,}', '\n\n', raw_text)
    text = re.sub(r'[ \t]+', ' ', text)
    text = re.sub(r' *\n *', '\n', text)
    text = re.sub(r'(\S)-\n(\S)', r'\1\2', text)
    text = re.sub(r'(?<![\редредред:])\n(?![\nтАв])', ' ', text)
    text = re.sub(r'\b(ржХ|ржЦ|ржЧ|ржШ|ржЩ|ржЪ|ржЫ|ржЬ|ржЭ|ржЮ|ржЯ|ржа|ржб|ржв|ржг|ржд|рже|ржж|ржз|ржи|ржк|ржл|ржм|ржн|ржо|ржп|рж░|рж▓|рж╢|рж╖|рж╕|рж╣|ржбрж╝|ржврж╝|ржпрж╝)\)', '', text)
    text = re.sub(r'[^\u0980-\u09FFA-Za-z0-9\s.,:;!?()\[\]\"\'\-тАУтАФ\n]', '', text)
    return text.strip()

### Chunking

In [3]:
def chunk_text(text, chunk_size=300, overlap=80):
    splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=overlap)
    return splitter.split_text(text)

### Embedding the text store FAISS database and Retriev from FAISS database

In [4]:
def embed_and_store(chunks, model_name="intfloat/multilingual-e5-large", faiss_dir="../faiss_index"):
    os.makedirs(faiss_dir, exist_ok=True)
    index_path = os.path.join(faiss_dir, "index.faiss")
    chunks_path = os.path.join(faiss_dir, "chunks.pkl")
    model = SentenceTransformer(model_name)
    if os.path.exists(index_path) and os.path.exists(chunks_path):
        index = faiss.read_index(index_path)
        with open(chunks_path, "rb") as f:
            chunks = pickle.load(f)
    else:
        embeddings = model.encode(chunks, show_progress_bar=True)
        dimension = embeddings.shape[1]
        index = faiss.IndexFlatL2(dimension)
        index.add(np.array(embeddings))
        faiss.write_index(index, index_path)
        with open(chunks_path, "wb") as f:
            pickle.dump(chunks, f)
    return index, chunks, model

def get_relevant_chunks(query, chunks, embedder, faiss_index, top_k=5):
    query_embedding = embedder.encode([query])
    D, I = faiss_index.search(query_embedding, top_k)
    return [chunks[i] for i in I[0]]

### Answer Generation using Ollama mistral model

In [5]:

def generate_answer_ollama(prompt, model="mistral", host="http://localhost:11434"):
    endpoint = f"{host}/api/generate"
    headers = {"Content-Type": "application/json"}
    payload = {
        "model": model,
        "prompt": prompt,
        "stream": False,
        "options": {
            "temperature": 0.2,  # Lower temperature for more focused answers
            "top_p": 0.85,
            "repeat_penalty": 1.1,
            "num_ctx": 3072  # Increased context window
        }
    }
    response = requests.post(endpoint, headers=headers, json=payload)
    if response.status_code == 200:
        return response.json()["response"].strip()
    else:
        return f"Error: {response.status_code} - {response.text}"

### Few Short Prompt Template

In [6]:
def format_prompt(context, question):
    return f"""ржЖржкржирж┐ ржПржХржЬржи ржмрзБржжрзНржзрж┐ржорж╛ржи рж╕рж╣ржХрж╛рж░рзАред ржирж┐ржЪрзЗрж░ ржкрзНрж░рж╕ржЩрзНржЧ ржкржбрж╝рзЗ ржкрзНрж░рж╢рзНржирзЗрж░ ржЙрждрзНрждрж░ ржжрж┐ржиред
                ржкрзНрж░рж╕ржЩрзНржЧ:
                {context}
                
                ржкрзНрж░рж╢рзНржи:
                {question}
                
                ржЙрждрзНрждрж░:"""

### Memory for recent inputs in the chat sequence and Evaluation matrix

In [8]:
memory = ConversationBufferMemory(return_messages=True)

def evaluate_rag_retrieval(query, context_chunks, generated_answer, embedder):
    context_text = " ".join(context_chunks)
    query_embedding = embedder.encode([query])
    context_embedding = embedder.encode([context_text])
    answer_embedding = embedder.encode([generated_answer])
    relevance = cosine_similarity(query_embedding, context_embedding)[0][0]
    groundedness = cosine_similarity(answer_embedding, context_embedding)[0][0]
    return relevance, groundedness

  memory = ConversationBufferMemory(return_messages=True)


In [9]:
text = extract_text_from_pdf("../data/HSC26-Bangla1st-Paper.pdf")
print("All text after extracting from pdf : ",text[:1000])

All text after extracting from pdf :  [16рзжрззрзж
HSC 26
- = >)
ржЕржирж▓рж╛ржЗржи ржмрзНржпрж╛ржЪ
ржмрж╛ржВрж▓рж╛
рззржо ржкрждрзНрж░
ржЖрж▓рзЛржЪрзНржп ржмрж┐рж╖ржпрж╝
ржЕржкрж░рж┐ржЪрж┐рждрж╛
ржЕржирж▓рж╛ржЗржи ржмрзНржпрж╛ржЪ рж╕ржорзНржкрж░рзНржХрж┐ржд ржпрзЗржХрзЛржирзЛ ржЬрж┐ржЬрзНржЮрж╛рж╕рж╛ржпрж╝,
ржХрж▓ ржХрж░рзЛ 16910


=o 1рзжрззрзм
/ ржирж┐ржорзНржиржмрж┐рждрзНржд ржмрзНржпржХрзНрждрж┐рж░ рж╣ржарж╛рзО ржмрж┐рждрзНрждрж╢рж╛рж▓рзА рж╣ржпрж╝рзЗ ржУржарж╛рж░ ржлрж▓рзЗ рж╕ржорж╛ржЬрзЗ ржкрж░рж┐ржЪржпрж╝ рж╕ржВржХржЯ рж╕ржорзНржкрж░рзНржХрзЗ ржзрж╛рж░ржгрж╛ рж▓рж╛ржн ржХрж░ржмрзЗред
/ рждрзОржХрж╛рж▓рзАржи рж╕ржорж╛ржЬ-рж╕ржнрзНржпрждрж╛ ржУ ржорж╛ржиржмрждрж╛рж░ ржЕржмржорж╛ржиржирж╛ рж╕ржорзНржкрж░рзНржХрзЗ ржЬрж╛ржирждрзЗ ржкрж╛рж░ржмрзЗред
/ рждрзОржХрж╛рж▓рзАржи рж╕ржорж╛ржЬрзЗрж░ ржкржгржкрзНрж░ржерж╛рж░ ржХрзБржкрзНрж░ржнрж╛ржм рж╕ржорзНржкрж░рзНржХрзЗ ржЬрж╛ржирждрзЗ ржкрж╛рж░ржмрзЗред
/ рждрзОржХрж╛рж▓рзЗ рж╕ржорж╛ржЬрзЗ ржнржжрзНрж░рж▓рзЛржХрзЗрж░ рж╕рзНржмржнрж╛ржмр

In [10]:
clean_text = clean_bangla_ocr_text(text)
print("After clean up the all text : ",clean_text[:1000])

After clean up the all text :  [16рзжрззрзж HSC 26 -  ) ржЕржирж▓рж╛ржЗржи ржмрзНржпрж╛ржЪ ржмрж╛ржВрж▓рж╛ рззржо ржкрждрзНрж░ ржЖрж▓рзЛржЪрзНржп ржмрж┐рж╖ржпрж╝ ржЕржкрж░рж┐ржЪрж┐рждрж╛ ржЕржирж▓рж╛ржЗржи ржмрзНржпрж╛ржЪ рж╕ржорзНржкрж░рзНржХрж┐ржд ржпрзЗржХрзЛржирзЛ ржЬрж┐ржЬрзНржЮрж╛рж╕рж╛ржпрж╝, ржХрж▓ ржХрж░рзЛ 16910
 o 1рзжрззрзм  ржирж┐ржорзНржиржмрж┐рждрзНржд ржмрзНржпржХрзНрждрж┐рж░ рж╣ржарж╛рзО ржмрж┐рждрзНрждрж╢рж╛рж▓рзА рж╣ржпрж╝рзЗ ржУржарж╛рж░ ржлрж▓рзЗ рж╕ржорж╛ржЬрзЗ ржкрж░рж┐ржЪржпрж╝ рж╕ржВржХржЯ рж╕ржорзНржкрж░рзНржХрзЗ ржзрж╛рж░ржгрж╛ рж▓рж╛ржн ржХрж░ржмрзЗ
 рждрзОржХрж╛рж▓рзАржи рж╕ржорж╛ржЬ-рж╕ржнрзНржпрждрж╛ ржУ ржорж╛ржиржмрждрж╛рж░ ржЕржмржорж╛ржиржирж╛ рж╕ржорзНржкрж░рзНржХрзЗ ржЬрж╛ржирждрзЗ ржкрж╛рж░ржмрзЗ
 рждрзОржХрж╛рж▓рзАржи рж╕ржорж╛ржЬрзЗрж░ ржкржгржкрзНрж░ржерж╛рж░ ржХрзБржкрзНрж░ржнрж╛ржм рж╕ржорзНржкрж░рзНржХрзЗ ржЬрж╛ржирждрзЗ ржкрж╛рж░ржмрзЗ
 рждрзОржХрж╛рж▓рзЗ рж╕ржорж╛ржЬрзЗ ржнржжрзНрж░рж▓рзЛржХрзЗрж░ рж╕рзНржмржнрж╛ржмржмрзИрж╢рж┐рж╖рзНржЯрзНр

In [11]:
chunks = chunk_text(clean_text) # Split the cleaned text into overlapping chunks for semantic search
index, chunks, embedder = embed_and_store(chunks) # Generate embeddings, build or load FAISS index, and return the embedder model

Batches: 100%|тЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИ| 13/13 [01:42<00:00,  7.91s/it]


### Sample questions for testing the RAG pipeline

In [12]:

sample_questions = [
    "ржЕржирзБржкржорзЗрж░ ржнрж╛рж╖рж╛ржпрж╝ рж╕рзБржкрзБрж░рзБрж╖ ржХрж╛ржХрзЗ ржмрж▓рж╛ рж╣ржпрж╝рзЗржЫрзЗ?",
    "ржЕржирзБржкржо ржХрж╛ржХрзЗ ржнрж╛ржЧрзНржпржжрзЗржмрждрж╛ ржмрж▓рзЗржЫрзЗржи?",
    "ржмрж┐ржпрж╝рзЗрж░ рж╕ржоржпрж╝ ржХрж▓рзНржпрж╛ржгрзАрж░ ржкрзНрж░ржХрзГржд ржмржпрж╝рж╕ ржХржд ржЫрж┐рж▓?",
    "ржЕржирзБржкржорзЗрж░ ржЬрзАржмржирзЗ ржорж╛ржорж╛рж░ ржнрзВржорж┐ржХрж╛ ржХрзА ржЫрж┐рж▓?",
    "'ржЕржкрж░рж┐ржЪрж┐рждрж╛' ржЧрж▓рзНржкрзЗ ржмрж┐ржпрж╝рзЗ ржнрзЗржЩрзЗ ржпрж╛ржУржпрж╝рж╛рж░ ржорзВрж▓ ржХрж╛рж░ржг ржХрзА ржЫрж┐рж▓?",
    "ржЧрж▓рзНржкрзЗ 'ржлрж▓рзНржЧрзБ ржиржжрзА' ржЙржкржорж╛рж░ ржорж╛ржзрзНржпржорзЗ ржХрзА ржмрзЛржЭрж╛ржирзЛ рж╣ржпрж╝рзЗржЫрзЗ?",
    "'ржЕржкрж░рж┐ржЪрж┐рждрж╛' ржЧрж▓рзНржкрзЗ ржЕржирзБржкржо ржирж┐ржЬрзЗржХрзЗ ржХрзАржнрж╛ржмрзЗ ржмрж░рзНржгржирж╛ ржХрж░рзЗржЫрзЗ?",
    "'ржЕржкрж░рж┐ржЪрж┐рждрж╛' ржЧрж▓рзНржкрзЗ ржпрзЗ ржХржирзЗ ржкрзНрж░рждрзНржпрж╛ржЦрзНржпрж╛ржи ржХрж░рзЗржЫрж┐рж▓, рждрж╛рж░ ржкрзНрж░рждрж┐ ржЕржирзБржкржорзЗрж░ ржжрзГрж╖рзНржЯрж┐ржнржЩрзНржЧрж┐ ржХрзЗржоржи ржЫрж┐рж▓?",
    "ржпржжрж┐ ржпрждрж╛, ржЖржорж┐ ржПржХржмрж╛рж░ ржмрж┐ржмрж╛рж╣ ржЖрж╕рж░рзЗ ржпрж╛ржЗ,  ржПржЗ ржмрж╛ржХрзНржпрзЗрж░ ржкрзЗржЫржирзЗ ржЕржирзБржкржорзЗрж░ ржорж╛ржирж╕рж┐ржХ ржЕржмрж╕рзНржерж╛ ржХрзА ржЫрж┐рж▓?",
    "ржЧрж▓рзНржкрзЗ ржорж╛ржорж╛рж░ 'ржмрж░ ржкржЫржирзНржжрзЗрж░ ржорж╛ржиржжржгрзНржб' ржХрзА ржЫрж┐рж▓?",
    "ржЕржирзБржкржоржХрзЗ 'ржнржжрзНрж░рж▓рзЛржХ' ржмрж▓рж╛ рж╣рж▓рзЗржУ рждрж╛рж░ ржоржзрзНржпрзЗ ржХрзА ржХрзА ржжрзБрж░рзНржмрж▓рждрж╛ ржЫрж┐рж▓?",
    "'ржЕржкрж░рж┐ржЪрж┐рждрж╛' ржЧрж▓рзНржкрзЗ ржмрж┐ржпрж╝рзЗрж░ ржЖрж╕рж░рзЗ ржХрзА ржзрж░ржирзЗрж░ ржЕржкржорж╛ржиржЬржиржХ ржШржЯржирж╛ ржШржЯрзЗржЫрж┐рж▓?",
    "ржЧрж▓рзНржкрзЗ 'ржпрж╛рж░ ржорзБржЦ рж╕рзБрж░рзВржк, рж╕рзЗ ржпржжрж┐ ржоржирзЗрж░ ржжрж┐ржХ ржжрж┐ржпрж╝рзЗ ржЕржпрзЛржЧрзНржп рж╣ржпрж╝ рждржмрзЗ?' тАУ ржПржЗ ржзрж░ржирзЗрж░ ржмржХрзНрждржмрзНржп ржХрзА ржмрзЛржЭрж╛ржпрж╝?",
    "ржЖрж▓рзЛржЪржирж╛ ржХрж░рзЛ: ржнрж╛рж╖рж╛рж░ рж╕рзМржирзНржжрж░рзНржп ржХрзЛржерж╛ржпрж╝?",
    "рж▓рж╛рж▓ржирзЗрж░ ржнрж╛ржмржирж╛ ржХрзЗржи ржЧрзБрж░рзБрждрзНржмржкрзВрж░рзНржг?",
    "рж╣рж╛рж╕ржи рж░рж╛ржЬрж╛ ржХрзАржнрж╛ржмрзЗ рж╕ржорж╛ржЬржХрзЗ ржжрзЗржЦрзЗржЫрзЗржи?",
    "рж╕рж╛рж╣рж┐рждрзНржп ржУ ржмрж╛рж╕рзНрждржмрждрж╛рж░ рж╕ржорзНржкрж░рзНржХ ржХрзА?",
    "What role did Upanupom's maternal uncle (mama) play in his marriage proposal?",
    "In the story 'Aparichita', why did the marriage not happen eventually?",
    "What is the symbolic meaning of the 'Phalgu River' metaphor in the story?",
    "How did Anupom perceive himself regarding wealth and societal status?",
    "What social critique does Tagore offer through the rejection of the marriage in 'Aparichita'?"
]
# Loop through questions
for i, question in enumerate(sample_questions, 1):
    relevant_chunks = get_relevant_chunks(question, chunks, embedder, index)
    context = "\n\n".join(relevant_chunks)
    
    # Memory chat history
    chat_history = "\n".join(
        [f"User: {m.content}" if m.type == "human" else f"Assistant: {m.content}" 
         for m in memory.chat_memory.messages[-6:]]
    )
    
    prompt = format_prompt(context, question)
    answer = generate_answer_ollama(prompt)

    # Update memory
    memory.chat_memory.add_user_message(question)
    memory.chat_memory.add_ai_message(answer)

    # Evaluate
    relevance_score, groundedness_score = evaluate_rag_retrieval(
        question, relevant_chunks, answer, embedder
    )

    print(f"\nЁЯФ╣ ржкрзНрж░рж╢рзНржи {i}: {question}")
    print(f"тЬЕ ржЙрждрзНрждрж░: {answer}")
    print(f"ЁЯУК RAG Evaluation:")
    print(f"   ЁЯФ╕ Relevance Score: {relevance_score:.4f}")
    print(f"   ЁЯФ╕ Groundedness Score: {groundedness_score:.4f}")
    print("-" * 90)


ЁЯФ╣ ржкрзНрж░рж╢рзНржи 1: ржЕржирзБржкржорзЗрж░ ржнрж╛рж╖рж╛ржпрж╝ рж╕рзБржкрзБрж░рзБрж╖ ржХрж╛ржХрзЗ ржмрж▓рж╛ рж╣ржпрж╝рзЗржЫрзЗ?
тЬЕ ржЙрждрзНрждрж░: ржЕржирзБржкржорзЗрж░ ржнрж╛рж╖рж╛ржпрж╝ "ржЕржирзНржиржкрзВрж░рзНржг" рж╢ржмрзНржжрзЗ рж╕рзБржкрзБрж░рзБрж╖ ржХрж╛ржХрзЗ ржмрж▓рж╛ рж╣ржпрж╝рзЗржЫрзЗред ржПржЯрж┐ ржЧржЬрж╛ржиржирзЗрж░ ( ржХрж╛рж░рзНрждрж┐ржХрзЗрж░ ( ржкрзНрж░ржЬрж╛ржкрждрж┐рж░ ржЕржирзНржиржкрзВрж░рзНржгрж╛рж░ рзнрзж рж╕рзБржкрзБрж░рзБрж╖ ржмржЯрзЗ рж╣ржпрж╝ред
ЁЯУК RAG Evaluation:
   ЁЯФ╕ Relevance Score: 0.8340
   ЁЯФ╕ Groundedness Score: 0.8370
------------------------------------------------------------------------------------------

ЁЯФ╣ ржкрзНрж░рж╢рзНржи 2: ржЕржирзБржкржо ржХрж╛ржХрзЗ ржнрж╛ржЧрзНржпржжрзЗржмрждрж╛ ржмрж▓рзЗржЫрзЗржи?
тЬЕ ржЙрждрзНрждрж░: ржорж╛ржорж╛ржХрзЗ ржнрж╛ржЧрзНржпржжрзЗржмрждрж╛ ржмрж▓рзЗржЫрзЗржиред
ЁЯУК RAG Evaluation:
   ЁЯФ╕ Relevance Score: 0.8566
   ЁЯФ╕ Groundedness Score: 0.7707
---------------------------------------------