In [1]:
!apt-get update
!apt-get install -y poppler-utils tesseract-ocr tesseract-ocr-ben
!pip install langchain langchain_google_genai pytesseract pdf2image faiss-cpu sentence-transformers langdetect numpy
!tesseract --version


0% [Working]            Get:1 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease [3,632 B]
0% [Waiting for headers] [Connecting to security.ubuntu.com (185.125.190.82)] [0% [Waiting for headers] [Connecting to security.ubuntu.com (185.125.190.82)] [                                                                               Get:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease [1,581 B]
Hit:3 http://archive.ubuntu.com/ubuntu jammy InRelease
Get:4 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [128 kB]
Get:5 https://r2u.stat.illinois.edu/ubuntu jammy InRelease [6,555 B]
Get:6 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages [1,853 kB]
Get:7 http://security.ubuntu.com/ubuntu jammy-security InRelease [129 kB]
Get:8 http://archive.ubuntu.com/ubuntu jammy-backports InRelease [127 kB]
Hit:9 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease
Hit:10 https://ppa.lau

tesseract 4.1.1
 leptonica-1.82.0
  libgif 5.1.9 : libjpeg 8d (libjpeg-turbo 2.1.1) : libpng 1.6.37 : libtiff 4.3.0 : zlib 1.2.11 : libwebp 1.2.2 : libopenjp2 2.4.0
 Found AVX512BW
 Found AVX512F
 Found AVX2
 Found AVX
 Found FMA
 Found SSE
 Found libarchive 3.6.0 zlib/1.2.11 liblzma/5.2.5 bz2lib/1.0.8 liblz4/1.9.3 libzstd/1.4.8


In [3]:
!pip install -U langchain-community

Collecting langchain-community
  Downloading langchain_community-0.3.27-py3-none-any.whl.metadata (2.9 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.10.1-py3-none-any.whl.metadata (3.4 kB)
Collecting httpx-sse<1.0.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.1-py3-none-any.whl.metadata (9.4 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.26.1-py3-none-any.whl.metadata (7.3 kB)
Collecting typing-inspect<1,>=0.4.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading typing_inspect-0.9.0-py3-none-any.whl.metadata (1.5 kB)
Collecting python-dotenv>=0.21.0 (from pydantic-settings<3.0.0,>=2.4.0->langchain-community)
  Downloading python_dotenv-1.1.1-py3-none-any.whl.metadata (24 k

In [4]:
import re
import unicodedata
from typing import List, Tuple
import numpy as np

from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
from langchain.schema import Document
from langchain_google_genai import ChatGoogleGenerativeAI

from langchain_core.prompts import PromptTemplate
from langchain_core.messages import HumanMessage, AIMessage
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain.chains.history_aware_retriever import create_history_aware_retriever
from langchain.chains.retrieval import create_retrieval_chain

import pytesseract
from pdf2image import convert_from_path
from langdetect import detect


# -------- OCR extraction --------
def extract_text_from_pdf(pdf_path: str, first_page: int = 3, last_page: int = 19) -> str:
    pages = convert_from_path(pdf_path, dpi=300, first_page=first_page, last_page=last_page)
    texts = [pytesseract.image_to_string(img, lang='ben') for img in pages]
    return "\n".join(texts)


# -------- Text cleaning --------
def clean_ocr_text(text: str) -> str:
    text = re.sub(r'\f', ' ', text)
    text = re.sub(r'^\s*\d+\s*$', '', text, flags=re.MULTILINE)  # Remove page numbers
    text = re.sub(r'^[\d\W_]{5,}$', '', text, flags=re.MULTILINE)  # Remove garbage lines
    text = unicodedata.normalize('NFC', text)
    # Remove excessive newlines
    text = re.sub(r'\n+', '\n', text)
    return text.strip()


def normalize_text(text: str) -> str:
    # Replace single newlines (not double) with space to preserve paragraph structure
    return re.sub(r"(?<!\n)\n(?!\n)", " ", text).strip()


# -------- Sentence splitter for Bangla --------
def bangla_sentence_split(text: str) -> List[str]:
    # Simple split on '।' (Dari) which is Bangla full stop
    sentences = [s.strip() for s in text.split("।") if s.strip()]
    return sentences


# -------- Sentence splitter for English --------
def english_sentence_split(text: str) -> List[str]:
    # Very simple splitter on period + space (could be improved)
    sentences = [s.strip() for s in re.split(r'\. ', text) if s.strip()]
    return sentences


# -------- Chunking --------
def text_to_documents(text: str) -> List[Document]:
    # Detect language roughly by sampling first 100 chars
    sample_lang = detect(text[:100])
    if sample_lang == 'bn':
        sentences = bangla_sentence_split(text)
    else:
        sentences = english_sentence_split(text)

    chunk_size = 10  # sentences per chunk
    overlap = 3      # sentences overlap

    chunks = []
    for i in range(0, len(sentences), chunk_size - overlap):
        chunk_sents = sentences[i:i + chunk_size]
        if sample_lang == 'bn':
            chunk = "। ".join(chunk_sents)
            if not chunk.endswith("।"):
                chunk += "।"
        else:
            chunk = ". ".join(chunk_sents)
            if not chunk.endswith("."):
                chunk += "."
        chunks.append(Document(page_content=chunk))
    return chunks


# -------- Build retriever --------
def build_retriever(docs: List[Document]):
    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-mpnet-base-v2")
    vectordb = FAISS.from_documents(docs, embeddings)
    return vectordb, embeddings


# -------- Prompt templates based on language --------
def get_condense_prompt_template(lang: str):
    if lang == 'bn':
        return PromptTemplate.from_template(
            "তুমি একটি বুদ্ধিমান সহকারী, যার কাজ হল আগের কথোপকথনের ভিত্তিতে বর্তমান প্রশ্নটি পুনরায় লেখানো।\n\n"
            "কথোপকথনের ইতিহাস:\n{chat_history}\n\n"
            "বর্তমান প্রশ্ন:\n{input}\n\n"
            "পুনঃলিখিত প্রশ্ন:"
        )
    else:
        return PromptTemplate.from_template(
            "You are a helpful assistant. Rewrite the current question based on the conversation history.\n\n"
            "Chat history:\n{chat_history}\n\n"
            "Current question:\n{input}\n\n"
            "Rewritten question:"
        )


def get_qa_prompt_template(lang: str):
    if lang == 'bn':
        return PromptTemplate.from_template(
            "নীচের বাংলা লেখা থেকে প্রশ্নের উত্তর দাও। "
            "উত্তর যদি স্পষ্ট না হয়, তাহলে 'উত্তর পাওয়া যায়নি' বলো।"
            "প্রশ্নের উত্তর সংক্ষেপে এবং স্পষ্ট হওয়া উচিত।\n\n"
            "প্রসঙ্গ:\n{context}\n\n"
            "প্রশ্ন:\n{input}\n\n"
            "উত্তর:"
        )
    else:
        return PromptTemplate.from_template(
            "Answer the question based on the text below. "
            "If the answer is not clear, say 'Answer not found'. "
            "Keep the answer concise and clear.\n\n"
            "Context:\n{context}\n\n"
            "Question:\n{input}\n\n"
            "Answer:"
        )


# -------- Build RAG chain --------
def build_conversational_rag(vectordb, embeddings):
    llm = ChatGoogleGenerativeAI(model="gemini-1.5-flash", google_api_key="AIzaSyAB3FqAg91_h_vbhTy1Hw28lt32Y35nOAg")

    # We will dynamically select prompts based on query language inside the query loop

    # History-aware retriever will be created later with a dummy prompt, replaced in main loop

    return llm, vectordb, embeddings


# -------- Compute cosine similarity --------
def cosine_similarity(vec1: np.ndarray, vec2: np.ndarray) -> float:
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))


# -------- Main --------
if __name__ == '__main__':
    print("⏳ Starting OCR extraction...")
    raw = extract_text_from_pdf("HSC26-Bangla1st-Paper.pdf")
    print("✅ OCR extraction done.")

    cleaned = clean_ocr_text(raw)
    normalized = normalize_text(cleaned)

    print(f"Sample contains 'শুম্ভুনাথ': {'শুম্ভুনাথ' in normalized}")
    print(f"Sample contains 'মামা': {'মামা' in normalized}")
    print(f"Sample contains '১৫ বছর': {'১৫ বছর' in normalized}")

    print("⏳ Chunking text into documents...")
    docs = text_to_documents(normalized)
    print(f"✅ Created {len(docs)} document chunks.")

    print("⏳ Building vector store and embeddings...")
    vectordb, embeddings = build_retriever(docs)
    print("✅ Vector store ready.")

    llm, vectordb, embeddings = build_conversational_rag(vectordb, embeddings)

    # Test queries (Bangla + English)
    tests: List[Tuple[str, str]] = [
        ('অনুপমের ভাষায় সুপুরুষ কাকে বলা হয়েছে?', 'শুম্ভুনাথ'),
        ('কাকে অনুপমের ভাগ্য দেবতা বলে উল্লেখ করা হয়েছে?', 'মামাকে'),
        ('বিয়ের সময় কল্যাণীর প্রকৃত বয়স কত ছিল?', '১৫ বছর'),
        ('Who is called the perfect man in Anupam\'s words?', 'শুম্ভুনাথ'),
        ('Who is referred to as Anupam\'s fate god?', 'মামাকে'),
    ]

    chat_history = []
    correct = 0

    for q, expected in tests:
        query_lang = detect(q)
        condense_prompt = get_condense_prompt_template('bn' if query_lang == 'bn' else 'en')
        qa_prompt = get_qa_prompt_template('bn' if query_lang == 'bn' else 'en')

        # Create history aware retriever for this query with the appropriate condense prompt
        history_aware_retriever = create_history_aware_retriever(
            llm=llm,
            retriever=vectordb.as_retriever(search_kwargs={"k": 5}),
            prompt=condense_prompt
        )

        combine_docs_chain = create_stuff_documents_chain(llm=llm, prompt=qa_prompt)

        # Full RAG retrieval chain
        qa = create_retrieval_chain(
            retriever=history_aware_retriever,
            combine_docs_chain=combine_docs_chain
        )

        # Show top retrieved docs with similarity
        q_embedding = embeddings.embed_query(q)
        retrieved_docs = vectordb.as_retriever(search_kwargs={"k": 5}).get_relevant_documents(q)

        print(f"\n🔎 Query: {q} (lang: {query_lang})")
        for i, doc in enumerate(retrieved_docs):
            doc_embedding = embeddings.embed_query(doc.page_content)
            sim = cosine_similarity(q_embedding, doc_embedding)
            preview = doc.page_content[:200].replace('\n', ' ')
            print(f"Doc {i + 1} similarity: {sim:.3f}")
            print(f"Doc {i + 1} preview: {preview}\n---")

        # Build message history for chat context
        history_msgs = []
        for hq, ha in chat_history:
            history_msgs.append(HumanMessage(content=hq))
            history_msgs.append(AIMessage(content=ha))

        # Invoke RAG chain
        result = qa.invoke({"input": q, "chat_history": history_msgs})
        answer = result['answer'].strip()
        print(f"✅ Answer: {answer}")
        print(f"🎯 Expected: {expected}")

        if expected in answer:
            correct += 1

        chat_history.append((q, answer))

    print(f"\n📊 Accuracy on test queries: {correct}/{len(tests)} = {correct / len(tests):.2f}")


⏳ Starting OCR extraction...
✅ OCR extraction done.
Sample contains 'শুম্ভুনাথ': False
Sample contains 'মামা': True
Sample contains '১৫ বছর': False
⏳ Chunking text into documents...
✅ Created 62 document chunks.
⏳ Building vector store and embeddings...


  embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-mpnet-base-v2")
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/723 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/402 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

✅ Vector store ready.

🔎 Query: অনুপমের ভাষায় সুপুরুষ কাকে বলা হয়েছে? (lang: bn)
Doc 1 similarity: 0.743
Doc 1 preview: [লুল জআললাইন ব্যাচ” 11072 গল্পের কথক চরিত্র অনুপমের আত্মসমালোচনা। পরিমাণ ও গুণ উভয় দিক দিয়েই যে তার জীবনটি নিতান্তই তুচ্ছ সে কথাই এখানে ব্যক্ত হয়েছে। গুটি এক সময় পূর্ণ ফলে পরিণত হয়। কিন্তু গুটিই 
---
Doc 2 similarity: 0.729
Doc 2 preview: বংশে তো কোনো দোষ নাই? না, দোষ নাই- বাপ কোথাও তার মেয়ের যোগ্য বর খুজিয়া পান না। একে তো বরের ঘাট মহার্ঘ, তাহার পরে ধুনুক-ভাঙা পণ, কাজেই বাপ কেবলই সবুর করিতেছেন- কিন্তু মেয়ের বয়স সবুর করিতেছে না। যাই
---


  retrieved_docs = vectordb.as_retriever(search_kwargs={"k": 5}).get_relevant_documents(q)


Doc 3 similarity: 0.714
Doc 3 preview: দুর্গার কোলে থাকা দেব-সেনাপতি কার্তিকেয়কে বোঝানো হয়েছে। ব্যঙ্গার্থে প্রয়োগ। ভূষণ, প্রসাধন, শোভা। ভাষার মাধুর্য ও উৎকর্ষ বৃদ্ধি করে এমন গুণ। ভারতের গয়া অঞ্চলের অন্তঃসলিলা নদী। নদীটির ওপরের অংশে বাল
---
Doc 4 similarity: 0.715
Doc 4 preview: ” হরিশ আসর জমাইতে অদ্ধিতীয়। তাই সর্বত্রই তাহার খাতির। মামাও তাহাকে পাইলে ছাড়িতে চান না। কথাটা তার বৈঠকে উঠিল। মেয়ের চেয়ে মেয়ের বাপের খবরটাই তাহার কাছে গুরুতর। বাপের অবস্থা তিনি যেমনটি চান তেমনি। 
---
Doc 5 similarity: 0.697
Doc 5 preview: তবু ইহার একটু বিশেষ মূল্য আছে। ইহা সেই ফুলের মতো যাহার বুকের উপরে ভ্রমর আসিয়া বসিয়াছিল, এবং সেই পদক্ষেপের ইতিহাস তাহার জীবনের মাঝখানেফলের মতো গুটি ধরিয়া উঠিয়াছে। সেই ইতিহাসটুকু আকারে ছোটো, তাহাকে 
---
✅ Answer: উত্তর পাওয়া যায়নি।
🎯 Expected: শুম্ভুনাথ

🔎 Query: কাকে অনুপমের ভাগ্য দেবতা বলে উল্লেখ করা হয়েছে? (lang: bn)
Doc 1 similarity: 0.756
Doc 1 preview: [লুল জআললাইন ব্যাচ” 11072 গল্পের কথক চরিত্র অনুপমের আত্মসমালোচনা। পরিমাণ ও গুণ উভয় দিক দিয়েই যে তার জীবনট