In [2]:
from langchain_community.document_loaders import UnstructuredPDFLoader

In [8]:
file_path = "../data/raw/HSC26-Bangla1st-Paper.pdf"

In [9]:
loader = UnstructuredPDFLoader(
    file_path,
    strategy="ocr_only",
    languages=["ben"],
)

In [10]:
docs = loader.load()
docs[0]

Document(metadata={'source': '../data/raw/HSC26-Bangla1st-Paper.pdf'}, page_content='অপরিচিতা\n\nঅনলাইন ব্যাচ সম্পর্কিত যেকোনো জিজ্ঞাসায়,\n\nকলকরো ৬ 16919\n\n[ছল নী নেও\n\nঅনলাইন ব্যাচ 101৫159: ভ্ শিখনফল\n\n৮ নিম্নবিত্ত ব্যক্তির হঠাৎ বিত্তশালী হয়ে ওঠার ফলে সমাজে পরিচয় সংকট সম্পর্কে ধারণা লাভ করবে।\n\n৮ তৎকালীন সমাজ-সভ্যতা ও মানবতার অবমাননা সম্পর্কে জানতে পারবে।\n\n৮ তৎকালীন সমাজের পণপ্রথার কুপ্রভাব সম্পর্কে জানতে পারবে।\n\n৮ তৎকালে সমাজে ভদ্রলোকের স্বভাববৈশিষ্ট্য সম্পর্কে জ্ঞানলাভ করবে। ৮ নারী কোমল ঠিক, কিন্তু দুর্বল নয়- কল্যাণীর জীবনচরিত দ্বারা প্রতিষ্ঠিত এই সত্য অনুধাবন করতে\n\nপারবে। ৮ মানুষ আশা নিয়ে বেঁচে থাকে- অনুপমের দৃষ্টান্তে মানবজীবনের এই চিরন্তন সত্যদর্শন সম্পর্কে\n\nজ্ঞানলাভ করবে।\n\nছন্ট প্রাক-মূল্যায়ন\n\n১। অনুপমের বাবা কী করে জীবিকা নির্বাহ করতেন?\n\nক) ডাক্তারি খ) ওকালতি গ) মাস্টারি ঘ) ব্যবসা\n\n২। মামাকে ভাগ্য দেবতার প্রধান এজেন্ট বলার কারণ, তার-\n\nক) প্রতিপত্তি খ) প্রভাব গ) বিচক্ষণতা ঘ) কুট বুদ্ধি\n\nনিচের অনুচ্ছেদটি পড়ে ৩ ও ৪ সংখ্যক প্রশ্নের উত্তর দাও।\n\nপিতৃ

In [12]:
import re


def clean_pdf_text(raw_content):
    noise_patterns = [
        r'^HSC \d+$',
        r'^অনলাইন ব্যাচ$',
        r'^বাংলা-?ইংরেজি-?আইসিটি$',
        r'^10\s*MINUTE\s*SCHOOL$',
        r'^অনলাইন ব্যাচ সম্পর্কিত যেকোনো জিজ্ঞাসায়,$',
        r'^কলকরো\s*.*? \d+$',
        r'^\s*\d+\s*$',  # Removes lines that are just page numbers
        r'^("SL"|"Ans"|"\d+"),.*$',  # Removes answer key tables
    ]

    # Combine all patterns into one for a single, efficient pass.
    combined_pattern = re.compile('|'.join(noise_patterns), re.MULTILINE)
    cleaned_content = combined_pattern.sub('', raw_content)

    # --- State-of-the-Art Change 3: Fix Hyphenated Words ---
    # This finds words split by a hyphen at the end of a line and rejoins them.
    # e.g., "আত্ম-\nসম্মানবোধ" becomes "আত্মসম্মানবোধ"
    cleaned_content = re.sub(r'(\w+)-\n(\w+)', r'\1\2', cleaned_content)

    # Finally, normalize whitespace for clean paragraph spacing.
    cleaned_content = re.sub(r'\n{3,}', '\n\n', cleaned_content)

    return cleaned_content.strip()

In [15]:
docs[0].page_content = clean_pdf_text(docs[0].page_content)

In [16]:
docs[0].page_content

'অপরিচিতা\n\n[ছল নী নেও\n\nঅনলাইন ব্যাচ 101৫159: ভ্ শিখনফল\n\n৮ নিম্নবিত্ত ব্যক্তির হঠাৎ বিত্তশালী হয়ে ওঠার ফলে সমাজে পরিচয় সংকট সম্পর্কে ধারণা লাভ করবে।\n\n৮ তৎকালীন সমাজ-সভ্যতা ও মানবতার অবমাননা সম্পর্কে জানতে পারবে।\n\n৮ তৎকালীন সমাজের পণপ্রথার কুপ্রভাব সম্পর্কে জানতে পারবে।\n\n৮ তৎকালে সমাজে ভদ্রলোকের স্বভাববৈশিষ্ট্য সম্পর্কে জ্ঞানলাভ করবে। ৮ নারী কোমল ঠিক, কিন্তু দুর্বল নয়- কল্যাণীর জীবনচরিত দ্বারা প্রতিষ্ঠিত এই সত্য অনুধাবন করতে\n\nপারবে। ৮ মানুষ আশা নিয়ে বেঁচে থাকে- অনুপমের দৃষ্টান্তে মানবজীবনের এই চিরন্তন সত্যদর্শন সম্পর্কে\n\nজ্ঞানলাভ করবে।\n\nছন্ট প্রাক-মূল্যায়ন\n\n১। অনুপমের বাবা কী করে জীবিকা নির্বাহ করতেন?\n\nক) ডাক্তারি খ) ওকালতি গ) মাস্টারি ঘ) ব্যবসা\n\n২। মামাকে ভাগ্য দেবতার প্রধান এজেন্ট বলার কারণ, তার-\n\nক) প্রতিপত্তি খ) প্রভাব গ) বিচক্ষণতা ঘ) কুট বুদ্ধি\n\nনিচের অনুচ্ছেদটি পড়ে ৩ ও ৪ সংখ্যক প্রশ্নের উত্তর দাও।\n\nপিতৃহীন দীপুর চাচাই ছিলেন পরিবারের কর্তা। দীপু শিক্ষিত হলেও তার সিদ্ধান্ত নেওয়ার ক্ষমতা ছিল না। চাচা তার বিয়ের উদ্যোগ নিলেও যৌতুক নিয়ে বাড়াবাড়ি ক

In [17]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

In [18]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=300, chunk_overlap=50)
splits = text_splitter.split_documents(docs)

In [None]:
from langchain_community.vectorstores import Chroma

In [20]:
from langchain_huggingface import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(
    model_name="intfloat/multilingual-e5-large-instruct")

In [21]:
vectorstore = Chroma.from_documents(documents=splits,
                                    embedding=embeddings)

retriever = vectorstore.as_retriever()

In [32]:
from langchain_groq import ChatGroq

llm = ChatGroq(
    model="deepseek-r1-distill-llama-70b",
)

In [34]:
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

In [35]:
sample_queries = [
    "অপরিচিতা' গল্পে, অনুপমের মতে কে আসর জমাতে অদ্বিতীয়?",
    "অনুপম তার মামার চেয়ে কত বছরের ছোট ছিল?",
    "মন্দ নয় হে! খাঁটি সোনা বটে!' - এই উক্তিটি কার?",
    "কল্যাণীর বাবার নাম কী?",
    "বিবাহ-উপলক্ষ্যে কন্যাপক্ষকে কোথায় আসতে হয়েছিল?",
    "শম্ভুনাথ সেন পেশায় কী ছিলেন?",
    "অনুপম এবং তার মা কোন বাহনে তীর্থে যাচ্ছিলেন?",
    "রেলগাড়িতে কল্যাণীর সাথে কয়টি ছোট ছোট মেয়ে ছিল?",
    "বিবাহ ভাঙার পর কল্যাণী কী ব্রত গ্রহণ করে?",
    "গল্পের শেষে অনুপমের বয়স কত?"
]

expected_responses = [
    "হরিশ",
    "বছর ছয়েক",
    "বিনুদা",
    "শম্ভুনাথ সেন",
    "কলিকাতা",
    "ডাক্তার",
    "রেলগাড়ি",
    "দুটি-তিনটি",
    "মেয়েদের শিক্ষার ব্রত",
    "সাতাশ"
]

In [42]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser


template = """Answer the question based only on the following context:
{context}

Question: {query}
"""
prompt = ChatPromptTemplate.from_template(template)

qa_chain = prompt | llm | StrOutputParser()

In [43]:
def format_docs(relevant_docs):
    return "\n".join(doc.page_content for doc in relevant_docs)


query = "অনুপমের ভাষায় সুপুরুষ কাকে বলা হয়েছে?"

relevant_docs = retriever.invoke(query)
qa_chain.invoke({"context": format_docs(relevant_docs), "query": query})

'<think>\nপ্রদত্ত প্রশ্নগুলো থেকে অনুপমের ভাষায় সুপুরুষ কে বলা হয়েছে তা নির্ধারণ করতে হবে। প্রশ্ন নম্বর ৭০ এর উত্তর থেকে এই তথ্য পাওয়া যাবে। প্রশ্ন ৭০ এর বিকল্পগুলো হলো: (ক) অনুপম, (খ) ঘটক, (গ) হরিশ, (ঘ) মামা। সঠিক উত্তর হলো (খ) ঘটক। অতএব, অনুপমের ভাষায় সুপুরুষ বলা হয়েছে ঘটককে। এই উত্তরটি সংশ্লিষ্ট প্রসঙ্গের সাথে সামঞ্জস্যপূর্ণ এবং প্রদত্ত তথ্যের ভিত্তিতে নির্ভুল।\n</think>\n\nঅনুপমের ভাষায় সুপুরুষ বলা হয়েছে **ঘটক**কে।'

In [44]:
from ragas import EvaluationDataset


dataset = []

for query, reference in zip(sample_queries, expected_responses):
    relevant_docs = retriever.invoke(query)
    response = qa_chain.invoke(
        {"context": format_docs(relevant_docs), "query": query})
    dataset.append(
        {
            "user_input": query,
            "retrieved_contexts": [rdoc.page_content for rdoc in relevant_docs],
            "response": response,
            "reference": reference,
        }
    )

evaluation_dataset = EvaluationDataset.from_list(dataset)

In [45]:
from ragas import evaluate
from ragas.llms import LangchainLLMWrapper
from ragas.metrics import LLMContextRecall, Faithfulness, FactualCorrectness

evaluator_llm = LangchainLLMWrapper(llm)

result = evaluate(
    dataset=evaluation_dataset,
    metrics=[LLMContextRecall(), Faithfulness(), FactualCorrectness()],
    llm=evaluator_llm,
)

result

Evaluating:   0%|          | 0/30 [00:00<?, ?it/s]

Exception raised in Job[0]: TimeoutError()
Exception raised in Job[1]: TimeoutError()
Exception raised in Job[6]: TimeoutError()
Exception raised in Job[7]: TimeoutError()
Exception raised in Job[9]: TimeoutError()
Exception raised in Job[10]: TimeoutError()
Exception raised in Job[12]: TimeoutError()
Exception raised in Job[4]: TimeoutError()
Exception raised in Job[5]: TimeoutError()
Exception raised in Job[14]: TimeoutError()
Exception raised in Job[15]: TimeoutError()
Exception raised in Job[13]: TimeoutError()
Exception raised in Job[3]: TimeoutError()
Exception raised in Job[16]: TimeoutError()
Exception raised in Job[17]: TimeoutError()
Exception raised in Job[18]: TimeoutError()
Exception raised in Job[19]: TimeoutError()
Exception raised in Job[20]: TimeoutError()
Exception raised in Job[22]: TimeoutError()
Exception raised in Job[21]: TimeoutError()
Exception raised in Job[23]: TimeoutError()
Exception raised in Job[24]: TimeoutError()
Exception raised in Job[25]: TimeoutErro

{'context_recall': nan, 'faithfulness': nan, 'factual_correctness(mode=f1)': 0.0000}