In [59]:
# rag_gpt_api.py

# ✅ Install required packages before running:
# pip install openai sentence-transformers faiss-cpu pdf2image pytesseract fastapi uvicorn python-dotenv
# Also run (Linux):
# apt-get install -y tesseract-ocr-ben poppler-utils

import os
import re
import numpy as np
import pytesseract
from pdf2image import convert_from_path
from sentence_transformers import SentenceTransformer
import faiss
from fastapi import FastAPI
from pydantic import BaseModel
from dotenv import load_dotenv
import openai


In [58]:
!pip install python-dotenv

Collecting python-dotenv
  Downloading python_dotenv-1.1.1-py3-none-any.whl.metadata (24 kB)
Downloading python_dotenv-1.1.1-py3-none-any.whl (20 kB)
Installing collected packages: python-dotenv
Successfully installed python-dotenv-1.1.1


In [90]:
# Load OpenAI API Key
load_dotenv()
client = OpenAI(
    api_key="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"
)


In [71]:
# 📥 Step 1: Extract Bangla text from scanned PDF
def extract_bangla_from_scanned_pdf(pdf_path):
    images = convert_from_path("/content/drive/MyDrive/Colab Notebooks/HSC26-Bangla1st-Paper.pdf")
    bangla_text = ""
    for img in images:
        text = pytesseract.image_to_string(img, lang='ben')
        bangla_text += text + "\n"
    return bangla_text.strip()


In [72]:
# 📄 Load and process PDF
pdf_path = "HSC26-Bangla1st-Paper.pdf"  # Ensure this is in the same folder
raw_text = extract_bangla_from_scanned_pdf(pdf_path)


In [73]:
# 🧹 Step 2: Clean and chunk the text
def split_text_into_chunks(text, max_length=300):
    sentences = re.split(r'[।\n]', text)
    chunks = []
    current_chunk = ""
    for sentence in sentences:
        sentence = sentence.strip()
        if not sentence:
            continue
        if len(current_chunk) + len(sentence) < max_length:
            current_chunk += sentence + "। "
        else:
            chunks.append(current_chunk.strip())
            current_chunk = sentence + "। "
    if current_chunk:
        chunks.append(current_chunk.strip())
    return chunks

text_chunks = split_text_into_chunks(raw_text)

In [74]:
# 🔎 Step 3: Embed and index chunks with FAISS
model = SentenceTransformer('distiluse-base-multilingual-cased-v1')
embeddings = model.encode(text_chunks, show_progress_bar=True)
dimension = embeddings[0].shape[0]
index = faiss.IndexFlatL2(dimension)
index.add(np.array(embeddings))

Batches:   0%|          | 0/10 [00:00<?, ?it/s]

In [75]:
def retrieve_chunks(query, top_k=3):
    query_embedding = model.encode([query])
    distances, indices = index.search(np.array(query_embedding), top_k)
    results = [text_chunks[i] for i in indices[0]]
    return results


In [92]:
import openai
from openai import OpenAI

client = OpenAI(
    api_key="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"
)


def generate_answer_gpt(query, context_chunks):
    context = "\n".join(context_chunks[:3])
    prompt = f"""You are a helpful assistant. Use the following context to answer the question in Bangla.

Context:
{context}

Question:
{query}

Answer in Bangla:"""

    response = client.chat.completions.create(
        model="gpt-3.5-turbo",
        temperature=0.3,
        messages=[
            {"role": "user", "content": prompt}
        ]
    )
    return response.choices[0].message.content.strip()


In [93]:
# ✅ To run this script:
# uvicorn rag_gpt_api:app --reload --port 8000

# 🧪 Optional CLI test
if __name__ == "__main__":
    sample_question = "বিয়ের সময় কল্যাণীর প্রকৃত বয়স কত ছিল?"
    context = retrieve_chunks(sample_question)
    print("🔍 Context:")
    for c in context:
        print("-", c)
    print("\n💬 GPT Answer:")
    print(generate_answer_gpt(sample_question, context))

🔍 Context:
- উপুড় করিয়া দিতে দ্বিধা হইবে না। এসব ভালো কথা। কিন্তু, মেয়ের বয়স যে পনেরো, তাই শুনিয়া মামার মন ভার হইল। বংশে তো কোনো দোষ। নাই? না, দোষ নাই- বাপ কোথাও তার মেয়ের যোগ্য বর খুঁজিয়া পান না। একে তো বরের ঘাট মহার্ঘ, তাহার।
- বিষয়টি পারভেজের কানে গেলে সে বাপকে সাফ জানিয়ে দেয়, 'সে দরদাম বা কেনাবেচার পণ্য নয়। সে একজন মানুষকে জীবনসঙ্গী করতে এসেছে, অপমান করতে নয়। ফিরতে হলে লাবনিকে সঙ্গে নিয়েই বাড়ি। ফিরবে। '। ক. শস্তুনাথ সেকরার হাতে কী পরখ করতে দিয়েছিলেন?।
- নিয়ে নারীর চরম অবমাননাকালে শস্তুনাথ সেনের কন্যা-সম্প্রদানে অসম্মতি গল্পটির শীর্ষ মুহূর্ত। অনুপম নিজের। গল্প বলতে গিয়ে ব্যাঙ্গার্থে জানিয়ে দিয়েছে সেই অঘটন সংঘটনের কথাটি। বিয়ের লগ্ন যখন প্রস্তুত তখন কন্যার।

💬 GPT Answer:


RateLimitError: Error code: 429 - {'error': {'message': 'You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors.', 'type': 'insufficient_quota', 'param': None, 'code': 'insufficient_quota'}}

In [None]:
# 🌐 Step 5: FastAPI Web Server
app = FastAPI()

class QueryRequest(BaseModel):
    question: str

@app.post("/ask")
def ask(query: QueryRequest):
    retrieved = retrieve_chunks(query.question)
    answer = generate_answer_gpt(query.question, retrieved)
    return {
        "question": query.question,
        "retrieved_chunks": retrieved,
        "answer": answer
    }
