<a href="https://colab.research.google.com/github/Reza4u/Applied-Biostatistics-Book/blob/main/pdf_to_text_v4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
!pip install -q google-generativeai pymupdf pillow

from google.colab import userdata
import google.generativeai as genai
from google.colab import files
import fitz  # PyMuPDF
import io
from PIL import Image
import os
import base64
from io import BytesIO
import time

# API key সেটআপ
API_KEY = 'AIzaSyAcmRYgI1a36IBhjpDzeJkvDyAiQ2crbE0'
genai.configure(api_key=API_KEY)

def upload_pdf():
    """PDF আপলোড করার ফাংশন"""
    uploaded = files.upload()
    pdf_file = list(uploaded.keys())[0]
    print(f"'{pdf_file}' সফলভাবে আপলোড হয়েছে!")
    return pdf_file

def extract_images_from_pdf(pdf_path, dpi=400):
    """PDF থেকে ইমেজ এক্সট্রাক্ট করুন - উচ্চ রেজোলিউশন সহ"""
    pdf_document = fitz.open(pdf_path)
    images = []

    print(f"PDF-এ মোট {pdf_document.page_count} পেজ আছে।")

    for page_num in range(pdf_document.page_count):
        page = pdf_document[page_num]
        # উচ্চ DPI ব্যবহার করে margin সম্পূর্ণ ক্যাপচার করুন
        pix = page.get_pixmap(dpi=dpi)
        img_data = pix.tobytes("png")

        img = Image.open(io.BytesIO(img_data))
        images.append(img)
        print(f"পেজ {page_num + 1} এক্সট্রাক্ট করা হয়েছে।")

    return images

def image_to_base64(image):
    """ইমেজকে base64 এ কনভার্ট করুন"""
    buffered = BytesIO()
    image.save(buffered, format="PNG")
    img_str = base64.b64encode(buffered.getvalue()).decode("utf-8")
    return img_str

def extract_content_from_gemini(image, max_retries=3):
    """Gemini API থেকে সরাসরি content extract করুন - কোনো পরিবর্তন ছাড়া"""
    # ইমেজ এনকোড করুন
    image_base64 = image_to_base64(image)

    prompt = """
    Extract all content from this handwritten document.
    Include all text, equations, diagrams and tables exactly as they appear.
    Preserve all formatting and layout as much as possible.
    """

    # রিট্রাই লজিক
    for attempt in range(max_retries):
        try:
            client = genai.GenerativeModel("gemini-2.0-flash")
            response = client.generate_content(
                contents=[
                    {"role": "user",
                     "parts": [
                         {"text": prompt},
                         {"inline_data": {
                             "mime_type": "image/png",  # PNG format ব্যবহার - উচ্চ গুণমান
                             "data": image_base64
                         }}
                     ]}
                ]
            )
            return response.text

        except Exception as e:
            wait_time = (attempt + 1) * 5
            print(f"Error: {e}")
            print(f"{wait_time} seconds অপেক্ষা করছি, retry {attempt+1}/{max_retries}...")
            time.sleep(wait_time)

    return "[ERROR: API call বারবার ব্যর্থ হয়েছে]"

def main():
    print("হ্যান্ডরাইটেন নোট থেকে সরাসরি Gemini আউটপুট")
    print("----------------------------------------")

    try:
        print("PDF আপলোড করুন:")
        pdf_path = upload_pdf()

        # উচ্চ DPI সহ PDF থেকে ইমেজ এক্সট্রাক্ট
        images = extract_images_from_pdf(pdf_path, dpi=400)  # উচ্চ DPI - margin সম্পূর্ণ ক্যাপচার করতে

        # কতগুলি পেজ প্রসেস করবেন?
        page_count = len(images)
        print(f"\nPDF-এ মোট {page_count} পেজ আছে।")
        process_all = input("সব পেজ প্রসেস করতে চান (y/n)? অথবা কতটি পেজ প্রসেস করবেন (সংখ্যা লিখুন): ")

        if process_all.lower() == 'y':
            max_pages = page_count
        else:
            try:
                max_pages = int(process_all)
                max_pages = min(max_pages, page_count)
            except:
                max_pages = min(10, page_count)  # ডিফল্ট: 10 পেজ

        print(f"প্রথম {max_pages} পেজ প্রসেস করা হবে।")

        # প্রতিটি পেজ প্রসেস করুন
        all_content = []

        for i, img in enumerate(images[:max_pages]):
            print(f"\nপেজ {i+1}/{max_pages} প্রসেস করা হচ্ছে...")

            try:
                # সরাসরি Gemini থেকে content প্রাপ্ত করুন
                extracted_content = extract_content_from_gemini(img)
                all_content.append(extracted_content)

                print(f"\n----- পেজ {i+1} এর Gemini আউটপুট (সংক্ষিপ্ত) -----")
                print(extracted_content[:200] + "..." if len(extracted_content) > 200 else extracted_content)

            except Exception as e:
                print(f"পেজ {i+1} প্রসেস করতে এরর: {e}")
                all_content.append(f"[ERROR: পেজ {i+1} প্রসেস করতে সমস্যা হয়েছে]")

        # একটি সিম্পল টেক্সট ফাইল সেভ করুন - raw Gemini আউটপুট
        output_file = pdf_path.replace('.pdf', '_gemini_output.txt')
        with open(output_file, 'w', encoding='utf-8') as f:
            for i, content in enumerate(all_content):
                f.write(f"Page {i+1}\n\n")
                f.write(content)
                f.write("\n\n---\n\n")

        # ডাউনলোড করুন
        files.download(output_file)

        print(f"\nসফলভাবে এক্সট্রাকশন সম্পন্ন হয়েছে:")
        print(f"আউটপুট ফাইল: {output_file}")

    except Exception as e:
        print(f"মূল প্রোগ্রাম রান করতে এরর: {e}")
        print("দয়া করে API Key চেক করুন এবং আবার চেষ্টা করুন।")

# প্রোগ্রাম রান করুন
try:
    main()
except Exception as e:
    print(f"এরর: {e}")

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m20.0/20.0 MB[0m [31m20.5 MB/s[0m eta [36m0:00:00[0m
[?25hহ্যান্ডরাইটেন নোট থেকে সরাসরি Gemini আউটপুট
----------------------------------------
PDF আপলোড করুন:


Saving 1. 510 final pdf.pdf to 1. 510 final pdf.pdf
'1. 510 final pdf.pdf' সফলভাবে আপলোড হয়েছে!
PDF-এ মোট 195 পেজ আছে।
পেজ 1 এক্সট্রাক্ট করা হয়েছে।
পেজ 2 এক্সট্রাক্ট করা হয়েছে।
পেজ 3 এক্সট্রাক্ট করা হয়েছে।
পেজ 4 এক্সট্রাক্ট করা হয়েছে।
পেজ 5 এক্সট্রাক্ট করা হয়েছে।
পেজ 6 এক্সট্রাক্ট করা হয়েছে।
পেজ 7 এক্সট্রাক্ট করা হয়েছে।
পেজ 8 এক্সট্রাক্ট করা হয়েছে।
পেজ 9 এক্সট্রাক্ট করা হয়েছে।
পেজ 10 এক্সট্রাক্ট করা হয়েছে।
পেজ 11 এক্সট্রাক্ট করা হয়েছে।
পেজ 12 এক্সট্রাক্ট করা হয়েছে।
পেজ 13 এক্সট্রাক্ট করা হয়েছে।
পেজ 14 এক্সট্রাক্ট করা হয়েছে।
পেজ 15 এক্সট্রাক্ট করা হয়েছে।
পেজ 16 এক্সট্রাক্ট করা হয়েছে।
পেজ 17 এক্সট্রাক্ট করা হয়েছে।
পেজ 18 এক্সট্রাক্ট করা হয়েছে।
পেজ 19 এক্সট্রাক্ট করা হয়েছে।
পেজ 20 এক্সট্রাক্ট করা হয়েছে।
পেজ 21 এক্সট্রাক্ট করা হয়েছে।
পেজ 22 এক্সট্রাক্ট করা হয়েছে।
পেজ 23 এক্সট্রাক্ট করা হয়েছে।
পেজ 24 এক্সট্রাক্ট করা হয়েছে।
পেজ 25 এক্সট্রাক্ট করা হয়েছে।
পেজ 26 এক্সট্রাক্ট করা হয়েছে।
পেজ 27 এক্সট্রাক্ট করা হয়েছে।
পেজ 28 এক্সট্রাক্ট করা হয়েছে।
পেজ 29 এক্সট্রাক্ট কর

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>


সফলভাবে এক্সট্রাকশন সম্পন্ন হয়েছে:
আউটপুট ফাইল: 1. 510 final pdf_gemini_output.txt
