In [23]:
import os
import base64
from io import BytesIO
import openai
from PIL import Image


class ImageOCR:
    def __init__(self, 
                 api_key: str = None, 
                 model_name: str = None, 
                 max_tokens: int = 15000):
        """
        Khởi tạo lớp OCR sử dụng GPT-4o thông qua OpenAI API.

        Args:
            api_key (str): API key của OpenAI.
            model_name (str): Tên mô hình. Nếu không truyền, sẽ lấy từ cấu hình.
            max_tokens (int): Số token tối đa cho phản hồi.
        """
        self.api_key = api_key 
        self.model_name = model_name 
        self.max_tokens = max_tokens
        
        # Thiết lập API key cho OpenAI và khởi tạo client
        openai.api_key = self.api_key
        self.client = openai.OpenAI(api_key=self.api_key)
        
        # Prompt hệ thống: mô tả vai trò và nhiệm vụ của AI OCR
        self.system_message = (
            "Bạn là một chuyên gia OCR có kinh nghiệm cao trong việc nhận diện và trích xuất văn bản tiếng Việt từ các tài liệu phức tạp. "
            "Bạn cần phân tích hình ảnh, nhận diện chính xác các ký tự, ngày tháng và các thông tin quan trọng khác. "
            "Kết quả đầu ra phải rõ ràng, được phân đoạn hợp lý và giữ nguyên cấu trúc gốc của tài liệu nếu có."
        )
        # Nội dung hướng dẫn cho người dùng
        self.user_text_instruction = (
            "Hãy trích xuất toàn bộ nội dung văn bản từ ảnh được cung cấp. "
            "Chú ý nhận diện các chi tiết quan trọng như ngày tháng và bất kỳ thông tin nào có liên quan."
            "Đối với những tài liệu bạn không thể nhận diện, hãy trả về thông báo 'Không thể nhận diện văn bản từ ảnh này'."
        )
    
    def image_to_base64(self, image: Image.Image) -> str:
        """
        Chuyển đổi đối tượng PIL Image thành chuỗi base64 (định dạng PNG).
        """
        buffered = BytesIO()
        image.save(buffered, format="PNG")
        img_str = base64.b64encode(buffered.getvalue()).decode("utf-8")
        return img_str
    
    def ocr_images(self, images: list) -> str:
        """
        Nhận diện và trích xuất văn bản từ danh sách ảnh bằng GPT-4o và kết hợp thành một document.
        
        Args:
            images (list): Danh sách các đối tượng PIL Image.
        
        Returns:
            str: Văn bản được trích xuất từ tất cả ảnh, kết hợp thành một document.
        """
        full_text = ""
        
        # Lặp qua từng ảnh trong danh sách
        for image in images:
            img_str = self.image_to_base64(image)
            
            user_content = [
                {"type": "text", "text": self.user_text_instruction},
                {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{img_str}"}}
            ]
            
            messages = [
                {"role": "system", "content": self.system_message},
                {"role": "user", "content": user_content}
            ]
            
            response = self.client.chat.completions.create(
                model=self.model_name,
                messages=messages,
                max_tokens=self.max_tokens
            )
            
            full_text += response.choices[0].message.content + "\n"
        
        return full_text.strip()


In [24]:
img_ocr = ImageOCR(api_key="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", model_name="gpt-4o")

In [27]:
img_path = "/Users/vominhthinh/Workspace/LogiTuning/test_pdf/image_1.jpg"  # Đường dẫn đến ảnh cần xử lý
image = Image.open(img_path)

In [28]:
texts = img_ocr.ocr_images([image])
print(texts)

Không thể nhận diện văn bản từ ảnh này.


In [6]:
import pytesseract
from PIL import Image
import cv2

# Nếu cần, bạn có thể chỉ định đường dẫn tới tesseract executable:
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'  # trên Windows

# Đọc ảnh từ file
image_path = "/Users/vominhthinh/Workspace/LogiTuning/test_pdf/image_1.jpg"
img = Image.open(image_path)


# Sử dụng Tesseract với ngôn ngữ tiếng Việt
text = pytesseract.image_to_string(img, lang='vie')
print(text)


chất điều chỉnh độ axit..., đóng hộp 5kg/hộp.

5. Kết quả pin loại:

Tên gọi theo cấu tạo, công dụng: Chế phẩm thực phẩm dạng sệt, gel: mềm.
Thành phần chính có chứa: Xi-rô ølucose, nước, đường, chất làm dày, chất điều
chỉnh độ axit..., đóng hộp 5kg/hộp.

thuộc nhóm 21, .06 “Các chế phẩm thực phẩm chưa được chỉ tiết hoặc ghỉ ở nơi
khác.”, phân nhóm 2106.90 “- Loại khác:”, phân nhóm hai gạch “- - Loại
khác ”, mã số 2106.90.99 - - - Loại khác” tại Danh mục hàng hóa xuất khẩu,
nhập khẩu Việt Nam.

Thông báo này có hiệu lực kể từ ngày ban hành./

N
-1
-€

bu
-
thì

thì
1
LrA
-Ý




In [29]:
text = "Không thể nhận diện văn bản từ ảnh này."

In [30]:
len(text.split())

9