In [9]:
import cv2
import pytesseract
from ultralytics import YOLO
from PIL import Image
import os

# 1. Cấu hình đường dẫn
MODEL_PATH = r'D:\ADMIN\Documents\Classwork\advance_cv_project\train\runs\detect\sroie_yolov8m_finetune\weights\best.pt'
# Nếu dùng Windows, hãy bỏ comment dòng dưới và trỏ đến file tesseract.exe của bạn
pytesseract.pytesseract.tesseract_cmd = r'D:\Program Files\Tesseract-OCR\tesseract.exe'

# 2. Load model YOLOv8
model = YOLO(MODEL_PATH)

def process_ocr_yolo(image_path):
    print(f"--- Đang xử lý: {os.path.basename(image_path)} ---")
    img = cv2.imread(image_path)
    results = model(image_path) # Chạy YOLO detect

    ocr_results = []

    for result in results:
        for box in result.boxes:
            # Lấy tọa độ (x1, y1, x2, y2)
            x1, y1, x2, y2 = map(int, box.xyxy[0])
            cls = int(box.cls[0])
            label = model.names[cls] # Tên class (ví dụ: 'company', 'date', 'total')

            # Cắt vùng ảnh (Crop)
            crop_img = img[y1:y2, x1:x2]

            # Tiền xử lý nhẹ cho Tesseract (Chuyển xám để đọc chuẩn hơn)
            gray_crop = cv2.cvtColor(crop_img, cv2.COLOR_BGR2GRAY)

            # OCR với tiếng Việt
            text = pytesseract.image_to_string(gray_crop, lang='vie').strip()

            ocr_results.append({
                "label": label,
                "text": text,
                "confidence": float(box.conf[0])
            })

            print(f"[{label}]: {text}")

    return ocr_results

# 3. Chạy test
# Test 1 ảnh:
process_ocr_yolo(r'D:\ADMIN\Documents\Classwork\advance_cv_project\data\Receipt_OCR_1\raw\A0011.png')

# Test cả một danh sách ảnh trong thư mục:
# folder_path = r'D:\ADMIN\Documents\Classwork\advance_cv_project\test_images'
# if os.path.exists(folder_path):
#     for filename in os.listdir(folder_path):
#         if filename.endswith(('.jpg', '.png', '.jpeg')):
#             full_path = os.path.join(folder_path, filename)
#             process_ocr_yolo(full_path)

--- Đang xử lý: A0011.png ---

image 1/1 D:\ADMIN\Documents\Classwork\advance_cv_project\data\Receipt_OCR_1\raw\A0011.png: 1024x768 35 Texts, 632.5ms
Speed: 3.8ms preprocess, 632.5ms inference, 1.8ms postprocess per image at shape (1, 3, 1024, 768)
[Text]: 
[Text]: 
[Text]: TP. Câm Pha, T. Quảng Ninh
[Text]: 
[Text]: J24 71050648-445£1
[Text]: 
[Text]: DA khu DCLB cor 8. P. âm Sơn
[Text]: 
[Text]: 
[Text]: 
[Text]: 
[Text]: 
[Text]: TỮNG TIẾN Ã GIẢM
[Text]: 
[Text]: 
[Text]: T.Tiển
[Text]: Vf+ ÔNÑH Dư án KD€ lân biên coc §
[Text]: TIẾỂN TRẢ LAI
[Text]: 
[Text]: 
[Text]: TỮNG TIỂN PHẢI T.TOÁN
[Text]: 
[Text]: 
[Text]: Chỉ xuất hóa đdn trong ngày
[Text]: CÁM N QUÝ KHÁCH VẢ HẸN GẶP LẠI
[Text]: (Giá đã bao gồm thuế GT@T)
[Text]: BOBBY Khăn Ướt trổ em có hương 100 từ
[Text]: 
[Text]: Ngây bán: 14/08/2020 19:4
[Text]: 
[Text]: 
[Text]: VinCommerce
[Text]: 
[Text]: TaX inV0iCB W11] b8 isSsSued within sale day
[Text]: 


[{'label': 'Text', 'text': '', 'confidence': 0.8610116839408875},
 {'label': 'Text', 'text': '', 'confidence': 0.8608913421630859},
 {'label': 'Text',
  'text': 'TP. Câm Pha, T. Quảng Ninh',
  'confidence': 0.8584349155426025},
 {'label': 'Text', 'text': '', 'confidence': 0.8575910925865173},
 {'label': 'Text',
  'text': 'J24 71050648-445£1',
  'confidence': 0.8555938005447388},
 {'label': 'Text', 'text': '', 'confidence': 0.8521229028701782},
 {'label': 'Text',
  'text': 'DA khu DCLB cor 8. P. âm Sơn',
  'confidence': 0.8513315916061401},
 {'label': 'Text', 'text': '', 'confidence': 0.8477857708930969},
 {'label': 'Text', 'text': '', 'confidence': 0.8474116921424866},
 {'label': 'Text', 'text': '', 'confidence': 0.845634400844574},
 {'label': 'Text', 'text': '', 'confidence': 0.8439676761627197},
 {'label': 'Text', 'text': '', 'confidence': 0.8414815664291382},
 {'label': 'Text',
  'text': 'TỮNG TIẾN Ã GIẢM',
  'confidence': 0.8394692540168762},
 {'label': 'Text', 'text': '', 'confide