In [1]:
from ultralytics import YOLO
import cv2
import numpy as np
import pytesseract
from PIL import Image

class TextDetectionOCR:
    def __init__(self, yolo_model_path):
        """
        Khởi tạo mô hình với đường dẫn đến file weights của YOLO
        """
        # Tải mô hình YOLO
        self.model = YOLO(yolo_model_path)
        
        # Cấu hình các tham số
        self.conf_threshold = 0.25
        self.iou_threshold = 0.45
        
    def preprocess_image(self, image):
        """
        Tiền xử lý ảnh đầu vào
        """
        # Chuyển sang ảnh xám
        gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
        
        # Khử nhiễu
        denoised = cv2.fastNlMeansDenoising(gray)
        
        # Tăng độ tương phản
        clahe = cv2.createCLAHE(clipLimit=2.0, tileGridSize=(8,8))
        contrast = clahe.apply(denoised)
        
        return contrast

    def detect_text_regions(self, image):
        """
        Sử dụng YOLO để phát hiện vùng chứa text
        """
        # Thực hiện dự đoán với YOLO
        results = self.model(image, conf=self.conf_threshold, iou=self.iou_threshold)
        
        # Lấy các bounding box
        boxes = []
        for result in results:
            boxes.extend(result.boxes.xyxy.cpu().numpy())
            
        return np.array(boxes)

    def extract_text_from_region(self, image, box, lang='vie'):
        """
        Trích xuất text từ một vùng ảnh cụ thể
        """
        # Cắt vùng ảnh theo bounding box
        x1, y1, x2, y2 = map(int, box)
        region = image[y1:y2, x1:x2]
        
        # Tiền xử lý vùng ảnh
        processed_region = self.preprocess_image(region)
        
        # Chuyển sang định dạng PIL
        pil_image = Image.fromarray(processed_region)
        
        # Trích xuất text
        text = pytesseract.image_to_string(pil_image, lang=lang)
        
        return text.strip()

    def process_image(self, image_path, lang='vie', visualize=False):
        """
        Xử lý ảnh và trích xuất text từ tất cả các vùng được phát hiện
        """
        # Đọc ảnh
        image = cv2.imread(image_path)
        original = image.copy()
        
        # Phát hiện vùng text
        boxes = self.detect_text_regions(image)
        
        results = []
        # Xử lý từng vùng
        for box in boxes:
            text = self.extract_text_from_region(image, box, lang)
            if text:
                results.append({
                    'text': text,
                    'box': box.tolist()
                })
                
        # Vẽ kết quả nếu yêu cầu
        if visualize:
            for result in results:
                box = result['box']
                cv2.rectangle(original, 
                            (int(box[0]), int(box[1])), 
                            (int(box[2]), int(box[3])), 
                            (0, 255, 0), 2)
                cv2.putText(original, 
                           result['text'][:20] + "...", 
                           (int(box[0]), int(box[1] - 10)),
                           cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 255, 0), 2)
            
            return results, original
            
        return results


In [2]:
detector = TextDetectionOCR('yolov8s.pt')

# Xử lý ảnh
results, visualized_image = detector.process_image(
    './data/sample/ocr.png',
    visualize=True
)

# In kết quả
print("Kết quả nhận diện:")
for result in results:
    print(f"Text: {result['text']}")
    print(f"Vị trí: {result['box']}\n")

# Hiển thị ảnh kết quả
# cv2.imshow('Results', visualized_image)
# cv2.waitKey(0)
# cv2.destroyAllWindows()

# Lưu ảnh kết quả
cv2.imwrite('result.jpg', visualized_image)


0: 160x640 1 train, 49.6ms
Speed: 6.2ms preprocess, 49.6ms inference, 614.8ms postprocess per image at shape (1, 3, 160, 640)
Kết quả nhận diện:


True

In [3]:
!pip install easyocr


Collecting easyocr
  Downloading easyocr-1.7.2-py3-none-any.whl.metadata (10 kB)
Collecting python-bidi (from easyocr)
  Downloading python_bidi-0.6.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Collecting Shapely (from easyocr)
  Downloading shapely-2.0.6-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (7.0 kB)
Collecting pyclipper (from easyocr)
  Downloading pyclipper-1.3.0.post6-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl.metadata (9.0 kB)
Collecting ninja (from easyocr)
  Downloading ninja-1.11.1.1-py2.py3-none-manylinux1_x86_64.manylinux_2_5_x86_64.whl.metadata (5.3 kB)
Downloading easyocr-1.7.2-py3-none-any.whl (2.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.9/2.9 MB[0m [31m18.8 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hDownloading ninja-1.11.1.1-py2.py3-none-manylinux1_x86_64.manylinux_2_5_x86_64.whl (307 kB)
Downloading pyclipper-1.3.0.post6-cp310-cp310-manylinux_2_12_x86

In [4]:
import easyocr

# Load the image file path
image_path = './data/sample/ocr.png'  # Replace with your local path

# Initialize the EasyOCR reader
reader = easyocr.Reader(['en'], gpu =  True)

# Perform text detection and recognition
results = reader.readtext(image_path)

# Print the results
for (bbox, text, confidence) in results:
    print(f"Detected text: '{text}' with confidence: {confidence}")

Downloading detection model, please wait. This may take several minutes depending upon your network connection.


Progress: |██████████████████████████████████████████████████| 100.0% Complete

Downloading recognition model, please wait. This may take several minutes depending upon your network connection.


Progress: |██████████████████████████████████████████████████| 100.0% CompleteDetected text: 'CHE' with confidence: 0.9995971751298354
Detected text: '1-01' with confidence: 0.6182919604570368
Detected text: 'BUR' with confidence: 0.9999307618526357
Detected text: '49.55' with confidence: 0.8905346903352951


  with torch.cuda.device(device), torch.cuda.stream(stream), autocast(enabled=autocast_enabled):


In [5]:
results

[([[95, 15], [129, 15], [129, 33], [95, 33]], 'CHE', 0.9995971751298354),
 ([[139, 15], [183, 15], [183, 35], [139, 35]], '1-01', 0.6182919604570368),
 ([[191, 15], [223, 15], [223, 33], [191, 33]], 'BUR', 0.9999307618526357),
 ([[99, 39], [139, 39], [139, 55], [99, 55]], '49.55', 0.8905346903352951)]