In [44]:
from ultralytics import YOLO
import cv2
import json
import os
from pathlib import Path
import numpy as np
from symspellpy import SymSpell, Verbosity
import re

# Настройка путей
model_path = "runs/detect/train/weights/best.pt"  # Путь к модели YOLO
images_dir = "301"  # Папка с изображениями
json_dir = "day1/school"  # Папка с JSON-файлами
save_folder = "result"  # Папка для результатов
dictionary_path = "russian.txt"  # Путь к словарю SymSpell
numbers = {'0': '22', '1': '23', '2': '24', '3': '25', '4': '26', '5': '27', '6': '28', 'none': 'none'}

In [45]:
# Функция для проверки, является ли строка словом
def is_word(s: str) -> bool:
    # Проверяет, что строка содержит только буквы кириллицы или дефисы и имеет хотя бы одну букву
    return bool(re.match(r'^[а-яА-Я\-]*[а-яА-Я][а-яА-Я\-]*$', s))

# Функция для объединения слов с дефисами
def merge_words(words: list[str]) -> list[str]:
    # Возвращает новый список, объединяя слова, где первое заканчивается на дефис
    result = []
    i = 0
    while i < len(words):
        if not is_word(words[i]):
            result.append(words[i])
            i += 1
            continue
        if words[i].endswith('-') and i + 1 < len(words) and is_word(words[i + 1]):
            merged_word = words[i][:-1] + words[i + 1]
            if is_word(merged_word):
                result.append(merged_word)
                i += 2  # Пропускаем два слова
            else:
                result.append(words[i])
                i += 1
        else:
            result.append(words[i])
            i += 1
    return result

# Функция для поиска исправленного слова с помощью SymSpell
def finder_symspell(word: str, sym_spell: SymSpell, max_edit_distance: int = 3) -> str:
    word_lower = word.lower()
    suggestions = sym_spell.lookup(word_lower, Verbosity.TOP, max_edit_distance=0)
    if suggestions:
        return word
    suggestions = sym_spell.lookup(word_lower, Verbosity.TOP, max_edit_distance)
    if suggestions:
        return suggestions[0].term
    return word_lower

# Функция для инициализации SymSpell
def init_symspell(path: str, max_edit_distance: int = 3) -> SymSpell:
    sym_spell = SymSpell(max_dictionary_edit_distance=max_edit_distance)
    try:
        with open(path, 'r', encoding='utf-8') as f:
            for word in f:
                word = word.rstrip()
                if is_word(word):
                    sym_spell.create_dictionary_entry(word, 1)
    except FileNotFoundError:
        print(f"Файл словаря {path} не найден")
        raise
    return sym_spell

In [52]:
# Функция для вычисления IoU
def calculate_iou(box1, box2):
    x1_min, y1_min, x1_max, y1_max = box1  # JSON box
    x2_min, y2_min, x2_max, y2_max = box2  # YOLO box
    
    x_left = max(x1_min, x2_min)
    y_top = max(y1_min, y2_min)
    x_right = min(x1_max, x2_max)
    y_bottom = min(y1_max, y2_max)
    
    if x_right < x_left or y_bottom < y_top:
        return 0.0
    
    intersection = (x_right - x_left) * (y_bottom - y_top)
    area1 = (x1_max - x1_min) * (y1_max - y1_min)  # JSON box area
    area2 = (x2_max - x2_min) * (y2_max - y2_min)  # YOLO box area
    union = area1 + area2 - intersection
    
    iou = intersection / union if union > 0 else 0.0
    return iou

# Функция для загрузки JSON
def load_json(json_path):
    try:
        with open(json_path, 'r', encoding='utf-8') as f:
            data = json.load(f)
        return data
    except Exception as e:
        print(f"Ошибка при загрузке {json_path}: {e}")
        return None

def extract_text_from_json(json_data, sym_spell):
    texts = []
    raw_words = []

    if not json_data or not isinstance(json_data, dict):
        return texts

    data = json_data.get("data")
    if not data or not isinstance(data, dict):
        return texts

    blocks = data.get("blocks")
    if not blocks or not isinstance(blocks, list):
        return texts

    # Извлечение слов и их координат
    for block in blocks:
        boxes = block.get("boxes")
        if not boxes or not isinstance(boxes, list):
            continue

        for box in boxes:
            languages = box.get("languages")
            if not languages or not isinstance(languages, list):
                continue

            for lang in languages:
                texts_list = lang.get("texts")
                if not texts_list or not isinstance(texts_list, list):
                    continue

                for text in texts_list:
                    words = text.get("words")
                    if not words or not isinstance(words, list):
                        continue

                    for word in words:
                        word_text = word.get("word", "")
                        x = word.get("x", 0)
                        y = word.get("y", 0)
                        w = word.get("w", 0)
                        h = word.get("h", 0)
                        raw_words.append(word_text)
                        texts.append({
                            "text": word_text,
                            "bbox": [x, y, x + w, y + h]
                        })

    if not texts:
        return texts

    # Объединение слов с дефисами
    merged_words = merge_words(raw_words)

    # Исправление слов с помощью SymSpell
    corrected_words = [finder_symspell(word, sym_spell) for word in merged_words]

    # Обновление текста в списке texts
    corrected_index = 0
    for i, text_item in enumerate(texts):
        if corrected_index < len(corrected_words):
            texts[i]["text"] = corrected_words[corrected_index]
            if (
                i + 1 < len(raw_words)
                and raw_words[i].endswith("-")
                and is_word(raw_words[i + 1])
            ):
                corrected_index += 1  # Пропустить объединённое слово
            corrected_index += 1

    return texts


In [50]:
try:
    sym_spell = init_symspell(dictionary_path)
except FileNotFoundError as e:
    print(f"Не удалось инициализировать SymSpell: {e}")
    raise

In [53]:
# Загрузка модели YOLO
os.makedirs(save_folder, exist_ok=True)
model = YOLO(model_path)
excluded_classes = [7, 8]  # Классы для исключения


# Проход по JSON-файлам
for json_file in Path(json_dir).glob("*res.json"):
    json_name = json_file.stem  # Имя JSON без расширения (например, 1119273396_03__1_res)
    img_name = json_name.split("__")[0]  # Извлекаем префикс (например, 1119273396_03)
    img_file = Path(images_dir) / f"{img_name}.png"
    output_file = Path(save_folder) / f"{json_name}.txt"  # Файл результата
    
    if not img_file.exists():
        print(f"Изображение для {json_name} не найдено: {img_file}")
        with open(output_file, 'w', encoding='utf-8') as f:
            f.write(f"Изображение {img_name}.png не найдено\n")
        continue
    
    # Чтение JSON
    json_data = load_json(json_file)
    if json_data is None:
        print(f"Пропуск {json_name} из-за ошибки загрузки JSON")
        continue
    
    json_texts = extract_text_from_json(json_data, sym_spell)
    if not json_texts:
        print(f"В {json_name} не найдены тексты")
        with open(output_file, 'w', encoding='utf-8') as f:
            f.write("Нет текстов в JSON\n")
        continue
    
    # Получение предсказаний YOLO для изображения
    try:
        results = model.predict(source=str(img_file), imgsz=640, save=False, conf=0.3)
        result = results[0]  # Предполагаем, что одно изображение
    except Exception as e:
        print(f"Ошибка YOLO для {img_name}: {e}")
        with open(output_file, 'w', encoding='utf-8') as f:
            for json_text in json_texts:
                f.write(f"Text: {json_text['text']}, Number: none, Bbox: none, Confidence: none\n")
            f.write(f"Ошибка YOLO: {e}\n")
        continue
    
    # Получение предсказаний
    bboxes = result.boxes.xyxy.cpu().numpy()  # [x_min, y_min, x_max, y_max]
    classes = result.boxes.cls.cpu().numpy()  # Метки классов
    confidences = result.boxes.conf.cpu().numpy()  # Вероятности
    
    # Фильтрация исключённых классов
    valid_indices = [i for i, cls in enumerate(classes) if cls not in excluded_classes]
    bboxes = bboxes[valid_indices]
    classes = classes[valid_indices]
    confidences = confidences[valid_indices]
    
    # Сопоставление текста с номерами
    matches = []
    for json_text in json_texts:
        json_bbox = json_text["bbox"]
        best_iou = 0.0
        best_conf = 0.0
        best_number = "none"
        best_bbox = "none"
        
        for i, bbox in enumerate(bboxes):
            iou = calculate_iou(json_bbox, bbox)
            if iou > best_iou or (iou == best_iou and confidences[i] > best_conf):  # Выбираем бокс с максимальным IoU или максимальной уверенностью
                best_iou = iou
                best_conf = confidences[i]
                best_number = str(int(classes[i]))
                best_bbox = bbox.tolist()
        
        
        conf_str = f"{best_conf:.2f}" if best_conf > 0 else "none"
        matches.append(f"Text: {json_text['text']}, Number: {numbers[best_number]}, Confidence: {conf_str}, Bbox: {best_bbox}")
    
    # Сохранение результатов в файл
    try:
        with open(output_file, 'w', encoding='utf-8') as f:
            for line in matches:
                f.write(line + "\n")
        print(f"Результаты для {json_name} сохранены в {output_file}")
    except Exception as e:
        print(f"Ошибка записи в файл {output_file}: {e}")
        continue


image 1/1 /Users/persona21/proj/OCR_test/MAI_practice/301/1119273396_03.png: 640x576 1 22, 1 24, 1 номер, 33.5ms
Speed: 2.6ms preprocess, 33.5ms inference, 0.4ms postprocess per image at shape (1, 3, 640, 576)
Результаты для 1119273396_03__1_res сохранены в result/1119273396_03__1_res.txt

image 1/1 /Users/persona21/proj/OCR_test/MAI_practice/301/2220092805_03.png: 640x576 1 28, 37.2ms
Speed: 1.7ms preprocess, 37.2ms inference, 0.5ms postprocess per image at shape (1, 3, 640, 576)
Результаты для 2220092805_03__1_res сохранены в result/2220092805_03__1_res.txt

image 1/1 /Users/persona21/proj/OCR_test/MAI_practice/301/2820718380_02.png: 640x576 1 24, 1 номер, 31.2ms
Speed: 1.9ms preprocess, 31.2ms inference, 0.4ms postprocess per image at shape (1, 3, 640, 576)
Результаты для 2820718380_02__1_res сохранены в result/2820718380_02__1_res.txt

image 1/1 /Users/persona21/proj/OCR_test/MAI_practice/301/2720854136_04.png: 640x576 1 24, 1 номер, 32.4ms
Speed: 1.7ms preprocess, 32.4ms inferenc

In [19]:
print(model.names)

{0: '22', 1: '23', 2: '24', 3: '25', 4: '26', 5: '27', 6: '28', 7: 'номер', 8: 'текст'}
