In [1]:
import cv2
import pytesseract
import os

def preprocess_image(image_path, save_path=None):
    # Загрузка изображения
    img = cv2.imread(image_path)
    
    # Преобразование в градации серого
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

    # Масштабирование
    gray = cv2.resize(gray, None, fx=1.5, fy=1.5, interpolation=cv2.INTER_LINEAR)

    # Адаптивная пороговая обработка
    thresh = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 31, 2)

    # Морфологические операции
    kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (1, 1))
    thresh = cv2.morphologyEx(thresh, cv2.MORPH_CLOSE, kernel)

    # Устранение шума
    thresh = cv2.medianBlur(thresh, 3)

    # Сохранение обработанного изображения, если указан путь
    if save_path is not None:
        cv2.imwrite(save_path, thresh)

    return thresh

def extract_text_from_image(preprocessed_img):
    config = r'--oem 3 --psm 6'
    data = pytesseract.image_to_data(preprocessed_img, config=config, lang='rus')

    text_data = []
    last_y = 0
    for i, el in enumerate(data.splitlines()):
        if i == 0:
            continue

        el = el.split()
        if len(el) == 12:
            x, y, w, h, text = int(el[6]), int(el[7]), int(el[8]), int(el[9]), el[11]
            if y > last_y + h:  # Новая строка
                text_data.append('\n')
            last_y = y
            text_data.append(text)

    return ' '.join(text_data)

def save_text_to_file(text, file_path):
    with open(file_path, 'w', encoding='utf-8') as file:
        file.write(text)

def process_images_from_folder(input_folder, output_folder, save_processed_folder):
    all_files = os.listdir(input_folder)
    jpg_files = [f for f in all_files if f.endswith('.jpg')]

    for file in jpg_files:
        file_path = os.path.join(input_folder, file)
        save_processed_path = os.path.join(save_processed_folder, file)
        
        # Предобработка и сохранение изображения
        preprocessed_img = preprocess_image(file_path, save_processed_path)
        extracted_text = extract_text_from_image(preprocessed_img)  # Здесь нужно обновить функцию extract_text_from_image

        # Создаем текстовый файл с тем же именем, что и изображение
        text_file_name = os.path.splitext(file)[0] + ".txt"
        text_file_path = os.path.join(output_folder, text_file_name)

        save_text_to_file(extracted_text, text_file_path)
        print(f"Текст из {file} сохранен в {text_file_path}")

# Указываем пути к папкам
input_folder = r'C:\Users\NeKonn\orders\PDF_parser\Output_Images'
output_folder = r'C:\Users\NeKonn\orders\PDF_parser\test\TEXT'
save_processed_folder = r'C:\Users\NeKonn\orders\PDF_parser\Processed_Images'

# Создаем папки для сохранения обработанных изображений, если они еще не существуют
if not os.path.exists(save_processed_folder):
    os.makedirs(save_processed_folder)

process_images_from_folder(input_folder, output_folder, save_processed_folder)

Текст из 1.jpg сохранен в C:\Users\NeKonn\orders\PDF_parser\test\TEXT\1.txt
Текст из 10.jpg сохранен в C:\Users\NeKonn\orders\PDF_parser\test\TEXT\10.txt
Текст из 11.jpg сохранен в C:\Users\NeKonn\orders\PDF_parser\test\TEXT\11.txt
Текст из 12.jpg сохранен в C:\Users\NeKonn\orders\PDF_parser\test\TEXT\12.txt
Текст из 2.jpg сохранен в C:\Users\NeKonn\orders\PDF_parser\test\TEXT\2.txt
Текст из 3.jpg сохранен в C:\Users\NeKonn\orders\PDF_parser\test\TEXT\3.txt
Текст из 4.jpg сохранен в C:\Users\NeKonn\orders\PDF_parser\test\TEXT\4.txt
Текст из 5.jpg сохранен в C:\Users\NeKonn\orders\PDF_parser\test\TEXT\5.txt
Текст из 6.jpg сохранен в C:\Users\NeKonn\orders\PDF_parser\test\TEXT\6.txt
Текст из 7.jpg сохранен в C:\Users\NeKonn\orders\PDF_parser\test\TEXT\7.txt
Текст из 8.jpg сохранен в C:\Users\NeKonn\orders\PDF_parser\test\TEXT\8.txt
Текст из 9.jpg сохранен в C:\Users\NeKonn\orders\PDF_parser\test\TEXT\9.txt
