In [1]:
import numpy as np
from PIL import Image, ImageEnhance, ImageOps
import cv2
import os
import json
os.environ['KMP_DUPLICATE_LIB_OK']='True' #ошибка ОС на локальной машине
import pytesseract #модуль распознавания текста
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
tessdata_dir_config = r'--tessdata-dir "C:\Program Files\Tesseract-OCR\tessdata"'

In [2]:
def enhance_im(img, en1 = 20, en2 = 1.5): # делаем изобпражение чётче
    img = Image.fromarray(np.uint8(img))
    enhancer1 = ImageEnhance.Sharpness(img)
    enhancer2 = ImageEnhance.Contrast(img)
    img_edit = enhancer1.enhance(en1)
    img_edit = enhancer2.enhance(en2)
    return np.asarray(img_edit)

In [3]:
def resize(img, scale_in): #изменяем размер изображения
    return cv2.resize(img, (int(img.shape[1] * scale_in), int(img.shape[0] * scale_in)), interpolation = cv2.INTER_AREA)

In [4]:
#преобразование и наполнение
def find_fields(img, erode_size, l_o_m, field_size = 300):
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    #порог отсечения фоновых пикселей. thresh - монохромное чёрно-белое изображение
    ret, thresh = cv2.threshold(gray, 150, 255, cv2.THRESH_BINARY)
    img_erode = cv2.erode(thresh, np.ones((erode_size, erode_size), np.uint8), iterations=1) #размытие для сглаживания контуров
    # находим контуры
    contours, hierarchy = cv2.findContours(img_erode, cv2.RETR_TREE, cv2.CHAIN_APPROX_NONE)
    output = img.copy()
    letters = []#список слов
    #выделяем зоны контуров
    for idx, contour in enumerate(contours):
        (x, y, w, h) = cv2.boundingRect(contour)
        if hierarchy[0][idx][3] == 0:
            cv2.rectangle(output, (x, y), (x + w, y + h), (0, 0, 0), 1)#прямоугольная зона со словом
            letter_crop = img[y:y + h, x:x + w]
            if eval(f'{w}{l_o_m}{field_size}') and h >15:#алгоритм цепляет горизонтальные линии, не берём их
                letters.append((letter_crop))
    letters.reverse()#приводим список к нормальному порядку
    return letters

In [5]:
#распознавание текста на предложенной картинкке
def rec_text(img, curr_lang, conf = tessdata_dir_config):
    return pytesseract.image_to_string(img, config=conf, lang= curr_lang)

In [6]:
#проход по всем картинкам
def list_of_ans(fls, curr_lang, border_cut = False):
    clear_text = []
    for elem in fls:
        if border_cut: #обрезаем рамку если сканируем поля
            elem = elem[8:-8,8:-8]
        elem = resize(elem,3)#увеличиваем картинку, лучше читается
        elem = Image.fromarray(np.uint8(elem))
        #лучше распознаётся текст, не примыкающий к границам изображения
        elem = ImageOps.expand(elem, border = 50, fill = (255,255,255))
        #отсеиваем пробелы и иные мусорные символы
        text = [word.replace('—','') for word in rec_text(elem, curr_lang).split('\n') if word not in [' ', '', '\x0c']]
        if (len(text) == 0) and (len(clear_text) < 4):#подиночные символы tesseract распознаёт по иному конфигу, проверяем поле
            text_1 = [word for word in rec_text(elem, curr_lang, '--psm 10').split('\n') if word not in [' ', '', '\x0c', '_', '—']]
            if len(' '.join(text_1)) == 1:
                text = text_1   
        clear_text.append(' '.join(text))
    return clear_text

In [7]:
#ищем и распознаём поля с текстом на каждой картинке
def open_conv(im_path):
    img = Image.open(im_path)
    img = enhance_im(img)
    big_fields = find_fields(img, 1, '>', 90 ) #заполненные поля
    #распознаём текст
    return list_of_ans(big_fields, 'rus', True)

In [8]:
#конвертируем в json
def jsonify_image(filename, file_rec, file_keys):
    voc_to_json = {}
    for i in range(len(file_rec)):
        voc_to_json[file_keys[i]] = file_rec[i]
    #сохраняем json
    with open(filename[:-4] + '.json', 'w', encoding = 'utf-8') as curr_file:
        json.dump(voc_to_json, curr_file, ensure_ascii = False)

In [9]:
#ищем названия пунктов, номер картинки с лучшим качеством
img = Image.open('cv/3.jpg')
img = enhance_im(img)
small_f = find_fields(img, 9, '<', 300 )#длинные поля нам не нужны, но цепляем дату и номера
small_f = [small_f[i]for i in range(len(small_f)) if i not in (1,2,3,11)] #удаляем ненужные поля
small_f[1], small_f[2] = small_f[2], small_f[1]# меняем местами в соответствии с требуемым порядком
small_list = list_of_ans(small_f, 'rus') #распознаём пункты
small_list = [small_list[i].replace(':', '') for i in range(len(small_list))]#удаляем двоеточия
small_list[2] = 'номер'#знак номера по заданию меняется на слово

In [10]:
#заполняем json
for file in os.listdir('cv/'):
    #открываем файл
    curr_text = open_conv('cv/'+file)
    #некоторые сло
    if '.' in curr_text[3]:
        curr_text[1:4] = curr_text[3:0:-1]
    jsonify_image(file, curr_text, small_list)
print('Well done!')

Well done!
