In [2]:
# импорт библиотек
import cv2
import numpy as np
import pandas as pd
import pytesseract
import easyocr
import re
import os
import time

from PIL import Image

from IPython.display import display

## Функции

### Функция вырезания таблицы из изображения `crop_img`

In [3]:
# функция для вырезания таблицы из изображения
def crop_img(img_path, output_path):
    # Считывание изображения
    img = Image.open(img_path)
    img = np.array(img)
    if img.ndim == 3 and img.shape[2] == 3:
        img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    
    # Присвоение изображению порогового значения в виде двоичного изображения
    img_bin = cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_MEAN_C, cv2.THRESH_BINARY_INV, 21, 10)
    
    # Обнаружение контуров
    contours, _ = cv2.findContours(img_bin, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    
    # Определение самого большого контура
    largest_contour = max(contours, key=cv2.contourArea)
    
    # Обрезание по этому контуру
    x, y, w, h = cv2.boundingRect(largest_contour)
    cropped_image = img[y:y+h, x:x+w]
    
    # Сохранение
    cv2.imwrite(output_path, cropped_image)

    return cropped_image

### Функция распознавания `img2table`

In [14]:
# функция для распознавания таблиц с изображения
# pytesseract для текста + EasyOCR для недостающих (digit=0)
# или + EasyOCR для цифр (digit=1)
def img2table(img_path, output_path, digit=1):
    # Считывание изображения
    #img = Image.open(img_path)
    #img = np.array(img)
    img = img_path
    if img.ndim == 3 and img.shape[2] == 3:
        img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

    # Присвоение изображению порогового значения в виде двоичного изображения
    img_bin = cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_MEAN_C, cv2.THRESH_BINARY_INV, 21, 10)

    # Ширина ядра как 100-я часть общей ширины
    kernel_len = np.array(img).shape[1] // 100

    # Определение вертикального и горизонтального ядер
    ver_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (1, kernel_len))
    hor_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (kernel_len, 1))

    # Ядро размером 2x2
    kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (2, 2))

    # Обнаружение вертикальных и горизонтальных линий
    image_1 = cv2.erode(img_bin, ver_kernel, iterations=3)
    vertical_lines = cv2.dilate(image_1, ver_kernel, iterations=3)

    image_2 = cv2.erode(img_bin, hor_kernel, iterations=3)
    horizontal_lines = cv2.dilate(image_2, hor_kernel, iterations=3)

    # Объединение горизонтальных и вертикальных линий в новом изображении
    img_vh = cv2.addWeighted(vertical_lines, 0.5, horizontal_lines, 0.5, 0.0)

    # Размывание и установление порогового значения
    img_vh = cv2.erode(~img_vh, kernel, iterations=2)
    _, img_vh = cv2.threshold(img_vh, 128, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)

    # Обнаружение контуров
    contours, _ = cv2.findContours(img_vh, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)

    # Преобразование tuple в list
    contours = list(contours)
    contours.reverse()

    # Подсчёт вертикальных линий (столбцов)
    num_vertical_lines = 1
    for contour in contours:
        x, y, w, h = cv2.boundingRect(contour)
        
        if w > 20 and h > 20 and w < 500 and h < 500:
            num_vertical_lines = int(img.shape[1] / w)
            break
    
    texts = []
    # Итерация по каждому контуру (ячейке)
    for contour in contours:
        
        # Получение координат ограничивающего прямоугольника вокруг контура
        x, y, w, h = cv2.boundingRect(contour)
        if w > 20 and h > 20 and w < 500 and h < 500:
            cell_image = img[y:y + h, x:x + w]
        
            # Получение текста с ячейки
            text = pytesseract.image_to_string(cell_image, lang='rus')

            if digit == 0: # вариант "EasyOCR для недостающих"
                if text == '':
                    results = reader.readtext(cell_image)
                    if len(results) > 0:
                        text = results[0][1]
            else: # вариант "EasyOCR для цифр"
                if text == '' or re.search(r'\d', text):
                    results = reader.readtext(cell_image)
                    if len(results) > 0:
                        text = results[0][1]

            # Добавление текста в список
            texts.append(text.replace('|', '').replace('_', '').replace(',', '.'))
    
    # Исключение пустых строк вначале списка
    for text in texts[num_vertical_lines:]:
        if text == '':
            texts.remove(text)
        else:
            break
        
    # Разделение списка по количеству столбцов
    texts = [texts[i:i+num_vertical_lines] for i in range(0, len(texts), num_vertical_lines)]
    
    # Создание датафрейма
    try:
        df = pd.DataFrame(data=texts[1:], columns=texts[0])
        df.dropna(inplace=True)
        df = df.applymap(lambda x: x.replace('\n', ''))
        df = df.rename(columns=lambda x: re.sub(r'\s+', ' ', x.replace('\n', ' ')))
    except:
        df = pd.DataFrame()
    
    # Сохранение
    df.to_csv(output_path, index=False)

    return df

### Функция сравнения результатов `compare_tables`

In [5]:
# функция сравнения результатов распознавания с реальными значениями
# df1 - датасет с реальными значениями
# df2 - датасет с результатами распознавания
def compare_tables(df1, df2):
    # считаем, что правильной является 1 таблица
    
    num_matching_cells = (df1 == df2).sum().sum()

    total_cells = df1.size
    
    accuracy = num_matching_cells/total_cells
    return num_matching_cells, total_cells, accuracy

## Основная программа

In [6]:
# активация pytesseract
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files/Tesseract-OCR/tesseract.exe'

In [7]:
# активация easyocr
reader = easyocr.Reader(['ru'])

CUDA not available - defaulting to CPU. Note: This module is much faster with a GPU.


In [15]:
%%time
# формирование списков изображений и тестовых csv, находящихся в подпапке test
path_file = r'test\\'
files_jpg = []
files_csv = []
for file in sorted(os.listdir(path_file)):
    if file.endswith('.jpg'):
        files_jpg.append(file)
    elif file.endswith('.csv'):
        files_csv.append(file)

for i in range(len(files_jpg)):
    # засекаем время
    start_time = time.time()
    # вызов функции вырезания таблицы
    tabl = crop_img(path_file+files_jpg[i], path_file+files_jpg[i][:-4]+'_tabl.jpg')
    # вызов функции распознавания
    df = img2table(tabl, path_file+files_jpg[i][:-4]+'_rezult.csv')
    # подсчет времени выполнения
    time_fit = time.time() - start_time
    # отображение распознанной информации
    print(f'{i+1}. Результат распознавания файла {files_jpg[i]}:')
    display(df)
    print(f'Время распознавания файла {files_jpg[i]}: {time_fit:0.1f} сек. ({time.strftime("%H:%M:%S", time.gmtime(time_fit))})\n')
    # вызов функции обработки проверочного csv

1. Результат распознавания файла 141899 .jpg:


Unnamed: 0,Длка
0,плл90
1,уон7 л
2,
3,ЗИ кадемей
4,дву@
5,861[
6,дети
7,{8


Время распознавания файла 141899 .jpg: 195.4 сек. (00:03:15)

2. Результат распознавания файла 204119 .jpg:


Unnamed: 0,Дата,ДоН ва,Кол-во,Дата.1,Вид дон-ва,Кол-во.1,5,Unnamed: 8
0,8,,11.10.2017,крИд (бв),16.10.2018,кр/д (бв),450,крАд (бв)


Время распознавания файла 204119 .jpg: 25.2 сек. (00:00:25)

3. Результат распознавания файла 213950.jpg:


Unnamed: 0,Подпись,Кол-во,Вид,Дата,Подпись.1,Кол-во.1
0,Вид,Дата,8,,6,5
1,4,3,2,,,450
2,крИд (бв),21.04.2020,,450,кр/д (бв),14.04.2014
3,,350,крИд (бв),27.07.2020,,450
4,крИд (бв),30.05.2018,,19.11.2020,,О.
5,кр/д (бв),30.07.2018,,22.01.2021,,450
6,кр/д (бв),05.10.2018,,450,крид (в),15.09.2021
7,,450,крАд (бв),05.12.2018,,18.11.2021
8,крАд (бв),450,,450,крИд (бв),06.02.2019
9,02.02.2022,крид (бв),,450,,450


Время распознавания файла 213950.jpg: 137.2 сек. (00:02:17)

4. Результат распознавания файла 225629 .jpg:


Unnamed: 0,Дата,4,3,2,Unnamed: 5,07.12.2012,Unnamed: 7,кр/д (бв),15.07.2004
0,20.06.2016,480,кр/д (бв),13.01.2006,09.11.2018,26.08.2016,480,кр/д (бв),17.01.2007
1,11.03.2019,06.03.2017,450,кр/д (бв),20.07.2011,450,24.07.2017,450,/д (бв)кр


Время распознавания файла 225629 .jpg: 45.6 сек. (00:00:45)

5. Результат распознавания файла 227414.jpg:


Unnamed: 0,В,Unnamed: 2,Unnamed: 3,0,==,8,Дата,Вид дон-ва
0,Кол-во,Дата,Виддон-ва,Кол-во,Дата,Виддон-ва,Кол-во,
1,2,,,5,,,8,
2,22.08.19,Кд(бв),450,22.10.19,т/ф(бв),525,21.11.19,т/ф(бв)
3,442,29.05.20,т/ф(бв).,430,10.07.20,т/ф(бв),430,06.08.20
4,т/ф(бв),345,25.08.20,т/ф(бв),435,11.03.21,п/ф(бв),600
5,07.04.21,п/ф(бв),600,22.04.21,п/ф(бв),600,31.08.21,т/ф(бв)
6,356,22.09.21,т/ф(бв),345,29.12.21,т/ф(бв),500,08.02.22
7,т/ф(бв).,342,23.03.22,т/ф(бв),342,01.06.22,т/ф(бв),342
8,12.07.22,т/ф(бв),430,08.08.22,т/ф(бв),530,25.10.22,т/ф(бв)


Время распознавания файла 227414.jpg: 60.0 сек. (00:01:00)

6. Результат распознавания файла 228963 .jpg:


Unnamed: 0,83!!,9;,К00 ?9,Дпм,943,пка0,Дата,Д0 03,860-00,[07.20:9
0,89!3.3010,459,58;0?039,{30,90'1091,21.112981,18.@0.018,450,!0-10 3300,1[03012


Время распознавания файла 228963 .jpg: 95.7 сек. (00:01:35)

7. Результат распознавания файла 231820 .jpg:


Unnamed: 0,Дата,Вид дон-ва,Кол-во,Дата.1,Вид дон-ва.1,Кол-во.1,Дата.2,Вид дон-ва.2,Кол-во.2
0,14.02.2006,кр/д (бв),420,15.07.2016,кр/д (бв),450.0,04.08.2018,кр/д (бв),450.0
1,11.06.2014,кр/д (бв),350,11.10.2016,кр/д (бв),450.0,26.12.2018,кр/д (бв),450.0
2,30.10.2014,кр/д (бв),450,21.12.2016,кр/д (бв),450.0,29.03.2019,кр/д (бв),450.0
3,13.08.2015,кр/д (бв),450,21.06.2017,кр/д (бв),450.0,11.10.2022,кр/д (бв),450.0
4,30.10.2015,кр/д (бв),450,,,,,,


Время распознавания файла 231820 .jpg: 37.9 сек. (00:00:37)

8. Результат распознавания файла 233749 .jpg:


Unnamed: 0,Вид дон-ва,Дата,Кол-во,Вид дон-ва.1,5,4,3,2,Unnamed: 9
0,450,кр/д (бв),20.04.2017,350,кр/д (бв),20.04.2011,450,кр/д (бв),02.08.2017
1,450,крИд (бв),13.03.2015,450,кр/д (в),06.10.2017,450,в)кр/д (б,25.09.2015
2,450,крИд (бв),Ве,450,кр/д (бв),06.01.2016,300,пл/д (бв),10.04.2018
3,450,в),22.08.2016,450,кр/д (бв),05.06.2020,450,крИд (бв),26.10.2016


Время распознавания файла 233749 .jpg: 53.8 сек. (00:00:53)

9. Результат распознавания файла 236000 .jpg:


Unnamed: 0,Дата,Вид — дон-ва,Кол-во,Дата.1,Вид дон-ва,ол-вО,*т05,Вид дон-ва.1
0,Кол-во,,2,3,,5,,
1,8,,25.11.2020,кр/д (бв).,450,09.11.2021,кр/д (бв),450
2,17.02.2023,кр/д (бв),450,26.02.2021,кр/д (бв),450,16.09.2022,кр/д (в).


Время распознавания файла 236000 .jpg: 25.4 сек. (00:00:25)

10. Результат распознавания файла 238716.jpg:


Unnamed: 0,Кол-во,ДоН ва,Кол-во.1,Дата,Вид дон-ва —,Дата.1,Кол-во.2,Вид,Дата.2
0,9,8,,,5,,3,2,
1,450,450,20.10.2020,кр/д (бв),кр/д (бв),10.08.2017,400,кр/д (бв),29.04.2008
2,450,400,23.12.2020,кр/д (бв),кр/д (бв),16.12.2017,413,кр/д (бв),05.10.2013
3,600,плид (бв),450,17.02.2021,кр/д (бв),26.04.2018,413,юрид (бв),27.03.2014
4,450,кр/д (бв),400,03.03.2021,кр/д (бв),12.07.2018,400,крид (бв),29.07.2015
5,450,кр/д (бв),450,04.05.2021,кр/д (бв),15.11.2018,400,кр/д (бв),03.10.2015
6,450,кр/д (бв),04.08.2021,370,кр/д (бв),27.03.2019,400,кр/д (бв),18.02.2016
7,450,кр/д (в).,29.10.2021,450,06.06.2019,кр/д (бв),400,кр/д (бв),19.04.2016
8,450,Е кр/д (бв),29.12.2021,450,кр/д (бв),17.08.2019,400,крид (бв),07.07.2016
9,450,кр/д (в),22.03.2022,450,кр/д (бв),12.11.2019,450,15.10.2016,крид (бв)


Время распознавания файла 238716.jpg: 132.9 сек. (00:02:12)

11. Результат распознавания файла 243478 .jpg:


Время распознавания файла 243478 .jpg: 265.5 сек. (00:04:25)

12. Результат распознавания файла 245365 .jpg:


Unnamed: 0,Кол-во,Дата,Вид дон-ва,Вид дон-ва.1,Кол-во.1,Дата.1,Кол-во.2,Вид,Дата.2,Unnamed: 10
0,5,8,,,3,2,,450,20.04.2019,кр/д (бв)
1,16.06.2017,кр/д (бв),450,370,крид (бв),14.01.2009,крВд (бв),450,17.08.2019,28.08.2017
2,кр/д (бв),450,450,кр/д (бв),14.07.2009,450,22.03.2021,кр/д. (бв),03.11.2017,крд (бв)
3,450,450,кр/д (бв),25.01.2010,450,01.06.2021,кр/д (бв),27.01.2018,450,крИд (бв)
4,450,крИд (бв),07.02.2011,пл/д (бв),207,23.08.2021,17.03.2018,450,крид (бв),)В кр/д (б
5,450,08.08.2011,пл/д (бв),177,26.11.2021,19.04.2018,250,— плуд (бв),крид (бв),450
6,29.02.2012,450,)кр/д (бв,27.01.2022,24.05.2018,200,ц/д (бв),кр/д (бв),450,21.11.2016
7,пл/д (бв),177,06.05.2022,16.07.2018,270,23.12.2016,пл/д (бв),кр/д (бв),450,450
8,16.07.2022,24.01.2017,ц/д (бв),11.08.2018,кр/д (бв),кр/д (бв),273,450,27.02.2017,пл/д (бв)
9,207,12.10.2022,260,24.09.2018,плАд (бв),кр/д (бв),450,30.03.2017,кр/д (бв),450


Время распознавания файла 245365 .jpg: 154.4 сек. (00:02:34)

13. Результат распознавания файла 254586 .jpg:


Unnamed: 0,полкв0,ВВд,ны,800-90,Вид `дон-ва.,дете,Кол-во,Вид. ‘дон-ва,Цаа


Время распознавания файла 254586 .jpg: 11.6 сек. (00:00:11)

14. Результат распознавания файла 256578 .jpg:


Unnamed: 0,810@
0,Дошрче о нвю тя
1,979{0
2,
3,
4,же
5,п2
6,
7,Н
8,дооов.
9,


Время распознавания файла 256578 .jpg: 95.0 сек. (00:01:34)

15. Результат распознавания файла 256838.jpg:


Время распознавания файла 256838.jpg: 22.2 сек. (00:00:22)

CPU times: total: 1h 28min 8s
Wall time: 22min 37s


### Дальше можно не смотреть, это остатки предыдущего `main` для 1 изображения

In [26]:
# вызов функции вырезания таблицы из изображения
crop_img(img_path, tabl_temp)

# вызов функции распознавания (возвращает датафрейм df)
df = img2table('tabl_temp.jpg', easy_dig_path)

# отображение распознанной информации
print('Распознанная информация:')
display(df)

Распознанная информация:


Unnamed: 0,Дата,Вид дон-ва,Кол-во,Дата.1,Вид дон-ва.1,Кол-во.1,Дата.2,Вид дон-ва.2,Кол-во.2
0,14.02.2006,кр/д (бв),420,15.07.2016,кр/д (бв),450.0,04.08.2018,кр/д (бв),450.0
1,11.06.2014,кр/д (бв),350,11.10.2016,кр/д (бв),450.0,26.12.2018,кр/д (бв),450.0
2,30.10.2014,кр/д (бв),450,21.12.2016,кр/д (бв),450.0,29.03.2019,кр/д (бв),450.0
3,13.08.2015,кр/д (бв),450,21.06.2017,кр/д (бв),450.0,11.10.2022,кр/д (бв),450.0
4,30.10.2015,кр/д (бв),450,,,,,,


In [27]:
# загрузка и отображение проверочной информации
df_test = pd.read_csv('tablica1.csv', header=0, dtype = 'str')
print('Проверочная информация:')
display(df_test)

Проверочная информация:


Unnamed: 0,Дата,Вид дон-ва,Количество,Дата.1,Вид дон-ва.1,Количество.1,Дата.2,Вид дон-ва.2,Количество.2
0,1,2,3,4,5,6.0,7,8,9.0
1,14.02.2006,кр/д (бв),420,15.07.2016,кр/д (бв),450.0,04.08.2018,кр/д (бв),450.0
2,11.06.2014,кр/д (бв),350,11.10.2016,кр/д (бв),450.0,26.12.2018,кр/д (бв),450.0
3,30.10.2014,кр/д (бв),450,21.12.2016,кр/д (бв),450.0,29.03.2019,кр/д (бв),450.0
4,13.08.2015,кр/д (бв),450,21.06.2017,кр/д (бв),450.0,11.10.2022,кр/д (бв),450.0
5,30.10.2015,кр/д (бв),450,,,,,,


In [28]:
# замена NaN, удаление первой строки с номерами столбцов и реиндексация в проверочном датасете
df_test.fillna('', inplace=True)
df_test = df_test.drop(labels=0, axis = 0).reset_index(drop=True)

# переименование столбцов в распознанном и проверочном датафреймах, чтобы совпадали
df.columns = [str(x) for x in list(range(9))]
df_test.columns = [str(x) for x in list(range(9))]

# удаление пробелов в ячейках
df = df.applymap(lambda x: x.replace(' ', ''))
df_test = df_test.applymap(lambda x: x.replace(' ', ''))

# вызов функции сравнения результата распознавания
num_matching_cells, total_cells, accuracy = compare_tables(df_test, df)

# вывод результата сверки
print(f'Корректно распознанных ячеек: {accuracy*100:0.2f} %.')

Корректно распознанных ячеек: 100.00 %.
