In [1]:
!pip install pytesseract



In [2]:
!pip install opencv-python



In [3]:
!pip install pymupdf



In [61]:
import os
import cv2
import fitz
import itertools
import pytesseract
import numpy as np
import pandas as pd
from PIL import Image

In [62]:
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

In [63]:
os.environ['PATH'] += r';C:\Program Files\Tesseract-OCR'

Обобщим обработку на случай pdf файла на входе, сделаем пердобработку и выполним нарезку

In [280]:
class TableExtraction:
    def __init__(self):
        self.input_data = []
        self.list_of_np_arrays = []
        self.threshold_images = []
        self.parts_boxes = []
        self.parts_image = []
        self.result = []

        self.custom_config = r'--oem 1 --psm 1 -l rus'

    def convert_file_to_array(self, file_path):
        file_extension = os.path.splitext(file_path)[1]
        if file_extension == '.pdf':
            doc = fitz.open(file_path)
            for n in range(doc.page_count):
                page = doc.load_page(n)
                pix = page.get_pixmap()
                image = np.frombuffer(pix.samples, dtype=np.uint8).reshape(pix.h, pix.w, pix.n)
                image = np.ascontiguousarray(image[..., [2, 1, 0]])
                self.list_of_np_arrays.append(image)
            doc.close()
        else:
            raise ValueError('Unsupported file format')

    def binarization(self):
        for image in self.list_of_np_arrays:
            gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
            # Применение порогового преобразования для бинаризации изображения
            _, threshold_image = cv2.threshold(gray_image, 0, 255, cv2.THRESH_BINARY)
            self.threshold_images.append(threshold_image)

    def split_pages(self):
        for num, image in enumerate(self.list_of_np_arrays):
            # Преобразование изображения в оттенки серого
            gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

            # Применение порогового преобразования для бинаризации изображения
            ret, threshold_image = cv2.threshold(gray_image, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)

            # Применение морфологического преобразования для удаления шума и замыкания линий
            kernel = np.ones((5, 5), np.uint8)
            morph_image = cv2.morphologyEx(threshold_image, cv2.MORPH_CLOSE, kernel)

            # Нахождение контуров на изображении
            contours, hierarchy = cv2.findContours(morph_image, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)

            height, width, _ = image.shape
            # Фильтрация контуров и определение ограничивающих рамок ячеек
            for contour in contours:
                # Определение площади контура
                area = cv2.contourArea(contour)

                # Фильтрация контуров по площади
                if area > 3000:
                    # Определение ограничивающей рамки контура
                    x, y, w, h = cv2.boundingRect(contour)

                    # Добавление ограничивающей рамки в список
                    self.parts_boxes.append((x, y, x + w, y + h))
                    x1, y1, x2, y2 = self.parts_boxes[-1]
                    cropp_image = image[y1:y2, x1:x2]
                    gray_image = cv2.cvtColor(cropp_image, cv2.COLOR_BGR2GRAY)
                    boxes = pytesseract.image_to_boxes(gray_image, config=self.custom_config)
                    box_lines = boxes.strip().split('\n')
                    boxes_list = [line.split() for line in box_lines]
                    borders = []
                    height, width, _ = cropp_image.shape
                    if boxes_list[0] != []:
                        for box in boxes_list:
                            if box[0] == '~':
                                x, y, w, h = int(box[1]), int(box[2]), int(box[3]), int(box[4])
                                borders.append([x, y, w, h])
                    if len(borders) > 3:
                        self.parts_image.append(cropp_image)
                        cv2.imshow('Image with Cells', gray_image)
                        cv2.waitKey(0)
                        cv2.destroyAllWindows()

    def extract(self):
        for num, image in enumerate(self.parts_image):
            # Получение ограничивающих рамок символов
            boxes = pytesseract.image_to_boxes(image, config=self.custom_config)

            # Разделение строки на список строк
            box_lines = boxes.strip().split('\n')

            # Преобразование каждой строки в список
            boxes_list = [line.split() for line in box_lines]

            # Так как cv2 и tesseract используют разные системы координат
            height, width, _ = image.shape

            # Список границ таблицы
            borders = []

            # Вывод ограничивающих рамок
            for box in boxes_list:
                if box[0] == '~':
                    x, y, w, h = int(box[1]), int(box[2]), int(box[3]), int(box[4])
                    borders.append([x, y, w, h])

            # Находим все вертикальные и горизонтальные линии каркаса таблицы
            vertical_lines = []
            horizontal_lines = []

            # Параметры допуска при котором считаем что линии ровные и пересекаются
            epsilon = 5

            for x1, y1, x2, y2 in borders:
                if abs(x1 - x2) < epsilon:  # Вертикальная линия
                    vertical_lines.append((x1, y1, x2, y2))
                elif abs(y1 - y2) < epsilon:  # Горизонтальная линия
                    horizontal_lines.append((x1, y1, x2, y2))

            # Находим координаты узлов таблицы
            table_nodes = []
            for v_line, h_line in itertools.product(vertical_lines, horizontal_lines):
                x, y = v_line[0], h_line[1]
                cv2.rectangle(image, (x, height - y), (x + 3, height - y + 3), (0, 0, 255), 1)
                table_nodes.append((x, y))

            if table_nodes:
                table_nodes = np.array(table_nodes)

                # Замена координат, отличающихся менее чем на epsilon
                rounded_nodes = np.round(table_nodes / epsilon) * epsilon

                 # Подсчет уникальных значений координат x и y
                unique_x = np.unique(rounded_nodes[:, 0])
                unique_y = np.unique(rounded_nodes[:, 1])

                # Определение числа строк и столбцов таблицы
                num_rows = len(unique_y) - 1
                num_columns = len(unique_x) - 1

                # Отсортируем узлы сначала по оси x, потом по оси y
                nodes_sorted_x = sorted(table_nodes, key=lambda x: (x[0], x[1]))

                # Создадим список прямоугольников
                rectangles = []

                # Пройдем по узлам и создадим прямоугольники
                for i in range(len(nodes_sorted_x) - 1):
                    current_node = nodes_sorted_x[i]
                    if nodes_sorted_x[i + 1][0] == current_node[0]:
                        next_y_node = nodes_sorted_x[i + 1]
                    else:
                        continue
                    # Найдем узлы следующие по оси y для текущих узлов
                    next_x_nodes = [node for node in nodes_sorted_x if
                                    node[1] == current_node[1] and node[0] > current_node[0]]
                    if next_x_nodes:
                        next_x_node = min(next_x_nodes, key=lambda x: x[0])
                        opposite_node = (next_x_node[0], next_y_node[1])
                        # Построим прямоугольник по найденным узлам
                        rectangle = ((current_node[0], current_node[1]), (opposite_node[0], opposite_node[1]))
                        rectangles.append(rectangle)
                    else:
                        continue

                rectangles = sorted(rectangles, key=lambda x: (- x[0][1], x[0][0]))
                # Создание пустого массива для хранения данных таблицы
                table_data = [['' for _ in range(num_columns)] for _ in range(num_rows)]

                # Обход прямоугольников ячеек таблицы
                for i, rectangle in enumerate(rectangles):
                    # Извлечение координат углов прямоугольника
                    x1, y1 = rectangle[0]
                    x2, y2 = rectangle[1]

                    # Обрезание изображения по границам ячейки
                    cell_image = image[max(0, (height - y2) - 2):min(height, (height - y1) + 2),
                                     max(0, x1 - 2):min(width, x2 + 2)]

                    if cell_image.shape[0] > 10 and cell_image.shape[1] > 10:
                        # Распознавание текста с помощью Tesseract
                        text = pytesseract.image_to_string(cell_image, config=self.custom_config).replace('\n', ' ')

                        # Определение положения ячейки в таблице
                        row = i // num_columns
                        column = i % num_columns

                        # Добавление данных ячейки
                        if row < num_rows and column < num_columns:
                            table_data[row][column] = text

                # Вывод полученной таблицы
                df = pd.DataFrame(table_data)
                self.result.append(df)
                # Сохранение DataFrame в формате CSV
                df.to_csv(f'result/table_{num}.csv', index=False, header=False)

In [286]:
extractor = TableExtraction()
extractor.convert_file_to_array('real_data/4.pdf')
extractor.binarization()
extractor.split_pages()
extractor.extract()

