In [2]:
#!pip install PyMuPDF

In [5]:
import pandas as pd
# Общие библиотеки
import re
import os
import cv2
import numpy as np

import fitz

In [2]:
def convert_pdf_to_txt_with_layout(pdf_folder, txt_folder):
    """
    Конвертирует PDF-файлы из указанной папки в текстовые файлы, сохраняя приблизительное расположение текста.
    PDF-файлы переименовываются в числовой последовательности.
    Сохраняет текстовые файлы в указанную папку с соответствующими именами.

    :param pdf_folder: Путь к папке с PDF-файлами.
    :param txt_folder: Путь к папке для сохранения текстовых файлов.
    """
    pdf_files = [f for f in os.listdir(pdf_folder) if f.endswith('.pdf')]

    for i, file_name in enumerate(sorted(pdf_files), start=1):
        new_file_name = f'{i}.pdf'
        os.rename(os.path.join(pdf_folder, file_name), os.path.join(pdf_folder, new_file_name))

        with fitz.open(os.path.join(pdf_folder, new_file_name)) as doc:
            full_text = ''
            for page in doc:
                blocks = page.get_text("dict")["blocks"]
                last_block_y0 = None
                for b in blocks:
                    if 'lines' in b:
                        for line in b["lines"]:
                            line_text = ''.join([span["text"] for span in line["spans"]])
                            if last_block_y0 is not None and b["bbox"][1] - last_block_y0 > 15:  # Новый абзац
                                full_text += '\n'
                            full_text += line_text + '\n'
                            last_block_y0 = b["bbox"][3]

            with open(os.path.join(txt_folder, f'{i}.txt'), 'w') as txt_file:
                txt_file.write(full_text)

pdf_folder = 'PDF'
txt_folder = 'TXT'
convert_pdf_to_txt_with_layout(pdf_folder, txt_folder)

# Только для файла 1.pdf

In [6]:
pdf_folder = 'PDF'  # Путь к папке с PDF-файлами

# Путь к файлу 1.pdf
file_path = os.path.join(pdf_folder, '1.pdf')

# Список для хранения данных о блоках
blocks_data = []

with fitz.open(file_path) as doc:
    for page_number in range(len(doc)):
        page = doc[page_number]
        blocks = page.get_text("dict")["blocks"]
        for block in blocks:
            if 'lines' in block:  # Проверка на наличие ключа 'lines'
                # Создаем словарь для каждого блока
                block_dict = {
                    'file_name': '1.pdf',
                    'page_number': page_number + 1,
                    'bbox': block['bbox'],  # координаты блока
                    'text': " ".join([line['spans'][0]['text'] for line in block['lines']])
                }
                blocks_data.append(block_dict)

# Создаем DataFrame из списка словарей
df_blocks = pd.DataFrame(blocks_data)

# Применяем стиль для переноса текста в столбце 'bbox'
df_styled = df_blocks.style.set_properties(subset=['bbox'], **{'width': '300px', 'white-space': 'pre-wrap'})

# Выводим стилизованный DataFrame
df_styled

Unnamed: 0,file_name,page_number,bbox,text
0,1.pdf,1,"(52.43000030517578, 31.002685546875, 237.5752410888672, 42.721435546875)",28.12.2023 28.12.2023
1,1.pdf,1,"(34.470001220703125, 46.0003662109375, 255.7916717529297, 56.5472412109375)",Поступ. в банк плат. Списано со сч. плат.
2,1.pdf,1,"(475.3599853515625, 31.68267822265625, 514.6351318359375, 43.40142822265625)",0401060
3,1.pdf,1,"(26.0, 66.002685546875, 345.07513427734375, 79.0814208984375)",ПЛАТЁЖНОЕ ПОРУЧЕНИЕ 3 28.12.2023
4,1.pdf,1,"(309.57000732421875, 81.0003662109375, 330.4315185546875, 91.5472412109375)",Дата
5,1.pdf,1,"(407.4200134277344, 66.002685546875, 462.5931396484375, 77.721435546875)",электронно
6,1.pdf,1,"(407.7099914550781, 81.0003662109375, 462.2944641113281, 91.5472412109375)",Вид платежа
7,1.pdf,1,"(26.0, 96.0003662109375, 68.69065856933594, 117.02728271484375)",Сумма прописью
8,1.pdf,1,"(86.0, 96.002685546875, 387.3804016113281, 107.721435546875)",Сто тридцать три тысячи четыреста тридцать рублей 00 копеек
9,1.pdf,1,"(26.0, 144.18267822265625, 246.4952392578125, 155.90142822265625)",ИНН 7743433688 КПП 774301001


In [7]:
pdf_folder = 'PDF'  # Путь к папке с PDF-файлами
output_folder = 'Annotated_PDF'  # Путь к папке для сохранения аннотированных PDF-файлов

# Создаем папку для аннотированных PDF-файлов, если она еще не существует
os.makedirs(output_folder, exist_ok=True)

# Путь к файлу 1.pdf
file_path = os.path.join(pdf_folder, '1.pdf')

doc = fitz.open(file_path)

for page in doc:
    blocks = page.get_text("dict")["blocks"]
    for block in blocks:
        if 'lines' in block:
            rect = fitz.Rect(block['bbox'])
            page.draw_rect(rect, color=(1, 0, 0), width=1)  # Рисуем красный прямоугольник

            # Координаты для вывода текста (например, в левом верхнем углу прямоугольника)
            text_x = rect.x0
            text_y = rect.y0 - 10  # Сдвигаем немного вверх от верхней границы блока

            # Форматируем строку с координатами и добавляем на страницу
            coord_text = f"({rect.x0:.2f}, {rect.y0:.2f}, {rect.x1:.2f}, {rect.y1:.2f})"
            page.insert_text((text_x, text_y), coord_text, fontsize=8, color=(0, 0, 1))

# Сохраняем аннотированный PDF
output_path = os.path.join(output_folder, '1_annotated.pdf')
doc.save(output_path)
doc.close()

print("Аннотирование файла 1.pdf завершено.")

Аннотирование файла 1.pdf завершено.


In [12]:
# Инициализируем DataFrame
columns = ['file_name', 'page_number', 'bbox', 'text']
df_split = pd.DataFrame(columns=columns)

# Регулярные выражения для извлечения ИНН, КПП и номера счета
pattern_inn = r'ИНН (\d+)'
pattern_kpp = r'КПП (\d+)'
pattern_account = r'Сч\. № (\d+)'

for block in blocks_data:
    if block['bbox'] == (26.0, 326.0003967285156, 464.2049560546875, 340.9013977050781):
        # Извлекаем ИНН, КПП и номер счета
        inn_match = re.search(pattern_inn, block['text'])
        kpp_match = re.search(pattern_kpp, block['text'])
        account_match = re.search(pattern_account, block['text'])

        # Создаем отдельные строки для ИНН, КПП и номера счета
        if inn_match:
            df_split = df_split.append({'file_name': block['file_name'], 'page_number': block['page_number'], 'bbox': block['bbox'], 'text': f"ИНН {inn_match.group(1)}"}, ignore_index=True)
        if kpp_match:
            df_split = df_split.append({'file_name': block['file_name'], 'page_number': block['page_number'], 'bbox': block['bbox'], 'text': f"КПП {kpp_match.group(1)}"}, ignore_index=True)
        if account_match:
            df_split = df_split.append({'file_name': block['file_name'], 'page_number': block['page_number'], 'bbox': block['bbox'], 'text': f"Сч. № {account_match.group(1)}"}, ignore_index=True)
    else:
        df_split = df_split.append(block, ignore_index=True)

# Применяем стиль для переноса текста в столбце 'text'
df_split_styled = df_split.style.set_properties(subset=['text'], **{'width': '300px', 'white-space': 'pre-wrap'})

# Выводим стилизованный DataFrame
df_split_styled

AttributeError: 'DataFrame' object has no attribute 'append'

User
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
Cell In[12], line 25
     23             df_split = df_split.append({'file_name': block['file_name'], 'page_number': block['page_number'], 'bbox': block['bbox'], 'text': f"Сч. № {account_match.group(1)}"}, ignore_index=True)
     24     else:
---> 25         df_split = df_split.append(block, ignore_index=True)
     27 # Применяем стиль для переноса текста в столбце 'text'
     28 df_split_styled = df_split.style.set_properties(subset=['text'], **{'width': '300px', 'white-space': 'pre-wrap'})

File ~\anaconda3\Lib\site-packages\pandas\core\generic.py:5989, in NDFrame.__getattr__(self, name)
   5982 if (
   5983     name not in self._internal_names_set
   5984     and name not in self._metadata
   5985     and name not in self._accessors
   5986     and self._info_axis._can_hold_identifiers_and_holds_name(name)
   5987 ):
   5988     return self[name]
-> 5989 return object.__getattribute__(self, name)

AttributeError: 'DataFrame' object has no attribute 'append'

Мне ну нужны новые столбцы мне просто нужно эту информацию разделить на 3 разные строки в столбце text



In [11]:
# Функция для разделения блока на части с возможностью смещения блоков
def split_and_shift_block(block, num_parts, shift_second=0, shift_third=0):
    x0, y0, x1, y1 = block['bbox']
    width = x1 - x0
    part_width = width / num_parts

    parts = []
    for i in range(num_parts):
        shift = 0
        if i == 1:  # Смещение для второго блока
            shift = shift_second
        elif i == 2:  # Смещение для третьего блока
            shift = shift_third

        part_bbox = (x0 + i * part_width + shift, y0, x0 + (i + 1) * part_width + shift, y1)
        parts.append(part_bbox)

    return parts

# Применяем функцию к блокам
split_blocks_data = []

for block in blocks_data:
    bbox = block['bbox']
    file_name = block['file_name']
    page_number = block['page_number']
    text = block['text']

    # Пример условий для разделения блока на 3 части с учетом смещения
    if bbox == (26.0, 326.0003967285156, 464.2049560546875, 340.9013977050781):
        # Делим на 3 части с смещением для второго и третьего блока
        shifted_parts = split_and_shift_block(block, 3, shift_second=-10, shift_third=-20)
        for part_bbox in shifted_parts:
            split_blocks_data.append({'file_name': file_name, 'page_number': page_number, 'bbox': part_bbox, 'text': text})
    else:
        split_blocks_data.append(block)

# Создаем новый DataFrame
df_split_blocks = pd.DataFrame(split_blocks_data)

# Применяем стиль для переноса текста в столбце 'bbox'
df_split_styled = df_split_blocks.style.set_properties(subset=['bbox'], **{'width': '300px', 'white-space': 'pre-wrap'})

# Выводим стилизованный DataFrame
df_split_styled

Unnamed: 0,file_name,page_number,bbox,text
0,1.pdf,1,"(52.43000030517578, 31.002685546875, 237.5752410888672, 42.721435546875)",28.12.2023 28.12.2023
1,1.pdf,1,"(34.470001220703125, 46.0003662109375, 255.7916717529297, 56.5472412109375)",Поступ. в банк плат. Списано со сч. плат.
2,1.pdf,1,"(475.3599853515625, 31.68267822265625, 514.6351318359375, 43.40142822265625)",0401060
3,1.pdf,1,"(26.0, 66.002685546875, 345.07513427734375, 79.0814208984375)",ПЛАТЁЖНОЕ ПОРУЧЕНИЕ 3 28.12.2023
4,1.pdf,1,"(309.57000732421875, 81.0003662109375, 330.4315185546875, 91.5472412109375)",Дата
5,1.pdf,1,"(407.4200134277344, 66.002685546875, 462.5931396484375, 77.721435546875)",электронно
6,1.pdf,1,"(407.7099914550781, 81.0003662109375, 462.2944641113281, 91.5472412109375)",Вид платежа
7,1.pdf,1,"(26.0, 96.0003662109375, 68.69065856933594, 117.02728271484375)",Сумма прописью
8,1.pdf,1,"(86.0, 96.002685546875, 387.3804016113281, 107.721435546875)",Сто тридцать три тысячи четыреста тридцать рублей 00 копеек
9,1.pdf,1,"(26.0, 144.18267822265625, 246.4952392578125, 155.90142822265625)",ИНН 7743433688 КПП 774301001


# Изменение координат для отдельных блоков

In [21]:
# Функция для разделения блока на части
def split_block(block, num_parts):
    x0, y0, x1, y1 = block['bbox']
    width = x1 - x0
    part_width = width / num_parts

    parts = []
    for i in range(num_parts):
        part_bbox = (x0 + i * part_width, y0, x0 + (i + 1) * part_width, y1)
        parts.append(part_bbox)

    return parts

# Новый список для хранения данных о разделенных блоках
split_blocks_data = []

# Проходим по оригинальным блокам и разделяем их при необходимости
for block in blocks_data:
    bbox = block['bbox']
    file_name = block['file_name']
    page_number = block['page_number']
    text = block['text']

    # Условия для разделения блоков (пример)
    if bbox == (26.0, 326.0003967285156, 464.2049560546875, 340.9013977050781):
        # Делим на 3 части (ИНН, КПП, Сч. №)
        for part_bbox in split_block(block, 3):
            split_blocks_data.append({'file_name': file_name, 'page_number': page_number, 'bbox': part_bbox, 'text': text})
    else:
        # Оставляем блок как есть
        split_blocks_data.append(block)

# Создаем новый DataFrame из списка разделенных блоков
df_split_blocks = pd.DataFrame(split_blocks_data)

# Применяем стиль для переноса текста в столбце 'bbox'
df_split_styled = df_split_blocks.style.set_properties(subset=['bbox'], **{'width': '300px', 'white-space': 'pre-wrap'})

# Выводим стилизованный DataFrame
df_split_styled

Unnamed: 0,file_name,page_number,bbox,text
0,1.pdf,1,"(52.43000030517578, 31.002685546875, 237.5752410888672, 42.721435546875)",28.12.2023 28.12.2023
1,1.pdf,1,"(34.470001220703125, 46.0003662109375, 255.7916717529297, 56.5472412109375)",Поступ. в банк плат. Списано со сч. плат.
2,1.pdf,1,"(475.3599853515625, 31.68267822265625, 514.6351318359375, 43.40142822265625)",0401060
3,1.pdf,1,"(26.0, 66.002685546875, 345.07513427734375, 79.0814208984375)",ПЛАТЁЖНОЕ ПОРУЧЕНИЕ 3 28.12.2023
4,1.pdf,1,"(309.57000732421875, 81.0003662109375, 330.4315185546875, 91.5472412109375)",Дата
5,1.pdf,1,"(407.4200134277344, 66.002685546875, 462.5931396484375, 77.721435546875)",электронно
6,1.pdf,1,"(407.7099914550781, 81.0003662109375, 462.2944641113281, 91.5472412109375)",Вид платежа
7,1.pdf,1,"(26.0, 96.0003662109375, 68.69065856933594, 117.02728271484375)",Сумма прописью
8,1.pdf,1,"(86.0, 96.002685546875, 387.3804016113281, 107.721435546875)",Сто тридцать три тысячи четыреста тридцать рублей 00 копеек
9,1.pdf,1,"(26.0, 144.18267822265625, 246.4952392578125, 155.90142822265625)",ИНН 7743433688 КПП 774301001


In [22]:
pdf_folder = 'PDF'  # Путь к папке с PDF-файлами
output_folder = 'Annotated_Split_Blocks_PDF'  # Путь к папке для сохранения аннотированных PDF-файлов

# Создаем папку для аннотированных PDF-файлов, если она еще не существует
os.makedirs(output_folder, exist_ok=True)

# Путь к файлу 1.pdf
file_path = os.path.join(pdf_folder, '1.pdf')
output_path = os.path.join(output_folder, '1_annotated_split_blocks.pdf')

doc = fitz.open(file_path)

for page in doc:
    for block in split_blocks_data:
        if block['file_name'] == '1.pdf' and block['page_number'] - 1 == page.number:
            rect = fitz.Rect(block['bbox'])
            page.draw_rect(rect, color=(0, 1, 0), width=1)  # Рисуем зеленый прямоугольник

            # Координаты для вывода текста
            text_x = rect.x0
            text_y = rect.y0 - 10  # Сдвигаем вверх от верхней границы блока

            # Форматируем строку с координатами и добавляем на страницу
            coord_text = f"({rect.x0:.2f}, {rect.y0:.2f}, {rect.x1:.2f}, {rect.y1:.2f})"
            page.insert_text((text_x, text_y), coord_text, fontsize=8, color=(0, 0, 1))

doc.save(output_path)
doc.close()

print("Аннотирование файла 1.pdf с разделенными блоками завершено.")

Аннотирование файла 1.pdf с разделенными блоками завершено.


# Для всех файлов pdf в папке PDF

In [4]:
pdf_folder = 'PDF'  # Путь к папке с PDF-файлами

# Список для хранения данных о блоках
blocks_data = []

# Получаем список всех PDF-файлов в папке
pdf_files = [f for f in os.listdir(pdf_folder) if f.endswith('.pdf')]

# Анализ координат текстовых блоков в каждом файле
for file_name in pdf_files:
    file_path = os.path.join(pdf_folder, file_name)
    with fitz.open(file_path) as doc:
        for page_number in range(len(doc)):
            page = doc[page_number]
            blocks = page.get_text("dict")["blocks"]
            for block in blocks:
                if 'lines' in block:  # Проверка на наличие ключа 'lines'
                    # Создаем словарь для каждого блока
                    block_dict = {
                        'file_name': file_name,
                        'page_number': page_number + 1,
                        'bbox': block['bbox'],  # координаты блока
                        'text': " ".join([line['spans'][0]['text'] for line in block['lines']])
                    }
                    blocks_data.append(block_dict)

# Создаем DataFrame из списка словарей
df_blocks = pd.DataFrame(blocks_data)

# Добавляем новый столбец 'file_number', в котором хранится числовая часть имени файла
df_blocks['file_number'] = df_blocks['file_name'].str.extract('(\d+)').astype(int)

# Сортируем DataFrame сначала по 'file_number', затем по 'page_number'
df_blocks_sorted = df_blocks.sort_values(by=['file_number', 'page_number'])

# Удаляем столбец 'file_number', если он вам больше не нужен
df_blocks_sorted = df_blocks_sorted.drop('file_number', axis=1)

# Применяем стиль для переноса текста в столбце 'bbox'
df_styled = df_blocks_sorted.style.set_properties(subset=['bbox'], **{'width': '300px', 'white-space': 'pre-wrap'})

# Выводим стилизованный DataFrame
df_styled

Unnamed: 0,file_name,page_number,bbox,text
0,1.pdf,1,"(52.43000030517578, 31.002685546875, 237.5752410888672, 42.721435546875)",28.12.2023 28.12.2023
1,1.pdf,1,"(34.470001220703125, 46.0003662109375, 255.7916717529297, 56.5472412109375)",Поступ. в банк плат. Списано со сч. плат.
2,1.pdf,1,"(475.3599853515625, 31.68267822265625, 514.6351318359375, 43.40142822265625)",0401060
3,1.pdf,1,"(26.0, 66.002685546875, 345.07513427734375, 79.0814208984375)",ПЛАТЁЖНОЕ ПОРУЧЕНИЕ 3 28.12.2023
4,1.pdf,1,"(309.57000732421875, 81.0003662109375, 330.4315185546875, 91.5472412109375)",Дата
5,1.pdf,1,"(407.4200134277344, 66.002685546875, 462.5931396484375, 77.721435546875)",электронно
6,1.pdf,1,"(407.7099914550781, 81.0003662109375, 462.2944641113281, 91.5472412109375)",Вид платежа
7,1.pdf,1,"(26.0, 96.0003662109375, 68.69065856933594, 117.02728271484375)",Сумма прописью
8,1.pdf,1,"(86.0, 96.002685546875, 387.3804016113281, 107.721435546875)",Сто тридцать три тысячи четыреста тридцать рублей 00 копеек
9,1.pdf,1,"(26.0, 144.18267822265625, 246.4952392578125, 155.90142822265625)",ИНН 7743433688 КПП 774301001


In [5]:
df_styled.to_excel('check.xlsx', index=False)

In [7]:
pdf_folder = 'PDF'  # Путь к папке с PDF-файлами
output_folder = 'Annotated_PDF'  # Путь к папке для сохранения аннотированных PDF-файлов

# Создаем папку для аннотированных PDF-файлов, если она еще не существует
os.makedirs(output_folder, exist_ok=True)

# Анализ координат текстовых блоков и аннотирование каждого файла
for file_name in pdf_files:
    file_path = os.path.join(pdf_folder, file_name)
    doc = fitz.open(file_path)

    for page in doc:
        blocks = page.get_text("dict")["blocks"]
        for block in blocks:
            if 'lines' in block:
                rect = fitz.Rect(block['bbox'])
                page.draw_rect(rect, color=(1, 0, 0), width=1)  # Рисуем красный прямоугольник

                # Координаты для вывода текста (например, в левом верхнем углу прямоугольника)
                text_x = rect.x0
                text_y = rect.y0 - 10  # Сдвигаем немного вверх от верхней границы блока

                # Форматируем строку с координатами и добавляем на страницу
                coord_text = f"({rect.x0:.2f}, {rect.y0:.2f}, {rect.x1:.2f}, {rect.y1:.2f})"
                page.insert_text((text_x, text_y), coord_text, fontsize=8, color=(0, 0, 1))

    # Сохраняем аннотированный PDF
    output_path = os.path.join(output_folder, file_name)
    doc.save(output_path)
    doc.close()

print("Аннотирование PDF-файлов завершено.")

Аннотирование PDF-файлов завершено.
