# Обработка pdf-файла

## Функции

### Подключение библиотек, выгрузка всего нужного

In [1]:
import fitz  # это pymupdf
import re
import os
import sys
import nltk
from pathlib import Path
import ipywidgets as widgets
from IPython.display import display

nltk_data_path = os.path.join(os.getcwd(), 'nltk_data')
nltk.data.path.append(nltk_data_path)

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# Лемматизатор
lemmatizer = WordNetLemmatizer()

# Стоп-слова для английского (можно добавить стоп-слова для других языков)
stop_words = set(stopwords.words('english'))

### Считывание файла

In [2]:
def column_boxes(page, footer_margin=50, header_margin=50, no_image_text=True):
    """Determine bboxes which wrap a column."""
    paths = page.get_drawings()
    bboxes = []

    # path rectangles
    path_rects = []

    # image bboxes
    img_bboxes = []

    # bboxes of non-horizontal text
    # avoid when expanding horizontal text boxes
    vert_bboxes = []

    # compute relevant page area
    clip = +page.rect
    clip.y1 -= footer_margin  # Remove footer area
    clip.y0 += header_margin  # Remove header area

    def can_extend(temp, bb, bboxlist):
        for b in bboxlist:
            if not intersects_bboxes(temp, vert_bboxes) and (
                b == None or b == bb or (temp & b).is_empty
            ):
                continue
            return False

        return True

    def in_bbox(bb, bboxes):
        """Return 1-based number if a bbox contains bb, else return 0."""
        for i, bbox in enumerate(bboxes):
            if bb in bbox:
                return i + 1
        return 0

    def intersects_bboxes(bb, bboxes):
        """Return True if a bbox intersects bb, else return False."""
        for bbox in bboxes:
            if not (bb & bbox).is_empty:
                return True
        return False

    def extend_right(bboxes, width, path_bboxes, vert_bboxes, img_bboxes):

        for i, bb in enumerate(bboxes):
            # do not extend text with background color
            if in_bbox(bb, path_bboxes):
                continue

            # do not extend text in images
            if in_bbox(bb, img_bboxes):
                continue

            # temp extends bb to the right page border
            temp = +bb
            temp.x1 = width

            # do not cut through colored background or images
            if intersects_bboxes(temp, path_bboxes + vert_bboxes + img_bboxes):
                continue

            # also, do not intersect other text bboxes
            check = can_extend(temp, bb, bboxes)
            if check:
                bboxes[i] = temp  # replace with enlarged bbox

        return [b for b in bboxes if b != None]

    def clean_nblocks(nblocks):

        # 1. remove any duplicate blocks.
        blen = len(nblocks)
        if blen < 2:
            return nblocks
        start = blen - 1
        for i in range(start, -1, -1):
            bb1 = nblocks[i]
            bb0 = nblocks[i - 1]
            if bb0 == bb1:
                del nblocks[i]

        # 2. repair sequence in special cases:
        # consecutive bboxes with almost same bottom value are sorted ascending
        # by x-coordinate.
        y1 = nblocks[0].y1  # first bottom coordinate
        i0 = 0  # its index
        i1 = -1  # index of last bbox with same bottom

        # Iterate over bboxes, identifying segments with approx. same bottom value.
        # Replace every segment by its sorted version.
        for i in range(1, len(nblocks)):
            b1 = nblocks[i]
            if abs(b1.y1 - y1) > 10:  # different bottom
                if i1 > i0:  # segment length > 1? Sort it!
                    nblocks[i0 : i1 + 1] = sorted(
                        nblocks[i0 : i1 + 1], key=lambda b: b.x0
                    )
                y1 = b1.y1  # store new bottom value
                i0 = i  # store its start index
            i1 = i  # store current index
        if i1 > i0:  # segment waiting to be sorted
            nblocks[i0 : i1 + 1] = sorted(nblocks[i0 : i1 + 1], key=lambda b: b.x0)
        return nblocks

    # extract vector graphics
    for p in paths:
        path_rects.append(p["rect"].irect)
    path_bboxes = path_rects

    # sort path bboxes by ascending top, then left coordinates
    path_bboxes.sort(key=lambda b: (b.y0, b.x0))

    # bboxes of images on page, no need to sort them
    for item in page.get_images():
        img_bboxes.extend(page.get_image_rects(item[0]))

    # blocks of text on page
    blocks = page.get_text(
        "dict",
        flags=fitz.TEXTFLAGS_TEXT,
        clip=clip,
    )["blocks"]

    # Make block rectangles, ignoring non-horizontal text
    for b in blocks:
        bbox = fitz.IRect(b["bbox"])  # bbox of the block

        # ignore text written upon images
        if no_image_text and in_bbox(bbox, img_bboxes):
            continue

        # confirm first line to be horizontal
        line0 = b["lines"][0]  # get first line
        if line0["dir"] != (1, 0):  # only accept horizontal text
            vert_bboxes.append(bbox)
            continue

        srect = fitz.EMPTY_IRECT()
        for line in b["lines"]:
            lbbox = fitz.IRect(line["bbox"])
            text = "".join([s["text"].strip() for s in line["spans"]])
            if len(text) > 1:
                srect |= lbbox
        bbox = +srect

        if not bbox.is_empty:
            bboxes.append(bbox)

    # Sort text bboxes by ascending background, top, then left coordinates
    bboxes.sort(key=lambda k: (in_bbox(k, path_bboxes), k.x0, k.y0))

    # Extend bboxes to the right where possible
    bboxes = extend_right(
        bboxes, int(page.rect.width), path_bboxes, vert_bboxes, img_bboxes
    )

    # immediately return of no text found
    if bboxes == []:
        return []

    # the final block bboxes on page
    nblocks = [bboxes[0]]  # pre-fill with first bbox
    bboxes = bboxes[1:]  # remaining old bboxes

    for i, bb in enumerate(bboxes):  # iterate old bboxes
        check = False  # indicates unwanted joins

        # check if bb can extend one of the new blocks
        for j in range(len(nblocks)):
            nbb = nblocks[j]  # a new block

            # never join across columns
            if bb == None or nbb.x1 < bb.x0 or bb.x1 < nbb.x0:
                continue

            # never join across different background colors
            if in_bbox(nbb, path_bboxes) != in_bbox(bb, path_bboxes):
                continue

            temp = bb | nbb  # temporary extension of new block
            check = can_extend(temp, nbb, nblocks)
            if check == True:
                break

        if not check:  # bb cannot be used to extend any of the new bboxes
            nblocks.append(bb)  # so add it to the list
            j = len(nblocks) - 1  # index of it
            temp = nblocks[j]  # new bbox added

        # check if some remaining bbox is contained in temp
        check = can_extend(temp, bb, bboxes)
        if check == False:
            nblocks.append(bb)
        else:
            nblocks[j] = temp
        bboxes[i] = None

    # do some elementary cleaning
    nblocks = clean_nblocks(nblocks)

    # return identified text bboxes
    return nblocks


In [3]:
def extract_paragraphs_from_pdf(pdf_path):
    """
    Извлекает текст из PDF файла и возвращает список абзацев.

    :param pdf_path: Путь к PDF файлу.
    :return: Список абзацев, где каждый абзац представлен как строка.
    """
    # Открытие PDF документа
    doc = fitz.open(pdf_path)

    # Переменная для хранения всего извлеченного текста
    all_extracted_text = ""

    # Обработка каждой страницы
    for page in doc:
        # Получение границ текстовых блоков
        bboxes = column_boxes(page, footer_margin=50, no_image_text=True)

        # Извлечение текста из каждого блока и добавление в строку
        for rect in bboxes:
            # Извлекаем текст для текущего прямоугольника
            extracted_text = page.get_text(clip=rect, sort=True)
            # Добавляем текст в общую строку
            all_extracted_text += extracted_text
            
    return all_extracted_text

### Обработка от исходного текста до списка абзацев

In [4]:
def process_paragraphs(paragraphs):
    lines = paragraphs.splitlines()  # Разделяем текст на строки
    result = []  # Список для хранения обработанных строк

    for i in range(len(lines)):
        line = lines[i]

        # Условие 1: Если строка начинается с пробела, добавляем её без изменений
        if line.startswith(' '):
            result.append(line)
        else:
            # Условие 2: Если строка не начинается с пробела и не содержит табуляции
            if '  ' not in line:
                # Проверяем, что предыдущая строка не пустая
                if i > 0 and lines[i - 1].strip():  # Если предыдущая строка не пустая
                    # Объединяем текущую строку с предыдущей, убирая переход на новую строку
                    result[-1] += ' ' + line.strip()  # Добавляем текущую строку без перехода
                    continue  # Переходим к следующей строке
            result.append(line)  # Добавляем текущую строку

    return '\n'.join(result)  # Объединяем строки обратно в текст


In [5]:
def process_and_merge_tabbed_lines(processed_text):
    result = []
    buffer = []  # Временный буфер для строк с табуляцией

    # Удаляем пробелы в начале каждой строки
    lines = [line.lstrip() for line in processed_text.splitlines()]

    for line in lines:
        if '  ' in line:
            # Если строка содержит табуляцию, добавляем её в буфер
            buffer.append(line)
        else:
            if buffer:
                # Если в буфере есть строки с табуляцией, объединяем их и добавляем в результат
                result.append("\n".join(buffer))
                buffer = []  # Очищаем буфер после добавления

            # Добавляем обычную строку (без табуляции) в результат
            result.append(line)

    # Добавляем оставшиеся строки с табуляцией, если они есть в конце текста
    if buffer:
        result.append("\n".join(buffer))

    return result

In [6]:
def process_list_elements(lines_list):
    result = []

    for i, line in enumerate(lines_list):
        # Пропускаем пустые элементы
        if not line.strip():
            continue

        # Если это не первый элемент и текущий элемент начинается с маленькой буквы,
        # а в предыдущем элементе нет двойного пробела, объединяем с предыдущим
        if result and line[0].islower() and '  ' not in result[-1]:
            result[-1] = result[-1].rstrip() + ' ' + line.lstrip()
        else:
            result.append(line)

    return result

### Лемматизация текста с использованием NLTK

In [7]:
# Функция для очистки текста: удаление стоп-слов и лемматизация
def process_text(text):
    # Токенизация
    tokens = word_tokenize(text)

    # Удаление стоп-слов и лемматизация
    cleaned_tokens = [
        lemmatizer.lemmatize(word.lower()) for word in tokens
        if word.isalnum() and word.lower() not in stop_words  # Убираем стоп-слова и небуквенные токены
    ]

    return cleaned_tokens

In [8]:
# Основная функция поиска
def find_near_words(result, processed_list, find):
    lemmatized_find = process_text(find)  # Лемматизируем и очищаем find через process_text

    found_indices = []  # Список для хранения индексов найденных предложений

    for i, sentence_tokens in enumerate(result):  # Здесь sentence_tokens — это уже список слов
        if len(lemmatized_find) == 1:  # Если в find только одно слово
            # Проверяем наличие этого слова в предложении
            if lemmatized_find[0] in sentence_tokens:
                found_indices.append(i)  # Если найдено, добавляем индекс предложения
        else:
            # Ищем, находятся ли леммы из find на расстоянии не более двух слов друг от друга
            positions = []
            for lemma in lemmatized_find:
                if lemma in sentence_tokens:
                    positions.append(sentence_tokens.index(lemma))

            # Если леммы найдены и их позиции расположены в пределах двух слов друг от друга
            if len(positions) == len(lemmatized_find):  # Все леммы найдены
                positions.sort()  # Сортируем позиции
                if all(abs(positions[i] - positions[i+1]) <= 2 for i in range(len(positions) - 1)):
                    found_indices.append(i)  # Добавляем индекс предложения

    # Выводим предложения из processed_list с найденными индексами
    count=1
    for index in found_indices:
        print(f"Совпадение №{count}: {processed_list[index]}")
        count = count+1 
    return found_indices

In [9]:
def process_pdf_directory(directory_path, find_word):
    # Проходим по всем PDF-файлам в директории
    for file_path in Path(directory_path).rglob('*.pdf'):
        print(f"\n=== Работаю с файлом {file_path.name} ===")
        paragraphs = extract_paragraphs_from_pdf(file_path)
        processed_text = process_paragraphs(paragraphs)
        lines_list = process_and_merge_tabbed_lines(processed_text)
        processed_list = process_list_elements(lines_list)
        result = [process_text(text) for text in processed_list]
        
        # Ищем фрагменты
        fragments = find_near_words(result, processed_list, find_word)
        
        # Если есть фрагменты, выводим имя файла и фрагменты
        if fragments:
            print(f"\n=== В файле: {file_path.name} найдено {len(fragments)} совпадений ===")
        print("_______________________________________________________________________")            

## Использование

In [10]:
# Создаем виджет для вывода
out = widgets.Output()

# Создаем виджеты для ввода данных
directory_input = widgets.Text(
    value='Файлы',  # Убедитесь, что директория существует
    description='Директория:',
    disabled=False
)

keyword_input = widgets.Text(
    value='global energy',
    description='Ключевое слово:',
    disabled=False
)

# Кнопка для запуска процесса
run_button = widgets.Button(
    description='Найти',
    disabled=False,
    button_style='success'  # 'success', 'info', 'warning', 'danger'
)

# Функция, которая будет вызываться при нажатии на кнопку
def on_button_click(b):
    directory = directory_input.value
    keyword = keyword_input.value

    # Очищаем предыдущий вывод перед новым запуском
    with out:
        out.clear_output()
        print(f"\nПоиск в директории: {directory}")
        print(f"Искомое слово: {keyword}")
        
        # Запуск процесса обработки PDF
        process_pdf_directory(directory, keyword)

# Привязываем функцию к кнопке
run_button.on_click(on_button_click)

# Отображаем элементы управления и место для вывода
display(directory_input, keyword_input, run_button, out)

Text(value='Файлы', description='Директория:')

Text(value='global energy', description='Ключевое слово:')

Button(button_style='success', description='Найти', style=ButtonStyle())

Output()

In [11]:
# Директория с PDF-файлами
directory = "Файлы"

# Список поисковых запросов
search_queries = [
    "Stock",
    "Bullish",
    "bearish",
    "coal deficit",
    "coal proficit",
    "thermal coal supply"
]

# Цикл по всем запросам
for query in search_queries:
    print(f"\n++++++++++++++++++++++++++++ Поисковый запрос: {query} ++++++++++++++++++++++++++++")
    process_pdf_directory(directory, query)


++++++++++++++++++++++++++++ Поисковый запрос: Stock ++++++++++++++++++++++++++++

=== Работаю с файлом Coal_Trader_International_10_Oct_2024.pdf ===
Совпадение №1: A trader in China said that while buyers resumed trades early this week, sufficient existing stocks at ports and power plants limited winter restocking imports. Additionally, predictions of a severe winter due to La Niña have prompted domestic miners to increase output to ensure energy security, a second trader in China said.
Совпадение №2: Joseph Mennella, joseph.mennella@spglobal.com   Stocks at China’s major northern ports, including Qinhuangdao, Jingtang and Caofeidian, stood at 23.62 million mt on Oct. 9, down from 23.82 million mt the previous week. The trader attributed this stable stockpile to robust domestic supply from mines.
Совпадение №3: Indian industrial demand largely remained subdued, with few coastal plants inquiring about mid-high CV cargoes in anticipation of increased energy consumption next week for th