In [None]:
import os
import re
import warnings
import argparse
import pandas as pd
import numpy as np
from pdfreader import PDFDocument, SimplePDFViewer

warnings.filterwarnings('ignore')

def read_file(path_to_file):
    fd = open(path_to_file, "rb")
    doc = PDFDocument(fd)
    viewer = SimplePDFViewer(fd)
    viewer.render()
    return viewer

def get_canvas(viewer):
    page_1_canvas = viewer.canvas.text_content

    with open(r"./tmp/page_1_canvas.txt", "w", encoding='utf8') as f:
        f.write(page_1_canvas)

    viewer.navigate(2)
    viewer.render()
    page_2_canvas = viewer.canvas.text_content

    with open(r"./tmp/page_2_canvas.txt", "w", encoding='utf8') as f:
        f.write(page_2_canvas)


def first_page():
    df = pd.read_csv(r"./tmp/page_1_canvas.txt", header=[1], sep='\t')
    df.rename(columns={' q':'col1'}, inplace=True)
    df['col2'] = df['col1'].str.findall(r"\)\] TJ")
    df.col2 = df.col2.apply(lambda y: np.nan if len(y)==0 else y)
    df_name = df.loc[(df.col2.isnull()!=True)]
    df_name.drop(columns=['col2'], inplace=True)
    df_name.col1 = df_name.col1.astype('str')
    df_name['col2'] = df_name.apply(lambda x: re.sub("\(\ \)", "_", x['col1']), axis=1)
    df_name['col2'] = df_name.apply(lambda x: re.sub("\(|\)|TJ|\[|\]|\ ", '', x['col2']), axis=1)
    df_name = df_name[3:-10]
    df_name.reset_index(drop=True, inplace=True)
    df_name['count_'] = df_name.col2.str.len()
    df_count = df_name.loc[df_name.count_<=3]
    df_name_ = df_name.loc[df_name.count_>3]
    df_count.index = df_count.index-1
    df_name_.count_ = df_count.col2
    df_name_.drop(columns=['col1'], inplace=True)
    df_name_.rename(columns={
        'col2':'parameter_page1',
        'count_':'score_page1'
    }, inplace=True)
    df_name_.reset_index(drop=True, inplace=True)

    return df_name_


def second_page():
    grey = '0.901 0.905 0.909 rg'
    df = pd.read_csv(r"./tmp/page_2_canvas.txt", header = [1])
    df.rename(columns={' q':'col1'}, inplace=True)
    df['col2'] = df['col1'].str.findall(r"\)\] TJ")
    df.col2 = df.col2.apply(lambda y: np.nan if len(y)==0 else y)
    df_name = df.loc[(df.col2.isnull()!=True)]
    df_name.drop(columns=['col2'], inplace=True)
    df_name.col1 = df_name.col1.astype('str')
    df_name['col2'] = df_name.apply(lambda x: re.sub("\(\ \)", "_", x['col1']), axis=1)
    df_name['col2'] = df_name.apply(lambda x: re.sub("\(|\)|TJ|\[|\]|\ ", '', x['col2']), axis=1)
    
    try:
        test_df = pd.DataFrame(index=range(0,100),columns=['A'], dtype='float')
        for ind in range(df_name.shape[0]):
            i = df_name.index[ind]
            j = df_name.index[ind+1]
            name = 'col'+str(i)
            tmp = df.col1[i:j].reset_index(drop=True)
            test_df[name] = tmp
    except:
        pass
    
    test_df.dropna(thresh=15, axis=1, inplace=True)
    count_grey = pd.DataFrame(np.sum(test_df==grey, axis=0), columns=['count'])
    count_grey.index = count_grey.index.str.replace('col', '')
    df_name.index = df_name.index.astype('str')
    df_name['count']=None
    df_name.update(count_grey)
    df_name.fillna(999, inplace=True)
    df_name.dropna(inplace=True)
    df_name['count'] = 4 - df_name['count']
    df_name.replace(-995, ' ', inplace=True)
    df_name.drop(columns=['col1'], inplace=True)
    df_name = df_name[:157]
    df_name.reset_index(drop=True, inplace=True)
    df_name['count'][df_name.col2=='Баллы_по_субшкалам'] = np.nan
    res = pd.concat([df_name[:51].reset_index(), df_name[51:96].reset_index(), df_name[96:].reset_index()], axis=1)
    res.drop(columns=['index'],inplace=True)
    res.columns = pd.Index(['parameter1_page2', 'score1_page2', 'parameter2_page2', 'score2_page2', 'parameter3_page2', 'score3_page2'], 
                            dtype='object')
    return res

def concat_frame(page1, page2, name):
    df_ = pd.DataFrame({'parameter_page1':[np.nan, name, 'parameter_page1'],
              'score_page1':[np.nan, np.nan, 'score_page1'],
              'parameter1_page2':[np.nan, np.nan, 'HPI'], 
              'score1_page2':[np.nan, np.nan, 'HPI_score'],
              'parameter2_page2':[np.nan, np.nan, 'HDS'],
              'score2_page2':[np.nan, np.nan, 'HDS_score'],
              'parameter3_page2':[np.nan, np.nan, 'MVPI'],
              'score3_page2':[np.nan, np.nan, 'MVPI_score']})
    df = pd.concat([page1, page2], axis=1)
    df = pd.concat([df_, df], ignore_index=True)
    df.reset_index(drop=True, inplace=True)
    return df

def write_file(excel_path, frame):
    df_excel = pd.read_excel(excel_path, engine='openpyxl')
    df_excel.reset_index(drop=True, inplace=True)
    result = pd.concat([frame, df_excel],axis=0, ignore_index=True)
    result.to_excel(excel_path, index=False)

    # parser = argparse.ArgumentParser()
    # parser.add_argument('path', action='store', help='folder path')

    # args = parser.parse_args()

    # path_to_file = os.path.normpath(args.path)


In [None]:
path = r"./results"
excel_name = 'result.xlsx'
excel_path = os.path.join(path, excel_name)
with pd.ExcelWriter(excel_path ,mode='w') as writer:
    pd.DataFrame().to_excel(writer, sheet_name='Sheet_name_1')
path_to_file = r"./examples/new_.pdf"



In [None]:
viewer = read_file(path_to_file)
get_canvas(viewer)
df_page1 = first_page()
df_page2 = second_page()
fin_df = concat_frame(df_page1, df_page2, path_to_file)
write_file(excel_path, fin_df)
print('done')

In [None]:
viewer = read_file(path_to_file)


In [None]:
viewer

In [None]:
get_canvas(viewer)


In [4]:
import pdfplumber

input_pdf = "./examples/new.pdf"


with pdfplumber.open(input_pdf) as pdf:
    text = ''
    for page in pdf.pages:
        text += page.extract_text()

print(text)


ОПЕРАТИВНЫЙ ОТЧЁТ
нормы: Global2023
Hogan Personality Inventory
Адаптация 88
Амбициозность 98
Общительность 83
Meжличностная восприимчивость 77
Организованность 96
Любознательность 91
Подход к обучению 99
Hogan Development Survey
Эмоциональный 15
Скептичный 55
Осторожный 10
Сам в себе 31
Сам по себе 41
Самоуверенный 75
Увлекающийся 76
Театральный 66
С богатым воображением 53
Прилежный 84
Исполненный сознания долга 12
Motives, Values, Preferences Inventory
Признание 93
Власть 95
Жажда наслаждений 53
Альтруизм 12
Причастность 100
Традиционализм 70
Безопасность 62
Коммерция 61
Эстетика 8
Научный подход 86
© 2017 HOGAN ASSESSMENT SYSTEMS, INC.
HK185353 HK185353 | HK185353 | 29.10.2023 1ОПЕРАТИВНЫЙ ОТЧЁТ
Баллы по субшкалам Баллы по субшкалам Баллы по субшкалам
Валидность Эмоциональный Признание
Непредсказуемый Образ жизни
Разочаровывается Ценностные убеждения
Адаптация
ОтсН уе
тС
т
со
р
тч веу
в
ив
о
ес
ж
вт
н
ив
ы
ни ыйе
Скептичный
Нет убеждений ПредпоП чр ио тф ае. мп ор ее д
А
оп
н
ко
т


In [8]:
with pdfplumber.open(input_pdf) as pdf:
    for page in pdf.pages:
        images = page.images
        # Обробка списку images, якщо він не пустий
        if images:
            for image in images:
                print(image) 

In [9]:
images

[]

In [39]:
import fitz  # PyMuPDF

input_pdf = "./examples/new_modifed.pdf"


pdf_document = fitz.open(input_pdf)

for page_num in range(pdf_document.page_count):
    page = pdf_document.load_page(page_num)
    
    # Отримання векторних об'єктів зі сторінки
    drawings = page.get_drawings()
    
    # Обробка списку drawings, якщо він не пустий
    if drawings:
        for drawing in drawings:
            print(drawing.keys())  # Тут можна вивести інформацію про кожен векторний об'єкт


dict_keys(['items', 'closePath', 'type', 'even_odd', 'fill_opacity', 'fill', 'rect', 'seqno', 'layer', 'color', 'width', 'lineCap', 'lineJoin', 'dashes', 'stroke_opacity'])
dict_keys(['items', 'closePath', 'type', 'even_odd', 'fill_opacity', 'fill', 'rect', 'seqno', 'layer', 'color', 'width', 'lineCap', 'lineJoin', 'dashes', 'stroke_opacity'])
dict_keys(['items', 'closePath', 'type', 'even_odd', 'fill_opacity', 'fill', 'rect', 'seqno', 'layer', 'color', 'width', 'lineCap', 'lineJoin', 'dashes', 'stroke_opacity'])
dict_keys(['items', 'closePath', 'type', 'even_odd', 'fill_opacity', 'fill', 'rect', 'seqno', 'layer', 'color', 'width', 'lineCap', 'lineJoin', 'dashes', 'stroke_opacity'])
dict_keys(['items', 'closePath', 'type', 'even_odd', 'fill_opacity', 'fill', 'rect', 'seqno', 'layer', 'color', 'width', 'lineCap', 'lineJoin', 'dashes', 'stroke_opacity'])
dict_keys(['items', 'closePath', 'type', 'even_odd', 'fill_opacity', 'fill', 'rect', 'seqno', 'layer', 'color', 'width', 'lineCap', 'li

In [40]:
drawings

[{'items': [('re',
    Rect(36.29999923706055, 130.65008544921875, 209.70001220703125, 131.25006103515625),
    -1)],
  'type': 'f',
  'even_odd': False,
  'fill_opacity': 1.0,
  'fill': (0.0, 0.0, 0.0),
  'rect': Rect(36.29999923706055, 130.65008544921875, 209.70001220703125, 131.25006103515625),
  'seqno': 0,
  'layer': '',
  'closePath': None,
  'color': None,
  'width': None,
  'lineCap': None,
  'lineJoin': None,
  'dashes': None,
  'stroke_opacity': None},
 {'items': [('re',
    Rect(221.70001220703125, 130.65008544921875, 394.5, 131.25006103515625),
    -1)],
  'type': 'f',
  'even_odd': False,
  'fill_opacity': 1.0,
  'fill': (0.0, 0.0, 0.0),
  'rect': Rect(221.70001220703125, 130.65008544921875, 394.5, 131.25006103515625),
  'seqno': 1,
  'layer': '',
  'closePath': None,
  'color': None,
  'width': None,
  'lineCap': None,
  'lineJoin': None,
  'dashes': None,
  'stroke_opacity': None},
 {'items': [('re',
    Rect(405.9000244140625, 130.65008544921875, 575.7000122070312, 131.

In [26]:
len(drawings)

513

In [3]:
import fitz  # PyMuPDF

input_pdf = "./examples/new.pdf"

pdf_document = fitz.open(input_pdf)

text = ''


page = pdf_document.load_page(0)

# Отримання тексту зі сторінки
text += page.get_text()

pdf_document.close()

print(text)


нормы: Global2023
Hogan Personality Inventory
Адаптация
 88
Амбициозность
 98
Общительность
 83
Meжличностная восприимчивость
 77
Организованность
 96
Любознательность
 91
Подход к обучению
 99
Hogan Development Survey
Эмоциональный
 15
Скептичный
 55
Осторожный
 10
Сам в себе
 31
Сам по себе
 41
Самоуверенный
 75
Увлекающийся
 76
Театральный
 66
С богатым воображением
 53
Прилежный
 84
Исполненный сознания долга
 12
Motives, Values, Preferences Inventory
Признание
 93
Власть
 95
Жажда наслаждений
 53
Альтруизм
 12
Причастность
 100
Традиционализм
 70
Безопасность
 62
Коммерция
 61
Эстетика
 8
Научный подход
 86
© 2017 HOGAN ASSESSMENT SYSTEMS, INC.
ОПЕРАТИВНЫЙ ОТЧЁТ
HK185353 HK185353 | HK185353 | 29.10.2023
1



In [28]:
import pdfplumber
import fitz

def get_text_and_graphics(pdf_path):
    with pdfplumber.open(pdf_path) as pdf:
        all_data = []
        for page_number, page in enumerate(pdf.pages):
            graphics = []
            text = page.extract_text()

            pdf_document = fitz.open(pdf_path)
            pdf_page = pdf_document.load_page(page_number)
            shapes = pdf_page.get_drawings()
            
            for shape in shapes:
                if shape["type"] != "text":
                    graphics.append(shape)
            
            all_data.append({"text": text, "graphics": graphics})
    
    return all_data

def count_graphics_in_text_lines(data):
    for page_data in data:
        text_lines = page_data["text"].split("\n")
        graphics = page_data["graphics"]
        
        for line in text_lines:
            line_graphics_count = 0
            for graphic in graphics:
                # Отримання координат графічного об'єкта
                graphic_top = min(graphic["y0"], graphic["y1"])
                graphic_bottom = max(graphic["y0"], graphic["y1"])

                # Порівняння координат тексту та графічних об'єктів
                if graphic_bottom >= graphic_top and graphic_top <= graphic["top"] <= graphic_bottom:
                    line_graphics_count += 1
            
            print(f"Рядок: '{line.strip()}'")
            print(f"Кількість графічних елементів у рядку: {line_graphics_count}")
            print("-" * 20)

def main():
    input_pdf = "./examples/new.pdf"
    data = get_text_and_graphics(input_pdf)
    count_graphics_in_text_lines(data)

if __name__ == "__main__":
    main()


KeyError: 'y0'

In [30]:
input_pdf = "./examples/new.pdf"
data = get_text_and_graphics(input_pdf)

In [31]:
data

[{'text': 'ОПЕРАТИВНЫЙ ОТЧЁТ\nнормы: Global2023\nHogan Personality Inventory\nАдаптация 88\nАмбициозность 98\nОбщительность 83\nMeжличностная восприимчивость 77\nОрганизованность 96\nЛюбознательность 91\nПодход к обучению 99\nHogan Development Survey\nЭмоциональный 15\nСкептичный 55\nОсторожный 10\nСам в себе 31\nСам по себе 41\nСамоуверенный 75\nУвлекающийся 76\nТеатральный 66\nС богатым воображением 53\nПрилежный 84\nИсполненный сознания долга 12\nMotives, Values, Preferences Inventory\nПризнание 93\nВласть 95\nЖажда наслаждений 53\nАльтруизм 12\nПричастность 100\nТрадиционализм 70\nБезопасность 62\nКоммерция 61\nЭстетика 8\nНаучный подход 86\n© 2017 HOGAN ASSESSMENT SYSTEMS, INC.\nHK185353 HK185353 | HK185353 | 29.10.2023 1',
  'graphics': [{'items': [('l',
      Point(63.25593185424805, 112.6500244140625),
      Point(36.3438606262207, 112.6500244140625)),
     ('l',
      Point(36.3438606262207, 112.6500244140625),
      Point(36.3438606262207, 133.65000915527344)),
     ('l',
   

In [32]:
import pdfplumber

# Відкрийте пдф-файл
pdf = pdfplumber.open("./examples/new.pdf")

# Знайдіть другу сторінку
page = pdf.pages[1]

# Використовуйте інструмент для читання тексту, щоб прочитати назви характеристик у кожному рядку
for row in page.rows:
    # Отримайте текст у кожному стовпці
    text = [cell.text for cell in row]

    # Перший стовпець містить назву характеристики
    characteristic = text[0]

    # Другий стовпець містить кількість графічних позначок
    rating = len(text[1])

    print(f"{characteristic}: {rating}")

AttributeError: 'Page' object has no attribute 'rows'

In [34]:
dir(page)

['__annotations__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_get_textmap',
 'annots',
 'bbox',
 'cached_properties',
 'chars',
 'crop',
 'cropbox',
 'curve_edges',
 'curves',
 'debug_tablefinder',
 'dedupe_chars',
 'edges',
 'extract_table',
 'extract_tables',
 'extract_text',
 'extract_text_lines',
 'extract_text_simple',
 'extract_words',
 'filter',
 'find_table',
 'find_tables',
 'flush_cache',
 'get_textmap',
 'height',
 'horizontal_edges',
 'hyperlinks',
 'images',
 'initial_doctop',
 'is_original',
 'iter_layout_objects',
 'layout',
 'lines',
 'mediabox',
 'objects',
 'outside_bbox',
 'page_number',
 'page_obj',
 'pages',
 'parse_objects',
 'pdf',
 'poin

In [38]:
page.rects

[{'x0': 36.30000010725,
  'y0': 660.74999987475,
  'x1': 209.7000024915,
  'y1': 661.3499998829999,
  'width': 173.40000238425,
  'height': 0.6000000082499355,
  'pts': [(36.30000010725, 130.6500001170001),
   (209.7000024915, 130.6500001170001),
   (209.7000024915, 131.25000012525004),
   (36.30000010725, 131.25000012525004)],
  'linewidth': 0,
  'stroke': False,
  'fill': True,
  'evenodd': False,
  'stroking_color': None,
  'non_stroking_color': (0, 0, 0),
  'mcid': None,
  'tag': None,
  'object_type': 'rect',
  'page_number': 2,
  'stroking_pattern': None,
  'non_stroking_pattern': None,
  'top': 130.6500001170001,
  'bottom': 131.25000012525004,
  'doctop': 922.6500001170001},
 {'x0': 221.7000026565,
  'y0': 660.74999987475,
  'x1': 394.5000050325,
  'y1': 661.3499998829999,
  'width': 172.80000237599998,
  'height': 0.6000000082499355,
  'pts': [(221.7000026565, 130.6500001170001),
   (394.5000050325, 130.6500001170001),
   (394.5000050325, 131.25000012525004),
   (221.700002656