In [2]:
import io
import cv2
from PIL import Image
import pytesseract
from pdf2image import convert_from_path
import psycopg2

In [3]:
from dedoc import DedocManager
from dedoc.attachments_handler import AttachmentsHandler
from dedoc.converters import DocxConverter, PNGConverter, ConverterComposition
from dedoc.metadata_extractors import BaseMetadataExtractor, MetadataExtractorComposition
from dedoc.readers import DocxReader, PdfAutoReader, PdfImageReader, ReaderComposition
from dedoc.structure_extractors import DefaultStructureExtractor, StructureExtractorComposition
from dedoc.structure_constructors import TreeConstructor, StructureConstructorComposition

In [4]:
dedoc_manager = DedocManager(
    manager_config={
        "attachments_handler": AttachmentsHandler(),
        "converter": ConverterComposition([DocxConverter(), PNGConverter()]),
        "reader": ReaderComposition([DocxReader(), PdfAutoReader(), PdfImageReader()]),
        "structure_extractor": StructureExtractorComposition(extractors={DefaultStructureExtractor.document_type: DefaultStructureExtractor()}, default_key=DefaultStructureExtractor.document_type),
        "structure_constructor": StructureConstructorComposition(constructors={"tree": TreeConstructor()}, default_constructor=TreeConstructor()),
        "document_metadata_extractor": MetadataExtractorComposition([BaseMetadataExtractor()])
    }
)

  from .autonotebook import tqdm as notebook_tqdm




In [5]:
parsed_document = dedoc_manager.parse(file_path='Data/PDF/scan/scan3.pdf')

2024-12-24 13:28:13,742 - /usr/local/lib/python3.10/site-packages/dedoc/dedoc_manager.py - INFO - Get file scan3.pdf with parameters {'document_type': '', 'patterns': '', 'structure_type': 'tree', 'return_format': 'json', 'with_attachments': 'false', 'need_content_analysis': 'false', 'recursion_deep_attachments': '10', 'return_base64': 'false', 'need_pdf_table_analysis': 'true', 'table_type': '', 'orient_analysis_cells': 'false', 'orient_cell_angle': '90', 'pdf_with_text_layer': 'auto_tabby', 'fast_textual_layer_detection': 'false', 'language': 'rus+eng', 'pages': ':', 'is_one_column_document': 'auto', 'document_orientation': 'auto', 'need_header_footer_analysis': 'false', 'need_binarization': 'false', 'need_gost_frame_analysis': 'false', 'delimiter': None, 'encoding': None, 'html_fields': '', 'handle_invisible_table': 'false', 'attachments_dir': 'Data/PDF/scan'}
2024-12-24 13:28:13,747 - /usr/local/lib/python3.10/site-packages/dedoc/dedoc_manager.py - INFO - Start handle Data/PDF/scan

  from cryptography.hazmat.primitives.ciphers.algorithms import AES, ARC4


2024-12-24 13:28:20,478 - /usr/local/lib/python3.10/site-packages/dedoc/readers/pdf_reader/pdf_auto_reader/pdf_auto_reader.py - INFO - Assume document 1735046893_126.pdf has incorrect textual layer


  feature_column = feature_column.fillna(feature_column.min() - 1)


2024-12-24 13:28:20,968 - /usr/local/lib/python3.10/site-packages/dedoc/readers/pdf_reader/pdf_base_reader.py - INFO - Get page from 1 to 1 of 1 file 1735046893_126.pdf
2024-12-24 13:28:21,727 - /usr/local/lib/python3.10/site-packages/dedoc/readers/pdf_reader/pdf_image_reader/columns_orientation_classifier/columns_orientation_classifier.py - INFO - Weights were loaded from /root/.cache/dedoc/resources/scan_orientation_efficient_net_b0.pth
2024-12-24 13:28:22,436 - /usr/local/lib/python3.10/site-packages/dedoc/readers/pdf_reader/pdf_image_reader/pdf_image_reader.py - INFO - Predicted orientation angle = 0, columns = 1
2024-12-24 13:28:22,437 - /usr/local/lib/python3.10/site-packages/dedoc/readers/pdf_reader/pdf_image_reader/pdf_image_reader.py - INFO - Final orientation angle = 0, is_one_column_document = True
2024-12-24 13:28:27,134 - /usr/local/lib/python3.10/site-packages/dedoc/dedoc_manager.py - INFO - Extract content from file scan3.pdf
2024-12-24 13:28:27,135 - /usr/local/lib/pyth

In [6]:
def concat_subpara(full, para):
    # full = []
    full.append(para.text)
    if len(para.subparagraphs) > 0:
        for par in para.subparagraphs:
            concat_subpara(full, par)
    return full

In [7]:
rec = concat_subpara([], parsed_document.content.structure)

In [8]:
rec

['',
 'Департамент\nгосударственной политики\nв сфере научно-технологического развития\n',
 'Министерства науки и высшего\nобразования Российской Федерации\n \n',
 'Министерство науки и высшего образования\nРоссийской Федерации\n',
 'Федеральное государственное бюджетное\nобразовательное учреждение высшего образования\n',
 '«Московский государственный\nтехнический университет имени Н.Э.Баумана»\n(национальный исследовательский университет)»\n(МГТУ им.Н.Э.Баумана)\n105005,гМосква, 2-я Бауманская ул.,д. 5,стр. 1\nтел. +7 (499) 263-63-91 факс+7 (499) 267-48-44\nbmstu.ru bauman@bmstu.ru\n0ГРН1027739051779\n',
 'ИНН7701002520  КПП770101001\n',
 '004 2024 № 0104 - 08 [386 #\n \n',
 'СОПРОВОДИТЕЛЬНОЕ ПИСЬМО\n',
 'Направляем заявку на участие в конкурсном отборе 2024 года на назначение\nстипендии Президента Российской Федерации для аспирантов и адъюнктов, обучающихся\nпо очной форме обучения в российских организациях, осуществляющих образовательную\nдеятельность, и проводящих научные исследова

In [9]:
for i in range(len(rec)):
    rec[i] = rec[i].replace('\n','')

In [10]:
for i, s in enumerate(rec):
    print(f'{i}) {s}')

0) 
1) Департаментгосударственной политикив сфере научно-технологического развития
2) Министерства науки и высшегообразования Российской Федерации 
3) Министерство науки и высшего образованияРоссийской Федерации
4) Федеральное государственное бюджетноеобразовательное учреждение высшего образования
5) «Московский государственныйтехнический университет имени Н.Э.Баумана»(национальный исследовательский университет)»(МГТУ им.Н.Э.Баумана)105005,гМосква, 2-я Бауманская ул.,д. 5,стр. 1тел. +7 (499) 263-63-91 факс+7 (499) 267-48-44bmstu.ru bauman@bmstu.ru0ГРН1027739051779
6) ИНН7701002520  КПП770101001
7) 004 2024 № 0104 - 08 [386 # 
8) СОПРОВОДИТЕЛЬНОЕ ПИСЬМО
9) Направляем заявку на участие в конкурсном отборе 2024 года на назначениестипендии Президента Российской Федерации для аспирантов и адъюнктов, обучающихсяпо очной форме обучения в российских организациях, осуществляющих образовательнуюдеятельность, и проводящих научные исследования в рамках реализации приоритетовнаучно-технологического

In [11]:
full = '\n'.join(rec)
print(full)


Департаментгосударственной политикив сфере научно-технологического развития
Министерства науки и высшегообразования Российской Федерации 
Министерство науки и высшего образованияРоссийской Федерации
Федеральное государственное бюджетноеобразовательное учреждение высшего образования
«Московский государственныйтехнический университет имени Н.Э.Баумана»(национальный исследовательский университет)»(МГТУ им.Н.Э.Баумана)105005,гМосква, 2-я Бауманская ул.,д. 5,стр. 1тел. +7 (499) 263-63-91 факс+7 (499) 267-48-44bmstu.ru bauman@bmstu.ru0ГРН1027739051779
ИНН7701002520  КПП770101001
004 2024 № 0104 - 08 [386 # 
СОПРОВОДИТЕЛЬНОЕ ПИСЬМО
Направляем заявку на участие в конкурсном отборе 2024 года на назначениестипендии Президента Российской Федерации для аспирантов и адъюнктов, обучающихсяпо очной форме обучения в российских организациях, осуществляющих образовательнуюдеятельность, и проводящих научные исследования в рамках реализации приоритетовнаучно-технологического развития Российской Федерации

In [13]:
connection = psycopg2.connect(database='happy_db', user="happy_user", password="happy", host="postgre", port="5432")

OperationalError: could not translate host name "postgre" to address: Name or service not known


In [2]:
def extract_text_from_pdf(pdf_path):
    pages = convert_from_path(pdf_path, 900)

    # Extract text from each page using Tesseract OCR
    text_data = ''
    for page in pages:
        text = pytesseract.image_to_string(page, lang='eng+rus')
        text_data += text + '\n'

    # Return the text data
    return text_data

In [6]:
text1 = extract_text_from_pdf('./Копия_исх._№АТ-480-42_от_12.07.pdf')

In [7]:
# Копия_исх._№АТ-480-42_от_12.07.pdf
print(text1) 

МИНОБРНАУКИ РОССИИ Начальнику

Федеральное государственное ФГБУ «27 ЦНИИ»
оюджетное образовательное учреждение Минобороны России
высшего образования
«МИРЭА - Российский технологический университет»
РТУ МИРЭА А.А. ПРОГАСОВУ

просп. Вернадского, д. 78, Москва, 119454

тел.: +7 (499) 600 80 80, факс: +7 (495) 434 92 87

e-mail: mirea@mirea.ru, http.//www.mirea.ru
[2.07.2024 Ne АТ-480/42

на № OT

O сотрудничестве с РТУ МИРЗА

Уважаемый Андрей Андреевич!

Федеральное государственное бюджетное образовательное учреждение
высшего образования «МИРЭА - Российский технологический университет»
(далее — РТУ МИРЭА, Университет) олагодарит ФГБУ «27 ЦНИИ»
Минобороны России за плодотворное сотрудничество.

В рамках взаимодействия РТУ МИРЭА было принято решение о том,
что в 2024 году для всех сотрудников ФГБУ «27 ЦНИИ» Минобороны России
и их ближайших родственников (супруги, дети), которые планируют
продолжить обучение по программам бакалавриата и специалитета в РТУ
МИРЭА в том числе в филиалах Универс

In [14]:
# Specify the input PDF file path
input_pdf = './Копия_исх._№АТ-480-42_от_12.07.pdf'

# Convert the PDF to images (PIL Image objects)
images = convert_from_path(input_pdf)

# Save each image as a JPEG file
for i, img in enumerate(images):
    img.save('page_{}.jpg'.format(i+1))

In [17]:
# Convert to grayscale, apply thresholding, and remove noise
image = cv2.imread('./page_1.jpg')

gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)[1]
noise_reduced = cv2.GaussianBlur(thresh, (5, 5), 0)

# Create a PIL Image object from the preprocessed image
pil_image = Image.fromarray(noise_reduced)

# Set the custom configuration for Pytesseract
custom_config = r'--oem 3 --psm 6'

text = pytesseract.image_to_string(pil_image, config=custom_config, lang='eng+rus')
text_data += text + '\n'

In [18]:
# Return the text data
print(text_data)

2 а:
Е ce be
Tes aS =
Bey
re
Gps
МИНОБРНАУКИ РОССИИ Начальнику
Федеральное государственное ФГБУ «27 ЦНИИ»
бюджетное образовательное учреждение Минобороны России
Mur) высшего образования
« А — Российский технологический университет»
РТУ МИРЭА А.А. ПРОТАСОВУ
просп. Вернадского, д. 78, Москва, 119454
тел.: +7 (499) 600 80 80, факс: +7 (495) 434 92 87
e-mail: mirea@mirea.cu, http://www.mirea.co |
12.07.2024 № _АТ-480/42
на № от.
О сотрудничестве с РТУ МИРЭА
Уважаемый Андрей Андреевич!

Федеральное государственное бюджетное образовательное учреждение
высшего образования «МИРЭА - Российский технологический университет»
(далее - РТУ МИРЭА, Университет) благодарит ФГБУ «27 ЦНИИ»
Минобороны России за плодотворное сотрудничество.

В рамках взаимодействия РТУ МИРЭА было принято решение о том,
что в 2024 году для всех сотрудников ФГБУ «27 ЦНИИ» Минобороны России
и их ближайших родственников (супруги, дети), которые планируют
продолжить обучение по программам бакалавриата и специалитета в РТУ
МИРЭА

In [None]:
import json

In [100]:
parsed_document_dict = parsed_document.to_api_schema().model_dump()
output_json_name = f"{parsed_document.metadata.file_name}.json"
with open(output_json_name, "w") as json_file:
    json.dump(parsed_document_dict, json_file)