In [2]:
# !pip install PyMuPDF
# !pip install openpyxl



In [2]:
import fitz
import pandas as pd
import docx2txt

def word(file_path: str) -> str:
    return docx2txt.process(file_path)

def excel(file_path: str) -> str:
    xls = pd.ExcelFile(file_path)
    xls = xls.parse(0)

    text = ''
    for i, row in xls.iterrows():
        v = row.dropna().values
        if len(v) > 0:
            text += ' '.join(map(str, v)) + ' '
    return text

def pdf(file_path: str) -> str:
    file = fitz.open(file_path)
    text = ''
    for pageNum, page in enumerate(file.pages(), start = 1):
        text += page.getText() + '\n'
    return text

def auto_conv(file_path) -> str:
    file_type = file_path.split('.')[-1]
    if file_type == 'pdf':
        return pdf(file_path)
    elif file_type in ['docx', 'doc']:
        return word(file_path)
    elif file_type in ['xlsx', 'xls']:
        return excel(file_path)
    
    raise ValueError(f'Unsuppoted file type: {file_type}')

In [4]:
# import spacy
# from spacy import displacy
# from spacy.lang.ru.examples import sentences 

# nlp = spacy.load("ru_core_news_lg")
# doc = nlp(text)
# displacy.serve(doc, style="ent")

In [5]:
targets = {
    '33a37ce4-c6a9-4dad-8424-707abd47c125': '../data/Юридическое досье/Учредительные и иные внутренние документы/Устав НКХП.pdf',
    '555ced1c-c169-4d61-9a82-348801494581': '../data/Юридическое досье/Учредительные и иные внутренние документы/Положение.pdf',
    '4f501f4a-c665-4cc8-9715-6ed26e7819f2': '../data/Финансовое досье/2020/4 квартал/Бухгалтерская отчетность/Форма 1.pdf',
    'cabd193c-f9a9-4a9c-a4ae-80f0347adf40': '../data/Финансовое досье/2020/4 квартал/Бухгалтерская отчетность/Форма 2.pdf',
    '2e321818-4571-43ae-9e08-2ade54b83e14': '../data/Финансовое досье/2021/1 квартал/Бухгалтерская отчетность/Форма 1_1кв21.pdf',
    '3b4f4647-f755-4100-bd63-059627107919': '../data/Финансовое досье/2021/1 квартал/Бухгалтерская отчетность/Форма 2_1кв21.pdf',
    '16f35ccc-b90f-4731-8178-11f3e0e3ca20': '../data/Финансовое досье/2020/4 квартал/Бухгалтерская отчетность/Аудиторское заключение.pdf',
    'a397c2cf-c5ad-4560-bc65-db4f79840f82': '../data/Описание бизнеса/Презентация компании.pdf',
    '3af37c7f-d8b1-46de-98cc-683b0ffb3513': '../data/Юридическое досье/Документы, подтверждающие полномочия на совершение сделки/Назначение ЕИО.pdf',
}

In [23]:
import ocrmypdf

data = []
for label, path in targets.items():
    text = auto_conv(path)
    marked = False
    if len(set(text)) == 1:
        ocrmypdf.ocr(path, 'buf.pdf', language=['rus'])
        text = auto_conv('buf.pdf').replace('\n', ' ')
        marked = True
    data.append({'x': text, 'y': label, 'ocr': marked})

Scanning contents: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 35/35 [00:02<00:00, 13.61page/s]
OCR: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 35.0/35.0 [01:07<00:00,  1.93s/page]
PDF/A conversion: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 35/35 [00:07<00:00,  4.46page/s]
JPEGs: 0image [00:00, ?image/s]
JBIG2: 0item [00:00, ?item/s]
The output file size is 3.01× larger than the input file.
Possible reasons for this include:
The optional dependency 'jbig2' was not found, so some image optimizations could not be attempted.
The optional dependency 'pngquant' was not found, so some image optimizations could not be attempted.
PDF/A conversion was enabled. (Try `--output-type pdf`.)

Scanning contents: 100%|███████████████████████████████████████████

In [20]:
data

[{'x': '  \nОГРН УОИ ВОВОЙ ГЕЙО \n  \n  \nдата внесения записи В ЕГРЮЛ \nУтвержден \n+ \n9 \n‚ \n‚ \nРешением внеочередного общего собрания \nОЙа \n/7/ \n— \n20{@\' \nакционеров ПАО «НКХП» \nза ГРН //ОАЖ\'З/Л\\ЭЖ 7"!‚‹\'9{‘*‘;\'@/& \n«О7» ноября 2016 года \n  \n(Протокол № 49 от «О7» ноября 2016 года) \n  \nУСТАВ \nПубличного акционерного общества \n«Новороссийский комбинат хлебопродуктов» \n(Редакция № 2) \n  \n  \n  \n  \n2016 год \nннн ни ннн \n- нЫ тч \nннн \n  \n\nСтатья 1. Общие положения. \n1.1. \nПубличное \nакционерное \nобщество \n«Новороссийский \nкомбинат \nхлебопродуктов» \n(далее именуемое «Общество»), прежнее наименование Общества — Открытое акционерное \nобщество \n«Новороссийский \nкомбинат \nхлебопродуктов», \nсоздано \nв \nсоответствии \nс \nГражданским кодексом Российской Федерации, \nФедеральным законом \nот 26.12.1995 \nг. \n№ 208-ФЗ «Об акционерных обществах» (далее также — «ФЗ «Об акционерных обществах» \nили «Федеральный закон «Об акционерных обществах») и иным

In [22]:
import json
with open('data.json', 'w', encoding='utf8') as file:
    json.dump(data, file, ensure_ascii=False, indent=2)

In [None]:
file1 = "../data/Наши тестовые данные/ТехДокументация для обмена файлами препода и студента v1.0.1.docx"
file2 = '../data/Финансовое досье/2021/1 квартал/F2_КАМАЗ_09.2020.xls'
file3 = "../data/Описание бизнеса/Презентация компании.pdf"

auto_conv(file3)

In [11]:
from predict_class import CriteriaClassifier

doc = auto_conv(file1)
CriteriaClassifier()(doc)

{'name': 'Возможно несколько вариантов',
 'code': 0,
 'path': ['Не верифицированные документы', None, None, None, None],
 'criteria_list': [],
 'compute_date': 0}

In [12]:
doc = auto_conv(file2)
CriteriaClassifier()(doc)

{'name': 'Возможно несколько вариантов',
 'code': 0,
 'path': ['Не верифицированные документы', None, None, None, None],
 'criteria_list': [],
 'compute_date': 0}

In [15]:
doc

'Москва\n17 ноября 2015 г.\nПрезентация компании\n«Новороссийский комбинат хлебопродуктов»\n\n2\nЗаявление об ограничении ответственности\nНастоящая Презентация для инвесторов (далее – «Презентация») содержит информацию о компании ПАО «НКХП» (именуемой в дальнейшем также – «Компания») и подготовлена в связи с\nпредполагаемым размещением ценных бумаг ПАО «НКХП». Настоящая Презентация предназначена для содействия в проведении анализа Компании и предоставлена исключительно с\nинформационными целями и только в связи с возможным будущим размещением ценных бумаг ПАО «НКХП». Настоящая Презентация не является проспектом ценных бумаг, решением о выпуске\nценных бумаг, предложением купить ценные бумаги или какие-либо активы или принять участие в подписке на ценные бумаги, или продать ценные бумаги или какие-либо активы, не является офертой\nили приглашением делать оферты, не является рекламой ценных бумаг, гарантией или обещанием продажи ценных бумаг или каких-либо активов или проведения размеще