# Qwen2VL

In [2]:
!mkdir data
!unzip -q 'ДЛЯ ПИЛОТА.zip' -d  data
!mv data/'ДЛЯ ПИЛОТА' data/pdf

## Convert pdf to image

```bash
pip install -q pyvips==2.2.3
sudo apt install libvips --fix-missing
```

In [17]:
import nltk

import pandas as pd
import numpy as np

import os, glob, re, json

from tqdm.notebook import tqdm
import pyvips

from transformers import AutoProcessor
from vllm import LLM, SamplingParams
from qwen_vl_utils import process_vision_info


RANDOM_SEED = 42
DPI = 150

LABELS_PATH = './data/labels/'
PDF_PATH = './data/pdf/'

PROCESSED_LABELS_PATH = './result/'
IMAGES_PATH = './data/images/'

if not os.path.exists(PROCESSED_LABELS_PATH):
    os.makedirs(PROCESSED_LABELS_PATH)
    
if not os.path.exists(IMAGES_PATH):
    os.makedirs(IMAGES_PATH)

In [2]:
pdf_paths = pd.DataFrame(glob.glob(os.path.join(PDF_PATH, '*.pdf')), columns=['pdf_path'])
pdf_paths['pdf_name'] = pdf_paths['pdf_path'].apply(lambda x: x.split('/')[-1])
pdf_paths['pdf_index'] = pdf_paths.index.to_series().apply(lambda x: f'{x:05d}')
pdf_paths

Unnamed: 0,pdf_path,pdf_name,pdf_index
0,./data/pdf/СП ТОМСК ВЕСЕЛОВА ЕКАТЕРИНА МИХАЙЛО...,СП ТОМСК ВЕСЕЛОВА ЕКАТЕРИНА МИХАЙЛОВНА_ПНН8516...,00000
1,./data/pdf/МСК СП САВИНОВА АНАСТАСИЯ АЛЕКСЕЕВН...,МСК СП САВИНОВА АНАСТАСИЯ АЛЕКСЕЕВНА_000562458...,00001
2,./data/pdf/МСК СП ВЕРНИКОВСКИЙ ИВАН ФЁДОРОВИЧ_...,МСК СП ВЕРНИКОВСКИЙ ИВАН ФЁДОРОВИЧ_DNS354368!0...,00002
3,./data/pdf/СП ТОМСК ПНФИЛОВ АЛЕКСЕЙ ВАСИЛЬЕВИЧ...,СП ТОМСК ПНФИЛОВ АЛЕКСЕЙ ВАСИЛЬЕВИЧ_003143972!...,00003
4,./data/pdf/СП ТОМСК ТОИРОВА ИЛЬВИНА РИШАТОВНА_...,СП ТОМСК ТОИРОВА ИЛЬВИНА РИШАТОВНА_009561293!1...,00004
...,...,...,...
994,./data/pdf/СП ТОМСК МАЗИТОВ РОБЕРТ ИРЕКОВИЧ_00...,СП ТОМСК МАЗИТОВ РОБЕРТ ИРЕКОВИЧ_000260665!102...,00994
995,./data/pdf/СП ТОМСК МИТРОХИНА АННА АНДРЕЕВНА_П...,СП ТОМСК МИТРОХИНА АННА АНДРЕЕВНА_ПНН233506!81...,00995
996,./data/pdf/МСК СП БЕЛЯЕВА АНАСТАСИЯ НАГИРОВНА_...,МСК СП БЕЛЯЕВА АНАСТАСИЯ НАГИРОВНА_013431606!1...,00996
997,./data/pdf/СП ТОМСК МАКАРОВА АРИНА АЛЕКСАНДРОВ...,СП ТОМСК МАКАРОВА АРИНА АЛЕКСАНДРОВНА_00316947...,00997


In [3]:
image_info = []

for idx, pdf_path in tqdm(pdf_paths.iterrows()):
    
    if os.path.exists(os.path.join(IMAGES_PATH, pdf_path['pdf_index'] + f'_0000.jpg')):
        continue
        
    images = pyvips.Image.new_from_file(pdf_path['pdf_path'])
    
    for i in range(images.get('n-pages')):
        
        p = os.path.join(IMAGES_PATH, pdf_path['pdf_index'] + f'_{i:04d}.jpg')
        
        image = pyvips.Image.new_from_file(pdf_path['pdf_path'], page=i, dpi=DPI)
        image.write_to_file(p)
        
        info = pdf_path.copy()
        info['image_path'] = os.path.join(IMAGES_PATH, pdf_path['pdf_index'] + f'_{i:04d}.jpg')
        info['image_name'] = pdf_path['pdf_index'] + f'_{i:04d}.jpg'
        image_info.append(info)
        
# image_info = pd.concat(image_info, axis=1, ignore_index=True).T
# image_info.to_parquet('./data/images_info.parquet', index=False, compression='gzip')

0it [00:00, ?it/s]

In [4]:
image_info = pd.read_parquet('./data/images_info.parquet')
image_info.head()

Unnamed: 0,pdf_path,pdf_name,pdf_index,image_path,image_name
0,./data/pdf/СП ТОМСК ВЕСЕЛОВА ЕКАТЕРИНА МИХАЙЛО...,СП ТОМСК ВЕСЕЛОВА ЕКАТЕРИНА МИХАЙЛОВНА_ПНН8516...,0,./data/images/00000_0000.jpg,00000_0000.jpg
1,./data/pdf/МСК СП САВИНОВА АНАСТАСИЯ АЛЕКСЕЕВН...,МСК СП САВИНОВА АНАСТАСИЯ АЛЕКСЕЕВНА_000562458...,1,./data/images/00001_0000.jpg,00001_0000.jpg
2,./data/pdf/МСК СП САВИНОВА АНАСТАСИЯ АЛЕКСЕЕВН...,МСК СП САВИНОВА АНАСТАСИЯ АЛЕКСЕЕВНА_000562458...,1,./data/images/00001_0001.jpg,00001_0001.jpg
3,./data/pdf/МСК СП САВИНОВА АНАСТАСИЯ АЛЕКСЕЕВН...,МСК СП САВИНОВА АНАСТАСИЯ АЛЕКСЕЕВНА_000562458...,1,./data/images/00001_0002.jpg,00001_0002.jpg
4,./data/pdf/МСК СП САВИНОВА АНАСТАСИЯ АЛЕКСЕЕВН...,МСК СП САВИНОВА АНАСТАСИЯ АЛЕКСЕЕВНА_000562458...,1,./data/images/00001_0003.jpg,00001_0003.jpg


## Load model

In [5]:
MODEL_PATH = "Qwen/Qwen2-VL-7B-Instruct-GPTQ-Int4"

llm = LLM(
    model=MODEL_PATH,
    limit_mm_per_prompt={"image": 1, "video": 1},
    gpu_memory_utilization=0.2,
    max_model_len=6144,
    trust_remote_code=True,
)

sampling_params = SamplingParams(
    temperature=0.1,
    top_p=0.001,
    repetition_penalty=1.05,
    max_tokens=2048,
    stop_token_ids=[],
    seed=42,
)

processor = AutoProcessor.from_pretrained(MODEL_PATH)

INFO 09-25 18:02:08 gptq_marlin.py:108] The model is convertible to gptq_marlin during runtime. Using gptq_marlin kernel.
INFO 09-25 18:02:08 llm_engine.py:223] Initializing an LLM engine (v0.6.1.post2) with config: model='Qwen/Qwen2-VL-7B-Instruct-GPTQ-Int4', speculative_config=None, tokenizer='Qwen/Qwen2-VL-7B-Instruct-GPTQ-Int4', skip_tokenizer_init=False, tokenizer_mode=auto, revision=None, override_neuron_config=None, rope_scaling=None, rope_theta=None, tokenizer_revision=None, trust_remote_code=True, dtype=torch.float16, max_seq_len=6144, download_dir=None, load_format=LoadFormat.AUTO, tensor_parallel_size=1, pipeline_parallel_size=1, disable_custom_all_reduce=False, quantization=gptq_marlin, enforce_eager=False, kv_cache_dtype=auto, quantization_param_path=None, device_config=cuda, decoding_config=DecodingConfig(guided_decoding_backend='outlines'), observability_config=ObservabilityConfig(otlp_traces_endpoint=None, collect_model_forward_time=False, collect_model_execute_time=Fal

Loading safetensors checkpoint shards:   0% Completed | 0/2 [00:00<?, ?it/s]


INFO 09-25 18:02:13 model_runner.py:1008] Loading model weights took 6.4651 GB


  @torch.library.impl_abstract("xformers_flash::flash_fwd")
  @torch.library.impl_abstract("xformers_flash::flash_bwd")


INFO 09-25 18:02:16 gpu_executor.py:122] # GPU blocks: 8497, # CPU blocks: 4681
INFO 09-25 18:02:20 model_runner.py:1311] Capturing the model for CUDA graphs. This may lead to unexpected consequences if the model is not static. To run the model in eager mode, set 'enforce_eager=True' or use '--enforce-eager' in the CLI.
INFO 09-25 18:02:20 model_runner.py:1315] CUDA graphs can take additional 1~3 GiB memory per GPU. If you are running out of memory, consider decreasing `gpu_memory_utilization` or enforcing eager mode. You can also reduce the `max_num_seqs` as needed to decrease memory usage.
INFO 09-25 18:02:45 model_runner.py:1430] Graph capturing finished in 24 secs.


## Config

In [5]:
system_message = '''\
Ты - МТС Финтех OCR Ассистент, который помогает пользователю распознавать текст в документах и обрабатывать результаты.
БУДЬ ОСОБЕННО ВНИМАТЕЛЕН К ИМЕНАМ.
'''

format_fields = lambda fields: ',\n'.join([f'\t"{field}": ...' for field in fields])
answer_format = '''\nОтветь в формате JSON: ```json
{{
{0}
}}
```'''

questions = [
######################################################################################
{'question': '''\
Распознай тип документа.
Тип документа обычно указан сверху страницы крупным шрифтом.
Выбери один из вариантов:
* Судебный приказ
* Определение
* Исполнительный лист
* Письмо (извещение)
* Другое
* Пустой лист\
''', 'fields': ['doc_type'],}, 
######################################################################################
{'question': '''\
Распознай весь текст документа.\
''', 'fields': ['text'],}, 
###################################################################################### 
{'question': '''\
По скану документа и распознанному тексту найди НАИМЕНОВАНИЕ СУДА (СУДЕБНОГО УЧАСТКА).

РАСПОЗНАННЫЙ ТЕКСТ ПОВТОРЯТЬ НЕ ТРЕБУЕТСЯ.
ЕСЛИ ИНФОРМАЦИЯ ОТСУТСТВУЕТ ИЛИ НЕ ПОДХОДИТ В ПОЛЕ ЗАПОЛНИТЬ ЗНАЧЕНИЕМ "ПУСТО".\
''', 'fields': ['court_name'],}, 
###################################################################################### 
{'question': '''\
По скану документа и распознанному тексту найди НОМЕР ДЕЛА.
Номер дела находится сверху страницы или в правом верхнем углу. Часто начинается с "Дело № ...", "Производство № ...", "№ ...".
В номере дела используются цифры, буквы, дробь (/), часто указан год и т.п. Примеры: "2-1235/16", "2-11-1280/2018", "2г-432-9845/2024-116" и т.п.;

РАСПОЗНАННЫЙ ТЕКСТ ПОВТОРЯТЬ НЕ ТРЕБУЕТСЯ.
ЕСЛИ ИНФОРМАЦИЯ ОТСУТСТВУЕТ ИЛИ НЕ ПОДХОДИТ В ПОЛЕ ЗАПОЛНИТЬ ЗНАЧЕНИЕМ "ПУСТО".\
''', 'fields': ['case_number'],}, 
######################################################################################
{'question': '''\
По скану документа и распознанному тексту найди ДАТУ ДОКУМЕНТА (ДЕЛА / СУДЕБНОГО ПРОИЗВОДСТВА).
Обычно может находиться сверху страницы слева от номера дела, или по центру;
Преобразуй в формат: %d.%m.%Y

РАСПОЗНАННЫЙ ТЕКСТ ПОВТОРЯТЬ НЕ ТРЕБУЕТСЯ.
ЕСЛИ ИНФОРМАЦИЯ ОТСУТСТВУЕТ ИЛИ НЕ ПОДХОДИТ В ПОЛЕ ЗАПОЛНИТЬ ЗНАЧЕНИЕМ "ПУСТО".\
''', 'fields': ['case_date'],}, 
######################################################################################
{'question': '''\
По скану документа и распознанному тексту найди НОМЕР КРЕДИТНОГО ДОГОВОРА.

РАСПОЗНАННЫЙ ТЕКСТ ПОВТОРЯТЬ НЕ ТРЕБУЕТСЯ.
ЕСЛИ ИНФОРМАЦИЯ ОТСУТСТВУЕТ ИЛИ НЕ ПОДХОДИТ В ПОЛЕ ЗАПОЛНИТЬ ЗНАЧЕНИЕМ "ПУСТО".\
''', 'fields': ['credit_id'],}, 
######################################################################################
{'question': '''\
По скану документа и распознанному тексту найди ФАМИЛИЮ, ИМЯ И ОТЧЕСТВО (ФИО) ДОЛЖНИКА.
Преобразуй ФИО в начальную форму, именительный падеж.

РАСПОЗНАННЫЙ ТЕКСТ ПОВТОРЯТЬ НЕ ТРЕБУЕТСЯ.
ЕСЛИ ИНФОРМАЦИЯ ОТСУТСТВУЕТ ИЛИ НЕ ПОДХОДИТ В ПОЛЕ ЗАПОЛНИТЬ ЗНАЧЕНИЕМ "ПУСТО".\
''', 'fields': ['debtor_full_name'],}, 
######################################################################################
{'question': '''\
По скану документа и распознанному тексту найди КРАТКОЕ РЕШЕНИЕ / ПОСТАНОВЛЕНИЕ ПО ДЕЛУ.
Например, "Взыскать с должника", "Выдать судебный приказ о взыскании", и тому подобное. Более полное решение писать не требуется.

РАСПОЗНАННЫЙ ТЕКСТ ПОВТОРЯТЬ НЕ ТРЕБУЕТСЯ.
ЕСЛИ ИНФОРМАЦИЯ ОТСУТСТВУЕТ ИЛИ НЕ ПОДХОДИТ В ПОЛЕ ЗАПОЛНИТЬ ЗНАЧЕНИЕМ "ПУСТО".\
''', 'fields': ['result'],}, 
######################################################################################
{'question': '''\
По скану документа и распознанному тексту найди СУММУ ЗАДОЛЖЕННОСТИ ПО КРЕДИТНОМУ ДОГОВОРУ, СУММУ ОСНОВНОГО ДОЛГА, СУММУ ПРОЦЕНТОВ ИЛИ КОМИССИИ, СУММУ ГОСУДАРСТВЕННОЙ ПОШЛИНЫ (ГОС. ПОШЛИНЫ), ОБЩАЯ СУММА (ВСЕГО).
Ответы преобразуй в число с плавающей точкой без пробелов. Например, из "34580 руб. 34 коп." или "тридцать четыре тысячи пятьсот восемьдесят рублей тридцать четыре копейки" в "34580.34".

РАСПОЗНАННЫЙ ТЕКСТ ПОВТОРЯТЬ НЕ ТРЕБУЕТСЯ.
ЕСЛИ ИНФОРМАЦИЯ ОТСУТСТВУЕТ ИЛИ НЕ ПОДХОДИТ В ПОЛЕ ЗАПОЛНИТЬ ЗНАЧЕНИЕМ "ПУСТО".\
''', 'fields': ['overdue_debt', 'main_debt', 'percent_debt', 'fee', 'total_debt'],}, 
######################################################################################
{'question': '''\
По скану документа найди ДАТУ ВСТУПЛЕНИЯ В СИЛУ ДОКУМЕНТА.
Обычно находится снизу документа в месте печати, с подписью и написана рукописным или печатным текстом.
Рядом со словами, например: "Судебный приказ вступил в силу ..."

ЕСЛИ ИНФОРМАЦИЯ ОТСУТСТВУЕТ ИЛИ НЕ ПОДХОДИТ В ПОЛЕ ЗАПОЛНИТЬ ЗНАЧЕНИЕМ "ПУСТО".\
''', 'fields': ['effective_date'],},
]

prompts = {}
for question in questions:
    question, fields = question['question'], question['fields']
    prompt = f'{question}\n{answer_format.format(format_fields(fields))}'

    prompts[fields[0]] = prompt

In [6]:
prompts.keys()

dict_keys(['doc_type', 'text', 'court_name', 'case_number', 'case_date', 'credit_id', 'debtor_full_name', 'result', 'overdue_debt', 'effective_date'])

In [7]:
images_path  = sorted(glob.glob(os.path.join(IMAGES_PATH, '*.jpg')))

image_name_pattern = '\d+_\d+.jpg'
images_name = [re.findall(image_name_pattern, image_path)[0] for image_path in images_path]

images_path[:3], images_name[:3]

(['./data/images/00000_0000.jpg',
  './data/images/00001_0000.jpg',
  './data/images/00001_0001.jpg'],
 ['00000_0000.jpg', '00001_0000.jpg', '00001_0001.jpg'])

In [8]:
def make_conversation(prompt, image_path, system_message, text=None):
    
    if text is None:
        return [
            {"role": "system", "content": system_message},
            {
                "role": "user",
                "content": [
                    {
                        "type": "image",
                        "image": image_path,
                        "min_pixels": 224 * 224,
                        "max_pixels": 1280 * 28 * 28,
                    },
                    {"type": "text", "text": prompt},
                ],
            }
        ]
    else: 
        return [
            {"role": "system", "content": system_message},
            {
                "role": "user",
                "content": [
                    {
                        "type": "image",
                        "image": image_path,
                        "min_pixels": 224 * 224,
                        "max_pixels": 1280 * 28 * 28,
                    },
                    {
                        "type": "text", 
                        "text": f'Результат распознавания текста:\n{text}\n\n' + prompt
                    },
                ],
            }
        ]

In [9]:
MAX_NEW_TOKENS = 2048

def run_conversation_hf(conversation):
    text = processor.apply_chat_template(
        conversation, tokenize=False, add_generation_prompt=True
    )
    image_inputs, video_inputs = process_vision_info(conversation)
    inputs = processor(
        text=[text],
        images=image_inputs,
        videos=video_inputs,
        padding=True,
        return_tensors="pt",
    )
    inputs = inputs.to("cuda")

    # Inference: Generation of the output
    generated_ids = model.generate(**inputs, max_new_tokens=MAX_NEW_TOKENS)
    generated_ids_trimmed = [
        out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
    ]
    output_text = processor.batch_decode(
        generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
    )
    
    return output_text[0]

In [10]:
sampling_params = SamplingParams(
    temperature=0.1,
    top_p=0.001,
    repetition_penalty=1.05,
    max_tokens=2048,
    stop_token_ids=[],
    seed=42,
)

def run_conversation_vllm(conversation):
    text = processor.apply_chat_template(
        conversation, tokenize=False, add_generation_prompt=True
    )
    image_inputs, video_inputs = process_vision_info(conversation)
    
    mm_data = {}
    if image_inputs is not None:
        mm_data["image"] = image_inputs
    if video_inputs is not None:
        mm_data["video"] = video_inputs

    llm_inputs = {
        "prompt": text,
        "multi_modal_data": mm_data,
    }

    output_text = llm.generate([llm_inputs], sampling_params=sampling_params)
    
    return output_text[0].outputs[0].text

In [11]:
def response_to_json(text):
    text = re.split('```json', text)[1]
    text = re.split('```', text)[0]
    return json.loads(text)

## Run

In [None]:
# vllm
recognition_results = {}

for image_path, image_name in tqdm(zip(images_path, images_name)):
    
    recognition_results[image_name] = {}
    
    field_name = 'doc_type'
    
    conversation = make_conversation(prompts[field_name], image_path, system_message)
    output_text = run_conversation_vllm(conversation)
    
    try:
        recognition_results[image_name][field_name] = response_to_json(output_text)[field_name]
    except:
        recognition_results[image_name][field_name] = 'Ошибка'
    
    field_name = 'text'
    
    conversation = make_conversation(prompts[field_name], image_path, system_message)
    output_text = run_conversation_vllm(conversation)
    
    try:
        recognition_results[image_name][field_name] = response_to_json(output_text)[field_name]
    except:
        recognition_results[image_name][field_name] = 'Ошибка'
        
    if recognition_results[image_name]['doc_type'] not in ('Судебный приказ', ):
        with open(os.path.join(PROCESSED_LABELS_PATH, image_name.replace('jpg', 'json')), 'w') as f:
            json.dump(recognition_results[image_name], f)
        continue
        
    for field_name in [
        'court_name', 'case_number', 'case_date', 
        'credit_id', 'debtor_full_name', 'result', 
        'overdue_debt', 'effective_date',
    ]:
        if field_name == 'effective_date':
            conversation = make_conversation(prompts[field_name], image_path, system_message)
        else:
            conversation = make_conversation(prompts[field_name], image_path, system_message, recognition_results[image_name]['text'])
        output_text = run_conversation_vllm(conversation)

        try:
            # for field in prompts[field_name]['fields']:
            #     recognition_results[image_name][field_name] = response_to_json(output_text)[field]
            
            res = response_to_json(output_text)
            recognition_results[image_name][field_name] = res[field_name]
            if 'fee' in res:
                recognition_results[image_name]['fee'] = res['fee']
            if 'overdue_debt' in res:
                recognition_results[image_name]['overdue_debt'] = res['overdue_debt']
            if 'main_debt' in res:
                recognition_results[image_name]['main_debt'] = res['main_debt']
            if 'percent_debt' in res:
                recognition_results[image_name]['percent_debt'] = res['percent_debt']
            if 'total_debt' in res:
                recognition_results[image_name]['total_debt'] = res['total_debt']
            
        except:
            recognition_results[image_name][field_name] = 'Ошибка'
    
    with open(os.path.join(PROCESSED_LABELS_PATH, image_name.replace('jpg', 'json')), 'w') as f:
        json.dump(recognition_results[image_name], f)

In [65]:
recognition_results = {}

for image_path, image_name in tqdm(zip(images_path, images_name)):
    
    with open(os.path.join(PROCESSED_LABELS_PATH, image_name.replace('jpg', 'json')), 'r') as f:
        recognition_results[image_name] = json.load(f)
        
df_recognition_results = pd.DataFrame(recognition_results).T

0it [00:00, ?it/s]

In [66]:
df_recognition_results.columns

Index(['doc_type', 'text', 'court_name', 'case_number', 'case_date',
       'credit_id', 'debtor_full_name', 'result', 'overdue_debt', 'fee',
       'main_debt', 'percent_debt', 'total_debt', 'effective_date'],
      dtype='object')

In [67]:
for col in tqdm(df_recognition_results.columns):
    mask = df_recognition_results[col].isin(['Ошибка', '', 'ПУСТО', 'Пусто'])
    df_recognition_results.loc[mask, col] = np.nan

for col in tqdm(['overdue_debt', 'fee', 'main_debt', 'percent_debt', 'total_debt']):
    df_recognition_results[col] = df_recognition_results[col].astype(str).str.replace('None', 'nan', regex=True)
    df_recognition_results[col] = df_recognition_results[col].astype(str).str.replace('р.|руб|коп\.|\s', '', regex=True)
    df_recognition_results[col] = df_recognition_results[col].str.replace(',', '.', regex=True)
    df_recognition_results[col] = df_recognition_results[col].str.replace('б', '6', regex=True)
    
    df_recognition_results[col] = pd.to_numeric(df_recognition_results[col], errors='coerce')
    df_recognition_results.loc[df_recognition_results[col].eq(0), col] = np.nan

for col in tqdm(['case_date']):
    mask_8 = df_recognition_results[col].astype(str).str.len().eq(8)
    df_recognition_results.loc[mask_8, col] =\
    pd.to_datetime(df_recognition_results.loc[mask_8, col], format='%d.%m.%y', errors='coerce')
    
    mask_10 = df_recognition_results[col].astype(str).str.len().eq(10)
    df_recognition_results.loc[mask_10, col] =\
    pd.to_datetime(df_recognition_results.loc[mask_10, col], format='%d.%m.%Y', errors='coerce')
    
    df_recognition_results.loc[~(mask_8 | mask_10), col] = pd.NaT
    df_recognition_results[col] = df_recognition_results[col].replace(np.nan, pd.NaT)
    
for col in tqdm(['credit_id', 'case_number']):
    pattern_date = '\d+\.\d+\.\d+'
    pattern_number_sign = '№'
    pattern_passport = '\d{4} \d{6}|\d{2} \d{2} \d{6}'
    pattern_str = 'Дело'
    
    df_recognition_results[col] = df_recognition_results[col].astype(str)\
    .str.replace(f'{pattern_date}|{pattern_number_sign}|{pattern_passport}|{pattern_str}', '', regex=True)
    
    df_recognition_results[col] = df_recognition_results[col]\
    .str.replace(f'\s+', '', regex=True)
    
    mask = df_recognition_results[col].str.contains('год|nan') | df_recognition_results[col].eq('')
    df_recognition_results.loc[mask, col] = None
    
    df_recognition_results[col] = df_recognition_results[col]
    
for col in tqdm(['doc_type']):
    mask = df_recognition_results['doc_type'].eq('Судебный приказ') &\
            df_recognition_results['overdue_debt'].isna() &\
            (df_recognition_results['debtor_full_name'].astype(str).str.contains('\w\.\s*\w\.', regex=True) |\
             df_recognition_results['debtor_full_name'].isna() |\
             df_recognition_results['debtor_full_name'].astype(str).fillna('').str.split(' ').apply(len).lt(2) |\
             df_recognition_results['case_number'].astype(str).apply(len).le(8) |\
             df_recognition_results['credit_id'].astype(str).apply(len).le(10)
            )
    
    df_recognition_results.loc[mask, col] = 'Другое'
    
for col in tqdm(df_recognition_results.columns):
    display(df_recognition_results[col].value_counts(dropna=False).to_frame())


  0%|          | 0/14 [00:00<?, ?it/s]

  0%|          | 0/5 [00:00<?, ?it/s]

  0%|          | 0/1 [00:00<?, ?it/s]

  df_recognition_results[col] = df_recognition_results[col].replace(np.nan, pd.NaT)


  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/1 [00:00<?, ?it/s]

  0%|          | 0/14 [00:00<?, ?it/s]

Unnamed: 0_level_0,count
doc_type,Unnamed: 1_level_1
Судебный приказ,1090
Пустой лист,492
Другое,176
Письмо (извещение),158
Письмо заказное,117
Письмо,91
Исполнительный лист,75
Судебное,8
Определение,7
Судебное заказное письмо с уведомлением,5


Unnamed: 0_level_0,count
text,Unnamed: 1_level_1
,485
0123456789,19
Образец написания цифр индекса,9
Ваш текст здесь,7
Приложение 1,5
...,...
"ПКО ФМ г. Саратов 410000\n07.08.2024 САРАТОВ 410000\nПисьмо заказное С электронным уведомлением Судебное\nВес: 20г\nПлата за пересылку: 116 руб 40 коп\nКому: ПАО МТС-Банк\nКуда: пр-кт Андропова, д. 18 корп.1, г Москва\n115432",1
"Судебный участок № 9 Заводского района г. Саратова\n410036, г. Саратов, ул. Огородная, д. 193 «Б». http://50.sar.msudrf.ru\nИменем Российской Федерации\nСудебный приказ\n20 июня 2024 года\nМировой судья судебного участка № 2 Заводского района города Саратова Ивлеев О.М., исполняющий обязанности мирового судьи судебного участка № 9 Заводского района города Саратова, рассмотрев заявление ПАО «МТС-Банк» о вынесении судебного приказа о взыскании задолженности по кредитному договору, расходов по оплате государственной пошлины с Шапкина Елена Александровна.\nисследовав сведения, изложенные в направленном взыскателем заявлении о вынесении судебного приказа и приложенных к нему документах, руководствуясь ст.ст. 307, 309, 310, 395, 807, 808, 809, 810, 811 ГК РФ, ст. ст. 122, 127 ГПК РФ.\nпостановил:\nвзыскать с Шапкина Елена Александровна. 17.05.1967 года рождения, уроженки(ца) г. Саратов, зарегистрированного(ой) по адресу: город Саратов, ул. Лесопильная, д. 165 А, кв. 3, паспорт 6311 766214, в пользу ПАО «МТС-Банк» (Юридический адрес: 115432, г. Москва, пр-т Андропова, д. 18, корп. 1), задолженность по кредитному договору №0004895742/26/12/23 от 26.12.2023 года за период с 20.02.2024 г. по 29.05.2024 г. в размере 61998.44 руб., а также расходы по оплате государственной пошлины в размере 1029.98 руб.. перечислив по реквизитам: ИНН 7702045051 КПП 772501001 ОГРН 1027739053704, БИК 044525232, р/с 3010180600000000232, п/с 474228104000009800040 банк: ГУ Банка России по ЦФО.\nДолжник вправе в десятидневный срок со дня получения копии судебного приказа представить возражения относительно его исполнения мировым судье, вынесшему судебный приказ.\n\nМ.П.\nМировой судья\nО.М. Ивлеев\nСудебный приказ вступил в законную силу «ас» 2024 года\nСрок предъявления к исполнению три года.\nМировой судья\nСекретарь",1
"Российская Федерация\nСудебный участок №9\nЗаводского района города Саратова\nул.Огородная, д.193-Б\nг. Саратов, Саратовская область\ntel/fax 8(8452)54-19-67\n№ 7863\n\nПАО «МТС-Банк»\n115432, г. Москва, пр-кт Андропова, д.\n18, корп. 1\n\nПАО «МТС-Банк»\nВход. № 1-1-18324/24-(0)\n14 АВГ 2024\n2024г.\n\nМировой судья судебного участка №2 Заводского района города Саратова Ивлева О.М., исполняющий обязанности мирового судьи судебного участка №9 Заводского района города Саратова направляет судебный приказ по гражданскому делу №2-2881/2024, для исполнения.\n\nПриложение: по тексту\nМировой судья\n54 19 67\nО.М. Ивлева",1
"Судебный приказ\n29 сентября 2023 года\nПроизводство № 2-2231/2023 года\n\nМировой суд судебного участка № 1 Медвежьегорского района Республики Карелия Балашова Ю.С., рассмотрев заявление\n\nвзыскателя: Публичного акционерного общества «МТС-Банк» (ПАО «МТС-Банк»), юридический адрес: 115432, г. Москва, проспект Андропова, д. 18, корп. 1, адрес для корреспонденции: 241037, г. Брянск, ул. Красноармейская, д.103, оф.7 (второй этаж) для ООО «М.Б.А. Финансы», ОГРН 1027739053704, ИНН 7702045051, Дата регистрации: 29.01.1993г.,\n\nо вынесении судебного приказа на взыскание задолженности по Договору № MTCCЗФ285603/001/23 от 09.01.2023 за период с 26.07.2023 по 06.09.2023 – 24967,08 руб., возврат государственной пошлины – 474,51 руб.,\n\nс должника: Чалова Константина Александровича, 15.10.2001 года рождения, место рождения: гор. Петрозаводск Республика Карелия Россия, адрес: Республика Карелия, г. Медвежьегорск, ул. Пионерская, д. 22, кв. 3, место работы: РТК МР Северо-Запад, паспорт 8621 368782,\n\nисследовав сведения, изложенные в направленном взыскателем заявления о вынесении судебного приказа и приложенных к нему документах,\nруководствуясь ст. 160, 161 ГК РФ, руководствуясь ст. ст. 121-130 ГПК РФ,\n\nРЕШИЛ:\nВзыскать с должника Чалова Константина Александровича, 15.10.2001 года рождения, место рождения: гор. Петрозаводск Республика Карелия Россия, адрес: Республика Карелия, г. Медвежьегорск, ул. Пионерская, д. 22, кв. 3, место работы: РТК МР Северо-Запад, паспорт 8621 368782, в пользу взыскателя Публичного акционерного общества «МТС-Банк» (ПАО «МТС-Банк»), юридический адрес: 115432, г. Москва, проспект Андропова, д. 18, корп. 1, адрес для корреспонденции: 241037, г. Брянск, ул. Красноармейская, д.103, оф.7 (второй этаж) для ООО «М.Б.А. Финансы», ОГРН 1027739053704, ИНН 7702045051, Дата регистрации: 29.01.1993г., задолженность по Договору № MTCCЗФ285603/001/23 от 09.01.2023 за период с 26.07.2023 по 06.09.2023 – 24967,08 руб., возврат государственной пошлины – 474,51 руб.,\n\nДолжник вправе в десятидневный срок со дня получения копии судебного приказа предоставить возражения относительно его исполнения мировому судье, вынесшему судебный приказ.\n\nМировой судья М.П.\nБалашова Ю.С.",1


Unnamed: 0_level_0,count
court_name,Unnamed: 1_level_1
,965
Мировой суд,51
Мировой судья,20
Судебный участок № 183 Новокубанского района Краснодарского края,8
Мировой судья судебного участка № 3 в Советском судебном районе Воронежской области,8
...,...
Мировой судья судебного участка №1 города Кольчугино и Кольчугинского района Владимирской области,1
Судебный участок № 6 Георгиевского района Ставропольского края,1
Судебный участок № 266 района Капотня г. Москвы,1
Судебный участок г. Яровое Алтайского края,1


Unnamed: 0_level_0,count
case_number,Unnamed: 1_level_1
,978
2-1235/16,36
2-11-1280/2018,6
2г-432-9845/2024-116,5
2-1960/2022,4
...,...
2-3190-07-424/23,1
2-1244/21,1
2-1240/2023,1
02-1226/29/2023,1


Unnamed: 0_level_0,count
case_date,Unnamed: 1_level_1
NaT,990
2023-09-29,67
2023-10-02,47
2023-09-26,46
2023-09-25,40
...,...
2023-05-18,1
2023-08-17,1
2020-04-20,1
2023-05-31,1


Unnamed: 0_level_0,count
credit_id,Unnamed: 1_level_1
,1029
47422810400009800040,4
3010181060000000232,3
000735761/109/21,2
ПНН175851/810/22,2
...,...
0005410802/13/02/23,1
0004895742,1
2-2881/2024,1
MTCCЗФ285603/001/23,1


Unnamed: 0_level_0,count
debtor_full_name,Unnamed: 1_level_1
,985
Шмонов Даниил Владимирович,6
Теплухин Александр Викторович,4
Уразова Валентина Ильинична,4
Клепиков Владимир Николаевич,4
...,...
Подзимек Евгений Валериевич,1
Милюкова Екатерина Николаевна,1
Щигарова Карины Валерьевна,1
Губерова Эльмира Ансаровна,1


Unnamed: 0_level_0,count
result,Unnamed: 1_level_1
,964
Взыскать с должника,175
Выдать судебный приказ о взыскании,93
Вынести судебный приказ о взыскании,15
Взыскать в пользу ПАО «МТС-Банк»,11
...,...
Взыскать с должника Елизаровой Инны Игоревны,1
Взыскать с Милюковой Екатерини Николаевны,1
Взыскать с Щигаровой Карины Валерьевны,1
Взыскать с должника Лукьяненко Оlesi Владимировны,1


Unnamed: 0_level_0,count
overdue_debt,Unnamed: 1_level_1
,1179
34580.34,13
345806.34,3
14980.94,2
19035.68,2
...,...
58266.94,1
28062.78,1
29002.99,1
78474.93,1


Unnamed: 0_level_0,count
fee,Unnamed: 1_level_1
,1265
200.00,30
582.31,3
10384.00,3
433.50,3
...,...
763.99,1
1101.52,1
437.50,1
853.11,1


Unnamed: 0_level_0,count
main_debt,Unnamed: 1_level_1
,1183
34580.34,14
20000.00,6
32154.00,2
7329.68,2
...,...
29002.99,1
78474.93,1
18021.46,1
5575.69,1


Unnamed: 0_level_0,count
percent_debt,Unnamed: 1_level_1
,1926
12154.00,9
10384.00,5
13983.00,3
11706.00,2
...,...
12240.84,1
773.11,1
2240.44,1
5274.97,1


Unnamed: 0_level_0,count
total_debt,Unnamed: 1_level_1
,1181
34580.34,16
123456.78,2
22875.14,2
32736.31,2
...,...
33517.55,1
25157.57,1
59240.94,1
34565.58,1


Unnamed: 0_level_0,count
effective_date,Unnamed: 1_level_1
,967
2023,40
29 сентября 2023 года,22
2024,19
26 сентября 2023 года,17
...,...
24 10 2023,1
10 2023 г.,1
14 Авт 2024,1
27 ИЮНЯ 2024,1


In [68]:
output = image_info.set_index('image_name').join(df_recognition_results)
output.drop(columns = ['pdf_path', 'pdf_index', 'image_path'], inplace=True)
# output.to_excel('ocr-result-2024-09-26.xlsx')
output

Unnamed: 0_level_0,pdf_name,doc_type,text,court_name,case_number,case_date,credit_id,debtor_full_name,result,overdue_debt,fee,main_debt,percent_debt,total_debt,effective_date
image_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
00000_0000.jpg,СП ТОМСК ВЕСЕЛОВА ЕКАТЕРИНА МИХАЙЛОВНА_ПНН8516...,Судебный приказ,Мировой судья судебного участка № 7 Нижневарто...,Мировой судья судебного участка № 7 Нижневарто...,02-5397/2107/2023,2023-10-05,ПНН851674/810/21,Веселова Екатерина Михайловна,Взыскать с должника,19227.55,384.55,19227.55,,19612.10,5 октября 2023 года
00001_0000.jpg,МСК СП САВИНОВА АНАСТАСИЯ АЛЕКСЕЕВНА_000562458...,Письмо (извещение),Письмо заказное\nС электронным уведомлением\nС...,,,NaT,,,,,,,,,
00001_0001.jpg,МСК СП САВИНОВА АНАСТАСИЯ АЛЕКСЕЕВНА_000562458...,Пустой лист,0123456789,,,NaT,,,,,,,,,
00001_0002.jpg,МСК СП САВИНОВА АНАСТАСИЯ АЛЕКСЕЕВНА_000562458...,Судебный приказ,Российская Федерация\nМировой судья судебного ...,Мировой судья судебного участка № 5 Фрунзенско...,2-1114/2024,2024-05-27,000562458/105/23,Слабжина Анастасия Алексеевна,Взыскать с Слабжиной Анастасии Алексеевны в по...,20037.00,400.56,20037.00,,20437.56,25.06.2024
00001_0003.jpg,МСК СП САВИНОВА АНАСТАСИЯ АЛЕКСЕЕВНА_000562458...,Пустой лист,,,,NaT,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
00998_0001.jpg,МСК СП ДАВТЯН ТАТЬЯНА СЕРГЕЕВНА_022541405!105!...,Пустой лист,,,,NaT,,,,,,,,,
00998_0002.jpg,МСК СП ДАВТЯН ТАТЬЯНА СЕРГЕЕВНА_022541405!105!...,Судебный приказ,Судебный участок № 52 Алданского района Респуб...,Судебный участок № 52 Алданского района Респуб...,2-643/52-2024,2024-03-22,022541405/105/23,Давтян Татьяна Сергеевна,Взыскать с должника Давтян Татьяны Сергеевны,24515.47,467.73,24515.47,,24983.20,15.04.2024
00998_0003.jpg,МСК СП ДАВТЯН ТАТЬЯНА СЕРГЕЕВНА_022541405!105!...,Пустой лист,,,,NaT,,,,,,,,,
00998_0004.jpg,МСК СП ДАВТЯН ТАТЬЯНА СЕРГЕЕВНА_022541405!105!...,Письмо (извещение),От кого: Алданское районное отделение судебных...,,,NaT,,,,,,,,,


In [69]:
def verify_string(row, s1='client_full_name', s2='debtor_full_name', threshold=2):
    if isinstance(row[s1], str) and isinstance(row[s2], str):
        return nltk.edit_distance(row[s1], row[s2].upper()) <= threshold
    return False

def extract_client_name(text):
    text = re.split('СП ТОМСК |МСК СП |РЕГ СП |ОНЛАЙН СП ', text)[1]
    text = re.split('_', text)[0]
    return text

def extract_credit_id(text):
    text = re.split('_', text)[1]
    text = text.replace('!', '/')
    return text

output['client_name'] = output['pdf_name'].apply(extract_client_name)
output['credit_id_true']   = output['pdf_name'].apply(extract_credit_id)

In [72]:
mask = output['doc_type'].eq('Судебный приказ')

value = output[mask].apply(verify_string, axis=1, s1='client_name', s2='debtor_full_name').sum()
print(f'Кол-во СП: {mask.sum()}, кол-во совпавших: {value}')
value /= mask.sum()
print(f'Доля совпавших ФИО по СП: {round(100 * value, 2)}%',)

Кол-во СП: 1090, кол-во совпавших: 983
Доля совпавших ФИО по СП: 90.18%


In [80]:
mask = output['doc_type'].eq('Судебный приказ')

value = output[mask].apply(verify_string, axis=1, s1='credit_id_true', s2='credit_id', threshold=0).sum()
print(f'Кол-во СП: {mask.sum()}, кол-во совпавших: {value}, кол-во пустых: {output.loc[mask, "credit_id"].isna().sum()}')
value /= mask.sum()
print(f'Доля совпавших номеров КД по СП: {round(100 * value, 2)}%',)

Кол-во СП: 1090, кол-во совпавших: 803, кол-во пустых: 32
Доля совпавших номеров КД по СП: 73.67%
