## Номер документа

Номер документа часто указывается после символа No или N и может состоять из цифр, букв и спецсимволов. Примеры номеров:

* 67-ФЗ,

* 324-01-ЗМО,

* 824н.

Номер документа необходимо извлечь из текста «как есть», не подвергая дополнительной обработке.
Поле number должно содержать извлеченную строку. Чтобы скомпенсировать влияние ошибок распознавания символов в исходных текстах, при сравнении предсказанного и настоящего номера проверяющей системой регистр букв не учитывается.


Для каждого типа документа свой извлекатор:

* указ - в конце документа на отдельной строке № 807, может быть и в начале № 256-уг

* постановление, распоряжение, приказ - в начале после даты и места (или перед местом) в конце строки № 688-п, №_70-пп_, 63-пр,  № 25/2-г

* закон, федеральный закон - в конце документа № 89-ОЗ

Особые случаи:

* № _ 643-уГ

* 20 ноября 2014 года

№ 596-5-ЗКО

в постановлении в конце документа

* 02 ноября 2015 г. л 23/557-П в постановлении в начале (будем выбирать в качестве номера окончание строки)

In [1]:
import re
import json
import numpy as np

In [2]:
PREPR_EXPR = re.compile(r'[^\wа-яА-Я\s\.,;:№\-/]')


def doc_preprocess(doc):
    doc = '\n' + doc.lower() + '\n'
    doc = re.sub("ппп", "пп", doc)
    doc = re.sub("- ", "", doc)
    doc = re.sub(" -", "", doc)
    doc = re.sub(r"[пнл]оста[нв]ов[пнл]е[нпл]и[ек]", r"постановление", doc)
    doc = re.sub(r"_+", "", doc)
    return PREPR_EXPR.sub('', doc)

In [3]:
F_Z = re.compile(r"\n№ ?([\wа-я\-/]+)\s")
Z = re.compile(r"\s№\s?([\wа-я\-/]+)\s")
R = re.compile(r"распоряжение\n([^\n\d]*\n){0,3}[^\n\d]*\d?\d[ \.]([а-я]+|\d\d)[ \.]\d\d\d\d[^\n]*[\s№]([\wа-я\-/]+):?\n")
P = re.compile(r"постановление\s*\n([^\n\d]*\n){0,3}[^\n\d]*\d?\d[ \.]([а-я]+|\d\d)[ \.]\d\d\d\d[^\n]*([\s№]|№ .?)([\wа-я\-/]+).?\n")
PRIKAZ = re.compile(r"(\d?\d[ \.]([а-я]+|\d\d)[ \.]\d\d\d\d[^\n\d]*\s|№\s*)([\wа-я\-/]+)\s")

In [4]:
month2number = {
    'января': '01',
    'февраля': '02',
    'марта': '03',
    'апреля': '04',
    'мая': '05',
    'июня': '06',
    'июля': '07',
    'августа': '08',
    'сентября': '09',
    'октября': '10',
    'ноября': '11',
    'декабря': '12'
}

NUM_DATE_EXPR_1 = re.compile(r'(\d?\d) ([а-я]+) (\d\d\d\d)[^№\n]*\n*[^№\n]*\n*№[ _]*([\w\-а-я/]+)')
NUM_DATE_EXPR_2 = re.compile(r'(\d\d\.\d\d\.\d\d\d\d)[^№\n]*\n*[^№\n]*\n*№[ _]*([\w\-а-я/]+)')


def process_match(match):
    day = match[0] if len(match[0]) == 2 else '0' + match[0]
    month = month2number[match[1]] if match[1] in month2number else match[1]
    year = match[2]
    return f'{day}.{month}.{year}'

In [43]:
def extract_number(doc, doc_type, doc_date):
    doc = doc_preprocess(doc)

    if doc_type == "распоряжение":
        match = R.search(doc)
        if match:
            number = match.group(3)
            if re.search(r"\d", number):
                return number

    if doc_type == "федеральный закон" or doc_type == "распоряжение":
        matches = F_Z.findall(doc)
        if matches:
            return matches[-1]

    if doc_type == "закон":
        if doc.find('-кз') != -1 or doc.find('-оз') != -1 or doc.find('-рз') != -1:
            matches = re.findall("(\d+\-[кор]з)", doc)
            if matches:
                return matches[-1]
        matches = Z.findall(doc)
        if matches:
            return matches[-1]

    if doc_type == "постановление":
        match = P.search(doc)
        if match:
            number = match.group(4)
            if re.search(r'\b2\d\d\d', number):
                number = number[1:]
            if re.search(r"\d", number):
                return number
        doc1 = '\n'.join(doc.split('\n')[:15] + doc.split('\n')[-10:])
        matches = re.findall(r"\n№\s?([\wа-я\-/]+)\s", doc1)
        if matches:
            return matches[-1]

    matches = [match[0] + match[1] for match in NUM_DATE_EXPR_2.findall(doc)]
    matches += [process_match((match[0], match[1], match[2])) + match[3]
                for match in NUM_DATE_EXPR_1.findall(doc)]
    for match in matches:
        if match.startswith(doc_date):
            number = match[10:]
            return number
    
    if doc_type == "указ":
        matches = re.findall(r"\n№\s(\d+)\s", doc)
        if matches:
            return matches[-1]

    match = re.search(r"№\s?([\wа-я\-/]+)\s", doc)
    if match:
        return match.group(1)
    return ""


In [44]:
def predict(test, types, dates):
    results = []
    for doc, doc_type, doc_date in zip(test, types, dates):
        number = extract_number(doc, doc_type, doc_date)
        prediction = {"type": "",
                      "date": "",
                      "number": number,
                      "authority": "",
                      "name": ""}
        results.append(prediction)
    return results

In [45]:
from eval_module import quality

train = []
labeled = []
names = []
with open("train/gold_labels.txt", "r") as read_file:
    for doc_info in read_file.readlines():
        doc_dict = json.loads(doc_info)
        docname = 'train/txts/' + doc_dict['id'] + '.txt'
        names.append(docname)
        with open(docname, 'r') as f:
            train.append(f.read())
        labeled.append(doc_dict['label'])

true_types = np.array([x['type'] for x in labeled])
true_dates = np.array([x['date'] for x in labeled])
predicted = predict(train, true_types, true_dates)
quality(predicted, labeled)

{'date_accuracy': 0.0,
 'number_accuracy': 0.9832038105,
 'type_f1_score': 0.0,
 'name_jaccard': 0.0,
 'authority_jaccard': 0.0,
 'subtasks_improves': 1}

In [46]:
predicted_labels = np.array(predicted)
test_labels = np.array(labeled)
names = np.array(names)
for doc_type in ['федеральный закон', 'постановление', 'приказ', 'распоряжение','закон', 'указ']:
    ids = np.where(true_types == doc_type)
    print(f"{doc_type} ({ids[0].shape[0]}): {quality(predicted_labels[ids], test_labels[ids])['number_accuracy']}")

федеральный закон (192): 1.0
постановление (2459): 0.9886132574
приказ (77): 0.7272727273
распоряжение (430): 0.9906976744
закон (199): 0.959798995
указ (632): 0.9905063291


In [30]:
doc_type = 'постановление'
ids = np.where(true_types == doc_type)

y_test = [(x['number'], x['type'], x['date']) for x in test_labels[ids]]
y_pred = [x['number'] for x in predicted_labels[ids]]

wrong_docs = []
i = 0
for test, pred in zip(y_test, y_pred):
    if test[0].lower() != pred.lower():
        wrong_docs.append((names[ids][i], test, pred))
    i += 1
    
for doc_name, test, pred in wrong_docs:
    with open(doc_name, 'r') as f:
        print(f"right value = {test}")
        print(f"wrong value = {pred}")
        print(f"docname = {doc_name}")
        print(f.read())
        print("=====")

right value = ('379-ПП', 'постановление', '27.08.2015')
wrong value = 379-п0
docname = train/txts/666d2145a9c5749d091797e8b59b59d601c4fba0.txt
ПРАВИТЕЛЬСТВО
МУРМАНСКОЙ ОБЛАСТИ

ПОСТАНОВЛЕНИЕ

от__27.08.2015 № 379-П0 -
Мурманск

О выделении финансовых средств из резервного фонда
Правительства Мурманской области

В соответствии с постановлением Правительства Мурманской области
от 18.01.2008 № 5-ПП "Об утверждении Положения о порядке расходования
средств резервного фонда Правительства Мурманской области" и протоколом
заседания Комиссии по предупреждению и ликвидации чрезвычайных
ситуаций и обеспечению пожарной безопасности Правительства Мурманской
области от 12.08.2015 № 4 Правительство Мурманской - области
постановляет:

1. Выделить Комитету по обеспечению безопасности  населения
Мурманской области для ГОКУ "Управление по делам гражданской обороны,
защите населения от чрезвычайных ситуаций и пожарной безопасности
Мурманской области" 140 000 (Сто сорок тысяч) рублей из резервного фонда
Пр