## Название документа

Название НПА – это краткий текст, описывающий основную суть и тему документа.
Название часто начинается с предлогов «о» или «об». В тексте НПА название может встречаться
в кавычках или без кавычек. Название не включает в себя тип НПА.

Для примера название документа – это «О заместителе Министра внутренних дел
Российской Федерации – начальнике Следственного департамента Министерства внутренних дел Российской Федерации».

Поле name должно содержать строку с названием в кавычках или без, в зависимости от того, как оно встретилось в тексте НПА. При сравнении предсказанного и настоящего номера в проверяющей системе не учитывается регистр букв, пробелы и символы перевода строки не различаются.

## Орган, принявший акт

Часто автор документа указывается после слова «Принят», но далеко не всегда, например в указе автор - «Президент Российской Федерации».

В рамках задания необходимо для каждого документа определить орган, его принявший. Наименование органов необходимо извлекать в «нормализованном виде»:

* Ярославская областная дума
* Федеральная служба по надзору в сфере образования и науки
* Правительство Удмуртской Республики
* Департамент охраны окружающей среды и природопользования Ярославской области

В обучающей и тестовой выборке около 200 уникальных органов. В тестовой выборке есть органы, которых нет в обучающей.

Поле authority должно содержать наименование органа в нормализованном виде. При сравнении предсказанного и настоящего органа не учитывается регистр букв, пробелы и символы перевода строки не различаются.

### Оценка качества

Допускается нечеткое совпадение. Метрика качества – средний коэффициент Жаккара.

Коэффициент Жаккара вычисляется следующим образом:

$$ L(s_{extr}, s_{gold}) = \frac{intersect}{offset_{start} + intersect + offset_{end}} $$

где $intersect$ - длина самой длинной общей подстроки у выделенной строки и строки из «золотой метки», $offset_{start}$ - наибольшее количество символов до начала общей подстроки в выделенной строке и в строке из «золотой метки», $offset_{end}$ - наибольшее количество символов от конца общей подстроки до конца строки в выделенной строке и в строке из «золотой метки».

Эта метрика принимает значения от 0 до 1 и штрафует как за выделение более короткой строки чем строка из «золотой метки», так и за выделение более длинной строки.

* указ - президент, глава, губернатор

* федеральный закон - Государственная Дума Федерального собрания Российской Федерации

* приказ - управление, министерство, департамент, федеральная служба, комитет, агентство

* распоряжение - правительство, администрация, губернатор, президент, глава, дума

* закон - Государственный Совет, Законодательное собрание, областная дума, Законодательная Дума, Государственный Совет, Народное Собрание, Эл Курултай, Президент, областное Собрание

* постановление - Правительство Российской Федерации, Конституционный Суд, Кабинет министров, 
    Правительство, Администрация, Губернатор, Глава, областной совет, областное Собрание,
    Законодательное собрание

In [1]:
import re

In [285]:
PREPR_EXPR = re.compile(r'[^\wа-яА-Я\"\s\.,;:№\-\)\(]')

def preprocess_doc(doc):
    doc = '\n' + doc.lower()
    return PREPR_EXPR.sub('', doc)

In [286]:
NAME_EXPR_1 = re.compile(r'\n((о|об) ([^\n]+\n)+)\n')
NAME_EXPR_2 = re.compile(r'(\"(о|об) [^\"\']+\")')
NAME_EXPR_3 = re.compile(r'(о внесении ([^\n]+\n)+)\n')
LAW_NAME = re.compile(r'о законе [^\"]+(\"([^\n]+\n)+)\n')
NAME_EXPR_4 = re.compile(r'((о|об) ([^\n]+\n)+)\n')

def extract_name(doc, doc_type):
    doc = preprocess_doc(doc)
    names, positions = [], []
    if doc_type == 'закон':
        name = LAW_NAME.search(doc)
        if name:
            names.append(name.group(1))
            positions.append(name.span()[0])
    name = NAME_EXPR_3.search(doc)
    if name:
        names.append(name.group(1))
        positions.append(name.span()[0])
    name = NAME_EXPR_1.search(doc)
    if name:
        names.append(name.group(1))
        positions.append(name.span()[0])
    name = NAME_EXPR_2.search(doc)
    if name:
        names.append(name.group(1))
        positions.append(name.span()[0])
    if not names:
        name = NAME_EXPR_4.search(doc)
        if not name:
            return ""
        return name.group(1)
    name, pos = names[0], positions[0]
    for n, p in zip(names, positions):
        if p < pos:
            pos = p
            name = n
        
    return name

In [2]:
def ukaz_authority(doc):
    variants = []
    match = re.search(r'президента\s+российской\s+федерации', doc)
    if match:
        variants.append(('президент российской федерации', match.span()[0]))
    
    match = re.search(r'губернатора? ', doc)
    if match:
        index = match.span()[0]
        doc1 = doc[index:]
        authority = doc1.split('\n')[0]
        authority = 'губернатор ' + ' '.join(authority.split(' ')[1:])
        variants.append((authority, index))
    index = doc.find('главы')
    if index != -1:
        doc1 = doc[index:]
        authority = doc1.split('\n')[0]
        authority = 'глава ' + ' '.join(authority.split(' ')[1:])
        variants.append((authority, index))
    match = re.search(r'глава\s*\n', doc)
    if match:
        index = match.span()[0]
        doc1 = doc[index:]
        authority = 'глава ' + doc1.split('\n')[1]
        variants.append((authority, index))
    for author in ['глава ', 'губернатор\n']:
        index = doc.find(author)
        if index != -1:
            doc1 = doc[index:]
            authority = author + doc1.split('\n')[1]
            variants.append((authority, index))
    if variants:
        authority = variants[0][0]
        index = variants[0][1]
        for a, i in variants:
            if i < index:
                authority = a
                index = i 
        return authority
    return ""

In [149]:
PRIKAZ_EXPR = re.compile(r'\n([^\n]*(управление|министерство|департамент|федеральная|служба|комитет|агентство)([^\n]+\n)*)\n')

def prikaz_authority(doc):
    match = PRIKAZ_EXPR.search(doc)
    if match:
        return match.group(1)
    return ""

ZAKON_EXPR = re.compile(r'принят[ \n]([^\n]*(государственн|совет|законодательн|собрание|областн|дум|народн|курултай|президент)[^\n\d]*(\n[а-я\-\s]+\d\d)?)')
ZAKON_EXPR_2 = re.compile(r'\n([а-я\s]+)\s[^\s]*постановляет')
ZAKON_EXPR_3 = re.compile(r'\nзакон\n\n([а-я ]+)\n\n')

lemmatizer = {
    'законодательным': 'законодательное', 'областной': 'областная', 'думой': 'дума',
    'народным': 'народное', 'президентом': 'президент', 'государственным': 'государственный', 
    'областное': 'областным', 'законодательной': 'законодательная',
    'собранием': 'собрание', 'советом': 'совет',
}

def zakon_authority(doc):
    if doc.startswith('\nкостромская областная дума'):
        return 'костромская областная дума'
    match = ZAKON_EXPR_2.search(doc)
    if match:
        return match.group().strip()
    match = ZAKON_EXPR_3.search(doc)
    if match:
        return 'законодательная дума ' + match.group(1).strip()
    
    match = ZAKON_EXPR.search(doc)
    if not match:
        if not match:
            return ""
    tokens = re.sub(r'[^а-я \-]', ' ', match.group(1)).split(' ')
    authority = ""
    for token in tokens:
        if token in lemmatizer:
            authority += lemmatizer[token] + ' '
        else:
            authority += token + ' '
    authority = re.sub(r'ой( [а-я\-]* ?дума)', r'ая\1', authority)
    return authority
    

In [409]:
POST_EXPR_1 = re.compile(r'(([а-я\s]+\n)?[^\n]+области)\n+постановление\n')
POST_EXPR_2 = re.compile(r'(правительство\n?[^\n]+)\n+постановление\n')
POST_EXPR_3 = re.compile(r'постановление[ \n]+губернатора[ \n]([а-я ]+)')
POST_EXPR_4 = re.compile(r'([^\n]+) постановляет')

def post_authority(doc):
    match = POST_EXPR_1.search(doc)
    if match:
        return match.group(1).strip()
    match = POST_EXPR_2.search(doc)
    if match:
        return match.group(1).strip()
    match = POST_EXPR_3.search(doc)
    if match:
        return 'губернатор ' + match.group(1).strip()
    match = POST_EXPR_4.search(doc)
    if match and len(match.group(1).split(' ')) > 2:
        authority = match.group(1).strip()
        authority = re.sub(r'(от )?\d.*', '', authority)
        return authority
    return ""

In [421]:
organizations = re.compile(r'правительств[оа]|министерство|администраци[яи]|управление|' 
                           'комитет|департамент|президента?|губернатора?|главы|'
                           'законодательное собрание|кабинет министров|областное собрание|'
                           'конституционный суд|конституционного суда|государственная дума|дума')

def extract_authority(doc, doc_type):
    if doc_type == 'федеральный закон':
        return 'Государственная Дума Федерального собрания Российской Федерации'
    doc = '\n' + doc.lower()
    doc = re.sub(r'[^\s]?при[нвп]ят', 'принят', doc)
#     doc = re.sub(r'я[^\s]+о-не[^\s]+го ', 'ямало-ненецкого', doc)
    if doc_type == 'указ':
        authority = ukaz_authority(doc)
        if authority:
            return authority
    elif doc_type == 'приказ':
        authority = prikaz_authority(doc)
        if authority:
            return authority
    elif doc_type == 'закон':
        authority = zakon_authority(doc)
        if authority:
            return authority
    elif doc_type == 'постановление':
        authority = post_authority(doc)
        if authority:
            return authority
    authority = ""
    matches = organizations.findall(doc)
    if matches:
        organization = matches[0]
        index = doc.find(organization)
        doc = doc[index:]
        authority = doc.split('\n')[0]
#             if len(authority.split(' ')) == 1:
        if authority == organization:
            authority += ' ' + doc.split('\n')[1]
        if authority.startswith('президента'):
            authority = re.sub('президента', 'президент', authority)
        if authority.startswith('губернатора'):
            authority = re.sub('губернатора', 'губернатор', authority)
        if authority.startswith('правительства'):
            authority = re.sub('правительства', 'правительство', authority)
        if authority.startswith('администрации'):
            authority = re.sub('администрации', 'администрация', authority)
        if authority.startswith('конституционного суда'):
            authority = re.sub('конституционного суда', 'конституционный суд', authority)
        authority = re.sub(r'(от )?\d.*', '', authority)
        return authority
    index = doc.find('принят ')
    if index != -1:
        doc = doc[index + 6:]
        authority = doc.split('\n')[0]
        authority = re.sub(r'(от )?\d.*', '', authority)

    return authority

In [422]:
def predict(test, doc_types):
    results = []
    for doc, doc_type in zip(test, doc_types):
        authority = extract_authority(doc, doc_type)
        name = extract_name(doc, doc_type)
        prediction = {"type": "",
                      "date": "",
                      "number": "",
                      "authority": authority,
                      "name": name}
        results.append(prediction)
    return results

In [423]:
from eval_module import quality
import json
import numpy as np

train = []
labeled = []
names = []
with open("train/gold_labels.txt", "r") as read_file:
    for doc_info in read_file.readlines():
        doc_dict = json.loads(doc_info)
        docname = 'train/txts/' + doc_dict['id'] + '.txt'
        names.append(docname)
        with open(docname, 'r') as f:
            train.append(f.read())
        labeled.append(doc_dict['label'])

true_types = np.array([x['type'] for x in labeled])
predicted = predict(train, true_types)
quality(predicted, labeled)

{'date_accuracy': 0.0,
 'number_accuracy': 0.0,
 'type_f1_score': 0.0,
 'name_jaccard': 0.9684145325,
 'authority_jaccard': 0.9692844201,
 'subtasks_improves': 2}

In [424]:
predicted_labels = np.array(predicted)
test_labels = np.array(labeled)
names = np.array(names)
for doc_type in ['федеральный закон', 'постановление', 'приказ', 'распоряжение','закон', 'указ']:
    ids = np.where(true_types == doc_type)
    print(f"{doc_type}: {quality(predicted_labels[ids], test_labels[ids])['authority_jaccard']}")

федеральный закон: 1.0
постановление: 0.9794004659
приказ: 0.6769618532
распоряжение: 0.994835307
закон: 0.8046191796
указ: 0.9906730137


In [425]:
from eval_module import preprocess, string_jaccard_metric

doc_type = 'постановление'
ids = np.where(true_types == doc_type)

y_test = [(x['authority'], x['type']) for x in test_labels[ids]]
y_pred = [x['authority'] for x in predicted_labels[ids]]

wrong_docs = []
i = 0
for test, pred in zip(y_test, y_pred):
    test_, pred_ = preprocess(test[0]), preprocess(pred)
    if string_jaccard_metric([test_], [pred_]) < 0.6:
        wrong_docs.append((names[ids][i], test, pred))
    i += 1
    
for doc_name, test, pred in wrong_docs:
    with open(doc_name, 'r') as f:
        print(f"right value = {test}")
        print(f"wrong value = {pred}")
        print(f"docname = {doc_name}")
        print(f.read())
        print("=====")

right value = ('Правительство Свердловской области', 'постановление')
wrong value = правительство российской федерации
docname = train/txts/43cde840311cfbc130dfaae8faa6fa2cddee27c0.txt
ПОСТАНОВЛЕНИЕ

 

 

20.10.2014 № 896-ПП
г. Екатеринбург

Об утверждении Положения о территориальной комиссии
Пышминского района по делам несовершеннолетних
и защите их прав

В соответствии с Федеральным законом от 24 июня 1999 года № 120-ФЗ
"Об основах системы профилактики безнадзорности и правонарушений
несовершеннолетних", постановлением Правительства Российской Федерации
от 06.11.2013 № 995 "Об утверждении Примерного положения о КОМИсССИЯх
по делам несовершеннолетних и защите их прав", статьями 5-7 Закона
Свердловской: области от 28 ноября 2001 года № 58-ОЗ "О профилактике
безнадзорности и правонарушений несовершеннолетних в Свердловской
области", в целях организации деятельности территориальной комиссии по делам
несовершеннолетних и защите их прав Правительство Свердловской области
ПОСТАНОВЛЯЕТ:

\.