# Подготовка dataset для обучение ner

<code>pipeline:
    1. подготовка исходных данных (см. ORG_parser.ipynb)
    2. подготовка шаблонов c тэгами для вставки значений (https://docs.google.com/spreadsheets/d/1YP7hZrTXd9orCLgMyl6ra-eK1eQaY8QPwLYqdaAfm8Y/edit#gid=1600051499)
    3. подготовка кода генерации случайных шаблонов
    4. подготовка кода добавления шумов и удаления сущностей случайным образом
    5. генерация строк с заполенными значениями и BIO-разметка с сохранением в файл: один токен = одна строка формата: "язык:токен тэг\n". Разделитель между предложениями - пустая строка
    
Набор NER-тэгов:
    ORG - наименование организации
    PER - ФИО физического лица, либо титул (граф, царь...) и ФИО
    LOC - адрес, включая индекс, республику/область/край, город, номер дома и номер офиса/квартиры
    INNKPP - инн/кпп организации или инн индивидуального предпринимателя
    RSKS - расчетные и кор счета
    STAT - коды статистики: ОКПО, ОКОГУ, ОКОПФ, ОКФС, ОКВЭД, ОКТМО + БИК банка и т.п.    
Примеры шаблонов:
Исполнитель [ORG] ИНН/КПП [INN]/[KPP] р/с [RS] банк [BANK] БИК [BIK] адрес [LOC] тел. [TEL]
Исполнитель [ORG] ИНН/КПП [INN]/[KPP] адрес [LOC] банк [BANK] БИК [BIK] к/с [KS] тел. [TEL]
{ORG: ООО Ромашка
INN: 1221323434
KPP: 121313}


    BIO-словарь = соответсвие сущностей тэгам bio-разметки (ex [ORG]=ORG, [INN] = INNKPP)"</code>

In [1]:
from pprint import pprint
import re
from collections import Counter
from razdel import tokenize
import sys
from nltk.tokenize.toktok import ToktokTokenizer
import pandas as pd
import os
import random
sys.path.insert(0, "../src")
import string
import locale
import datetime

# прописываем локаль, чтобы даты писались на русском языке
locale.setlocale(locale.LC_TIME, 'ru_RU.UTF-8')

# список символов для случайной выборки шумов
characters = string.ascii_letters + string.digits + string.punctuation + 'ёйцукенгшщзхъфывапролджэячсмитьбюЁЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ,'


from generate_tag_value import GenerateTagValue

In [2]:
# Словарь тэгов: ключи = тэги в шаблоне, значения = BIO-тэги

tags = {'[ORG]': 'ORG',
        '[BANK]': 'ORG',
        '[INN]': 'INNKPP',
        '[KPP]': 'INNKPP',
        '[RS]': 'RSKS',
        '[KS]': 'RSKS',
        '[LOC]': 'LOC',
        '[PER]': 'PER',
        '[BIK]': 'STAT',
        '[TEL]': 'STAT',
        '[OKPO]': 'STAT',
        '[OKATO]': 'STAT',
        '[OKTMO]': 'STAT'        
}

In [3]:
#пример BIO-разметки
"""ru:За	O
ru:образцовое	O
ru:выполнение	O
ru:заданий	O
ru:командования	O
ru:в	O
ru:боях	O
ru:с	O
ru:немецкими	O
ru:захватчиками	O
ru:,	O
ru:за	O
ru:овладение	O
ru:городом	O
ru:Демблин	B-LOC
ru:и	O
ru:проявленные	O
ru:при	O
ru:этом	O
ru:доблесть	O
ru:и	O
ru:мужество	O
ru:.	O

ru:Стадион	B-LOC
ru:имени	I-LOC
ru:С.	I-LOC
ru:Дарюса	I-LOC
ru:и	I-LOC
ru:С.	I-LOC
ru:Гиренаса	I-LOC

ru:Майкл	B-PER
ru:Томас	I-PER
ru:(	O
ru:1987—1991	O
ru:)	O
"""

'ru:За\tO\nru:образцовое\tO\nru:выполнение\tO\nru:заданий\tO\nru:командования\tO\nru:в\tO\nru:боях\tO\nru:с\tO\nru:немецкими\tO\nru:захватчиками\tO\nru:,\tO\nru:за\tO\nru:овладение\tO\nru:городом\tO\nru:Демблин\tB-LOC\nru:и\tO\nru:проявленные\tO\nru:при\tO\nru:этом\tO\nru:доблесть\tO\nru:и\tO\nru:мужество\tO\nru:.\tO\n\nru:Стадион\tB-LOC\nru:имени\tI-LOC\nru:С.\tI-LOC\nru:Дарюса\tI-LOC\nru:и\tI-LOC\nru:С.\tI-LOC\nru:Гиренаса\tI-LOC\n\nru:Майкл\tB-PER\nru:Томас\tI-PER\nru:(\tO\nru:1987—1991\tO\nru:)\tO\n'

In [3]:
# пример 
entities = {'[ORG]': ['ГАРАЖНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ "АСС"'],
            '[BANK]': ['ПАО АКБ "1Банк"'],
            '[INN]': ['7609017469'],
            '[KPP]': ['760901001'],
            '[RS]': ['40702810124000011658'],
            '[KS]': ['30101810500000000976'],
            '[LOC]': ['191144, г Санкт-Петербург, Центральный р-н, Дегтярный пер, д 11 литер а',
                      '191144, г Санкт-Петербург, Центральный р-н, Дегтярный пер, д 11 литер а'],
            '[PER]': ['Янова Оксана Вячеславовна'],
            '[BIK]': ['044525976'],
            '[TEL]': ['+7 (812) 748-2777'],
            '[OKPO]': ['89041828'],
            '[OKATO]': ['40278562000'],
            '[OKTMO]': ['40349000']
    }

### Словарь ключевиков и их синонимов

Данные ниже используются для аугментации обучающих текстов: разное написание ключевых слов,
генерация шаблонов со случайным порядком тегов

In [4]:
# В списке шаблонов встречаются только Исполнитель,
# потому под синонимами Исполнителю объединяем и Заказчика и Подрядчика...
kw = {'БИК': ['БИК', 'БИК Банка', ''],
     'Заказчик': ['Заказчик', 'Плательщик', 'Покупатель', 'Зак-чик', 'Инвестор', 
                  'Клиент', 'З-чик', 'Генподрядчик', 'Подрядчик', 'Получатель', ''],
     'ИНН': ['ИНН', 'ИНН [Заказчик]', 'ИНН [Исполнит]', ''],
      
     'Исполнитель': ['Исполнитель', 'Подрядчик', 'Поставщик', 'П-щик', 'Исп-тель', 'Субподрядчик', '',
                    'Заказчик', 'Плательщик', 'Покупатель', 'Зак-чик', 'Инвестор', 
                    'Клиент', 'З-чик', 'Генподрядчик', 'Подрядчик', 'Получатель','Лицензиат','Лицензиар'],
      
    'Исполнит': ['Исполнитель', 'Подрядчик', 'Поставщик', 'П-щик', 'Исп-тель', 'Субподрядчик', ''],
      
     'КПП': ['КПП', 'КПП [Заказчик]', 'КПП [Исполнит]', ''],
     'Подрядчик': ['Исполнитель', 'Подрядчик', 'Поставщик', 'П-щик', 'Исп-тель', 'Субподрядчик', ''],
     'Подрядчика': ['Исполнителя', 'Подрядчика', 'Поставщика', 'П-щика', 'Исп-теля', 'Субподрядчика'],
      
     'адрес': ['Адрес','Адрес [Исполнит]', 'Адрес [Заказчик]', 'Адрес банка', 'Адрес банка [Исполнит]',
               'Адрес банка [Заказчик]', 'Адрес филиала банка',
              'Адрес филиала банка [Исполнитель]', 'Адрес филиала банка [Заказчик]'],
     'ИНН/КПП': ['ИНН/КПП', 'ИНН КПП', 'ИНН КПП [Заказчик]', 'ИНН КПП [Исполнит]', 'ИНН/КПП [Заказчик]',
                 'ИНН/КПП [Исполнит]', ''],
     'банк': ['банк', 'Банк', 'Банк [Заказчик]', 'Банк [Исполнит]', 'Филиал банка [Заказчик]', 
              'Филиал банка [Исполнит]', ''],
      
     'к/с':['Корреспондентский счет', 'кс','к.с.', 'к/с', 'кор.счет', 'к/счет', 'кор.','кор/счет', 'корр.сч', 'корр./счет', 'корр/сч', 'корр. счет', 'кор/сч', ''], 
     'р/с': ['Расчетный счет', 'рс', 'р/с', 'р.с.','счет номер', 'счет', 'счет №', 'рас. счет',
             'р. счет', 'рс.сч.', 'р.сч.', 'р/счет', 'рас/сч', 'рас/счет', 'рас', 'р/сч', ''],
     'Грузоотправить':['Грузоотправить', 'Грузоотправить и его адрес', 'Грузоотправить и адрес', ''],
     'Грузополучатель': ['Грузополучатель', 'Грузополучатель и его адрес', 'Грузополучатель и адрес', '']}




# список вариантов написания отдельных тегов для генерации случайного шаблона
tegs = dict(
org = ['Исполнитель [ORG]'],
innkpp = ['ИНН/КПП [INN]/[KPP]', 'ИНН/КПП [INN]', 'ИНН/КПП [INN]/', 'ИНН КПП [INN] [KPP]', 'ИНН [INN]', 'ИНН [INN] КПП [KPP]',
         'Исполнитель ИНН/КПП [INN]/[KPP]', 'Исполнитель ИНН КПП [INN] [KPP]', 'Исполнитель ИНН [INN]', 
          'Исполнитель ИНН [INN] КПП [KPP]', 'Исполнитель ИНН [INN]/КПП [KPP]',
          'КПП/ИНН [KPP]/[INN]', 'КПП [KPP] ИНН [INN]', 'КПП [KPP]', 'Исполнитель КПП/ИНН [KPP]/[INN]', 
          'Исполнитель КПП ИНН [KPP] [INN]', 'Исполнитель КПП [KPP]', 
          'Исполнитель КПП [KPP] ИНН [INN]', 'Исполнитель КПП [KPP]/ИНН [INN]'],

addr = ['адрес [LOC]'], 
bank = ['банк [BANK]'],
rs = ['р/с [RS]'],
ks = ['к/с [KS]'],
tel = ['тел. [TEL]','[TEL]'],
bik = ['БИК [BIK]'])

# список шаблонов для генерации шаблонов текстов
pat_dict = dict(org_set=['org', 'innkpp', 'addr', 'tel'], bank_set=['bank', 'bik', 'addr', 'rs', 'ks', 'tel'])
pattern = [['org_set', 'bank_set'],
           '[ORG] [PER]',
           '[PER] [ORG]',
           '[PER] [PER]',
           '[ORG] [ORG]',
           '[ORG] именуемое в дальнейшем "Заказчик", в лице генерального директора [PER]',
           '[ORG] именуемое в дальнейшем "Подрядчик" с одной стороны',
           '[ORG] именуемое в дальнейшем "Заказчик", в лице директора [PER]',
           '[ORG] представитель Подрядчика генеральный директор [PER]',
           '[ORG] именуемое в дальнейшем "Заказчик", в лице главного бухгалтера [PER]',
           '[ORG] именуемое в дальнейшем "Заказчик", в лице заместителя главного бухгалтера [PER]']

### Вспомогательные процедуры обработки шаблона и получения сущностей

Подгружаем источники данных:компании, банки и фио

Инициализируем модуль, который извлекает случайным образом сушности из источников

In [5]:
comp_list_excel = '../data/interim/ner_tag_companies_and_banks.xlsx'
tag_generator = GenerateTagValue(comp_list_excel)

  result = method(y)


In [6]:
# подгружаем словари для использования при генерации шумов
ru_dictionary_f = r'../data/external/russian_words_1.5M.txt'
with open(ru_dictionary_f, 'r', encoding='cp1251') as f:
    dictionary = [l.strip('\n') for l in f.readlines()]

eng_dictionary_f = r'../data/external/english_words.txt'
with open(eng_dictionary_f, 'r', encoding='utf-8') as f:
    eng_dictionary = [l.strip('\n') for l in f.readlines()]
dictionary.extend(eng_dictionary)    



def get_random_date(start_y, end_y):
    """
    генерация даты с выбором случайного шаблона написания
    дата добавляется в качестве шума при обучении
    """
    dt = datetime.datetime.strptime('{} {}'.format(random.randint(1, 366), random.randint(start_y, end_y)), '%j %Y')

    seps = ['-', '.', '/', ' ']

    sep = random.choice(seps)

    formats = [f"%m{sep}%d{sep}%Y", f"%Y{sep}%d{sep}%Y", f"%d{sep}%m{sep}%Y", f"%d %b %Y", 
               f"%d %B %Y", f"%d{sep}%b{sep}%Y", f"%d %B %Y"]
    frm = random.choice(formats)

    return dt.strftime(frm)


def get_noize():
    """
    Генерация случайной последовательности случайных буквосочетаний
    """
    n = []
    for i in range(random.randint(1,4)):
        rnd = random.randint(1,5)
        if rnd == 1:
            # собираем случайную последовательность символов
            n.append(''.join([random.choice(characters) for i in range(random.randint(1,10))]))
        elif rnd == 2:
            # берем слово из словаря
            n.append(random.choice(dictionary))
        elif rnd == 3:
            # собираем случайную последовательность цифр и символов ./\- 
            n.append(''.join([random.choice(string.digits + './-\ ') for i in range(random.randint(1,10))]))
        else:
            n.append(get_random_date(start_y=1990, end_y=2030))
    return n

def add_noize(tok_patt, dictionary):
    """
    Добавляем шум между токенами шаблона
    """
    result = []
    for p in tok_patt:
        result.extend([p])
        # добавление шума в одном из 3х случаев
        if random.randint(1,3) == 1:
            result.extend(get_noize())
    return result


    
def get_pattern_tags(l_pattern):
    """
    Процедура возвращает словать, в котором ключами являются наименования тэгов внутри шаблона строки,
    а значениями является число встреч тэка в строке
    """  
    return dict(Counter(re.findall(r"(\[[A-Z]+\])", l_pattern)))
    

def fill_tags_by_values(tags, tag_generator):
    """
    Заполняем найденные тэги 
    """
    tags_values={}
    for key, value in tags.items():
        values = []
        for i in range(value):
            try:
                v = tag_generator.get_tag_value(key)
                if v is None or v == 'non':
                    v = ""
            except:
                v = ""
            values.append(v)
        tags_values[key] = values
    return tags_values


def tokenize_pattern(l_patt):
    """
    Разбиение шаблона на токены, где отдельный токен - это либо тэг, либо ключевик
    """
    tokens = []
    for i in l_patt.split():
        
        # разбиваем по пробелам
        if i[0] == '[':
            
            # если наталкиваемся на тэг, то разбиение делаем по разделителю
            s = i.split('/')
            if len(s) > 1:
                for j in range(len(s)-1):
                    tokens.append(s[j])
                    tokens.append("/")
                tokens.append(s[-1])
            else:
                tokens.append(s[0])
        else:
            tokens.append(i)
    return tokens


def make_bio_token(p_tokens, bio_tag):
    """
    Размечаем по BIO-разметке интересующий тэг
    """
    bio_patt = "ru:{0}\t{1}\n"
    res = ""
    if len(p_tokens) == 0:
        return ""
    l_tokens = p_tokens
    if bio_tag == 'PER':
        if random.randint(1,3) == 1:
            ll = [l_tokens[0]]
            for l in l_tokens[1:]:
                ll.append(l[0]+'.')
            l_tokens = ll
    # если тэг значимый для нас, то раскидываем по началу и вхождениям тэга

    try:
        if bio_tag != "O":
            res = bio_patt.format(l_tokens[0],"B-"+bio_tag)
            for t in l_tokens[1:]:
                res += bio_patt.format(t,"I-"+bio_tag)
        else:
            for t in l_tokens:
                res += bio_patt.format(t, bio_tag)
    except:
        print(l_tokens)
        return ""
    return res

def ip_tag_correction(l_tokens):
    """
    Изменение тэгов с ORG на ORG + PER для ИП
    """
    res = ""
    if len(l_tokens) == 0:
       return res
    if l_tokens[0].lower() == 'ип':
#         res += make_bio_token(l_tokens[:1], 'ORG')
        res += make_bio_token(l_tokens[:1], 'O')
        res += make_bio_token(l_tokens[1:], 'PER')
    if l_tokens[0].lower() == 'индивидуальный':
        res += make_bio_token(l_tokens[:2], 'ORG') # маркируем ИП как ORG
#         res += make_bio_token(l_tokens[:2], 'O')
        res += make_bio_token(l_tokens[2:], 'PER')
    if l_tokens[-1].lower() == 'ип':
        res += make_bio_token(l_tokens[-1:], 'ORG') # маркируем ИП как ORG
#         res += make_bio_token(l_tokens[-1:], 'O')
        res += make_bio_token(l_tokens[:-1], 'PER')
    if l_tokens[-1].lower() == 'предприниматель':
        res += make_bio_token(l_tokens[:2], 'ORG') # маркируем ИП как ORG
#         res += make_bio_token(l_tokens[-2:], 'O')
        res += make_bio_token(l_tokens[:-2], 'PER')
    return res

def get_bio_string(l_pattern, tag_gen, k_wrds, dictionary=None):
    """
    формируем строку с BIO-разметкой
    """
    tags_dict = {'[ORG]': 'ORG',
            '[BANK]': 'ORG',
            '[INN]': 'INNKPP',
            '[KPP]': 'INNKPP',
            '[RS]': 'RSKS',
            '[KS]': 'RSKS',
            '[LOC]': 'LOC',
            '[PER]': 'PER',
            '[BIK]': 'STAT',
            '[TEL]': 'STAT',
            '[OKPO]': 'STAT',
            '[OKATO]': 'STAT',
            '[OKTMO]': 'STAT'        
            }
    
    l_patt = l_pattern
    
    # извлекаем тэги и их количество из шаблона
    tags = get_pattern_tags(l_patt)
      
    # получаем значения для каждого тэга
    entities = fill_tags_by_values(tags, tag_gen)

    # токенизируем шаблон
    tok_patt = tokenize_pattern(l_patt)
    
    if random.randint(1,5) >= 4:
        if dictionary:
            tok_patt = add_noize(tok_patt, dictionary)

    # инициализируем токенизатор
    toktok = ToktokTokenizer()   
    
    # производим BIO-разметку
    result = ""
    for i,tt in enumerate(tok_patt):
        t = tt
        # случайным образом затираем сущность - разбавляем насыщенность тегами
        if random.randint(1,5) == 1:
            t = ''
        
        #если есть сгенерированная сущность, то начинаем разметку
        if entities.get(t):
            
            # токенизируем первую по списку сущность
            tokens = toktok.tokenize(entities[t][0])
            
            # исключаем использованную сущность из множества сгенерированных
            entities[t] = entities[t][1:]
            tok_patt[i] = tokens
            
            # выбираем верный BIO-тэг
            ner_tag = tags_dict.get(t)
            
            # проверка, если сущность является ИП, то надо изменить BIO-тэги для него
            r = ip_tag_correction(tokens)
            # если проверка по ИП дала пустую строку, то делаем стандартную разметку
            # если выдала не пустуюс строку, то она и будет считаться верной для данного токена
            if len(r) == 0:
                # производим биоразметку
                if ner_tag is None:
                    ner_tag = 'O'
                result += make_bio_token(tokens, ner_tag)
            else:
                result += r
        else:
            # если нет сгенерированной сущности, то ставим тэг "O"
            
            t = generate_key_synonims(t, k_wrds)
            
            
            result += make_bio_token(t.split(), 'O')#f"ru:{t}\tO\n"
    return result


def generate_key_synonims(key_token, key_words):
    """
    Заменяем ключевые слова на синонимы
    """
    values = key_words.get(key_token)
    if values is not None:
        s = random.choice(values)
        syn = replace_in_tag(s, key_words)
    else:
        syn = key_token
    return syn

def replace_in_tag(l_syn, kw):
    """
    Заменяем ключевые слова на синонимы в случае. если в синониме есть тоже ключевик
    """
    for p in re.findall(r"(\[[а-яё]+\])", l_syn, re.IGNORECASE):
        for w in re.findall(r"[а-яё]+", p, re.IGNORECASE):
            s = generate_key_synonims(w, kw)
            l_syn = l_syn.replace(p, s)
    return l_syn


def get_random_patt(df):
    """
    генерация случайного шаблона: либо по правилу, либо из списка
    """
    
    rnd = random.randint(1,4)
    if rnd in [1,2]:
        # генерируем по правилу
        pp = make_random_pattern(pat_dict=pat_dict, tegs=tegs, patt=pattern[0])
    elif rnd == 3:
        # генерируем из заготовленного шорт-листа (увеличиваем плотность интересующих нас шаблонов)
        pp = random.sample(pattern[1:], 1)[0]
    else:
        # извлекаем случайным образом из файла заготовленных шаблонов
        pp = df.sample()['Шаблоны'].values[0]
    return pp

def make_random_pattern(pat_dict, tegs, patt):
    """
    на основе правил генерирует случайноую строку шаблона
    """
    pattern_str = []
    rnd = random.randint(1,3)
    if rnd > 1:
        pp = patt
    else:
        pp = random.sample(patt, len(patt))
    for key in pp:
        for k in random.sample(pat_dict[key], len(pat_dict[key])):
            s = random.sample(tegs[k],1)[0]
            pattern_str.append(s)
    return ' '.join(pattern_str).strip()

### Проверяем как работает генерация BIO-строки

In [7]:
# подгружаем список шаблонов

df_patterns = pd.read_excel("../data/interim/patterns.xlsx", sheet_name='Шаблоны строк', engine='openpyxl').dropna(subset=['Шаблоны'])
df_patterns = df_patterns[['Шаблоны']]

In [9]:
l_patt = random.choice(df_patterns.values)[0]

In [9]:
l_patt = '[ORG] именуемое в дальнейшем "Заказчик", в лице генерального директора [PER]'

In [10]:
print(get_bio_string(l_patt, tag_generator, kw, dictionary))

ru:Покупатель	O
ru:ФИЛИАЛ	B-ORG
ru:АКЦИОНЕРНОГО	I-ORG
ru:ОБЩЕСТВА	I-ORG
ru:"	I-ORG
ru:МОСКОВСКАЯ	I-ORG
ru:ОБЛАСТНАЯ	I-ORG
ru:ЭНЕРГОСЕТЕВАЯ	I-ORG
ru:КОМПАНИЯ	I-ORG
ru:"	I-ORG
ru:КРАСНОЗНАМЕНСКИЕ	I-ORG
ru:ЭЛЕКТРИЧЕСКИЕ	I-ORG
ru:СЕТИ	I-ORG
ru:ИНН	O
ru:КПП	O
ru:Подрядчик	O
ru:5920998773	B-INNKPP
ru:575101001	B-INNKPP
ru:127591	B-LOC
ru:,	I-LOC
ru:г	I-LOC
ru:Москва	I-LOC
ru:,	I-LOC
ru:р-н	I-LOC
ru:Восточное	I-LOC
ru:Дегунино	I-LOC
ru:,	I-LOC
ru:ул	I-LOC
ru:Дубнинская	I-LOC
ru:,	I-LOC
ru:д	I-LOC
ru:85	I-LOC
ru:стр	I-LOC
ru:17	I-LOC
ru:Филиал	O
ru:банка	O
ru:Заказчик	O
ru:ПУБЛИЧНОЕ	B-ORG
ru:АКЦИОНЕРНОЕ	I-ORG
ru:ОБЩЕСТВО	I-ORG
ru:"	I-ORG
ru:БАНК	I-ORG
ru:"	I-ORG
ru:САНКТ-ПЕТЕРБУРГ	I-ORG
ru:"	I-ORG
ru:БИК	O
ru:046220928	B-STAT
ru:кор/счет	O
ru:30419663522686801079	B-RSKS
ru:тел.	O
ru:7	B-STAT
ru:361	I-STAT
ru:031	I-STAT
ru:3026	I-STAT



In [21]:
# получаем случайный шаблон
get_random_patt(df_patterns)

'[ORG] представитель Подрядчика генеральный директор [PER]'

### Процедуры генерации обучающего файла

In [11]:
def sample_generator(df, limit=100, random=True, rule=True):
    """
    Выбор шаблона из списка в dataframe
    Варианты генерации: случайный выбор шаблона и пробегаться последвательно по всему объему
    """
    i = 0
    if rule:
        while i<limit:
            yield get_random_patt(df)
            i+=1
    
    if random:
        while i<limit:
            yield df.sample()['Шаблоны'].values[0]
            i+=1
    else:
        j = 0
        while i<limit:
            if i >= df.shape[0]:
                j = 0
            yield df[df.index == j]['Шаблоны'].values[0]
            j+=1
            i+=1

def make_bio_file(f_lname, l_df_patterns, l_tag_generator, kw, limit=1000, random=True, append=False):
    """
    Создание файла со строками в BIO-разметке
    """
    
    if not append:
        assert not os.path.exists(f_lname), "Файл существует, для дозаписи передайте в append True"
    with open(f_lname, 'a', encoding='utf-8') as the_file:
        for p in sample_generator(l_df_patterns, limit=limit, random=random):
            patt = p
            if patt is not None and patt != 'nan':
                line = get_bio_string(patt, l_tag_generator, kw)
                the_file.write(line)
                the_file.write("\n")

### Создание файлов с BIO-разметкой

<code>Для обучения по пайпу от huggingface необходимо создать 4 файла

При создании каждого из файлов используем соответствующие файлы с шаблонами и данными (исключаем пересечения обучения с тестами)


После генерации 4х файлов их надо упаковат в фрхив default.tar.xz - под этот файл настроен обработчик, который преобразовывает файлы в формат datasets от huggighface</code>

In [47]:
# "../data/interim/patterns.xlsx"
df_patterns = pd.read_excel("../data/processed/test1_patterns.xlsx", sheet_name='Шаблоны строк', engine='openpyxl').dropna(subset=['Шаблоны'])
df_patterns = df_patterns[['Шаблоны']]

In [36]:
# необходимо создать 4 файла: train/test/dev/extra
# для каждого файла есть непересекающиеся шаблоны и примеры организаций
# 
df_patterns = pd.read_excel("../data/processed/train_patterns.xlsx", sheet_name='Шаблоны строк', engine='openpyxl').dropna(subset=['Шаблоны'])
df_patterns = df_patterns[['Шаблоны']]
comp_list_excel = '../data/processed/train_ner_tag_companies_and_banks.xlsx'
tag_generator = GenerateTagValue(comp_list_excel)

f_name = "../data/processed/train"
make_bio_file(f_name, df_patterns, tag_generator, kw, limit=100000)

In [7]:
df_patterns = pd.read_excel("../data/processed/test1_patterns.xlsx", sheet_name='Шаблоны строк', engine='openpyxl').dropna(subset=['Шаблоны'])
df_patterns = df_patterns[['Шаблоны']]
comp_list_excel = '../data/processed/test1_ner_tag_companies_and_banks.xlsx'
tag_generator = GenerateTagValue(comp_list_excel)

f_name = "../data/processed/test"
make_bio_file(f_name, df_patterns, tag_generator, kw, limit=10000)

  res_values = method(rvalues)


In [8]:
# df_patterns = pd.read_excel("../data/processed/test1_patterns.xlsx", sheet_name='Шаблоны строк', engine='openpyxl').dropna(subset=['Шаблоны'])
# df_patterns = df_patterns[['Шаблоны']]
# comp_list_excel = '../data/processed/test1_ner_tag_companies_and_banks.xlsx'
# tag_generator = GenerateTagValue(comp_list_excel)

f_name = "../data/processed/dev"
make_bio_file(f_name, df_patterns, tag_generator, kw, limit=10000)

In [9]:
# df_patterns = pd.read_excel("../data/processed/test1_patterns.xlsx", sheet_name='Шаблоны строк', engine='openpyxl').dropna(subset=['Шаблоны'])
# df_patterns = df_patterns[['Шаблоны']]
# comp_list_excel = '../data/processed/test1_ner_tag_companies_and_banks.xlsx'
# tag_generator = GenerateTagValue(comp_list_excel)

f_name = "../data/processed/extra"
make_bio_file(f_name, df_patterns, tag_generator, kw, limit=10000)