In [1]:
import re
import pandas as pd
import numpy as np

In [2]:
import warnings
warnings.simplefilter("ignore")

In [3]:
df = pd.read_csv('raw_names.csv')

In [4]:
patterns = [
    # ПАО ГТС => ГТС, ПАО
    # АО "Р-БАНК" => Р-БАНК, АО
    # ООО"ЛОГИСТИКА ИНТ" => ЛОГИСТИКА ИНТ, ООО
    r'^(?i)(П?АО|ООО|ГУП)(?:\s+|\s*")([^"]+)"?',
    
    # ПАО Р-БАНК//ИЗМАЙЛОВ ВАЛЕРИЙ МИХАЙЛОВИЧ//РОССИЯ,МОСКВА Г Р/С в ПАО Р-БАНК г Москва => Измайлов В.
    r'//([\w-]+)\s+(\w)\w*\s+(?:\w)\w*//',
    
    # ИП Ткаченко Елена => Ткаченко Е., ИП
    # ИП Борисов Игорь Вячеславович => Борисов И., ИП
    # Индивидуальный ПРЕДПРИНИМАТЕЛЬ Логинов Андрей Николаевич => Логинов А., ИП
    r'^(?i)(и)(?:ндивидуальный)?\s*(п)(?:редприниматель)?\s*(\w+)\s+(\w)\w*\s*(?:\w)?\w*',
    
    # Никишкина Лидия Алексеевна (ИП) => Нокошина Л., ИП
    r'^([\w-]+)\s+(\w)\w*\s*(?:\w)?\w*\s*\((ИП)\)$',
    
    # ВОРОНОВ ИЛЬЯ АНДРЕЕВИЧ => Воронов И.
    # Турбин Данила Романович => Турбин Д.
    r'([\w-]+)\s+(\w)\w*\s+(\w)\w*$',
    
    # ООО "ЧОП "ОХРАННЫЕ СИСТЕМЫ" => ОХРАННЫЕ СИСТЕМЫ, ЧОП, ООО
    # АО "ПФ "СКБ ФОРТ" => СКБ ФОРТ, ПФ, АО
    # ООО "КОМПАНИЯ "УЗОР" => УЗОР, КОМПАНИЯ, ООО
    r'^([\w-]{2,3})\s+"?(.*)\s+"(.*)"',
    
    #  contains "ФНС": 
    # МИ ФНС РОССИИ ПО УПРАВЛЕНИЮ ДОЛГОМ => ФНС
    # иФНС России № 55 ПО Г. МОСКВЕ => ФНС
    # УФК по г. Москве(ИФНС России № 55 по г.Москве) => ФНС
    r'\w*\s*(?i)(?:и?)\s*(ф)(?:едеральной)?\s*(н)(?:алоговой)?\s*(с)(?:лужбы)?\s*(?:россии)?\s*\w*\s*', 
    
    # ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "ЛАГ1" => ЛАГ1, ООО
    # ЗАКРЫТОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО "Трио" => Трио, ЗАО
    r'(\w)\w{3,}|\"([^\"]+)\"',
    
    # Межрегиональное операционное УФК (КАЗНАЧЕЙСТВО РОССИИ) => Межрегиональное операционное УФК
    r'^.+?(?=\s*\()',
]

In [5]:
def extract_text(row):
    """
    Get string with raw title and extract necessary text by patterns
    """
    matches = []

    for pattern in patterns:
        match = re.findall(pattern, row)
        matches.append(match)
        
    # matches[n] appropriates pattern{n}
    return '{}, {}, {}'.format(matches[5][0][2], matches[5][0][1], matches[5][0][0]) if matches[5] else \
        '{} {}.'.format(matches[1][0][0].capitalize(), matches[1][0][1]) if matches[1] else \
        '{}, {}'.format(matches[0][0][1].upper(), matches[0][0][0]) if matches[0] else \
        '{} {}., {}{}'.format(matches[2][0][2].capitalize(), matches[2][0][3], matches[2][0][0], matches[2][0][1]) if matches[2] else \
        '{} {}., {}'.format(matches[3][0][0].capitalize(), matches[3][0][1], matches[3][0][2]) if matches[3] else \
        '{}{}{}'.format(matches[6][0][0].upper(),matches[6][0][1].upper(),matches[6][0][2]).upper() if matches[6] else \
        '{} {}.'.format(matches[4][0][0].capitalize(), matches[4][0][1]) if matches[4] else \
        '{}, {}'.format([mat[1] for mat in matches[7] if mat[1]][0],
                        ''.join(map(str, [mat[0] for mat in matches[7] if
                                          mat[0]]))) if '"' in row else \
        '{}'.format(matches[8][0]) if matches[8] else \
        row

In [6]:
# creating column "Agent"
df['Agent'] = np.vectorize(extract_text)(df['raw_agents'])

In [7]:
# creating a dictioinary to further using
names_dict = dict(df.values)