In [29]:
from collections import namedtuple
import json
import re

from geonorm.geonormaliser_utils import decompose
import nltk
import numpy as np
import pandas as pd
import psycopg2
import sqlalchemy as sa
import tqdm

In [2]:
def preprocess_full_name(name: str) -> str:
    if pd.isna(name):
        return np.nan
    
    name = name.upper()
    
    return " ".join(tokens)


def parse_address(addr: str, natasha: bool = False) -> str:
    parsed = dict.fromkeys(
        [
            "region", "region_type", "municipality", "municipality_type",
            "settlement", "settlement_type", "street", "street_type",
            "house", "location", "location_type", "not_decompose"
        ],
        np.nan
    )
    
    if pd.isna(addr):
        return parsed
    
    if natasha:
        decomposed = decompose(addr)
        for key, value in decomposed.items():
            if pd.notna(parsed[key]):
                parsed[key] = value
            
        return parsed    
    
    # Usually all addr element types are lowercase, but there are some exceptions
    for search in ["АО", "Аобл", "Респ", "Чувашия"]:
        addr = addr.replace(search, search.lower())
        
    parts = list(map(str.strip, addr.split(",")))
    
    for part in parts:
        tokens = part.split(" ")
        elem = " ".join(filterfalse(str.islower, tokens))
        elem_type = " ".join(filter(str.islower, tokens))
        
        elem_type_info = abbr_map.get(elem_type, (0, ""))
        if elem_type_info[0] == 0:
            elem_type_info = abbr_map.get(elem_type.replace(".", ""), (0, ""))
        
        if elem_type_info[0] in (1, ) and pd.isna(parsed["region"]):
            parsed["region"] = elem
            parsed["region_type"] = elem_type_info[1]          
        elif elem_type_info[0] in (3, 35, 5) and pd.isna(parsed["municipality"]):
            parsed["municipality"] = elem
            parsed["municipality_type"] = elem_type_info[1]        
        elif elem_type_info[0] in (4, 6) and pd.isna(parsed["settlement"]):
            parsed["settlement"] = elem
            parsed["settlement_type"] = elem_type_info[1]            
        elif elem_type_info[0] in (7, ) and pd.isna(parsed["street"]):
            parsed["street"] = elem
            parsed["street_type"] = elem_type_info[1]          
    
    return parsed

In [3]:
with open("stopwords.json") as f:
    stopwords = json.load(f)

abbr = pd.read_csv("abbr.csv")
abbr_full = abbr[["fias_level", "name_full", "name_full"]]
abbr_full.columns = ["fias_level", "name", "name_full"]
abbr = pd.concat((
    abbr,
    abbr_full
))
abbr_map = {
    row["name"].lower(): (row["fias_level"], row["name_full"].lower())
    for _, row in abbr.iterrows()
}

In [4]:
data = pd.read_csv("../data/opendata/models.csv")

  data = pd.read_csv("../data/opendata/models.csv")


In [5]:
engine = sa.create_engine("postgresql+psycopg2://postgres:mysecretpassword@172.17.0.2:5432/postgres")

In [6]:
metadata_obj = sa.MetaData()
SearchIndex = sa.Table("search_index", metadata_obj, autoload_with=engine)

In [68]:
list(SearchIndex.columns)

[Column('name', TEXT(), table=<search_index>),
 Column('tax_number', TEXT(), table=<search_index>),
 Column('individual', BOOLEAN(), table=<search_index>),
 Column('creation_date', DATE(), table=<search_index>),
 Column('active', BOOLEAN(), table=<search_index>),
 Column('activity_code', TEXT(), table=<search_index>),
 Column('region', TEXT(), table=<search_index>),
 Column('municipality', TEXT(), table=<search_index>),
 Column('settlement', TEXT(), table=<search_index>),
 Column('street', TEXT(), table=<search_index>)]

In [81]:
Name = namedtuple("Name", ["name", "country_code", "individual"])

def find_tax_number(row):
    names = list(map(str.strip, row["patent holders"].split("\n")))
    address = row["correspondence address"]
    
    regex = re.compile("\((?a:\w{2})\)")
    names_parsed = []
    for name in names:
        country_code = None
        individual = False
        
        country_code_match = regex.search(name)
        if country_code_match is not None:
            country_code = country_code_match.group(0)[1:-1]
            name = name.replace(country_code_match.group(0), "")
        
        if row["authors"] == row["patent holders"]:
            individual = True
        
        name_parts = list(filter(lambda x: len(x) > 0, map(str.strip, name.split(" "))))
        if (
            len(name_parts) == 3
            and all(part[0].isupper() for part in name_parts)
        ):
            individual = True
        if (
            len(name_parts) == 2 
            and name_parts[0][0].isupper()
            and name_parts[1].replace(".", "").isupper()
        ):
            individual = True
        
        name = preprocess_full_name(name)
        names_parsed.append(Name(name, country_code, individual))
    
    address_parsed = parse_address(address, natasha=True)
    
    for name in names_parsed:
        if name.country_code != "RU":
            continue
        
        query = sa.select(
            SearchIndex,
            sa.func.similarity(SearchIndex.name, name.name).label("name_similarity")
        ).where(
            SearchIndex.c.individual.is_(name.individual),
        )
        
        if name.individual:
             query = query.where(SearchIndex.c.name == name.name)
        else:
            query = query.where(SearchIndex.c.name.bool_op("%")(name.name))
        
        if pd.notna(address_parsed["settlement"]):
            query = query.where(SearchIndex.c.settlement == address_parsed["settlement"])
        
        if pd.notna(address_parsed["street"]):
            query = query.where(SearchIndex.c.street == address_parsed["street"])
        
        if pd.notna(address_parsed["region"]) and pd.notna(address_parsed["settlement"]):
            query = query.where(SearchIndex.c.region == address_parsed["region"])
        
        query = query.order_by(sa.desc("name_similarity"))
        query = query.limit(5)
        
        with engine.connect() as conn:
            ...
            #res = conn.execute(query).all()       
    
    return name
        
    
    

In [82]:
for _, row in tqdm.tqdm(data.iloc[:20].iterrows()):
    print(find_tax_number(row))

20it [00:00, 798.17it/s]

Name(name='ЧАЛАГАНИДЗЕ ШОТА ИВАНОВИЧ', country_code='GE', individual=True)
Name(name='САВКИН МИХАИЛ НИКОЛАЕВИЧ', country_code=None, individual=True)
Name(name='МАЛОЕ ПРОИЗВОДСТВЕННОЕ ПИРС', country_code=None, individual=False)
Name(name='СЕЛИВАНОВ ВИКТОР ВИКТОРОВИЧ', country_code=None, individual=True)
Name(name='ВАСИЛЬЕВ МИХАИЛ ГРИГОРЬЕВИЧ', country_code=None, individual=True)
Name(name='ВАСИЛЬЕВ МИХАИЛ ГРИГОРЬЕВИЧ', country_code=None, individual=True)
Name(name='ВАСИЛЬЕВ МИХАИЛ ГРИГОРЬЕВИЧ', country_code=None, individual=True)
Name(name='СЕЛИВАНОВ ВЕНИАМИН ВАСИЛЬЕВИЧ', country_code=None, individual=True)
Name(name='НАУЧНО-ТЕХНИЧЕСКИЙ ВНЕДРЕНЧЕСКИЙ КВАЛИТЕТ', country_code=None, individual=False)
Name(name='ЧИСТЯКОВ ИГОРЬ ВИКТОРОВИЧ', country_code=None, individual=True)
Name(name='ДРАКАР', country_code=None, individual=False)
Name(name='СИТАЛЛ', country_code=None, individual=False)
Name(name='НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ПРОЕКТНО-КОНСТРУКТОРСКИЙ ТЕХНОЛОГИЧЕСКИЙ ИНСТИТУТ БЕТОНА ЖЕЛЕЗОБЕТОНА




In [88]:
"Государственное образовательное учреждение высшего профессионального образования Самарский государственный технический университет".upper()

'ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ САМАРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ'

In [78]:
for _, row in tqdm.tqdm(data.iloc[:20].iterrows()):
    print(find_tax_number(row))

1it [01:32, 92.06s/it]

[]


2it [03:42, 114.35s/it]

[]
[('НАУЧНО-ПРОИЗВОДСТВЕННОЕ МЕРИДИАН', '9111001510', False, datetime.date(2001, 8, 20), True, '68.20', 'Крым', 'Керчь', 'Керчь', 'Вокзальное', 0.0), ('НАУЧНО-ПРОИЗВОДСТВЕННАЯ ЛЭНД', '7842490670', False, datetime.date(2013, 2, 5), True, '28.25', None, None, 'Санкт-Петербург', 'Воскресенская', 0.0), ('НАУЧНО-ПРОИЗВОДСТВЕННОЕ МЕРИДИАН', '9111001510', False, datetime.date(2001, 8, 20), True, '68.20', 'Крым', None, 'Керчь', 'Шлагбаумская', 0.0), ('НАУЧНО-ПРОИЗВОДСТВЕННАЯ ЛЭНД', '7842490670', False, datetime.date(2013, 2, 5), True, '28.25', None, None, 'Санкт-Петербург', 'Воскресенская', 0.0), ('ПРОИЗВОДСТВЕННО-КОММЕРЧЕСКАЯ АЛМА', '5027019449', False, datetime.date(1992, 6, 29), True, '47.5', 'Московская', None, 'Дзержинский', 'Спортивная', 0.0)]


4it [04:05, 50.17s/it] 

[]


5it [04:11, 36.43s/it]

[]


6it [04:14, 26.13s/it]

[]


7it [04:17, 19.02s/it]

[]


8it [04:21, 14.49s/it]

[]
[('НАУЧНО-ВНЕДРЕНЧЕСКОЕ ЭСТМ-АГРО', '5404130942', False, datetime.date(1994, 6, 28), True, '71.11.1', None, None, None, None, 0.0), ('НАУЧНО-ТЕХНИЧЕСКИЙ СОФТ-СЕРВИС', '7327001502', False, datetime.date(1993, 8, 4), True, '62', 'Ульяновская', None, 'Ульяновск', 'Октябрьская', 0.0), ('НАУЧНО-ТЕХНИЧЕСКИХ УСЛУГ ПОТЕНЦИАЛ', '6658008426', False, datetime.date(1992, 10, 15), True, '46.76.3', 'Свердловская', None, 'Екатеринбург', 'Мельникова', 0.0), ('НАУЧНО-ТЕХНИЧЕСКИЙ ЭДВАР', '6367657874', False, datetime.date(1999, 7, 5), True, None, None, None, None, None, 0.0), ('НАУЧНО-ТЕХНИЧЕСКИХ ПРОЕКТОВ ТЕХПРОЕКТ', '7707108361', False, datetime.date(1996, 2, 14), True, '72.1', None, None, 'Москва', 'Дмитровское', 0.0)]


13it [04:36,  5.61s/it]

[]
[('ДАКАР', '7804404863', False, datetime.date(2008, 11, 19), True, '46.32', None, None, 'Санкт-Петербург', 'Комсомола', 0.0), ('МАКАР', '5503036450', False, datetime.date(1996, 11, 11), True, '14.19', None, None, None, None, 0.0), ('ДРАФТ', '3628013046', False, datetime.date(2007, 4, 25), True, '46.21.11', 'Воронежская', None, 'Воронеж', 'Волгоградская', 0.0), ('ДЭКАР', '7705184568', False, datetime.date(1998, 2, 27), True, '46', None, None, None, None, 0.0), ('ДАКАР', '7453027370', False, datetime.date(1995, 9, 5), True, '46', None, None, None, None, 0.0)]
[('СИТАЛ', '3851017938', False, datetime.date(2016, 8, 8), True, '46.73', 'Иркутская', None, 'Усолье-Сибирское', 'Коростова', 0.0), ('СИТИ', '7710458775', False, datetime.date(2003, 3, 26), True, '46.39', None, None, 'Москва', 'Васильевская', 0.0), ('СОВМЕТАЛЛ', '0411136209', False, datetime.date(2008, 3, 13), True, '20.1', None, None, None, None, 0.0), ('СИТИ', '2511058244', False, datetime.date(2008, 3, 14), True, '96.04', 'При

14it [04:57,  8.71s/it]

[]
[('ДАКАР', '7804404863', False, datetime.date(2008, 11, 19), True, '46.32', None, None, 'Санкт-Петербург', 'Комсомола', 0.0), ('МАКАР', '5503036450', False, datetime.date(1996, 11, 11), True, '14.19', None, None, None, None, 0.0), ('ДРАФТ', '3628013046', False, datetime.date(2007, 4, 25), True, '46.21.11', 'Воронежская', None, 'Воронеж', 'Волгоградская', 0.0), ('ДЭКАР', '7705184568', False, datetime.date(1998, 2, 27), True, '46', None, None, None, None, 0.0), ('ДАКАР', '7453027370', False, datetime.date(1995, 9, 5), True, '46', None, None, None, None, 0.0)]


16it [04:59,  5.99s/it]

[]


17it [05:09,  6.80s/it]

[]


18it [05:12,  5.93s/it]

[]
[('НАУЧНО-ПРОИЗВОДСТВЕННОЕ МЕРИДИАН', '9111001510', False, datetime.date(2001, 8, 20), True, '68.20', 'Крым', None, 'Керчь', 'Шлагбаумская', 0.0), ('НАУЧНО-ПРОИЗВОДСТВЕННАЯ ЛЭНД', '7842490670', False, datetime.date(2013, 2, 5), True, '28.25', None, None, 'Санкт-Петербург', 'Воскресенская', 0.0), ('НАУЧНО-ПРОИЗВОДСТВЕННОЕ НОВАТОР', '5010030268', False, datetime.date(2004, 5, 6), True, '35.2', 'Московская', None, 'Дубна', 'Тверская', 0.0), ('НАУЧНО-ПРОИЗВОДСТВЕННАЯ КОММЕРЧЕСКАЯ ТРИАД', '9111012093', False, datetime.date(1994, 5, 13), True, '68.20.2', 'Крым', None, 'Керчь', 'Карла Маркса', 0.0), ('НАУЧНО-ПРОИЗВОДСТВЕННОЕ НОВАТОР', '5010030268', False, datetime.date(2004, 5, 6), True, '35.2', 'Московская', None, 'Дубна', 'Тверская', 0.0)]


20it [05:33, 16.67s/it]

[]





In [85]:
data.loc[0:20, "patent holders"].to_list()

['Напетваридзе С.О. (RU)\r\nЧалаганидзе Шота Иванович (GE)',
 'Дронов Владимир Дмитриевич\r\nКолобаев Владимир Никифорович\r\nПрохоров Александр Андреевич\r\nЛукьянченко Павел Петрович\r\nСтоляров Евгений Александрович\r\nГоловко Алексей Григорьевич\r\nШорников Игорь Евгеньевич\r\nСавкин Михаил Николаевич',
 'Малое производственное предприятие "Пирс"',
 'Селиванов Виктор Викторович',
 'Васильев Михаил Григорьевич',
 'Васильев Михаил Григорьевич',
 'Васильев Михаил Григорьевич',
 'Селиванов Вениамин Васильевич',
 'Товарищество с ограниченной ответственностью "Научно-технический внедренческий центр "Квалитет"',
 'Чистяков Игорь Викторович',
 'Товарищество с ограниченной ответственностью "Дракар"',
 'Акционерное общество открытого типа "Ситалл"',
 'Научно-исследовательский, проектно-конструкторский и технологический институт бетона и железобетона "НИИЖБ"',
 'Анисимов Петр Васильевич\r\nАнисимова Наталья Петровна',
 'Товарищество с ограниченной ответственностью "Дракар"',
 'Моргунов Вячесл

In [87]:
data.loc[13, ]

registration number                                                                                                          14
registration date                                                                                                    19940625.0
application number                                                                                                   93000677.0
application date                                                                                                     19930106.0
authors                                                                       Анисимов Петр Васильевич\r\nАнисимова Наталья ...
authors in latin                                                                                                           \r\n
patent holders                                                                Анисимов Петр Васильевич\r\nАнисимова Наталья ...
patent holders in latin                                                                                 

In [57]:
data.loc[0, "patent holders"] = 'Напетваридзе С.О. (RU)\r\nЧалаганидзе Шота Иванович (GE)'

In [None]:
with engine.connect() as conn:
    stmt = sa.select(SearchIndex).where(SearchIndex.c.name.bool_op("%")("НАПЕТВАРИДЗЕ С.О ЧАЛАГАНИДЗЕ ШОТА ИВАНОВИЧ GE")).limit(10)
    for row in conn.execute(stmt):
        print(row)

In [61]:
data.notna().sum()

registration number                                                           222362
registration date                                                             221096
application number                                                            221919
application date                                                              221919
authors                                                                       219973
authors in latin                                                              153284
patent holders                                                                221895
patent holders in latin                                                        29493
correspondence address                                                        205251
correspondence address in latin                                                    0
utility model name                                                            221913
patent starting date                                             

In [20]:
for _, row in tqdm.tqdm(data.iterrows()):
    if "(RU)" not in row["patent holders"]:
        continue
        
    row["patent holders"] = row["patent holders"].replace("(RU)", "").strip()
    name = preprocess_full_name(row["patent holders"])
    addr = parse_address(row["correspondence address"])
    
    stmt = f"""
        SELECT tax_number, name, region, settlement, street
        FROM search_index
        WHERE 
            name % '{name}' 
            AND region = '{addr['region']}'
            AND settlement = '{addr['settlement']}'
            AND street = '{addr['street']}'
        LIMIT 10    
    """
    print(stmt)
    extracted = pd.read_sql(stmt, conn)
    print(extracted.shape)

0it [00:00, ?it/s]

False

        SELECT tax_number, name, region, settlement, street
        FROM search_index
        WHERE 
            name % 'НАПЕТВАРИДЗЕ С.О ЧАЛАГАНИДЗЕ ШОТА ИВАНОВИЧ GE' 
            AND region = 'nan'
            AND settlement = 'nan'
            AND street = 'nan'
        LIMIT 10    
    





TypeError: sqlalchemy.cyextension.immutabledict.immutabledict is not a sequence