In [3]:
import pandas as pd

from geonorm.geonormaliser_utils import get_standard
from geonorm.geonormaliser_utils import decompose
from geonorm.geomatch import Geomatch
from geonorm.geonormaliser import Geonormaliser

In [4]:
standard_df = pd.read_csv('mun_obr.csv', delimiter=';')

In [5]:
standard_df = standard_df[standard_df.lvl == 1]

In [6]:
openness = pd.read_excel("raw_openness.xlsx")

In [42]:
mun_names = openness["municipality"].unique()

In [43]:
mun_names = list(map(lambda x: x.replace('"', '').replace("'", ""), mun_names)) # remove quotes

In [44]:
def split_municipality_region(line):
    if "республики северная осетия-алания" in line.lower():
        mun = line[:-33].lower()
        mun = mun.replace("муниципальное образование", "")
        mun = mun.replace("закрытое административно-территориальное образование", "ЗАТО")
        mun = mun.replace("закрытое административно -территориальное образование", "ЗАТО")
        return ["республики северная осетия-алания", mun]
    
    if "республики саха (якутия)" in line.lower():
        mun = line[:-24].lower()
        mun = mun.replace("муниципальное образование", "")
        mun = mun.replace("закрытое административно-территориальное образование", "ЗАТО")
        mun = mun.replace("закрытое административно -территориальное образование", "ЗАТО")
        return ["республики саха (якутия)", mun]
    
    if "липецкой области российской федерации" in line.lower():
        mun = line[:-37].lower()
        mun = mun.replace("муниципальное образование", "")
        mun = mun.replace("закрытое административно-территориальное образование", "ЗАТО")
        mun = mun.replace("закрытое административно -территориальное образование", "ЗАТО")
        return ["липецкой области", mun]
    
    if "еврейской автономной области" in line.lower():
        mun = line[:-28].lower()
        mun = mun.replace("муниципальное образование", "")
        mun = mun.replace("закрытое административно-территориальное образование", "ЗАТО")
        mun = mun.replace("закрытое административно -территориальное образование", "ЗАТО")
        return ["еврейской автономной области", mun]
    
    if "ненецкого автономного округа" in line.lower():
        mun = line[:-28].lower()
        mun = mun.replace("муниципальное образование", "")
        mun = mun.replace("закрытое административно-территориальное образование", "ЗАТО")
        mun = mun.replace("закрытое административно -территориальное образование", "ЗАТО")
        return ["ненецкого автономного округа", mun]
    
    if "ненецкого автономного округа" in line.lower():
        mun = line[:-28].lower()
        mun = mun.replace("муниципальное образование", "")
        mun = mun.replace("закрытое административно-территориальное образование", "ЗАТО")
        mun = mun.replace("закрытое административно -территориальное образование", "ЗАТО")
        return ["ненецкого автономного округа", mun]
    
    if "Ханты-Мансийский автономный округ - Югра" in line:
        return [line, ""]
    
    if "Ямало-Ненецкий автономный округ" in line:
        return [line, ""]
    
    reg = line[line[:line.rfind(" ")].rfind(" "):].lower()
    mun = line[:line[:line.rfind(" ")].rfind(" ")].lower()
    if "области" in reg or "республики" in reg or "края" in reg:
        mun = mun.replace("муниципальное образование", "")
        mun = mun.replace("закрытое административно-территориальное образование", "ЗАТО")
        mun = mun.replace("закрытое административно -территориальное образование", "ЗАТО")
        return [reg, mun]
    else:
        mun = line.lower()
        mun = mun.replace("муниципальное образование", "")
        mun = mun.replace("закрытое административно-территориальное образование", "ЗАТО")
        mun = mun.replace("закрытое административно -территориальное образование", "ЗАТО")
        return ["", mun]

In [45]:
mun_names = list(map(split_municipality_region, mun_names))

In [46]:
mun_names

[['', ' городской округ ногликский'],
 [' сахалинской области', 'корсаковский городской округ'],
 [' сахалинской области', 'макаровский городской округ'],
 [' сахалинской области', 'тымовский городской округ'],
 [' карачаево-черкесской республики', 'абазинский муниципальный район'],
 ['', 'абанский район'],
 ['', 'абатский муниципальный район'],
 [' оренбургской области', 'абдулинский'],
 [' республики башкортостан', 'абзелиловский район'],
 ['', 'агаповский муниципальный район'],
 ['', 'агрызский муниципальный район'],
 ['', 'агульский район'],
 [' оренбургской области', 'адамовский район'],
 [' карачаево-черкесской республики', 'адыге-хабльский муниципальный район'],
 ['', 'азнакаевский муниципальный район'],
 [' омской области', 'азовский немецкий национальный муниципальный район'],
 ['', 'азовский район'],
 [' оренбургской области', 'акбулакский район'],
 ['', 'аксайский район'],
 ['', 'аксубаевский муниципальный район'],
 ['', 'актанышский муниципальный район'],
 ['', 'акушинский 

In [47]:
len(mun_names)

2170

In [48]:
test = pd.DataFrame()
test["region"] = list(map(lambda x: x[0], mun_names))
test["municipality"] = list(map(lambda x: x[1], mun_names))

In [49]:
matcher = Geomatch(standard_db=standard_df,
                  match_columns=['municipality', 'region'])

normaliser = Geonormaliser(standard_db=standard_df, 
                      use_speller=True,
                      use_levenstein=True,
                      match_columns=['municipality', 'region'])

In [50]:
test_norm = matcher(test)

In [51]:
test = test[["municipality", "region"]].rename(columns={"municipality": "mun_original", "region": "reg_original"})

In [52]:
matches = pd.concat([test, test_norm[["municipality", "region", "mun_type", "oktmo", "results_count"]]], axis=1)

In [53]:
matches.to_excel("matches.xlsx")