In [1]:
%pip install git+https://github.com/CAG-ru/geonorm
    
import pandas as pd
from geonorm.geonormaliser_utils import decompose
from geonorm.geonormaliser import Geonormaliser
import re

In [2]:
pd.set_option('display.max_rows', None)
pd.set_option('display.max_colwidth', None)

In [127]:
dataset = pd.read_csv('init_budg_projects.csv')

## Normalization: funding columns

In [129]:
def fund_to_float(column_str, no_space=False):
    if no_space == True:
        column_float = re.sub('[.,]\d{2}р.', '', column_str)
    else:
        column_float = re.sub('[.,]\d{2}\sр.', '', column_str)
    return float(column_float.replace(',', '.').replace(' ', ''))

In [130]:
dataset.project_cost = dataset.project_cost.apply(fund_to_float)
dataset.fund_region = dataset.fund_region.apply(fund_to_float)
dataset.fund_municipality = dataset.fund_municipality.apply(fund_to_float)
dataset.fund_citizens = dataset.fund_citizens.apply(fund_to_float, no_space=True)
dataset.fund_business = dataset.fund_business.apply(fund_to_float)
dataset.year = dataset.year.str.replace(' год', '').astype('int64')

## Address decomposition 

In [132]:
addr_decomp = dataset['address'].apply(decompose)

In [133]:
reg = [list(i.values())[0] for i in addr_decomp]

dataset['region'] = reg

## Normalization: regions & categories

In [134]:
dataset_empty = dataset[dataset['region']==''] 
dataset.drop(dataset_empty.index, axis=0, inplace=True)

In [135]:
for index, row in dataset_empty.iterrows():
    if 'Ханты-' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Ханты-Мансийский'
    elif 'Волгоград,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Волгоградская'
    elif 'Москва,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Московская'
    elif 'Калуга,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Калужская'
    elif 'Ставрополь,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Ставропольский'
    elif 'Новороссийск,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Краснодарский'
    elif 'Санкт-Петербург,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Санкт-Петербург'
    elif 'Киров,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Кировская'
    elif 'Архангельск,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Архангельская'
    elif 'Кострома,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Костромская'
    elif 'Курск,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Курская'
    elif 'Пермь,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Пермский'
    elif 'Нижний Новгород,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Нижегородская'
    elif 'Самара,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Самарская'
    elif 'Великий Новгород,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Новгородская'
    elif 'Челябинск,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Челябинская'
    elif 'Ярославль,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Ярославская'
    elif 'Тамбов,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Тамбовская'
    elif 'Брянск,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Брянская'
    elif 'Ростов-на-Дону,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Ростовская'
    elif 'Ульяновск,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Ульяновская'
    elif 'Липецк,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Липецкая'
    elif 'ЯНАО' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Ямало-Ненецкий'
    elif 'Россия, Омск' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Омская'
    elif 'Россия, Санкт-Петербург' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Санкт-Петербург'
    elif 'Россия, Тюмень' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Тюменская'
    elif 'Россия, Томск' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Томская'
    elif 'Россия, Калининград' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Калининградская'
    elif 'Россия, Воронеж' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Воронежская'
    elif 'Россия, Ростов-на-Дону' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Ростовская'
    elif 'Россия, Киров' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Кировская'
    elif 'Россия, Вологда,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Вологодская'
    elif 'Россия, Иркутск,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Иркутская'
    elif 'Новороссийск проспект' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Краснодарский'
    elif 'г.Новороссийск' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Краснодарский'
    elif 'Хабаровский район,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Хабаровский'
    elif 'Оренбургский район,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Оренбургская'
    elif 'Ивановский район,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Ивановская'
    elif 'Вологодский район,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Вологодская'
    elif 'Иркутский район,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Иркутская'
    elif 'Ульяновский район,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Ульяновская'
    elif 'Липецкий район,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Липецкая'
    elif 'Красноармейский район,' in dataset_empty.at[index, 'address']:
        dataset_empty.at[index, 'region'] = 'Краснодарский'

### Adding regions manually

In [137]:
dataset_empty.loc[dataset_empty['address'] == 'ул. Новороссийской республики 21А/35', 'region'] = 'Краснодарский'
dataset_empty.loc[dataset_empty['address'] == 'г.Зеленокумск, пересечение ул. Пугачева и переулка Партизанского'\
                  , 'region'] = 'Ставропольский'
dataset_empty.loc[dataset_empty['address'] == 'ст. Натухаевская, ул. Красная82', 'region'] = 'Краснодарский'
dataset_empty.loc[dataset_empty['address'] == 'г. Новодвинск, ул. Двинская, д.43', 'region'] = 'Архангельская'
dataset_empty.loc[dataset_empty['address'] == '658417, Локтевский район п.Кировский', 'region'] = 'Алтайский'
dataset_empty.loc[dataset_empty['address'] == 'Россия, Пермский район, посёлок Сылва, Молодёжная улица, 11'\
                  , 'region'] = 'Пермский'
dataset_empty.loc[dataset_empty['address'] == 'Россия, Новгородский район, Панковское городское поселение, поселок городского типа Панковка, Первомайская улица, 2'\
                  , 'region'] = 'Новгородская'
dataset_empty.loc[dataset_empty['address'] == 'Россия, Курский район, Рышковский сельсовет, деревня Голубицкое'\
                  , 'region'] = 'Курская'
dataset_empty.loc[dataset_empty['address'] == 'Россия, городской округ Оренбург, село Городище, Октябрьская улица'\
                  , 'region'] = 'Оренбургская'
dataset_empty.loc[dataset_empty['address'] == 'Россия, Новосибирский район, посёлок 8 Марта', 'region'] = 'Новосибирская'
dataset_empty.loc[dataset_empty['address'] == 'Россия, Ямальский район, село Салемал, Первомайская улица, 19Б'\
                  , 'region'] = 'Ямало-Ненецкий'

#### Three spelling mistakes:
dataset.loc[dataset['region'] == 'Ямало-ненецкий' , 'region'] = 'Ямало-Ненецкий'
dataset.loc[dataset['region'] == 'Ленинградской' , 'region'] = 'Ленинградская'
dataset.loc[dataset['region'] == 'Ростовской' , 'region'] = 'Ростовская'

In [138]:
dataset_final = pd.concat([dataset, dataset_empty]).reset_index(drop=True)

### Uniting categories

In [140]:
dataset_final.category = dataset_final.category.str.replace('Детские площадки', 'Детские игровые площадки')
dataset_final.category = dataset_final.category.str.replace('Водоснабжение$',\
                                                        'Водоснабжение, водоотведение', regex=True)
dataset_final.category = dataset_final.category.str.replace('Места захоронения', 'Благоустройство мест захоронений')
dataset_final.category = dataset_final.category.str.replace('Библиотеки',\
                                                        'Проекты в сфере культуры, библиотечного дела, ремонт домов культуры')
dataset_final.category = dataset_final.category.str.replace('Бытовое обслуживание',\
                                                            'Проекты в сфере бытового обслуживания населения')
dataset_final.category = dataset_final.category.str.replace('Проекты ЖКХ, ремонт многоквартирных домов', 'ЖКХ')
dataset_final.category = dataset_final.category.str.replace('Объекты культурного наследия', 'Объекты культуры')
dataset_final.category = dataset_final.category.str.replace("Культурное наследие (памятники, музеи)", 'Объекты культуры', regex=False)
dataset_final.category = dataset_final.category.str.replace('Массовое мероприятие', 'Событийные проекты (праздники, фестивали)')
dataset_final.category = dataset_final.category.str.replace('Благоустройство$',\
                                                            'Места массового отдыха и объекты организации благоустройства', regex=True)
dataset_final.category = dataset_final.category.str.replace('Спорт', 'Физическая культура и массовый спорт')

### Translating to English

In [141]:
remap_region_dict = {
        'Адыгея': 'Adygea', 'Алтай': 'Altai_R', 'Алтайский': 'Altai_K',
        'Амурская': 'Amur', 'Архангельская': 'Arkhangelsk', 'Астраханская': 'Astrakhan',
        'Башкортостан': 'Bashkortostan', 'Белгородская': 'Belgorod',
        'Брянская': 'Bryansk', 'Бурятия': 'Buryatia', 'Владимирская': 'Vladimir',
        'Волгоградская': 'Volgograd', 'Вологодская': 'Vologda',
        'Воронежская': 'Voronezh', 'Забайкальский': 'Zabaykalsky', 
        'Ивановская': 'Ivanovo', 'Иркутская': 'Irkutsk',
        'Кабардино-Балкарская': 'Kabardino-Balkaria', 'Калининградская': 'Kaliningrad',
        'Калмыкия': 'Kalmykia', 'Калужская': 'Kaluga', 'Карелия': 'Karelia',
        'Кемеровская': 'Kemerovo', 'Кировская': 'Kirov', 'Коми': 'Komi',
        'Костромская': 'Kostroma', 'Краснодарский': 'Krasnodar', 'Красноярский': 'Krasnoyarsk',
        'Крым': 'Crimea', 'Курская': 'Kursk', 'Ленинградская': 'Leningrad',
        'Липецкая': 'Lipetsk', 'Марий Эл': 'Mari El', 'Московская': 'Moscow_O',
        'Мурманская': 'Murmansk', 'Ненецкий': 'Nenets',
        'Нижегородская': 'Nizhny Novgorod', 'Новгородская': 'Novgorod', 'Новосибирская': 'Novosibirsk',
        'Омская': 'Omsk', 'Оренбургская': 'Orenburg', 'Орловская': 'Oryol',
        'Пермский': 'Perm', 'Приморский': 'Primorsky', 'Ростовская': 'Rostov',
        'Рязанская': 'Ryazan', 'Самарская': 'Samara', 'Санкт-Петербург': 'St. Petersburg',
        'Саратовская': 'Saratov', 'Саха (Якутия)': 'Yakutia', 'Сахалинская': 'Sakhalin', 
        'Свердловская': 'Sverdlovsk', 'Смоленская': 'Smolensk',
        'Ставропольский': 'Stavropol', 'Тамбовская': 'Tambov', 'Татарстан': 'Tatarstan', 
        'Тверская': 'Tver', 'Томская': 'Tomsk ', 'Тульская': 'Tula', 'Тыва': 'Tuva', 'Тюменская': 'Tyumen',
        'Удмуртская': 'Udmurtia', 'Ульяновская': 'Ulyanovsk', 'Хабаровский': 'Khabarovsk',
        'Хакасия': 'Khakassia', 'Ханты-Мансийский': 'Khanty-Mansi', 'Челябинская': 'Chelyabinsk',
        'Чувашская': 'Chuvashia', 'Ямало-Ненецкий': 'Yamalo-Nenets', 'Ярославская': 'Yaroslavl'}

remap_category_dict = {
        'Места массового отдыха и объекты организации благоустройства': 'Public recreational facilities and beautification',
        'Детские игровые площадки': "Children's playgrounds",
        'Автомобильные дороги, тротуары, пешеходные переходы, остановки': 'Roads, pavements, pedestrian crossings, bus stops',
        'Физическая культура и массовый спорт': 'Physical education and mass sports',
        'Школьное  и молодежные проекты инициативного бюджетирования': 'School and youth initiative budgeting projects',
        'Проекты в сфере образования': 'Education projects',
        'Проекты в сфере культуры, библиотечного дела, ремонт домов культуры': 'Cultural projects, libraries, renovation of cultural centres',
        'Благоустройство мест захоронений': 'Improvement of burial sites',
        'Дороги': "Roads",
        'Другое': "Other",
        'Объекты культуры': "Cultural objects",
        'Водоснабжение, водоотведение': "Water supply, wastewater disposal",
        'Уличное освещение': "Street lighting",
        'Комплексное благоустройство дворов': "Comprehensive courtyard improvements",
        'Приобретение оборудования, техники, транспорта': "Acquisition of equipment, machinery, transport",
        'Пожарная безопасность': "Fire safety",
        'Места массового пользования': "Places of public use",
        'Событийные проекты (праздники, фестивали)': "Event projects (festivals, festivals)",
        'Организация сбора твердых коммунальных отходов и мусора': "Organising the collection of municipal solid waste and rubbish",
        'Проекты в сфере бытового обслуживания населения': "Domestic service projects",
        'Проекты, направленные на уязвимые социальные группы и граждан с ограниченными возможностями': "Projects aimed at vulnerable social groups and citizens with disabilities",
        'Народное творчество': "Folk art",
        'ЖКХ': "Housing and utilities",
        'Крупные инфраструктурные проекты (мосты, плотины, водоёмы)': "Large infrastructure projects (bridges, dams, reservoirs)",
        'Доходогенерирующие проекты': "Income-generating projects",
        'Туризм': "Tourism",
}

dataset_final = dataset_final.replace({"region": remap_region_dict})
dataset_final = dataset_final.replace({"category": remap_category_dict})
dataset_final = dataset_final.rename(columns={"project_description": "description_rus", "address": "address_rus"})

In [42]:
dataset_final.to_csv('projects_dataset.csv', index = False)