In [12]:
import pandas as pd
import numpy as np
import os, os.path
import re

pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 100)

In [13]:
not_inc_regions = [ 
                    'армавир',
                    'амурская область',
                    'архангельсая область без ао',
                    'архангельская область',
                    'архангельская область без авт. округа',
                    'архангельская область без авт.округа',
                    'архангельская область без автономного округа',
                    'архангельская область без ао',
                    'архангельская область без нао',
                    'архангельская область кроме ненецкого автономного округа',
                    'астраханская область',
                    'белская область',
                    'в том числе: ненецкий автономный округ',
                    'владимирская область',
                    'вологда',
                    'дагестан',
                    'дальневосточный',
                    'еврейская авт.область',
                    'еврейская автономная область',
                    'забайкальский край',
                    'ингушетия',
                    'иркутская область',
                    'кабардино-балкарская',
                    'калмыкия',
                    'калужская область',
                    'камчатский край',
                    'карачаево-черкесская',
                    'краснодар',
                    'крым',
                    'курганская область',
                    'магаданская область',
                    'марий эл',
                    'мурманская область',
                    'ненецкий авт.округ',
                    'ненецкий автономный округ',
                    'ненецкий автономный округ архангельская область',
                    'ненецкий ао',
                    'новороссийск',
                    'новская область',
                    'оренбургская область',
                    'отгружено товаров собственного производства, выполнено работ и услуг собственными силами малыми предприятиями включая микропредприятия',
                    'приволжский',
                    'псковская область',
                    'рязанская область',
                    'саха якутия',
                    'сахалинская область',
                    'севастополь',
                    'северная осетия - алания',
                    'северная осетия- алания',
                    'северная осетия-алания',
                    'северо-западный',
                    'северо-кавказский',
                    'сибирский',
                    'сочи',
                    'средняя численность работников малых предприятий без микропредприятий',
                    'средняя численность работников микропредприятий',
                    'тамбовская область',
                    'тверская область',
                    'томск',
                    'уральский',
                    'хабаровский край',
                    'хакасия',
                    'череповец',
                    'чеченская',
                    'чита',
                    'чувашская',
                    'чувашская - чувашия',
                    'чувашская -чувашия',
                    'чукотский авт.округ',
                    'чукотский автономный округ',
                    'южный',
                    'ямало-ненецкий авт.округ',
                    'ямало-ненецкий автономный округ',
                    'ямало-ненецкий автономный округ тюменская область',
                    'ямало-ненецкий ао',
                    'nan'
]

In [14]:
def replaces(data):
    map_repl = {'город федерального значения': '',
                'город': '',
                ')': '',
                '(': '',
                'h': 'н',
                'k': 'к',
                'республика': '',
                'г.': '',
               'столица российской федерации': ''}
    for old_value, new_value in map_repl.items():
        data['region'] = data['region'].apply(lambda x: str(x).lower().replace(old_value, new_value).strip())
    data['region'] = data['region'].apply(lambda x: re.sub(r'\s+', ' ', x))
    return data

In [15]:
def preprocess_data(data):
    for col in data.columns[1:]:
        data = replaces(data)
        data[col] = data[col].apply(lambda x: str(x).strip().replace('-', 'nan').replace(' ', '').replace(',', '.')).astype('float')
        data = data[data['region'].apply(lambda x: 'федерация' not in x and 'федеральный округ' not in x)]
        data = data.iloc[:-1]

        regions_for_repl = {
            'тюменская область без ао': 'тюменская область',
            'удмуртская': 'удмуртия',
            'ханты-мансийский ао-югра': 'ханты-мансийский ао',
            'кемеровская область - кузбасс': 'кемеровская область',
            'адыгея адыгея': 'адыгея',
            'тюменская область без автономных округов': 'тюменская область',
            'тюменская область без авт. округов': 'тюменская область',
            'белская область': 'белгородская область',
            'нижеская область': 'нижегородская область',
            'татарстан татарстан': 'татарстан',
            'тюменская область без авт.округов': 'тюменская область'
        }
        
        data.loc[data['region'].apply(lambda x: 'ханты' in x), 'region'] = 'ханты-мансийский ао'
        
        for old_region_name, new_region_name in regions_for_repl.items():
            data['region'] = data['region'].apply(lambda x: x.replace(old_region_name, new_region_name))
        
    return data

In [16]:
def merge_data(file_paths):
    for i, path in enumerate(file_paths):

        data = pd.read_csv(path, sep='\t', encoding='windows-1251')
        data = preprocess_data(data)
        
        if i == 0:
            merged_data = data.copy()
        elif i != 0:
            merged_data = pd.merge(merged_data, data, how='outer', on='region')
            
    cols = [col for col in merged_data.columns if 'Unnamed' not in col]
    
    return merged_data[cols]

In [17]:
file_paths = [os.path.join('../', 'add_data', file_name) for file_name in os.listdir(os.path.join('../', 'add_data'))]

merged_data = merge_data(file_paths)

In [18]:
print(merged_data.shape)

for region in not_inc_regions:
    merged_data = merged_data[merged_data['region'] != region].copy()
    
print(merged_data.shape)

merged_data.drop_duplicates('region', keep='last', inplace=True)

print(merged_data.shape)

(196761, 29)
(163918, 29)
(49, 29)


In [19]:
cols_with_nulls = merged_data.isnull().sum()
cols_with_nulls = cols_with_nulls[cols_with_nulls > 0].index

for col in cols_with_nulls:
    merged_data.fillna(merged_data[col].median(), inplace=True)
    
merged_data.reset_index(inplace=True, drop=True)

In [21]:
merged_data

Unnamed: 0,region,Доля городского населения в общей численности,Оборот малых предприятий (без микропредприятий),Оборот малых предприятий (включая микропредприятия),Оборот микропредприятий,Оборот средних организаций,"Объем выручки от продажи товаров, продукции, работ, услуг",Отгруженные товары собственного производства в рублях,Отгружено товаров собственного производства малыми предприятиями (включая микропредприятия),Продано товаров несобственного производства микропредприятиями,"Домохозяйства, проживающие в городской местности","Домохозяйства, проживающие в сельской местности","Реальные денежные доходы населения по субъектам Российской Федерации, в % к соответствующему периоду",Среднедушевые денежные доходы населения,Средняя численность работников малых предприятий (без микропредприятий),Средняя численность работников микропредприятий,Оплата труда,Доходы от предпринимательской деятельности,Социальные выплаты,Доходы от собственности,Прочие денежные поступления,Денежные доходы в расчете на душу населения,Место в Российской Федерации,Численность безработных в возрасте 15-72 лет,Численность занятых в возрасте 15-72 лет,Численность постоянного населения,Численность индивидуальных предпринимателей,Число выбывших из региона,Число прибывших в регион
0,белгородская область,67.5,278380200.0,561953400.0,275557200.0,91.289907,201821600.0,102259600.0,229450800.0,173297600.0,30823.7,24586.6,98.1,32835.0,55501.0,49759.0,45.2,9.7,20.1,3.4,21.6,32835.0,23.0,40.583,791.52,1548284.0,31463.0,21452.0,22254.0
1,брянская область,70.4,128009300.0,262682500.0,124479800.0,36.492223,148539800.0,43159350.0,111503600.0,81320440.0,20899.5,20307.6,95.3,28310.0,36862.0,29997.0,42.2,7.0,23.5,2.7,24.6,28310.0,43.0,23.287,559.53,1196339.0,19614.0,18864.0,18579.0
2,воронежская область,68.0,409969800.0,768400700.0,331170500.0,135.670014,313175200.0,138680900.0,328795100.0,192489600.0,24426.0,20045.8,95.2,31997.0,90935.0,79018.0,45.4,5.8,19.5,3.4,25.9,31997.0,28.0,50.37,1116.669,2326013.0,41933.0,31156.0,31504.0
3,ивановская область,81.7,142735600.0,367447300.0,224546700.0,44.506854,116924200.0,96552190.0,165557900.0,127994500.0,29301.8,21049.3,97.0,26219.0,41309.0,36378.0,49.9,6.8,23.8,3.5,16.0,26219.0,54.0,27.887,485.698,1000657.0,20563.0,18846.0,17978.0
4,костромская область,72.7,75084340.0,132783500.0,66246590.0,33.257568,80313300.0,36917900.0,69901990.0,29328690.0,23275.1,21505.4,95.4,25260.0,25788.0,21373.0,55.9,9.8,26.4,3.1,4.8,25260.0,62.0,17.057,292.038,635325.0,12582.0,11502.0,12884.0
5,курская область,68.5,110590600.0,258958100.0,114973300.0,51.698682,141665400.0,41171160.0,114847000.0,73802110.0,27234.2,23383.8,97.4,29671.0,30898.0,24036.0,47.8,10.4,23.0,2.9,15.9,29671.0,35.0,27.098,529.396,1105524.0,21700.0,16062.0,17114.0
6,липецкая область,64.59,132916200.0,285823800.0,144431400.0,37.91123,155360700.0,56395570.0,128138200.0,88035830.0,24421.5,25438.5,94.9,32201.0,36329.0,32566.0,46.9,11.5,20.2,3.3,18.1,32201.0,25.0,25.77,569.87,1141703.0,24299.0,12913.0,12135.0
7,московская область,81.4,1733147000.0,2907394000.0,922248000.0,662.93235,845588300.0,438785900.0,1338049000.0,483462100.0,37362.5,20252.7,96.7,46519.0,330696.0,291026.0,52.7,4.5,13.7,5.0,24.1,46519.0,10.0,149.592,3997.307,7645255.0,173543.0,198600.0,212965.0
8,орловская область,66.8,76632610.0,145771900.0,71992450.0,31.812906,67907060.0,30443620.0,66323380.0,41548830.0,28984.2,32366.1,98.0,26705.0,23258.0,17129.0,52.6,11.6,27.5,2.6,5.7,26705.0,52.0,21.314,326.918,736483.0,15869.0,8695.0,6815.0
9,смоленская область,71.8,154630800.0,317321000.0,144526900.0,55.61237,92999030.0,43326190.0,108707500.0,101200700.0,21155.1,14458.3,97.8,27998.0,35356.0,31028.0,51.8,3.8,23.4,3.9,17.1,27998.0,44.0,25.21,451.226,938625.0,18409.0,15669.0,14432.0


In [37]:
train_data = pd.read_csv('../data/data/train.csv')
test_data = pd.read_csv('../data/data/test.csv')
train_data['region'] = train_data['region'].apply(lambda x: x.lower())

In [38]:
new_train_data = pd.merge(train_data, merged_data, on='region', how='left')

In [39]:
new_train_data

Unnamed: 0,city,floor,id,lat,lng,osm_amenity_points_in_0.001,osm_amenity_points_in_0.005,osm_amenity_points_in_0.0075,osm_amenity_points_in_0.01,osm_building_points_in_0.001,osm_building_points_in_0.005,osm_building_points_in_0.0075,osm_building_points_in_0.01,osm_catering_points_in_0.001,osm_catering_points_in_0.005,osm_catering_points_in_0.0075,osm_catering_points_in_0.01,osm_city_closest_dist,osm_city_nearest_name,osm_city_nearest_population,osm_crossing_closest_dist,osm_crossing_points_in_0.001,osm_crossing_points_in_0.005,osm_crossing_points_in_0.0075,osm_crossing_points_in_0.01,osm_culture_points_in_0.001,osm_culture_points_in_0.005,osm_culture_points_in_0.0075,osm_culture_points_in_0.01,osm_finance_points_in_0.001,osm_finance_points_in_0.005,osm_finance_points_in_0.0075,osm_finance_points_in_0.01,osm_healthcare_points_in_0.005,osm_healthcare_points_in_0.0075,osm_healthcare_points_in_0.01,osm_historic_points_in_0.005,osm_historic_points_in_0.0075,osm_historic_points_in_0.01,osm_hotels_points_in_0.005,osm_hotels_points_in_0.0075,osm_hotels_points_in_0.01,osm_leisure_points_in_0.005,osm_leisure_points_in_0.0075,osm_leisure_points_in_0.01,osm_offices_points_in_0.001,osm_offices_points_in_0.005,osm_offices_points_in_0.0075,osm_offices_points_in_0.01,osm_shops_points_in_0.001,...,osm_train_stop_points_in_0.005,osm_train_stop_points_in_0.0075,osm_train_stop_points_in_0.01,osm_transport_stop_closest_dist,osm_transport_stop_points_in_0.005,osm_transport_stop_points_in_0.0075,osm_transport_stop_points_in_0.01,per_square_meter_price,reform_count_of_houses_1000,reform_count_of_houses_500,reform_house_population_1000,reform_house_population_500,reform_mean_floor_count_1000,reform_mean_floor_count_500,reform_mean_year_building_1000,reform_mean_year_building_500,region,total_square,street,date,realty_type,price_type,Доля городского населения в общей численности,Оборот малых предприятий (без микропредприятий),Оборот малых предприятий (включая микропредприятия),Оборот микропредприятий,Оборот средних организаций,"Объем выручки от продажи товаров, продукции, работ, услуг",Отгруженные товары собственного производства в рублях,Отгружено товаров собственного производства малыми предприятиями (включая микропредприятия),Продано товаров несобственного производства микропредприятиями,"Домохозяйства, проживающие в городской местности","Домохозяйства, проживающие в сельской местности","Реальные денежные доходы населения по субъектам Российской Федерации, в % к соответствующему периоду",Среднедушевые денежные доходы населения,Средняя численность работников малых предприятий (без микропредприятий),Средняя численность работников микропредприятий,Оплата труда,Доходы от предпринимательской деятельности,Социальные выплаты,Доходы от собственности,Прочие денежные поступления,Денежные доходы в расчете на душу населения,Место в Российской Федерации,Численность безработных в возрасте 15-72 лет,Численность занятых в возрасте 15-72 лет,Численность постоянного населения,Численность индивидуальных предпринимателей,Число выбывших из региона,Число прибывших в регион
0,Пермь,,COL_0,57.998207,56.292797,4,19,35,52,0,0,0,0,0,2,4,6,3.293470,Пермь,1055397.0,0.027732,3,6,17,34,0,0,1,1,0,0,1,2,2,3,4,0,0,1,0,0,0,0,1,2,0,1,2,4,4,...,0,0,0,0.002864,4,13,21,139937.500000,136,49,2503.0,765.0,5.762963,5.530612,1964.118519,1960.959184,пермский край,32.000000,S27289,2020-01-05,10,0,75.90,3.660218e+08,7.400123e+08,3.622188e+08,102.637486,3.717217e+08,1.886904e+08,3.543473e+08,1.735284e+08,30971.7,21563.2,94.3,29937.0,92040.0,87700.0,55.2,6.8,20.5,3.7,13.8,29937.0,33.0,70.496,1159.579,2605030.0,46281.0,42259.0,38872.0
1,Шатура,,COL_1,55.574284,39.543835,3,24,37,59,0,0,0,1,0,2,2,6,43.950989,Орехово-Зуево,120184.0,0.089441,0,31,50,57,0,1,2,3,0,0,1,2,1,1,3,2,4,6,2,2,2,1,1,2,0,1,2,3,1,...,0,0,0,0.154661,4,10,11,60410.714286,146,37,1336.0,514.0,2.894366,3.527778,1952.321678,1957.222222,московская область,280.000000,S17052,2020-01-05,10,0,81.40,1.733147e+09,2.907394e+09,9.222480e+08,662.932350,8.455883e+08,4.387859e+08,1.338049e+09,4.834621e+08,37362.5,20252.7,96.7,46519.0,330696.0,291026.0,52.7,4.5,13.7,5.0,24.1,46519.0,10.0,149.592,3997.307,7645255.0,173543.0,198600.0,212965.0
2,Ярославль,,COL_2,57.619140,39.850525,1,30,67,128,0,0,1,1,0,3,6,11,2.676293,Ярославль,603961.0,0.200995,0,15,29,53,0,1,2,2,0,0,5,9,0,1,3,0,0,0,0,0,1,2,3,6,0,1,6,9,1,...,0,0,0,0.118275,9,13,21,45164.761264,105,27,1883.0,573.0,6.141414,7.222222,1968.150000,1973.370370,ярославская область,297.400000,S16913,2020-01-05,110,0,81.59,1.740164e+08,3.936030e+08,2.151468e+08,81.713023,1.178024e+08,9.943480e+07,1.865519e+08,1.157120e+08,23984.0,16690.7,98.1,29475.0,47056.0,46124.0,58.1,5.9,24.0,5.8,6.2,29475.0,37.0,47.400,601.018,1256501.0,25012.0,20454.0,18493.0
3,Новокузнецк,,COL_3,53.897083,87.108604,0,0,5,21,0,0,0,1,0,0,1,4,15.618563,Новокузнецк,552105.0,0.861400,0,0,0,5,0,0,0,0,0,0,0,1,0,0,3,0,0,1,0,0,0,0,0,1,0,0,0,0,0,...,0,0,0,1.036523,0,0,3,28805.263158,75,2,1801.0,54.0,8.581081,9.000000,1992.716216,2014.000000,кемеровская область,190.000000,S10148,2020-01-05,110,0,86.10,1.889480e+08,4.451932e+08,2.223654e+08,72.355500,1.317046e+08,1.033081e+08,2.206517e+08,1.190573e+08,24062.0,17608.2,96.9,25109.0,77835.3,70982.0,62.8,5.4,26.7,4.0,1.1,25109.0,64.0,85.429,1189.287,2666055.0,37410.0,47872.0,43050.0
4,Москва,,COL_4,55.802590,37.487110,1,23,64,153,0,1,1,1,0,8,14,26,9.995325,Химки,232066.0,0.236744,0,14,40,78,0,0,0,0,0,0,3,9,2,7,14,0,2,2,1,1,3,3,4,9,0,8,8,12,0,...,0,0,0,0.235032,10,32,62,13222.591362,144,38,3090.0,619.0,7.263889,5.684211,1963.229167,1960.500000,москва,60.200000,S1338,2020-01-05,10,0,98.40,6.726516e+09,1.456985e+10,5.493274e+09,1385.164052,1.824682e+09,2.155895e+09,4.441715e+09,3.337379e+09,45124.0,22838.6,98.0,75655.0,901420.0,690810.0,67.9,4.2,12.4,10.2,5.3,75655.0,4.0,191.613,7110.205,12646679.0,261561.0,194724.0,203800.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
279787,Томск,1.0,COL_280111,56.459183,84.979334,2,33,111,222,0,0,1,1,1,9,24,45,3.614641,Томск,576624.0,0.116917,0,13,32,62,0,1,1,2,0,1,3,8,0,2,4,1,2,6,2,4,6,1,3,14,0,0,1,6,0,...,0,0,0,0.309002,5,20,37,54278.287605,198,62,3008.0,979.0,5.714286,5.882353,1972.260870,1973.460000,томская область,358.320073,S11114,2020-08-23,10,1,72.40,1.254977e+08,2.763814e+08,1.182581e+08,35.382334,7.667498e+07,5.930382e+07,1.226692e+08,5.895428e+07,32367.8,27048.8,97.5,28786.0,35846.0,34962.0,64.3,7.3,23.2,3.5,1.7,28786.0,42.0,46.418,490.152,1078355.0,16459.0,20437.0,14152.0
279788,Санкт-Петербург,1.0,COL_280479,59.936954,30.356383,10,274,718,1340,0,2,5,16,2,96,282,497,2.063594,Санкт-Петербург,5381736.0,0.110570,0,24,89,182,0,18,38,62,0,6,26,43,13,34,57,5,19,36,27,84,141,9,22,40,2,23,86,178,5,...,0,0,0,0.204208,7,38,73,595298.017731,410,80,7661.0,1659.0,4.719388,4.706667,1876.994898,1873.186667,санкт-петербург,119.637556,S28440,2020-08-23,110,1,100.00,2.131487e+09,4.478088e+09,2.284972e+09,525.692514,5.143070e+08,9.415760e+08,1.874723e+09,1.343396e+09,43354.2,22838.6,99.4,48401.0,381368.0,369053.0,65.0,6.3,16.2,10.0,2.5,48401.0,9.0,89.999,3001.243,5390977.0,95757.0,163217.0,164243.0
279789,Калининград,3.0,COL_280518,54.729233,20.514968,0,12,34,84,0,2,2,2,0,2,6,22,2.126417,Калининград,453461.0,0.108723,1,14,27,55,0,0,1,1,0,0,0,3,0,1,2,5,5,5,0,2,5,0,1,3,0,3,5,9,0,...,0,0,0,0.092370,11,14,31,35758.847259,136,37,1225.0,460.0,3.950413,4.885714,1964.258333,1970.571429,калининградская область,312.789725,S6671,2020-08-23,10,1,77.70,1.782901e+08,4.383557e+08,2.442960e+08,52.732094,7.751784e+07,1.154824e+08,2.256670e+08,1.288137e+08,24852.0,17861.2,96.9,28852.0,44782.0,73859.0,58.2,11.1,21.6,6.9,2.2,28852.0,41.0,31.260,498.091,1007349.0,16721.0,22340.0,30048.0
279790,Кемерово,1.0,COL_280529,55.360680,86.081460,5,57,100,134,0,0,0,0,1,16,32,41,0.844577,Кемерово,558662.0,0.341931,0,10,12,20,1,3,5,7,1,4,6,7,1,3,3,1,7,9,0,0,1,1,4,7,0,2,9,12,1,...,0,0,0,0.385545,3,14,18,38755.038322,94,24,1649.0,429.0,4.691489,4.125000,1957.425532,1954.625000,кемеровская область,89.201305,S17667,2020-08-23,110,1,86.10,1.889480e+08,4.451932e+08,2.223654e+08,72.355500,1.317046e+08,1.033081e+08,2.206517e+08,1.190573e+08,24062.0,17608.2,96.9,25109.0,77835.3,70982.0,62.8,5.4,26.7,4.0,1.1,25109.0,64.0,85.429,1189.287,2666055.0,37410.0,47872.0,43050.0
