In [244]:
import pandas as pd
from glob import glob
import matplotlib.pyplot as plt
from geopy import geocoders
import time
from datetime import datetime
import numpy as np

## 1. Поиск данных
В течении получаса web-серфинга удалось собрать данные о локациях объектов наиболее крупных сетевых комппаний в РФ сегменте retail и доставка

In [362]:
# загрузить данные из различных источников - разнородные excel таблицы
# сети: X5, магнит, дикси, почта россии, сбербанк
sorted(glob('./data/nets/*'))

['./data/nets/10_Красное и Белое.xlsx',
 './data/nets/11_магнит_.xlsx',
 './data/nets/1_sber_atm.xlsx',
 './data/nets/3_boxberry_pvz.xlsx',
 './data/nets/4_SDEK.xlsx',
 './data/nets/5_ozon_.xlsx',
 './data/nets/6_pickpoint.xls',
 './data/nets/7_iml.xlsx',
 './data/nets/8_Х5_Ритейл_Групп.xlsx',
 './data/nets/9_Дикси.xlsx',
 './data/nets/all_data.csv',
 './data/nets/geografiia_i_tarify_ozon_.xlsx',
 './data/nets/ops_data.csv',
 './data/nets/retail',
 './data/nets/sber_office.xls',
 './data/nets/x5_points.csv']

## 2. Создадим датафреймы для каждой из сетей

In [None]:
#1 X5
x5 = pd.read_csv('./data/nets/x5_points.csv', index_col=0)
#2 magnit
magnit = pd.read_excel('./data/nets/11_магнит_.xlsx')
#3 russian post
pr_all = pd.read_csv('./data/nets/all_data.csv', index_col=0)
#4 boxbery
boxberry = pd.read_excel('./data/nets/3_boxberry_pvz.xlsx')
#5 sberbank and sberbank_office
sber_atm = pd.read_excel('./data/nets/1_sber_atm.xlsx')
sber_office = pd.read_excel('./data/nets/sber_office.xls', header=1)
#6 diksi
diksi = pd.read_excel('./data/nets/9_Дикси.xlsx')
#7 krasnoe & beloe
kb = pd.read_excel('./data/nets/10_Красное и Белое.xlsx')
#8 pickpoint
pickpoint = pd.read_excel('./data/nets/6_pickpoint.xls')

data_frames = [x5, magnit, pr_all, boxberry, sber_atm, sber_office, diksi, kb, pickpoint]

## 3. Изучения структуры иходных данных
Посмотрим какая информация храниться в исходных таблицах, для этого выведем написать первые строки каждой таблицы

In [187]:
for frame in data_frames:
    print(frame.iloc[0], '\n')

Код SAP ТТ                                                     3000
Адрес             623462, Свердловская обл, Каменский р-н, Мартю...
Город                                                    пгт.мартюш
Регион                                            Свердловская обл.
Код SAP РЦ                                                      241
РЦ отправитель                           РЦ Кольцово (Екатеринбург)
Срок дней                                                         6
Частота                                                           6
Тарифная зона                                                     7
Дшка NEW                                                    D5 - D6
График работы                                           08:00-23:00
Касса                                                           NaN
Постамат Халва                                                  NaN
lat                                                         56.4006
lng                                             

## 4. Выделение общей структуры информации
Проанализировав структуру информации в каждой из таблиц были выделены сущности встречающиеся в большинстве таблиц. Далее приведем каждую из таблиц к "нормальной" форме для дальнейшего объединения.

In [104]:
# чистка и формирование единного датасета
mask = ['idx', 'idx_upper_obj', 'post_index', 'adress', 'lat', 'lng', 
        'name', 'upper_obj_name', 'region', 'macro_region', 'obj_type', 'net_name', 'info']

In [23]:
norm_x5 = pd.DataFrame(columns=mask)

norm_x5['idx'] = x5['Код SAP ТТ']
norm_x5['idx_upper_obj'] = x5['Код SAP РЦ']
norm_x5['post_index'] = x5['idx']
norm_x5['adress'] = x5['adress']
norm_x5['lat'] = x5['lat']
norm_x5['lng'] = x5['lng']
norm_x5['upper_obj_name'] = x5['РЦ отправитель']
norm_x5['region'] = x5['Регион']
norm_x5['obj_type'] = 'магазин'
norm_x5['net_name'] = 'x5'
norm_x5['info'] = x5['График работы']
norm_x5.to_csv('./data/clean_data/1_norm_x5.csv')

In [136]:
norm_magnit = pd.DataFrame(columns=mask)

norm_magnit['idx'] = magnit['Код ТТ']
norm_magnit['post_index'] = magnit['Адрес'].str.split(',').str.get(0)
norm_magnit['adress'] = magnit['Адрес']
norm_magnit['lat'] = magnit['LATITUDE']
norm_magnit['lng'] = magnit['LONGITUDE']
norm_magnit['name'] = magnit['Название ТТ']
norm_magnit['region'] = magnit['Филиал']
norm_magnit['macro_region'] = magnit['Регион']
norm_magnit['obj_type'] = 'магазин'
norm_magnit['net_name'] = 'magnit'
norm_magnit['info'] = magnit['Ссылка на объект']

norm_magnit.to_csv('./data/clean_data/2_norm_magnit.csv')

In [138]:
norm_rp = pd.DataFrame(columns=mask)

norm_rp['idx'] = pr_all['Индекс']
norm_rp['idx_upper_obj'] = pr_all['Индекс вышестоящего объекта']
norm_rp['post_index'] = pr_all['Индекс']
norm_rp['adress'] = pr_all['Адрес объекта']
norm_rp['lat'] = pr_all['lat']
norm_rp['lng'] = pr_all['lng']
norm_rp['name'] = pr_all['Наименование ОПС']
norm_rp['upper_obj_name'] = pr_all['Наименование Почтамта']
norm_rp['region'] = pr_all['Наименование УФПС']
norm_rp['macro_region'] = pr_all['Макрорегион']
norm_rp['obj_type'] = pr_all['Тип ОПС']
norm_rp['net_name'] = 'russian_post'
norm_rp['info'] = pr_all['Численность населения, проживающего в зоне обслуживания, чел.']
norm_rp.dropna(subset=['lat', 'lng', 'idx'], inplace=True)

norm_rp.to_csv('./data/clean_data/3_norm_rp.csv')

In [133]:
norm_boxberry = pd.DataFrame(columns=mask)

norm_boxberry['idx'] = boxberry['Наименование']
norm_boxberry['post_index'] = boxberry['Адрес'].str.split(',').str.get(0)
norm_boxberry['adress'] = boxberry['Адрес']
norm_boxberry['lat'] = boxberry['Координаты'].str.split(',').str.get(0)
norm_boxberry['lng'] = boxberry['Координаты'].str.split(',').str.get(1)
norm_boxberry['name'] = boxberry['Наименование']
norm_boxberry['region'] = boxberry['Область']
norm_boxberry['obj_type'] = boxberry['Тип грузоподьемности отделения']
norm_boxberry['net_name'] = 'boxberry'
norm_boxberry['info'] = boxberry['График работы']

norm_boxberry.to_csv('./data/clean_data/4_norm_boxberry.csv')

In [107]:
sber_atm = sber_atm.fillna('')
addr_cols = ['Субъект федерации', 'Название субъекта федерации', 'Регион', 'Название региона',
       'Населенный пункт', 'Название населенного пункта',
       'Район населенного пункта', 'Название района нас. пункта', 'Улица',
       'Название улицы', 'Дом', 'Номер дома', 'Строение', 'Номер строения']
sber_atm['adress'] = ''
for name in addr_cols:
    sber_atm['adress'] += sber_atm[name] + ' '

norm_sber = pd.DataFrame(columns=mask)
norm_sber['idx'] = sber_atm['Идентификационный номер УС']
norm_sber['post_index'] = sber_atm['Тип УС']
norm_sber['adress'] = sber_atm['adress']
norm_sber['net_name'] = 'sber_atm'
norm_sber['region'] = sber_atm['Название субъекта федерации']
norm_sber.to_csv('./data/clean_data/5_norm_sber.csv')

In [170]:
sber_office = sber_office.fillna('')

addr_cols = ['Субъект РФ', 'Населенный пункт',
       'Наименование улицы', 'Номер дома', 'Доп.информация по адресу']
sber_office['adress'] = ''
for name in addr_cols:
    sber_office['adress'] += sber_office[name] + ' '
    
norm_sber_office = pd.DataFrame(columns=mask)

norm_sber_office['idx'] = sber_office['Код подразделения']
norm_sber_office['post_index'] = sber_office['Почтовый индекс']
norm_sber_office['adress'] = sber_office['adress']
norm_sber_office['name'] = sber_office['Наименование подразделения']
norm_sber_office['region'] = sber_office['Субъект РФ']
norm_sber_office['obj_type'] = 'отделение'
norm_sber_office['net_name'] = 'sber_office'
norm_sber_office['info'] = sber_office['Режим работы'].str.replace('\n', '') \
                            + sber_office['Время работы'].str.replace('\n',' ')

norm_sber_office.to_csv('./data/clean_data/5_norm_sber_office.csv')

In [122]:
norm_diksi = pd.DataFrame(columns=mask)
norm_diksi['idx'] = diksi['GLN']
norm_diksi['post_index'] = diksi['Индекс']
norm_diksi['name'] = diksi['Название']
norm_diksi['adress'] = diksi['Город'] + ' ' + diksi['Адрес']
norm_diksi['info'] = diksi['ИНН']
norm_diksi['region'] = diksi['Код региона']
norm_diksi['net_name'] = 'diksi'

norm_diksi.to_csv('./data/clean_data/6_norm_diksi.csv')

In [368]:
kb.dropna(subset=['Адрес'], inplace=True)
kb.reset_index(drop=True, inplace=True)

norm_kb = pd.DataFrame(columns=mask)
norm_kb['idx'] = kb['GLN']
norm_kb['post_index'] = kb['Индекс']
norm_kb['name'] = kb['Название']
norm_kb['adress'] = kb['Город'] + ' ' + kb['Адрес']
norm_kb['info'] = kb['ИНН']
norm_kb['region'] = kb['Код региона']
norm_kb['net_name'] = 'kb'

norm_kb.to_csv('./data/clean_data/7_norm_kb.csv')

In [184]:
norm_pickpoint = pd.DataFrame(columns=mask)
norm_pickpoint['idx'] = pickpoint['ID точки']
norm_pickpoint['post_index'] = pickpoint['Адрес пункта приема/выдачи'].str.split(',').str.get(0)
norm_pickpoint['name'] = pickpoint['Название пункта приема/выдачи']
norm_pickpoint['adress'] = pickpoint['Область'] +' '\
                         + pickpoint['Город'] + ' ' \
                         + pickpoint['Адрес пункта приема/выдачи'] 
norm_pickpoint['info'] = pickpoint['Время работы']
norm_pickpoint['region'] = pickpoint['Область']
norm_pickpoint['net_name'] = 'pickpoint'
norm_pickpoint['obj_type'] = pickpoint['Тип Пункта']

norm_pickpoint.to_csv('./data/clean_data/8_norm_pickpoint.csv')

## 5. Геокодинг
Не во всех таблицах имеется информация о географических координатах объектов, но почти у всех есть адресная информация объекта, поэтому для полноты данных проведем геокодинг по адресу объекта. Для этого воспользуемся библиотекой geopy

In [318]:
# геокодинг (при отсутствии координат)
def get_coord(name, geocoder='mapquest'):
    
    if geocoder == 'mapquest':
        geolocator = geocoders.openmapquest.OpenMapQuest(api_key='VaaZ5mcsUyUd1beGrE0oyO6LGAAKuaRh')
        #spw1yAij6vRorH2u4fiM35QgQbdj3sC1
        #VaaZ5mcsUyUd1beGrE0oyO6LGAAKuaRh
    if geocoder == 'yandex':
        geolocator = geocoders.Yandex(api_key='878aed93-6959-43b5-969f-86a30a86f59f')
    
    
    #time.sleep(2)
    try:
        location = geolocator.geocode(name)
    except Exception as e:
        print(e)
        return None, None, None 
    if (location != None):
        return location.latitude, location.longitude, location.address
    else:
        return None, None, None

In [391]:
# geocode sberbank office
norm_sber_office['norm_adress'] = np.nan

norm_sber_office[['lat', 'lng', 'norm_adress']] = \
                            norm_sber_office.adress.apply(lambda row: pd.Series(get_coord(row)))

%%time
norm_sber_office[['lat', 'lng', 'norm_adress']] = \
 norm_sber_office.apply(lambda row: pd.Series(get_coord(row['adress'], geocoder='yandex')) \
            if np.isnan(row['lat']) \
            else pd.Series((row['lat'], row['lng'], row['norm_adress'])) , axis=1)


norm_sber_office['adress'] = norm_sber_office.apply(lambda row: row['adress'] \
                                                    if pd.isna(row['norm_adress']) \
                                                    else row['norm_adress'], axis=1)


norm_sber_office = norm_sber_office[['idx', 'idx_upper_obj', 'post_index', 'adress', 'lat', 'lng', 'name',
       'upper_obj_name', 'region', 'macro_region', 'obj_type', 'net_name', 'info']]

norm_sber_office.to_csv('./data/clean_data/norm_sber__office' \
                        + datetime.today().strftime('%Y-%m-%d %H:%M') + '.csv')

In [334]:
%%time
# geocode pickpoint
norm_pickpoint['norm_adress'] = np.nan

norm_pickpoint[['lat', 'lng', 'norm_adress']] = \
 norm_pickpoint.apply(lambda row: pd.Series(get_coord(row['adress'], geocoder='yandex')) \
            if np.isnan(row['lat']) \
            else pd.Series((row['lat'], row['lng'], row['norm_adress'])) , axis=1)


norm_pickpoint['adress'] = norm_pickpoint.apply(lambda row: row['adress'] \
                                                    if pd.isna(row['norm_adress']) \
                                                    else row['norm_adress'], axis=1)

norm_pickpoint = norm_pickpoint[['idx', 'idx_upper_obj', 'post_index', 'adress', 'lat', 'lng', 'name',
       'upper_obj_name', 'region', 'macro_region', 'obj_type', 'net_name', 'info']]

norm_pickpoint.to_csv('./data/clean_data/norm_pickpoint' \
                        + datetime.today().strftime('%Y-%m-%d %H:%M') + '.csv')

CPU times: user 5.1 s, sys: 111 ms, total: 5.21 s
Wall time: 45.1 s


In [349]:
%%time

# geocode diksi
norm_diksi['norm_adress'] = np.nan

norm_diksi[['lat', 'lng', 'norm_adress']] = \
 norm_diksi.apply(lambda row: pd.Series(get_coord(row['adress'], geocoder='yandex')) \
            if np.isnan(row['lat']) \
            else pd.Series((row['lat'], row['lng'], row['norm_adress'])) , axis=1)

norm_diksi['adress'] = norm_diksi.apply(lambda row: row['adress'] \
                                                    if pd.isna(row['norm_adress']) \
                                                    else row['norm_adress'], axis=1)

norm_diksi = norm_diksi[['idx', 'idx_upper_obj', 'post_index', 'adress', 'lat', 'lng', 'name',
       'upper_obj_name', 'region', 'macro_region', 'obj_type', 'net_name', 'info']]

norm_diksi.to_csv('./data/clean_data/norm_diksi' \
                        + datetime.today().strftime('%Y-%m-%d %H:%M') + '.csv')

Service timed out
CPU times: user 3.53 s, sys: 68.9 ms, total: 3.6 s
Wall time: 38.7 s


In [374]:
%%time

# geocode krasnoe and beloe
norm_kb['norm_adress'] = np.nan

norm_kb[['lat', 'lng', 'norm_adress']] = \
 norm_kb.apply(lambda row: pd.Series(get_coord(row['adress'], geocoder='yandex')) \
            if np.isnan(row['lat']) \
            else pd.Series((row['lat'], row['lng'], row['norm_adress'])) , axis=1)

norm_kb['adress'] = norm_kb.apply(lambda row: row['adress'] \
                                                    if pd.isna(row['norm_adress']) \
                                                    else row['norm_adress'], axis=1)

norm_kb = norm_kb[['idx', 'idx_upper_obj', 'post_index', 'adress', 'lat', 'lng', 'name',
       'upper_obj_name', 'region', 'macro_region', 'obj_type', 'net_name', 'info']]

norm_kb.to_csv('./data/clean_data/norm_kb' \
                        + datetime.today().strftime('%Y-%m-%d %H:%M') + '.csv')

Service timed out
Service timed out
Service timed out
Service timed out
Service timed out
Service timed out
Service timed out
Service timed out
Service timed out
Service timed out
Service timed out
Service timed out
Service timed out
Service timed out
Service timed out
Service timed out
Service not available
Service timed out
Service timed out
Service timed out
Service timed out
Service timed out
Service timed out
Service timed out
Service timed out
Service timed out
Service not available
Service not available
Service timed out
Service timed out
Service not available
Service not available
Service not available
Service timed out
Service timed out
Service not available
Service timed out
CPU times: user 2min 26s, sys: 6.77 s, total: 2min 33s
Wall time: 38min 49s


## 6. Объединение данных
Объеденим все таблицы в единный файл для проведения дальнешего анализа

In [382]:
norm_data_frames = [norm_x5, norm_magnit, norm_rp, norm_boxberry, \
                    norm_sber, norm_sber_office, norm_diksi, norm_kb, norm_pickpoint]

In [383]:
all_points = pd.concat(norm_data_frames, ignore_index=True, sort=False)


In [384]:
all_points.dropna(subset=['adress', 'lat', 'lng', 'upper_obj_name'], how='all', inplace=True)
all_points.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 178736 entries, 0 to 178735
Data columns (total 13 columns):
idx               178736 non-null object
idx_upper_obj     57574 non-null object
post_index        176646 non-null object
adress            178719 non-null object
lat               107273 non-null object
lng               107273 non-null object
name              93974 non-null object
upper_obj_name    55781 non-null object
region            177992 non-null object
macro_region      62544 non-null object
obj_type          98242 non-null object
info              104239 non-null object
net_name          178736 non-null object
dtypes: object(13)
memory usage: 19.1+ MB


In [385]:
all_points.to_csv('./data/clean_data/all_points_' + datetime.today().strftime('%Y-%m-%d %H:%M') + '.csv')

In [387]:
all_points[all_points.lat.isna()].net_name.unique()

array(['x5', 'sber_atm', 'sber_office', 'diksi', 'kb'], dtype=object)

In [390]:
all_points.region.nunique()

500

In [396]:
all_points.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 178736 entries, 0 to 178735
Data columns (total 13 columns):
idx               178736 non-null object
idx_upper_obj     57574 non-null object
post_index        176646 non-null object
adress            178719 non-null object
lat               107273 non-null object
lng               107273 non-null object
name              93974 non-null object
upper_obj_name    55781 non-null object
region            177992 non-null object
macro_region      62544 non-null object
obj_type          98242 non-null object
info              104239 non-null object
net_name          178736 non-null object
dtypes: object(13)
memory usage: 19.1+ MB


In [None]:
# обогащение данных:
# парсинг циан - стоимость недвижимости в районе, количество предложений
# население ??? 