In [7]:
import numpy as np

from doublegis_api.api import Api2Gis

api = Api2Gis()
api.load()
api.describe()

Регион: Санкт-Петербург
Количество рубрик: 27
Количество смежных рубрик: 1330
Количество станций метро: 66
Количество зданий: 52546
Количество организаций: 108780
Количество филиалов: 164580


In [159]:
from IPython.display import display, HTML
import pandas as pd

print('Общее количество категорий: {0}'.format(len(api.rubrics)))
print('Общее количество подкатегорий: {0}'.format(len(api.sub_rubrics)))
categories_df = pd.DataFrame([{'Имя категории': category.name,
                               'Количество подкатегорий': len(list(filter(lambda x: x.main_rubric_id == category.id, 
                                                                          api.sub_rubrics)))} 
                              for category in api.rubrics])
display(categories_df)

print('Краткая статистика:')
display(categories_df.describe())

Общее количество категорий: 27
Общее количество подкатегорий: 1330


Unnamed: 0,Имя категории,Количество подкатегорий
0,Город / Власть,54
1,Досуг / Развлечения / Общественное питание,68
2,Компьютеры / Бытовая техника / Офисная техника,23
3,Культура / Искусство / Религия,28
4,Медицина / Здоровье / Красота,133
5,Образование / Работа / Карьера,68
6,Реклама / Полиграфия / СМИ,58
7,Спорт / Отдых / Туризм,61
8,Строительство / Недвижимость / Ремонт,90
9,Коммунальные / бытовые / ритуальные услуги,46


Краткая статистика:


Unnamed: 0,Количество подкатегорий
count,27.0
mean,49.259259
std,28.67402
min,11.0
25%,27.0
50%,46.0
75%,66.0
max,133.0


In [249]:
from bokeh.io import output_notebook, show
from bokeh.plotting import figure

In [250]:
output_notebook()

In [314]:
# Популярность категорий

from bokeh.charts import Donut, show, output_file
from bokeh.charts.utils import df_from_json
from bokeh.palettes import *

cats = {}
for o in api.organizations:
    for rubric in o.main_rubrics['doublegis_rubrics_ids']:
        if rubric in cats.keys():
            cats[rubric] += 1
        else:
            cats[rubric] = 1

data = list(map(lambda item: (next((r.name for r in api.rubrics 
                               if r.id == item[0]), item[0]), item[1]), 
                cats.items()))

d = Donut(pd.DataFrame(data, columns=['name', 'cnt']).sort_values(by="cnt", ascending=False), 
          label='name',
          values='cnt',
          color=d3['Category20c'][20],
          text_font_size='8pt',
          hover_text='Количество организаций',
          plot_width=800, plot_height=800)
show(d)

In [375]:
# Топ 10 самых популярных категорий
from functools import reduce

top_count = 10
print('Категории по количеству филиалов. Топ 10 самых популярных категорий')
d = Donut(pd.DataFrame(data, columns=['name', 'cnt']).sort_values(by="cnt", ascending=False)[:top_count], 
          label='name',
          values='cnt',
          color=d3['Category20c'][20],
          text_font_size='8pt',
          hover_text='Количество организаций',
          plot_width=800, plot_height=800)
show(d)

Категории по количеству филиалов. Топ 10 самых популярных категорий


In [291]:
# Топ 10 самых непопулярных категорий

top_count = 10
print('Категории по количеству филиалов. Топ 10 самых непопулярных категорий')
d = Donut(pd.DataFrame(data, columns=['name', 'cnt']).sort_values(by="cnt", ascending=False)[len(data) - top_count:], 
          label='name',
          values='cnt',
          color=d3['Category20c'][20],
          text_font_size='8pt',
          hover_text='Количество организаций',
          plot_width=800, plot_height=800)
show(d)

Категории по количеству филиалов. Топ 10 самых непопулярных категорий


In [377]:
from IPython.display import display, HTML
import pandas as pd

print('Выбираем категорию для исследования')
categories_df = pd.DataFrame([{'Имя категории': category.name, 'Идентификатор': category.id} 
                              for category in api.rubrics])
display(categories_df)

selected_category_id = 5348144816586755	
selected_category = next((c for c in api.rubrics if c.id == selected_category_id), None)
assert selected_category is not None

Выбираем категорию для исследования


Unnamed: 0,Идентификатор,Имя категории
0,5348144816586753,Город / Власть
1,5348144816586754,Досуг / Развлечения / Общественное питание
2,5348144816586755,Компьютеры / Бытовая техника / Офисная техника
3,5348144816586756,Культура / Искусство / Религия
4,5348144816586757,Медицина / Здоровье / Красота
5,5348144816586758,Образование / Работа / Карьера
6,5348144816586759,Реклама / Полиграфия / СМИ
7,5348144816586760,Спорт / Отдых / Туризм
8,5348144816586761,Строительство / Недвижимость / Ремонт
9,5348144816586762,Коммунальные / бытовые / ритуальные услуги


In [378]:
print('Выбранная категория: {0}'.format(selected_category.name))

Выбранная категория: Компьютеры / Бытовая техника / Офисная техника


In [379]:
from utility.ipython_utility import log_progress

category_organizations = list(filter(lambda x: selected_category_id in x.main_rubrics['doublegis_rubrics_ids'], 
                                     api.organizations))
org_by_fil = {o: list(filter(lambda x: x.organization_id == o.id, api.filials))
              for o in log_progress(category_organizations)}

org_id_by_fil = {o.id: fils for o, fils in org_by_fil.items()}
org_name_by_fil_count = [(o.name, len(fils)) for o, fils in org_by_fil.items()]

In [380]:
top_filials_count = 10 
print('Самые крупные организации для выбранной категории (по количеству точек)')
d = Donut(pd.DataFrame(org_name_by_fil_count, 
                       columns=['name', 'cnt']).sort_values(by="cnt", ascending=False)[:top_filials_count], 
          label='name',
          values='cnt',
          color=d3['Category20c'][20],
          text_font_size='8pt',
          hover_text='Количество организаций',
          plot_width=800, plot_height=800)
show(d)

Самые крупные организации для выбранной категории (по количеству точек)


In [388]:
display(pd.DataFrame(
[[org.name, org.id, [f.doublegis_id for f in fils], len(fils)] for org, fils in org_by_fil.items()],
    columns=['Имя организации', 'Идентификатор организации', 'Идентификаторы филиалов', 'cnt']
).sort_values(by='cnt', ascending=False))

Unnamed: 0,Имя организации,Идентификатор организации,Идентификаторы филиалов,cnt
172,"Связной, сеть салонов связи",5348561428439493,"[5348552838532754, 5348552838532757, 534855283...",132
3117,"OZON.ru, интернет-гипермаркет",5348561428479700,"[5348552838595989, 5348552840022412, 534855383...",119
738,"Евросеть, сеть салонов связи",5348561428440977,"[5348552838535307, 5348552838535308, 534855283...",105
2960,"Юлмарт, интернет-ретейлер",5348561428585797,"[5348552838743497, 5348552839151945, 534855283...",60
601,"Яркий фотомаркет, сеть розничных магазинов",5348561428538948,"[5348552838686437, 5348552838686439, 534855283...",32
2294,"StatusCom, сервисный центр",70000001018279647,"[70000001018385798, 70000001018385801, 7000000...",31
3215,"Заправком, сеть центров по заправке картриджей...",5348561428848573,"[5348552839905041, 5348553838531189, 534855383...",28
361,"DNS, сеть магазинов цифровой и бытовой техники",5348562528543646,"[5348552839642313, 5348552839642315, 534855283...",28
29,"Zapravka911, единый сервисный центр",70000001019035725,"[70000001019035726, 70000001019055399, 7000000...",25
336,"REDMOND smart home, сеть фирменных магазинов",5348561428464466,"[5348552838571500, 5348553838682728, 534855383...",24


In [389]:
choosed_organization_id = 5348561428439493
chossen = next(((org, fils) for org, fils in org_by_fil.items() if org.id == choosed_organization_id), None)
assert chossen is not None

In [390]:
from bokeh.io import output_file, show
from bokeh.models import (
  GMapPlot, GMapOptions, ColumnDataSource, Circle, DataRange1d, PanTool, WheelZoomTool, BoxSelectTool
)

map_options = GMapOptions(lat=chossen[1][0].latitude, lng=chossen[1][0].longitude, map_type="roadmap", zoom=8)

plot = GMapPlot(
    x_range=DataRange1d(), y_range=DataRange1d(), map_options=map_options, 
    api_key="AIzaSyBuxMITaYvWXhQWd933PPrUppGUzwdxXrE",
    plot_width=900, plot_height=900
)
plot.title.text = chossen[0].name

source = ColumnDataSource(
    data=dict(
        lat=[f.latitude for f in chossen[1]],
        lon=[f.longitude for f in chossen[1]],
        fill=['red' if f.closed_at_json['2gis_removed_at'] != '' else 'green' for f in chossen[1]]
    )
)

circle = Circle(x="lon", y="lat", size=10, fill_color="fill", fill_alpha=0.8, line_color=None)
plot.add_glyph(source, circle)

plot.add_tools(PanTool(), WheelZoomTool(), BoxSelectTool())
output_file("gmap_plot.html")
show(plot)