# <center>Часть 2. Работа с геоданными, визуализация
# <center>библиотека bokeh

### 2.1. Загрузим агрегированные данные о поездках в мае 2016.   
Просуммируем общее количество поездок такси из каждой географической зоны и посчитаем количество ячеек, из которых в мае не было совершено ни одной поездки.

In [1]:
import pandas as pd
import numpy as np
import os

In [2]:
path_to_data = 'C:\\Users\dsher\Documents\BIGDATA\sales_prediction_(yellow_taxi)'

In [3]:
# функция для загрузки агрегированных данных
def read_aggdata(file_name):
    return pd.read_csv(os.path.join(path_to_data, file_name), index_col=0, parse_dates=True)

In [4]:
aggdata = read_aggdata('aggdata_2016-05.csv')

In [5]:
aggdata.head()

Unnamed: 0_level_0,1,2,3,4,5,6,7,8,9,10,...,2491,2492,2493,2494,2495,2496,2497,2498,2499,2500
tpep_pickup_datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2016-05-01 00:00:00,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2016-05-01 01:00:00,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2016-05-01 02:00:00,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2016-05-01 03:00:00,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2016-05-01 04:00:00,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [6]:
aggdata.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 744 entries, 2016-05-01 00:00:00 to 2016-05-31 23:00:00
Columns: 2500 entries, 1 to 2500
dtypes: int64(2500)
memory usage: 14.2 MB


In [7]:
number_zero_cells = aggdata.sum().value_counts()[0]
number_zero_cells

1283

### 2.2. Нарисуем статическую карту Нью-Йорка. 
Поставим на карте точку там, где находится Эмпайр-Стейт-Билдинг.

In [8]:
# For GMaps to function, Google requires you obtain and enable an API key:
# https://developers.google.com/maps/documentation/javascript/get-api-key
# Replace the value below with your personal API key

In [1]:
# from bokeh.io import output_file, show
# output_file("newyork_map.html")
from bokeh.io import show, output_notebook
output_notebook()
from bokeh.models import ColumnDataSource, GMapOptions, GMapPlot
from bokeh.models import *
from bokeh.plotting import gmap, figure

In [2]:
# границы и центр Нью-Йорка
west_bound = -74.25559
east_bound = -73.70001
south_bound = 40.49612
north_bound = 40.91553

NY_center_lat = (south_bound + north_bound)/2
NY_center_lng = (west_bound + east_bound)/2

# координаты Empire State Building
long_EMB = -73.985756
lat_EMB = 40.748306

In [3]:
GMAP_API = "AIzaSyBOrPthZJfu3cSEzHVBoE_MaEXifCKEc5w"

In [5]:
map_options = GMapOptions(lat=NY_center_lat, lng=NY_center_lng, map_type="roadmap", zoom=10)

# TOOLS="save,crosshair,pan,wheel_zoom,box_zoom,reset,box_select,lasso_select"
TOOLS = 'save'
p = gmap(GMAP_API, map_options, title="New York", tools=TOOLS)
EMB_source = ColumnDataSource(
    data=dict(lat=[lat_EMB],
              lon=[long_EMB],
              text=['Empire State Building'])
)
p.diamond(x="lon", y="lat", size=15, fill_color="red", fill_alpha=0.8, source=EMB_source)
p.text(x="lon", y="lat", text_color='red', source=EMB_source)

show(p)

### 3. Поверх статической карты Нью-Йорка визуализируем данные о поездках из каждой ячейки
Сделаем это так, чтобы цветовая шкала, в которую мы окрашиваем каждую ячейку, показывала суммарное количество поездок такси из неё.    
**Из-за большого диапазона сделаем это, для наглядности, по логарифмической шкале**

In [9]:
regions = pd.read_csv(os.path.join(path_to_data, 'regions.csv'), sep=';')
regions.head()

Unnamed: 0,region,west,east,south,north
0,1,-74.25559,-74.244478,40.49612,40.504508
1,2,-74.25559,-74.244478,40.504508,40.512896
2,3,-74.25559,-74.244478,40.512896,40.521285
3,4,-74.25559,-74.244478,40.521285,40.529673
4,5,-74.25559,-74.244478,40.529673,40.538061


добавим:   
- число поездок за весь месяц (**'rate'**)
- координаты центров ячеек

In [10]:
regions['rate'] = aggdata.sum().values
regions.head()

Unnamed: 0,region,west,east,south,north,rate,lon,lat
0,1,-74.25559,-74.244478,40.49612,40.504508,0,-74.250034,40.500314
1,2,-74.25559,-74.244478,40.504508,40.512896,0,-74.250034,40.508702
2,3,-74.25559,-74.244478,40.512896,40.521285,0,-74.250034,40.51709
3,4,-74.25559,-74.244478,40.521285,40.529673,0,-74.250034,40.525479
4,5,-74.25559,-74.244478,40.529673,40.538061,0,-74.250034,40.533867


In [35]:
from bokeh.io import show, output_notebook
output_notebook()
from bokeh.models import BasicTicker, ColorBar, ColumnDataSource, LinearColorMapper, PrintfTickFormatter, LogColorMapper
from bokeh.models.glyphs import Patches
from bokeh.models.ranges import Range1d
from bokeh.plotting import figure
from bokeh.palettes import Magma
from bokeh.transform import transform

In [16]:
# from bokeh.models import LogColorMapper, LogTicker, PrintfTickFormatter, LogTickFormatter, AdaptiveTicker
# from bokeh.models import *

In [60]:
map_options = GMapOptions(lat=NY_center_lat, lng=NY_center_lng, map_type="roadmap", zoom=10)

# TOOLS="save,crosshair,pan,wheel_zoom,box_zoom,reset,box_select,lasso_select"
TOOLS = 'save'
p = gmap(GMAP_API, map_options, title="New York (trip rate)", tools=TOOLS)
EMB_source = ColumnDataSource(
    data=dict(lat=[lat_EMB],
              lon=[long_EMB],
              text=['Empire State Building'])
)
p.diamond(x="lon", y="lat", size=15, fill_color="red", fill_alpha=0.8, source=EMB_source)
p.text(x="lon", y="lat", text_color='red', source=EMB_source)

colors = Magma[256]
mapper = LinearColorMapper(palette=colors, low=regions.rate.min(), high=regions.rate.max())


# формируем список координат для фигур (патчей), состоящих из списков отдельных фигур
xs=[[regions.west[i],  regions.east[i], regions.east[i], regions.west[i]] for i in regions.index]
ys=[[regions.south[i],  regions.south[i], regions.north[i], regions.north[i]] for i in regions.index]

regions_source = ColumnDataSource(data=dict(
                                    xs=xs,
                                    ys=ys,
                                    name=regions.index.values,
                                    rate=regions['rate'],
                                    ))
glyph = Patches(xs='xs', ys='ys', 
                  fill_color=transform('rate', mapper), 
                  fill_alpha=0.5, line_color='black', line_width=0.5, line_alpha=0.2)
# 
p.add_glyph(regions_source, glyph)

color_bar = ColorBar(color_mapper=mapper, location=(0, 0),
                     ticker=BasicTicker(desired_num_ticks=5),
                     formatter=PrintfTickFormatter(format='%f'), scale_alpha=alpha)

p.add_layout(color_bar, 'right')

# p.axis.axis_line_color = None
# p.axis.major_tick_line_color = None
# p.axis.major_label_text_font_size = "10pt"
# p.axis.major_label_standoff = 0
# p.xaxis.major_label_orientation = 1.0

show(p)

### 4.Вставим интерактивную карту Нью-Йорка
(можно прокручивать и увеличивать)   
Поставим метку там, где находится статуя свободы (**Statue of Liberty**).

In [18]:
Statue_of_Liberty_lat = 40.689170
Statue_of_Liberty_lon =  -74.044440

map_options = GMapOptions(lat=NY_center_lat, lng=NY_center_lng, map_type="roadmap", zoom=10)

TOOLS="save,crosshair,pan,wheel_zoom,box_zoom,zoom_in,zoom_out,reset,box_select,lasso_select"
# TOOLS = 'save'
p = gmap(GMAP_API, map_options, title="New York", tools=TOOLS)
Statue_source = ColumnDataSource(
    data=dict(lat=[Statue_of_Liberty_lat],
              lon=[Statue_of_Liberty_lon],
              text=['Statue of Liberty'])
)
p.diamond(x="lon", y="lat", size=15, fill_color="red", fill_alpha=0.8, source=Statue_source)
p.text(x="lon", y="lat", text_color='red', source=Statue_source)

show(p)

### 5. Нарисуем на интерактивной карте Нью-Йорка ячейки так, чтобы их цвет показывал среднее за месяц количество поездок такси в час из этой зоны.

среднее за месяц количество поездок такси в час:

In [73]:
regions['avr_rate_hour'] = regions['rate'] /31. /24.

In [80]:
Statue_of_Liberty_lat = 40.689170
Statue_of_Liberty_lon =  -74.044440

map_options = GMapOptions(lat=NY_center_lat, lng=NY_center_lng, map_type="roadmap", zoom=10)

TOOLS="save,crosshair,pan,wheel_zoom,box_zoom,zoom_in,zoom_out,reset,box_select,lasso_select"
# TOOLS = 'save'
p = gmap(GMAP_API, map_options, title="New York (average trip rate)", tools=TOOLS)
Statue_source = ColumnDataSource(
    data=dict(lat=[Statue_of_Liberty_lat],
              lon=[Statue_of_Liberty_lon],
              text=['Statue of Liberty'])
)
p.diamond(x="lon", y="lat", size=15, fill_color="red", fill_alpha=0.8, source=Statue_source)
p.text(x="lon", y="lat", text_color='red', source=Statue_source)

colors = Magma[256]
mapper = LinearColorMapper(palette=colors, low=regions.avr_rate_hour.min(), high=regions.avr_rate_hour.max())


# формируем список координат для фигур (патчей), состоящих из списков отдельных фигур
xs=[[regions.west[i],  regions.east[i], regions.east[i], regions.west[i]] for i in regions.index]
ys=[[regions.south[i],  regions.south[i], regions.north[i], regions.north[i]] for i in regions.index]

regions_source = ColumnDataSource(data=dict(
                                    xs=xs,
                                    ys=ys,
                                    name=regions.index.values,
                                    avr_rate_hour=regions['avr_rate_hour'],
                                    ))
glyph = Patches(xs='xs', ys='ys', 
                  fill_color=transform('avr_rate_hour', mapper), 
                  fill_alpha=0.5, line_color='black', line_width=0.5, line_alpha=0.2)
# 
p.add_glyph(regions_source, glyph)

color_bar = ColorBar(color_mapper=mapper, location=(0, 0),
                     ticker=BasicTicker(desired_num_ticks=5),
                     formatter=PrintfTickFormatter(format='%f'), scale_alpha=alpha)

p.add_layout(color_bar, 'right')

show(p)

### 6. Чтобы не выбирать из всех 2500 ячеек вручную: 
- отфильтруем ячейки, из которых в мае совершается в среднем меньше 5 поездок в час
- посчитаем количество оставшихся

In [64]:
regions_more_5 = regions[regions['avr_rate_hour'] >= 5]
num_more_5_trips = len(regions_more_5)
num_more_5_trips

102

- проверим на карте, что среди этих ячеек нет таких, из которых поездки на самом деле невозможны

In [82]:
Statue_of_Liberty_lat = 40.689170
Statue_of_Liberty_lon =  -74.044440

map_options = GMapOptions(lat=NY_center_lat, lng=NY_center_lng, map_type="roadmap", zoom=10)

# TOOLS="save,crosshair,pan,wheel_zoom,box_zoom,zoom_in,zoom_out,reset,box_select,lasso_select"
TOOLS = 'save,crosshair,pan,zoom_in,zoom_out,reset'
p = gmap(GMAP_API, map_options, title="New York (average trip rate more 5, log scale)", tools=TOOLS)
Statue_source = ColumnDataSource(
    data=dict(lat=[Statue_of_Liberty_lat],
              lon=[Statue_of_Liberty_lon],
              text=['Statue of Liberty'])
)
p.diamond(x="lon", y="lat", size=15, fill_color="red", fill_alpha=0.8, source=Statue_source)
p.text(x="lon", y="lat", text_color='red', source=Statue_source)

colors = Magma[256]
mapper = LinearColorMapper(palette=colors, low=regions_more_5.avr_rate_hour.min(), high=regions_more_5.avr_rate_hour.max())


# формируем список координат для фигур (патчей), состоящих из списков отдельных фигур
xs=[[regions.west[i],  regions.east[i], regions.east[i], regions.west[i]] for i in regions_more_5.index]
ys=[[regions.south[i],  regions.south[i], regions.north[i], regions.north[i]] for i in regions_more_5.index]

regions_source = ColumnDataSource(data=dict(
                                    xs=xs,
                                    ys=ys,
                                    name=regions_more_5.index.values,
                                    avr_rate_hour=regions_more_5['avr_rate_hour'],
                                    ))
glyph = Patches(xs='xs', ys='ys', 
                  fill_color=transform('avr_rate_hour', mapper), 
                  fill_alpha=0.5, line_color='black', line_width=0.5, line_alpha=0.2)
# 
p.add_glyph(regions_source, glyph)

color_bar = ColorBar(color_mapper=mapper, location=(0, 0),
                     ticker=BasicTicker(desired_num_ticks=5),
                     formatter=PrintfTickFormatter(format='%f'), scale_alpha=alpha)

p.add_layout(color_bar, 'right')

show(p)

Дополнение: использование **GMapPlot** вместо **gmap**

In [83]:
map_options = GMapOptions(lat=NY_center_lat, lng=NY_center_lng, map_type="roadmap", zoom=10)

x=[[regions.west[i],  regions.east[i], regions.east[i], regions.west[i]] for i in range (0,2500)]
y=[[regions.south[i],  regions.south[i], regions.north[i], regions.north[i]] for i in range(0, 2500)]

plot = GMapPlot(x_range=Range1d(), y_range=Range1d(), map_options=map_options)
plot.plot_width=870
plot.plot_height=870
plot.api_key =GMAP_API

plot.add_tools(WheelZoomTool(), PanTool(), ZoomInTool(), ZoomOutTool())

color_mapper = LogColorMapper(palette=Magma[256])

source = ColumnDataSource(data=dict(
    x=x,
    y=y,
    name=regions.index.values,
    rate=regions['rate'],
))
ps=Patches(xs='x', ys='y',
          fill_color={'field': 'rate', 'transform': color_mapper},
          fill_alpha=0.4, line_color="blue", line_width=0.5)
plot.add_glyph(source, ps)

plot.add_tools(HoverTool())
hover = plot.select_one(HoverTool)
hover.point_policy = "follow_mouse"
hover.tooltips = [
    ("Region ID", "@name"),
    ('Trips count', "@rate"),]



show(plot)