# <center>Часть 2. Работа с геоданными, визуализация

### 2.1. Загрузим агрегированные данные о поездках в мае 2016.   
Просуммируем общее количество поездок такси из каждой географической зоны и посчитаем количество ячеек, из которых в мае не было совершено ни одной поездки.

In [1]:
import pandas as pd
import numpy as np
import os

In [2]:
path_to_data = 'C:\\Users\dsher\Documents\BIGDATA\sales_prediction_(yellow_taxi)'
path_to_results = 'results'

In [3]:
# функция для загрузки агрегированных данных
def read_aggdata(file_name):
    return pd.read_csv(os.path.join(path_to_data, file_name), index_col=0, parse_dates=True)

In [4]:
aggdata = read_aggdata('aggdata_2016-05.csv')

In [5]:
aggdata.head()

Unnamed: 0_level_0,1,2,3,4,5,6,7,8,9,10,...,2491,2492,2493,2494,2495,2496,2497,2498,2499,2500
tpep_pickup_datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2016-05-01 00:00:00,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2016-05-01 01:00:00,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2016-05-01 02:00:00,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2016-05-01 03:00:00,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2016-05-01 04:00:00,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [6]:
aggdata.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 744 entries, 2016-05-01 00:00:00 to 2016-05-31 23:00:00
Columns: 2500 entries, 1 to 2500
dtypes: int64(2500)
memory usage: 14.2 MB


In [7]:
number_zero_cells = aggdata.sum().value_counts()[0]
number_zero_cells

1283

### 2.2. Нарисуем статическую карту Нью-Йорка. 
Поставим на карте точку там, где находится Эмпайр-Стейт-Билдинг.

**ПРИМЕЧАНИЕ**   
Для статики будем использовать библиотеку **bokeh** с инструментами без интерактивных свойств (оставим только запись). Пробовал Basemap, но получалось некрасиво. К слову сказать, у **bokeh** есть инструменты и для интерактива, но интерактив у  работает **bokeh** плохо и очень сильно тормозит, поэтому для интерактива будем использовать другую библиотеку (**folium**).

In [8]:
# For GMaps to function, Google requires you obtain and enable an API key:
# https://developers.google.com/maps/documentation/javascript/get-api-key
# Replace the value below with your personal API key

In [9]:
# from bokeh.io import output_file, show
# output_file("newyork_map.html")
from bokeh.io import show, output_notebook
output_notebook()
from bokeh.models import (
    ColumnDataSource, GMapOptions, GMapPlot, SaveTool, WheelZoomTool, PanTool, ZoomInTool, ZoomOutTool, HoverTool, ResetTool
    )
from bokeh.models.ranges import Range1d
from bokeh.models.markers import Diamond
from bokeh.models.glyphs import Text, Patches
# from bokeh.models import *
from bokeh.plotting import gmap, figure

In [10]:
# границы и центр Нью-Йорка
west_bound = -74.25559
east_bound = -73.70001
south_bound = 40.49612
north_bound = 40.91553

NY_center_lat = (south_bound + north_bound)/2
NY_center_lng = (west_bound + east_bound)/2

In [11]:
# координаты Empire State Building
long_EMB = -73.985756
lat_EMB = 40.748306

In [12]:
# ключ api для запроса карты на гуугле
GMAP_API = "AIzaSyBOrPthZJfu3cSEzHVBoE_MaEXifCKEc5w"

In [13]:
map_options = GMapOptions(lat=NY_center_lat, lng=NY_center_lng, map_type="roadmap", zoom=10)

plot = GMapPlot(x_range=Range1d(), y_range=Range1d(), map_options=map_options)
# добавляем опций
plot.add_tools(SaveTool()) # с этим инструментом карта статична
# со следующими инструментами карта будет интерактивна, но оооочень тормознутой
# plot.add_tools(SaveTool(), WheelZoomTool(), PanTool(), ZoomInTool(), ZoomOutTool(), ResetTool())
plot.api_key =GMAP_API
plot.plot_width=800
plot.plot_height=800

# ставим и подписываем отметку с башней Empire State Building
# данные
EMB_source = ColumnDataSource(data=dict(lat=[lat_EMB],
                                          lon=[long_EMB],
                                          text=['Empire State Building'], 
                                          size=[15])
                                        )
# прорисовка маркера
glyph_marker = Diamond(x="lon", y="lat", size="size", fill_color='red')
plot.add_glyph(EMB_source, glyph_marker)
# ставим подпись
glyph_text = Text(x="lon", y="lat", text="text", text_color='red')
plot.add_glyph(EMB_source, glyph_text)

show(plot)

### 3. Поверх статической карты Нью-Йорка визуализируем данные о поездках из каждой ячейки
Сделаем это так, чтобы цветовая шкала, в которую мы окрашиваем каждую ячейку, показывала суммарное количество поездок такси из неё.    
**Из-за большого диапазона сделаем это, для наглядности, по логарифмической шкале**

In [14]:
regions = pd.read_csv(os.path.join(path_to_data, 'regions.csv'), sep=';')
regions.head()

Unnamed: 0,region,west,east,south,north
0,1,-74.25559,-74.244478,40.49612,40.504508
1,2,-74.25559,-74.244478,40.504508,40.512896
2,3,-74.25559,-74.244478,40.512896,40.521285
3,4,-74.25559,-74.244478,40.521285,40.529673
4,5,-74.25559,-74.244478,40.529673,40.538061


добавим:   
- число поездок за весь месяц (**'rate'**)
- координаты центров ячеек

In [15]:
regions['rate'] = aggdata.sum().values
regions['lon'] = (regions['west'] + regions['east']) / 2
regions['lat'] = (regions['south'] + regions['north']) / 2
regions.head()

Unnamed: 0,region,west,east,south,north,rate,lon,lat
0,1,-74.25559,-74.244478,40.49612,40.504508,0,-74.250034,40.500314
1,2,-74.25559,-74.244478,40.504508,40.512896,0,-74.250034,40.508702
2,3,-74.25559,-74.244478,40.512896,40.521285,0,-74.250034,40.51709
3,4,-74.25559,-74.244478,40.521285,40.529673,0,-74.250034,40.525479
4,5,-74.25559,-74.244478,40.529673,40.538061,0,-74.250034,40.533867


In [16]:
from bokeh.models import BasicTicker, ColorBar, LinearColorMapper, PrintfTickFormatter, LogColorMapper
from bokeh.models.glyphs import Patches
from bokeh.palettes import Magma
from bokeh.transform import transform

In [17]:
map_options = GMapOptions(lat=NY_center_lat, lng=NY_center_lng, map_type="roadmap", zoom=10)

plot = GMapPlot(x_range=Range1d(), y_range=Range1d(), map_options=map_options)
# добавляем опций
plot.add_tools(SaveTool())
# plot.add_tools(SaveTool(), WheelZoomTool(), PanTool(), ZoomInTool(), ZoomOutTool(), ResetTool())
plot.api_key =GMAP_API
plot.plot_width=800
plot.plot_height=800


# ставим и подписываем отметку с башней Empire State Building
EMB_source = ColumnDataSource(
    data=dict(lat=[lat_EMB],
              lon=[long_EMB],
              text=['Empire State Building'], 
              size=[15])
)
glyph_marker = Diamond(x="lon", y="lat", size="size", fill_color='red')
plot.add_glyph(EMB_source, glyph_marker)
glyph_text = Text(x="lon", y="lat", text="text", text_color='red')
plot.add_glyph(EMB_source, glyph_text)

# отображаем (glyph) фигуры (патчи) ячеек с соответствующей подкраской в зависимости от rate
# 0) делаем цветовую шкалу и соответствующий преобразователь
colors = Magma[256]
color_mapper = LinearColorMapper(palette=colors, low=regions.rate.min(), high=regions.rate.max())

# 1) формируем список координат для фигур (патчей), состоящих из списков отдельных фигур
xs=[[regions.west[i],  regions.east[i], regions.east[i], regions.west[i]] for i in regions.index]
ys=[[regions.south[i],  regions.south[i], regions.north[i], regions.north[i]] for i in regions.index]
# 2) источник данных
regions_source = ColumnDataSource(data=dict(
                                    xs=xs,
                                    ys=ys,
                                    name=regions.index.values,
                                    rate=regions['rate'],
                                    ))
alpha = 0.5
# 3) формируем ячейки
glyph_patches = Patches(xs='xs', ys='ys', 
                  fill_color=transform('rate', color_mapper), 
                  fill_alpha=alpha, line_color='black', line_width=0.5, line_alpha=0.2)
# 4) добавляем отображение
plot.add_glyph(regions_source, glyph_patches)
# 5) шкала
color_bar = ColorBar(color_mapper=color_mapper, location=(0, 0),
                     ticker=BasicTicker(desired_num_ticks=5),
                     formatter=PrintfTickFormatter(format='%f'), scale_alpha=alpha)

plot.add_layout(color_bar, 'right')

# 6) всплывающие надписи возле мышки (конфликтуют с надписью)
# plot.add_tools(HoverTool())
# hover = plot.select_one(HoverTool)
# hover.point_policy = "follow_mouse"
# hover.tooltips = [
#     ("Region ID", "@name"),
#     ('Trips count', "@rate"),]


# дополнительный дизайн осей - надписи и т.д.
# plot.axis.axis_line_color = None
# plot.axis.major_tick_line_color = None
# plot.axis.major_label_text_font_size = "10pt"
# plot.axis.major_label_standoff = 0
# plot.xaxis.major_label_orientation = 1.0

show(plot)

### 4.Вставим интерактивную карту Нью-Йорка
(можно прокручивать и увеличивать)   
Поставим метку там, где находится статуя свободы (**Statue of Liberty**).

#### для интерактива возьмем библиотеку folium

In [18]:
import folium

In [19]:
# границы и центр Нью-Йорка
west_bound = -74.25559
east_bound = -73.70001
south_bound = 40.49612
north_bound = 40.91553

NY_center_lng = (west_bound + east_bound) / 2
NY_center_lat = (south_bound + north_bound) / 2

NY_loc = [NY_center_lat, NY_center_lng]

Statue_of_Liberty_lon =  -74.044440
Statue_of_Liberty_lat = 40.689170

Statue_of_Liberty_loc = [Statue_of_Liberty_lat, Statue_of_Liberty_lon]

In [20]:
m = folium.Map(location=NY_loc, 
               zoom_start=11, 
               control_scale=True)

# маркер для Статуи Свободы, для инфо кликните на маркер
folium.Marker(location=Statue_of_Liberty_loc, 
              popup='<i>Statue of Liberty<br>{}<br>{}</i>'.format(Statue_of_Liberty_lon, Statue_of_Liberty_lat), 
              icon=folium.Icon(color='red', icon='info-sign')
             ).add_to(m)
m

для разнообразия - черно-белый вариант

In [21]:
# черно-белый вариант
m1 = folium.Map(
    location=NY_loc,
    tiles='Stamen Toner',
    zoom_start=11
)
folium.Marker(location=Statue_of_Liberty_loc, 
              popup='<i>Statue of Liberty<br>{lon}<br>{lat}</i>'.format(lon=Statue_of_Liberty_lon, lat=Statue_of_Liberty_lat), 
              icon=folium.Icon(color='red', icon='info-sign')
             ).add_to(m1)
m1

### 5. Нарисуем на интерактивной карте Нью-Йорка ячейки так, чтобы их цвет показывал среднее за месяц количество поездок такси в час из этой зоны.

среднее за месяц количество поездок такси в час:

In [22]:
regions['avr_hour_rate'] = regions['rate'] /31. /24.
regions['avr_hour_LOGrate'] = np.log1p(regions['avr_hour_rate']) # логарифмическая шкала из-за большого разброса

строим GeoJSON объект с сеткой

In [23]:
# строим GeoJSON объект "вручную"
features = []
for i, row in regions.iterrows():
    feature = {
        "type": "Feature",
        "id": int(row.region),
        "geometry": {
            "type": "Polygon",
            "coordinates":[[
                [row.west, row.north],
                [row.east, row.north],
                [row.east, row.south],
                [row.west, row.south],
                [row.west, row.north],
            ]]
        }
    }
    features.append(feature)
regions_json = {"type":"FeatureCollection","features": features }

In [24]:
# ТО ЖЕ САМОЕ (!) с использованием модуля geojson
# строим GeoJSON объект с использованием модуля geojson
import geojson
features = []
for i, row in regions.iterrows():
    # задаем вид фигуры ячейки (полигон=многоугольник) и координаты вершин (последовательно, последняя замыкается на первую)
    polygon = geojson.Polygon(coordinates=[ 
                                           [[row.west, row.north],
                                            [row.east, row.north],
                                            [row.east, row.south],
                                            [row.west, row.south],
                                            [row.west, row.north]]
                                              ])
    # номер (маркер) ячейки, сама ячейка и сойства (здесь они не задействованы, только номер)
    feature = geojson.Feature(id=row.region, geometry=polygon)
    features.append(feature) # собираем в список
    
regions_json = geojson.FeatureCollection(features=features) # составляем коллекцию из ячеек

In [25]:
# строим карту
m = folium.Map(location=NY_loc, 
               zoom_start=10, 
               control_scale=True)

# маркер для Статуи Свободы, для инфо кликните на маркер
folium.Marker(location=Statue_of_Liberty_loc, 
              popup='<i>Statue of Liberty<br>{}<br>{}</i>'.format(Statue_of_Liberty_lon, Statue_of_Liberty_lat), 
              icon=folium.Icon(color='red', icon='flag')
             ).add_to(m)
# добавляем подкрашенные ячейки
m.choropleth(
    geo_data=regions_json,
    name='Average trip LOGrate',
    data=regions,
    columns=['region', 'avr_hour_LOGrate'],
    key_on='feature.id',
    fill_color='YlOrRd',
    fill_opacity=0.6,
    line_opacity=0.2,
    legend_name='Average trip rate LOGscale, trips per hour'
)

folium.LayerControl().add_to(m)

m

In [26]:
# сохраним
# m.save(os.path.join(path_to_results,'NY_with_triprate.html'))

### 6. Чтобы не выбирать из всех 2500 ячеек вручную: 
- отфильтруем ячейки, из которых в мае совершается в среднем меньше 5 поездок в час
- посчитаем количество оставшихся

In [27]:
regions_more_5 = regions[regions['avr_hour_rate'] >= 5]
num_more_5_trips = len(regions_more_5)
num_more_5_trips

102

#### проверим на карте, что среди этих ячеек нет таких, из которых поездки на самом деле невозможны

In [29]:
# строим "вручную" geojson 
# берем ТОЛЬКО для ячеек с 5 и более поездок в час
features = []
for i, row in regions_more_5.iterrows():
    feature = {
        "type": "Feature",
        "id": int(row.region),
        "geometry": {
            "type": "Polygon",
            "coordinates":[[
                [row.west, row.north],
                [row.east, row.north],
                [row.east, row.south],
                [row.west, row.south],
                [row.west, row.north],
            ]]
        }
    }
    features.append(feature)
regions_more_5_json = {"type":"FeatureCollection","features": features }

# рисуем карту
m = folium.Map(location=NY_loc, 
               zoom_start=10, 
               control_scale=True)

# маркер для Статуи Свободы, для инфо кликните на маркер
folium.Marker(location=Statue_of_Liberty_loc, 
              popup='<i>Statue of Liberty<br>{}<br>{}</i>'.format(Statue_of_Liberty_lon, Statue_of_Liberty_lat), 
              icon=folium.Icon(color='red', icon='info-sign')
             ).add_to(m)
# добавляем подкрашенные ячейки
m.choropleth(
    geo_data=regions_more_5_json,
    name='Average trip LOGrate',
    data=regions_more_5,
    columns=['region', 'avr_hour_LOGrate'],
    key_on='feature.id',
    fill_color='YlOrRd',
    fill_opacity=0.5,
    line_opacity=1.0,
    legend_name='Average trip rate LOGscale, trips per hour'
)

folium.LayerControl().add_to(m)

# отображаем то, что получилось
m

#### другой вариант того же самого - через geojson со свойствами (с propeities)

In [30]:
# ТО ЖЕ САМОЕ (!) с использованием модуля geojson
# строим GeoJSON объект с использованием модуля geojson
import geojson
features = []
for i, row in regions.iterrows():
    # задаем вид фигуры ячейки (полигон=многоугольник) и координаты вершин (последовательно, последняя замыкается на первую)
    polygon = geojson.Polygon(coordinates=[ 
                                           [[row.west, row.north],
                                            [row.east, row.north],
                                            [row.east, row.south],
                                            [row.west, row.south],
                                            [row.west, row.north]]
                                              ])
    # номер (маркер) ячейки, сама ячейка и сойства (здесь они не задействованы, только номер)
    feature = geojson.Feature(id=row.region, geometry=polygon, properties={'avr_hour_rate':row.avr_hour_rate, 
                                                                                    'rate':row.rate})
    features.append(feature) # собираем в список
    
regions_json = geojson.FeatureCollection(features=features) # составляем коллекцию из ячеек

In [31]:
from branca.colormap import linear

colormap = linear.YlOrRd.scale(
    regions.avr_hour_rate.min(),
    regions.avr_hour_rate.max())

print(colormap(100))

colormap

#ffe588


In [32]:
# строим карту
m = folium.Map(location=NY_loc, 
               zoom_start=10, 
               control_scale=True)

# маркер для Статуи Свободы, для инфо кликните на маркер
folium.Marker(location=Statue_of_Liberty_loc, 
              popup='<i>Statue of Liberty<br>{}<br>{}</i>'.format(Statue_of_Liberty_lon, Statue_of_Liberty_lat), 
              icon=folium.Icon(color='red', icon='flag')
             ).add_to(m)


# создаем GeoJson-объект (т.е. перечисленные в regions_json геометрические фигуры) с учетом стилей, зависящих
# от ранее созданных свойств
# и затем добавляем эти фигуры в карту
folium.GeoJson(regions_json,
                name='choropleth_GeoJson',
                style_function=lambda feature: {
                    'fillColor': colormap(feature['properties']['avr_hour_rate']),           # заполнение по шкале   
#                     'fillColor': 'green',
                    'color': 'black',            # цвет границ
                    'weight': 1 if feature['properties']['avr_hour_rate'] >= 5 else 0.2,      # прозрачность границ
                    'dashArray': '1',           # прерывистая линия
                    'fillOpacity': 0.8 if feature['properties']['avr_hour_rate'] >= 5 else 0,
                }
              ).add_to(m)

# добавляем шкалу в карту
colormap.add_to(m, name='avr_hour_rate')

folium.LayerControl().add_to(m)

m.save(os.path.join(path_to_results, 'GeoJSON_0.html'))

# display(m)
m