# Кластеризация. Домашнее задание

### Данные

В предложенных файлах информация с публичных слушаний Москвы по правилам землепользования и застройки (ПЗЗ). В них комментарии жителей города были застенагрофированы, проклассифицированы (за/против) и нанесены на карту. Данные предоставлены в 2 вариантах, для задания можно использовать любой:
* geo_comment.xlsx
    * **comment** - комментарий одного или списка жителей к проект
    * **multiplier** - количество авторов комментария (может быть 1, может быть список)
    * **x, y** - координаты адреса, по которому был дан определённой комментарий
    * **comment_class** - за (1) / против (-1)
* geo.xlsx - те же данные, но без текстов комментариев и по 1 голосу на строку (ранее в 1 строке могло быть **multiplier** > 1 голоса)
    * **x, y** - координаты адреса, по которому был дан определённой комментарий
    * **comment_class** - за (1) / против (-1)
    
### Обязательное задание

* визуально разделить город на районы безотносительно голосов (провести кластеризацию и вывести картинку)
* аналогично исследовать скопления голосов за и против отдельно
* *подобрать оптимальное число кластеров при помощи кода из тетрадки в конце занятия (оптимально)*
* приложить ноутбук

### Дополнительные задания
* найти наиболее активные в голосовании районы *(подсказка: DBSCAN, не плотные районы обозначены одной меткой и закрашены одним цветом, cmap='gray')*
* для тех, кто уже попробовал работу с текстом: выделить основные тематики комментариев жителей, можно использовать всю имеющуюся дополнительную информацию

In [1]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
%matplotlib inline
import seaborn as sns

%config InlineBackend.figure_format = 'retina'
from pylab import rcParams
rcParams['figure.figsize'] = (12, 9)

In [2]:
geo_data = pd.read_excel('geo.xlsx')
geo_comment_data = pd.read_excel('geo_comment.xlsx')

In [3]:
geo_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 108806 entries, 0 to 108805
Data columns (total 3 columns):
x                108806 non-null float64
y                108806 non-null float64
comment_class    108806 non-null int64
dtypes: float64(2), int64(1)
memory usage: 3.3 MB


In [4]:
geo_comment_data.head()

Unnamed: 0,x,y,comment_class,multiplier,comment
0,37.612416,55.777454,-1,1,Во все разделы правил землепользования и застр...
1,37.612416,55.777454,-1,1,На основании вступившего в законную силу судеб...
2,37.603298,55.742108,-1,1,Внести в Проект правил землепользования и заст...
3,37.558526,55.728758,-1,1,Учитывая социальную значимость проекта строите...
4,37.566431,55.731794,-1,1,Учитывая социальную значимость проекта строите...


Попробуем разбить на кластеры координаты.

In [5]:
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN, AffinityPropagation
from sklearn.metrics import adjusted_rand_score, silhouette_score

In [6]:
clusters_num = 8

In [7]:
algorithms = [
#     AffinityPropagation(),
    KMeans(clusters_num),
#     AgglomerativeClustering(clusters_num),
#     DBSCAN(),
]

In [8]:
def get_descr(algo_name, y, y_pred, X):
    return "{}\nARI {:.2f}\nSilhouette {:.2f}".format(
        algo_name,
        adjusted_rand_score(y, y_pred),
        silhouette_score(X, y_pred)
    )

In [9]:
import warnings
warnings.filterwarnings('ignore')

In [10]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
y = geo_data.copy().comment_class
X = geo_data.copy().drop("comment_class", axis=1)
X_scaled = scaler.fit_transform(X)
# X_scaled = geo_data.copy().drop("comment_class", axis=1)
X_scaled[:, 0]

array([ 0.36791896,  0.36791896,  0.2931784 , ..., -1.20058354,
       -0.97563233, -0.95317246])

In [11]:
clusters = algorithms[0].fit_predict(X_scaled)

In [12]:
clusters

array([0, 0, 0, ..., 2, 4, 2], dtype=int32)

In [13]:
len(clusters)

108806

In [14]:
len(np.array(geo_data.x))
# type(X_scaled[:, 0])

108806

In [15]:
lngs = np.array(geo_data.x)
lats = np.array(geo_data.y)

In [None]:
# fig, axes = plt.subplots(1, 5, figsize=(15, 2))

plt.scatter(lats, lngs, c=clusters, cmap='autumn', s=60)
# axes[0].set_title(get_descr("Random", y, clusters_num, X_scaled))
# print(axes[1:])
# for ax, algorithm in zip(axes[1:], algorithms):
#     # кластеризуем и выводим картинку
#     clusters = algorithm.fit_predict(X_scaled)
#     ax.scatter(X_scaled[:, 0], X_scaled[:, 1], c=clusters, cmap='autumn', s=60)
#     ax.set_title(get_descr(algorithm.__class__.__name__, y, clusters, X_scaled))
    
#     # если есть центры кластеров - выведем их
#     if algorithm.__class__.__name__ in {'KMeans', 'AffinityPropagation'}:
#         centers = algorithm.cluster_centers_
#         ax.scatter(centers[:, 0], centers[:, 1], s=50)

In [28]:
locs = {}
for lat, lng, cl in zip(lats, lngs, clusters):
    if(cl not in locs ):
        locs[cl] = list()    
    locs[cl].append([lat, lng])


In [30]:
import gmaps
import gmaps.datasets
gmaps.configure(api_key="AIzaSyA7aIN6aHvIJHyrLamh6T-nwDC3i8gBAUA") # Your Google API key



In [40]:
gmaps.heatmap_layer?


In [59]:
gmaps.figure?

In [None]:
gmaps.figure().add_layer

In [None]:
gmaps.figure().add_layer

In [80]:
colors = ['maroon',
'red',
'purple',
'green',
'olive',
'yellow',
'navy',
'blue',
'teal',
'aqua']

In [None]:
fig = gmaps.figure()
for key, val in locs.items():
    layer = gmaps.heatmap_layer(val, gradient = [(0,0,0,0), (0,0,0,0), colors[key]],  opacity=0.6, 
        max_intensity=40)
    fig.add_layer(layer)
fig    

In [None]:
k_inertia = []
ks = range(1,21)

for k in ks:
    clf_kmeans = KMeans(n_clusters=k)
    clusters_kmeans = clf_kmeans.fit_predict(X_scaled, )
    k_inertia.append(clf_kmeans.inertia_)

In [None]:
plt.plot(ks, k_inertia)

In [86]:
import bokeh
bokeh.sampledata.download()

Creating /Users/rimidalv/.bokeh directory
Creating /Users/rimidalv/.bokeh/data directory
Using data directory: /Users/rimidalv/.bokeh/data
Downloading: CGM.csv (1589982 bytes)
   1589982 [100.00%]
Downloading: US_Counties.zip (3182088 bytes)
   3182088 [100.00%]
Unpacking: US_Counties.csv
Downloading: us_cities.json (713565 bytes)
    713565 [100.00%]
Downloading: unemployment09.csv (253301 bytes)
    253301 [100.00%]
Downloading: AAPL.csv (166698 bytes)
    166698 [100.00%]
Downloading: FB.csv (9706 bytes)
      9706 [100.00%]
Downloading: GOOG.csv (113894 bytes)
    113894 [100.00%]
Downloading: IBM.csv (165625 bytes)
    165625 [100.00%]
Downloading: MSFT.csv (161614 bytes)
    161614 [100.00%]
Downloading: WPP2012_SA_DB03_POPULATION_QUINQUENNIAL.zip (5148539 bytes)
   5148539 [100.00%]
Unpacking: WPP2012_SA_DB03_POPULATION_QUINQUENNIAL.csv
Downloading: gapminder_fertility.csv (64346 bytes)
     64346 [100.00%]
Downloading: gapminder_population.csv (94509 bytes)
     94509 [100.00%]

In [106]:
from bokeh.io import show
from bokeh.models import (
    ColumnDataSource,
    HoverTool,
    LogColorMapper
)
from bokeh.palettes import Viridis6 as palette
from bokeh.plotting import figure

from bokeh.sampledata.us_counties import data as counties
from bokeh.sampledata.unemployment import data as unemployment

palette.reverse()

counties = {
    code: county for code, county in counties.items() if county["state"] == "tx"
}

# for key, val in locs.items():
#     layer = gmaps.heatmap_layer(val, gradient = [(0,0,0,0),colors[key], colors[key]], opacity = 1.0)
county_xs = [item[0] for item in locs[0]]
county_ys = [item[1] for item in locs[0]]

# print(county_xs)

county_names = [county['name'] for county in counties.values()]
county_rates = [unemployment[county_id] for county_id in counties]
color_mapper = LogColorMapper(palette=palette)

source = ColumnDataSource(data=dict(
    x=county_xs,
    y=county_ys,
    name=county_names,
    rate=county_rates,
))

TOOLS = "pan,wheel_zoom,reset,hover,save"

p = figure(
    title="Moscow votings", tools=TOOLS,
    x_axis_location=None, y_axis_location=None
)
p.grid.grid_line_color = None

p.patches('x', 'y', source=source,
          fill_color={'field': 'rate', 'transform': color_mapper},
          fill_alpha=0.7, line_color="white", line_width=0.5)

hover = p.select_one(HoverTool)
hover.point_policy = "follow_mouse"
hover.tooltips = [
    ("Name", "@name"),
    ("Unemployment rate)", "@rate%"),
    ("(Long, Lat)", "($x, $y)"),
]

show(p)



In [150]:
from bokeh.io import output_file, output_notebook, show
from bokeh.models import (
  GMapPlot, GMapOptions, ColumnDataSource, Circle, LogColorMapper, BasicTicker, ColorBar,
    DataRange1d, PanTool, WheelZoomTool, BoxSelectTool
)

from bokeh.models.mappers import ColorMapper, LinearColorMapper, CategoricalColorMapper
from bokeh.palettes import Viridis5, RdBu3, Category10


map_options = GMapOptions(lng=np.mean(county_ys), lat=np.mean(county_xs), map_type="roadmap", zoom=10)

plot = GMapPlot(
    x_range=DataRange1d(), y_range=DataRange1d(), map_options=map_options
)
plot.title.text = "Hey look! It's a scatter plot on a map!"

# For GMaps to function, Google requires you obtain and enable an API key:
#
#     https://developers.google.com/maps/documentation/javascript/get-api-key
#
# Replace the value below with your personal API key:
plot.api_key = "AIzaSyBYrbp34OohAHsX1cub8ZeHlMEFajv15fY"
print(Category10[8])
color_mapper = CategoricalColorMapper(factors=[str(x) for x in locs.keys()], palette=Category10[8])

for key, val in locs.items():

    county_xs = [item[0] for item in locs[key]]
    county_ys = [item[1] for item in locs[key]]
    source = ColumnDataSource(
        data=dict(
            lat=county_xs,#housing.latitude.tolist(),
            lon=county_ys, #housing.longitude.tolist(),
            size=[15]*len(county_xs), #housing.median_income.tolist(),
            color=[key]*len(county_xs) #housing.median_house_value.tolist()
        )
    )

    #color_mapper = LogColorMapper(palette="Viridis5", low=min_median_house_value, high=max_median_house_value)
#     color_mapper = LinearColorMapper(palette=Viridis5)

    circle = Circle(x="lon", y="lat", size="size", fill_color={'field': 'color', 'transform': color_mapper}, fill_alpha=0.5, line_color=None)
#     plot.add_glyph(source, circle)

# color_bar = ColorBar(color_mapper=color_mapper, ticker=BasicTicker(), 
#             label_standoff=12, border_line_color=None, location=(0,0))
# plot.add_layout(color_bar, 'right')

plot.add_tools(PanTool(), WheelZoomTool(), BoxSelectTool())
#output_file("gmap_plot.html")
output_notebook()

show(plot)

['#1f77b4', '#ff7f0e', '#2ca02c', '#d62728', '#9467bd', '#8c564b', '#e377c2', '#7f7f7f']


In [158]:
import pandas as pd 
import folium
from folium.plugins import HeatMap

# max_amount = float(for_map['Amount'].max())

c_xs = [item[0] for item in locs[0]]
c_ys = [item[1] for item in locs[0]]
    
hmap = folium.Map(location=[42.5, -75.5], zoom_start=7, )

hm_wide = HeatMap( zip(c_xs, c_ys, for_map.Amount.values), 
                   min_opacity=0.2,
                   max_val=max_amount,
                   radius=17, blur=15, 
                   max_zoom=1, 
                 )

folium.GeoJson(district23).add_to(hmap)
hmap.add_child(hm_wide)

NameError: name 'for_map' is not defined