# Кластеризация. Домашнее задание

### Данные

В предложенных файлах информация с публичных слушаний Москвы по правилам землепользования и застройки (ПЗЗ). В них комментарии жителей города были застенагрофированы, проклассифицированы (за/против) и нанесены на карту. Данные предоставлены в 2 вариантах, для задания можно использовать любой:
* geo_comment.xlsx
    * **comment** - комментарий одного или списка жителей к проект
    * **multiplier** - количество авторов комментария (может быть 1, может быть список)
    * **x, y** - координаты адреса, по которому был дан определённой комментарий
    * **comment_class** - за (1) / против (-1)
* geo.xlsx - те же данные, но без текстов комментариев и по 1 голосу на строку (ранее в 1 строке могло быть **multiplier** > 1 голоса)
    * **x, y** - координаты адреса, по которому был дан определённой комментарий
    * **comment_class** - за (1) / против (-1)
    
### Обязательное задание

* визуально разделить город на районы безотносительно голосов (провести кластеризацию и вывести картинку)
* аналогично исследовать скопления голосов за и против отдельно
* *подобрать оптимальное число кластеров при помощи кода из тетрадки в конце занятия (оптимально)*
* приложить ноутбук

### Дополнительные задания
* найти наиболее активные в голосовании районы *(подсказка: DBSCAN, не плотные районы обозначены одной меткой и закрашены одним цветом, cmap='gray')*
* для тех, кто уже попробовал работу с текстом: выделить основные тематики комментариев жителей, можно использовать всю имеющуюся дополнительную информацию

In [18]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [19]:
geo_comment = pd.read_excel('geo_comment.xlsx')
geo = pd.read_excel('geo.xlsx')

In [20]:
geo_comment.head()

Unnamed: 0,x,y,comment_class,multiplier,comment
0,37.612416,55.777454,-1,1,Во все разделы правил землепользования и застр...
1,37.612416,55.777454,-1,1,На основании вступившего в законную силу судеб...
2,37.603298,55.742108,-1,1,Внести в Проект правил землепользования и заст...
3,37.558526,55.728758,-1,1,Учитывая социальную значимость проекта строите...
4,37.566431,55.731794,-1,1,Учитывая социальную значимость проекта строите...


In [47]:
geo.head()

Unnamed: 0,x,y,comment_class
0,37.612416,55.777454,-1
1,37.612416,55.777454,-1
2,37.603298,55.742108,-1
3,37.558526,55.728758,-1
4,37.566431,55.731794,-1


In [49]:
np.unique(geo['comment_class'])

array([-1,  1])

In [9]:
np.unique(geo_comment['multiplier'])

array([   1,    2,    3,    4,    5,    6,    7,    8,    9,   10,   11,
         12,   13,   14,   15,   16,   17,   18,   19,   20,   21,   22,
         23,   24,   26,   27,   28,   29,   30,   32,   35,   42,   43,
         44,   45,   47,   49,   50,   52,   53,   54,   55,   57,   58,
         60,   62,   66,   67,   68,   81,   95,   96,  109,  116,  119,
        125,  131,  135,  147,  149,  193,  196,  198,  220,  229,  260,
        302,  341,  392,  409,  425,  519,  915, 1182, 1273, 1500])

In [95]:
import gmaps
gmaps.configure(api_key="AIzaSyA2RaPu-s_xn8rZQgNe5B7T4ENY5yz7Hfo") # Your Google API key

In [53]:
X = geo[['y', 'x']]

In [50]:
from sklearn.cluster import KMeans

In [51]:
clf = KMeans()

In [55]:
clf.fit(X)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
    n_clusters=8, n_init=10, n_jobs=1, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)

In [69]:
geo['cluster'] = clf.labels_

In [71]:
np.unique(geo['cluster'])

array([0, 1, 2, 3, 4, 5, 6, 7], dtype=int32)

In [90]:
colors = [
'maroon',
'red',
'purple',
'green',
'olive',
'yellow',
'navy',
'blue',
'teal',
'aqua'
]

In [94]:
fig = gmaps.figure()
for num in range(clf.n_clusters):
    fig.add_layer(gmaps.heatmap_layer(
        geo[geo.cluster == num][['y', 'x']], 
        max_intensity=1,
        point_radius=5,
        gradient=[(0,0,0,0), colors[num]]
        ))
fig

A Jupyter Widget

In [99]:
fig = gmaps.figure()
for num in range(clf.n_clusters):
    fig.add_layer(gmaps.heatmap_layer(
        geo[(geo.cluster == num) & (geo.comment_class == -1)][['y', 'x']], 
        max_intensity=1,
        point_radius=5,
        gradient=[(0,0,0,0), colors[num]]
        ))
fig

A Jupyter Widget

In [100]:
fig = gmaps.figure()
for num in range(clf.n_clusters):
    fig.add_layer(gmaps.heatmap_layer(
        geo[(geo.cluster == num) & (geo.comment_class == 1)][['y', 'x']], 
        max_intensity=1,
        point_radius=5,
        gradient=[(0,0,0,0), colors[num]]
        ))
fig

A Jupyter Widget

### Проанализируем отзывы

In [101]:
geo_comment.head()

Unnamed: 0,x,y,comment_class,multiplier,comment
0,37.612416,55.777454,-1,1,Во все разделы правил землепользования и застр...
1,37.612416,55.777454,-1,1,На основании вступившего в законную силу судеб...
2,37.603298,55.742108,-1,1,Внести в Проект правил землепользования и заст...
3,37.558526,55.728758,-1,1,Учитывая социальную значимость проекта строите...
4,37.566431,55.731794,-1,1,Учитывая социальную значимость проекта строите...


In [103]:
geo_comment.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 70382 entries, 0 to 70381
Data columns (total 5 columns):
x                70382 non-null float64
y                70382 non-null float64
comment_class    70382 non-null int64
multiplier       70382 non-null int64
comment          70382 non-null object
dtypes: float64(2), int64(2), object(1)
memory usage: 5.7+ MB


In [104]:
geo.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 108806 entries, 0 to 108805
Data columns (total 4 columns):
x                108806 non-null float64
y                108806 non-null float64
comment_class    108806 non-null int64
cluster          108806 non-null int32
dtypes: float64(2), int32(1), int64(1)
memory usage: 8.7 MB


In [146]:
geo_comment['comment'] = geo_comment['comment'].str.replace('\xa0', ' ')

In [148]:
bad_comments = geo_comment[geo_comment.comment_class == -1]['comment'].unique().tolist()

In [149]:
good_comments = geo_comment[geo_comment.comment_class == 1]['comment'].unique().tolist()

In [147]:
geo_comment['comment'][0]

'Во все разделы правил землепользования и застройки г.Москвы (текстовые части и графические схемы) необходимо внести изменения по земельному участку с кадастровым номером 77:01:0004002:188 с адресом первый Самотёчный пер., вл. 17Б (в ПЗЗ территориальная зона №2034561) и исключить из этого земельного участка часть моей общей долевой собственности - земельного участка многоквартирного дома 17А по 1-му Самотёчному пер. площадью 650,5 кв.м с точками 1-2-3-4-5-6-7-8-9-10-11-12-13-14-15-16-1 с координатами: 12316.39 и 6983.68; 123224 6988.91; 12316,45 и 7009,60; 12328.04 и 7013.46;12327.73 и 7014.41; 12330.06 и 7015.18; 12330.37 и 7014.24; 12335.17 и 7015.83; 12330.82 и 7028.61; 12304.74 и 7021.28; 12302.02 и 7012.47; 12303.22 и 7005.49; 12297.24 и 7004.18; 12297ю96 и 7000.60; 12311.23 и 7003.64; 12316.39 и 6983.68. - На основании вступившего в законную силу судебного решения по делу № А40-51937/2011 от 11.06.2015 о ничтожности заключённого 18.06.2007 договора аренды земельного участка с адр

In [150]:
bad_comments

['Во все разделы правил землепользования и застройки г.Москвы (текстовые части и графические схемы) необходимо внести изменения по земельному участку с кадастровым номером 77:01:0004002:188 с адресом первый Самотёчный пер., вл. 17Б (в ПЗЗ территориальная зона №2034561) и исключить из этого земельного участка часть моей общей долевой собственности - земельного участка многоквартирного дома 17А по 1-му Самотёчному пер. площадью 650,5 кв.м с точками 1-2-3-4-5-6-7-8-9-10-11-12-13-14-15-16-1 с координатами: 12316.39 и 6983.68; 123224 6988.91; 12316,45 и 7009,60; 12328.04 и 7013.46;12327.73 и 7014.41; 12330.06 и 7015.18; 12330.37 и 7014.24; 12335.17 и 7015.83; 12330.82 и 7028.61; 12304.74 и 7021.28; 12302.02 и 7012.47; 12303.22 и 7005.49; 12297.24 и 7004.18; 12297ю96 и 7000.60; 12311.23 и 7003.64; 12316.39 и 6983.68. - На основании вступившего в законную силу судебного решения по делу № А40-51937/2011 от 11.06.2015 о ничтожности заключённого 18.06.2007 договора аренды земельного участка с ад

In [155]:
bad = " ".join(bad_comments)
good = " ".join(good_comments)


In [168]:
from collections import Counter

In [158]:
from sklearn.feature_extraction.text import CountVectorizer 

In [172]:
bad = bad.split(' ')

In [174]:
good = good.split(' ')

In [175]:
bad_dict = Counter(bad)
good_dict = Counter(good)

In [177]:
len(bad_dict)

62578

In [179]:
common_dict = bad_dict + good_dict

In [180]:
common_dict

Counter({'Во': 97,
         'все': 783,
         'разделы': 5,
         'правил': 1471,
         'землепользования': 6249,
         'и': 39136,
         'застройки': 10237,
         'г.Москвы': 602,
         '(текстовые': 1,
         'части': 1867,
         'графические': 1,
         'схемы)': 2,
         'необходимо': 337,
         'внести': 960,
         'изменения': 548,
         'по': 16929,
         'земельному': 257,
         'участку': 161,
         'с': 15631,
         'кадастровым': 1230,
         'номером': 1019,
         '77:01:0004002:188': 16,
         'адресом': 44,
         'первый': 17,
         'Самотёчный': 3,
         'пер.,': 658,
         'вл.': 2118,
         '17Б': 5,
         '(в': 890,
         'ПЗЗ': 6319,
         'территориальная': 178,
         'зона': 755,
         '№2034561)': 1,
         'исключить': 367,
         'из': 2468,
         'этого': 503,
         'земельного': 3633,
         'участка': 3915,
         'часть': 1098,
         'моей': 10,
       