# Assignment: Подробнее о методах кластеризации

Представим, что международное круизное агентство "Carnival Cruise Line" решило себя разрекламировать с помощью баннеров и обратилось для этого к Вам. Чтобы протестировать, велика ли от таких баннеров польза, их будет размещено всего 20 штук по всему миру. Вам надо выбрать 20 таких локаций для размещения, чтобы польза была большой и агентство продолжило с Вами сотрудничать.

Агентство крупное, и у него есть несколько офисов по всему миру. Вблизи этих офисов оно и хочет разместить баннеры - легче договариваться и проверять результат. Также эти места должны быть популярны среди туристов.

Для поиска оптимальных мест воспользуемся базой данных крупнейшей социальной сети, основанной на локациях - Foursqare.

Часть открытых данных есть, например, на сайте archive.org:

https://archive.org/details/201309_foursquare_dataset_umn

Скачаем любым удобным образом архив с этой страницы.

In [58]:
import pandas as pd
import numpy as np
import warnings

warnings.filterwarnings("ignore")

С помощью `pandas` построим DataFrame и убедимся, что все 396634 строки с координатами считаны успешно. (удаляем пропущенные значения).

In [231]:
df = pd.read_csv("checkins.dat", sep='|', skipinitialspace = True)

df.dropna(inplace=True)

df.columns = [n.strip() for n in list(df.columns)]

df['created_at'] =  pd.to_datetime(df['created_at'], format = '%Y%m%d %H:%M:%S')

print('Shape: {}\n\nColumn types:\n{}'.format(df.shape, df.dtypes))

Shape: (396634, 6)

Column types:
id                    object
user_id              float64
venue_id             float64
latitude             float64
longitude            float64
created_at    datetime64[ns]
dtype: object


In [232]:
df.head()

Unnamed: 0,id,user_id,venue_id,latitude,longitude,created_at
2,984222,15824.0,5222.0,38.895112,-77.036366,2012-04-21 17:43:47
4,984234,44652.0,5222.0,33.800745,-84.41052,2012-04-21 17:43:43
8,984291,105054.0,5222.0,45.523452,-122.676207,2012-04-21 17:39:22
10,984318,2146539.0,5222.0,40.764462,-111.904565,2012-04-21 17:35:46
11,984232,93870.0,380645.0,33.448377,-112.074037,2012-04-21 17:38:18


Теперь необходимо кластеризовать данные координаты, чтобы выявить центры скоплений туристов. Поскольку баннеры имеют сравнительно небольшую площадь действия, нам нужен алгоритм, позволяющий ограничить размер кластера и не зависящий от количества кластеров.

Эта задача - хороший повод познакомиться с алгоритмом `MeanShift`, который мы обошли стороной в основной части лекций. Его описание при желании можно посмотреть в [sklearn user guide](http://scikit-learn.org/stable/modules/generated/sklearn.cluster.MeanShift.html), а чуть позже появится дополнительное видео с обзором этого и некоторых других алгоритмов кластеризации. Используйте `MeanShift`, указав `bandwidth=0.1`, что в переводе из градусов в метры колеблется примерно от 5 до 10 км в средних широтах.

**Примечание**: на 396632 строках, кластеризация будет работать долго. Для получения корректного ответа достаточно и 100000 (~2 минуты на "среднем" ноутбуке). Быть очень терпеливым не возбраняется - результат от этого только улучшится.

In [233]:
X = df.iloc[:100000, 3:5]

X.head()

Unnamed: 0,latitude,longitude
2,38.895112,-77.036366
4,33.800745,-84.41052
8,45.523452,-122.676207
10,40.764462,-111.904565
11,33.448377,-112.074037


In [234]:
%%time

from sklearn.cluster import MeanShift

clusterer = MeanShift(bandwidth= 0.1)

clusterer.fit(X)

Wall time: 1min 29s


In [235]:
cluster_preds = clusterer.predict(X)

Некоторые из получившихся кластеров содержат слишком мало точек - такие кластеры не интересны рекламодателям. Поэтому надо определить, какие из кластеров содержат, скажем, больше 15 элементов. Центры этих кластеров и являются оптимальными для размещения.

In [271]:
unique_elements, counts_elements = np.unique(cluster_preds, return_counts = True)

cluster_filter =  counts_elements > 15 #кластеры с более 15 элементов
cluster_centers = clusterer.cluster_centers_[cluster_filter, :]

print('Clusters centers sample:\n\n{}'.format(cluster_centers[:5, :]))

Clusters centers sample:

[[  40.7177164   -73.99183542]
 [  33.44943805 -112.00213969]
 [  33.44638027 -111.90188756]
 [  41.87824378  -87.62984336]
 [  37.68868157 -122.40933037]]


Как мы помним, 20 баннеров надо разместить близ офисов компании. Найдем на Google Maps по запросу "Carnival Cruise Line" адреса офисов:

```
33.751277, -118.188740 (Los Angeles)

25.867736, -80.324116 (Miami)

51.503016, -0.075479 (London)

52.378894, 4.885084 (Amsterdam)

39.366487, 117.036146 (Beijing)

-33.868457, 151.205134 (Sydney)
```

Осталось определить 20 ближайших к ним центров кластеров. т.е. посчитать дистанцию до ближайшего офиса для каждой точки и выбрать 20 с наименьшим значением.

**Примечание**: при подсчете расстояний и в кластеризации можно пренебречь тем, что Земля круглая, так как в точках, расположенных близко друг к другу погрешность мала, а в остальных точках значение достаточно велико, чтобы не повлиять на кластеризацию или сортировку.

In [272]:
offices = np.array([[33.751277, -118.188740], [25.867736, -80.324116], [51.503016, -0.075479],
                   [52.378894, 4.885084], [39.366487, 117.036146], [-33.868457, 151.205134]])

offices

array([[  3.37512770e+01,  -1.18188740e+02],
       [  2.58677360e+01,  -8.03241160e+01],
       [  5.15030160e+01,  -7.54790000e-02],
       [  5.23788940e+01,   4.88508400e+00],
       [  3.93664870e+01,   1.17036146e+02],
       [ -3.38684570e+01,   1.51205134e+02]])

In [273]:
def dist_calc(c1, c2):
    """
    Получает на вход два вектора с координатами и подсчитывает расстояние между двумя точками на плоскости
    """
    return np.sqrt((c1[0]-c2[0])**2 + (c1[1] - c2[1])**2)

In [276]:
dists = []
centers_coords = []

for office in offices:
    for center in cluster_centers:
        dists.append(dist_calc(office, center))
        centers_coords.append(center)
    
print('Check: ', len(dists) == len(cluster_centers)*len(offices))    

Check:  True


Для сдачи задания выберите из получившихся 20 центров тот, который **наименее удален от ближайшего к нему офиса**. Ответ в этом задании — широта и долгота этого центра, записанные через пробел.

In [277]:
np.min(dists)

0.007834758163107856

In [281]:
answ = [i for (i, v) in zip(centers_coords, dists == np.min(dists)) if v][0]

In [282]:
f = open('1.txt', 'w')
f.write(f'{answ[0]} {answ[1]}')
f.close()