# Размещение баннеров
## Programming assignment

Представим, что международное круизное агентство Carnival Cruise Line решило себя разрекламировать с помощью баннеров и обратилось для этого к вам. Чтобы протестировать, велика ли от таких баннеров польза, их будет размещено всего 20 штук по всему миру. Вам надо выбрать 20 таких локаций для размещения, чтобы польза была большой и агентство продолжило с вами сотрудничать.

Агентство крупное, и у него есть несколько офисов по всему миру. Вблизи этих офисов оно и хочет разместить баннеры — легче договариваться и проверять результат. Также эти места должны быть популярны среди туристов.

Для поиска оптимальных мест воспользуемся базой данных крупнейшей социальной сети, основанной на локациях — Foursquare.

Часть открытых данных есть, например, на сайте archive.org:

https://archive.org/details/201309_foursquare_dataset_umn

Скачаем любым удобным образом архив fsq.zip с этой страницы. Нас будет интересовать файл checkins.dat, который для удобной работы нужно переименовать в chekins.csv.
С помощью pandas построим DataFrame и убедимся, что все 396634 строки с координатами считаны успешно.

In [1]:
import numpy as np
import pandas as pd
from sklearn.cluster import MeanShift


df = pd.read_csv('checkins.csv', sep='|', skipinitialspace=True).dropna()
df.rename(columns=lambda column: column.strip(), inplace=True)
df.shape

  interactivity=interactivity, compiler=compiler, result=result)


(396634, 6)

In [2]:
df.head()

Unnamed: 0,id,user_id,venue_id,latitude,longitude,created_at
2,984222,15824.0,5222.0,38.895112,-77.036366,2012-04-21 17:43:47
4,984234,44652.0,5222.0,33.800745,-84.41052,2012-04-21 17:43:43
8,984291,105054.0,5222.0,45.523452,-122.676207,2012-04-21 17:39:22
10,984318,2146539.0,5222.0,40.764462,-111.904565,2012-04-21 17:35:46
11,984232,93870.0,380645.0,33.448377,-112.074037,2012-04-21 17:38:18


Теперь необходимо кластеризовать данные координаты, чтобы выявить центры скоплений туристов. Поскольку баннеры имеют сравнительно небольшую площадь действия, нам нужен алгоритм, позволяющий ограничить размер кластера и не зависящий от количества кластеров.

Эта задача — хороший повод познакомиться с алгоритмом MeanShift, который мы обошли стороной в основной части лекций. Его описание при желании можно посмотреть в sklearn user guide, а чуть позже появится дополнительное видео с обзором этого и некоторых других алгоритмов кластеризации. Используйте MeanShift, указав bandwidth=0.1, что в переводе из градусов в метры колеблется примерно от 5 до 10 км в средних широтах.

**Примечание:** на 396634 строках кластеризация будет работать долго. Быть очень терпеливым не возбраняется — результат от этого только улучшится. Но для того, чтобы сдать задание, понадобится сабсет из первых 100 тысяч строк. Это компромисс между качеством и затраченным временем. Обучение алгоритма на всём датасете занимает около часа, а на 100 тыс. строк — примерно 2 минуты, однако этого достаточно для получения корректных результатов.

In [3]:
subset = df.head(100000)
X = subset[['latitude', 'longitude']].values

ms = MeanShift(bandwidth=0.1)
ms.fit(X)

MeanShift(bandwidth=0.1, bin_seeding=False, cluster_all=True, min_bin_freq=1,
     n_jobs=1, seeds=None)

Некоторые из получившихся кластеров содержат слишком мало точек — такие кластеры не интересны рекламодателям. Поэтому надо определить, какие из кластеров содержат, скажем, больше 15 элементов. Центры этих кластеров и являются оптимальными для размещения.

In [4]:
values, counts = np.unique(ms.labels_, return_counts=True)
labels = ms.labels_[counts > 15]
cluster_centers = ms.cluster_centers_[labels]

  


При желании увидеть получившиеся результаты на карте можно передать центры получившихся кластеров в один из инструментов визуализации. Например, сайт mapcustomizer.com имеет функцию Bulk Entry, куда можно вставить центры полученных кластеров в формате:

     38.8951118, -77.0363658
         
     33.800745, -84.41052
         
     45.5234515, -122.6762071
     
     ...

In [5]:
np.set_printoptions(threshold='nan')
np.savetxt('cluster_centers.txt', cluster_centers, fmt='%10.7f')

Как мы помним, 20 баннеров надо разместить близ офисов компании. Найдем на Google Maps по запросу Carnival Cruise Line адреса всех офисов:

     33.751277, -118.188740 (Los Angeles)
    
     25.867736, -80.324116 (Miami)
    
     51.503016, -0.075479 (London)
    
     52.378894, 4.885084 (Amsterdam)
    
     39.366487, 117.036146 (Beijing)
    
    -33.868457, 151.205134 (Sydney)

Осталось определить 20 ближайших к ним центров кластеров. Т.е. посчитать дистанцию до ближайшего офиса для каждой точки и выбрать 20 с наименьшим значением.

**Примечание:** при подсчете расстояний в кластеризации можно пренебречь тем, что Земля круглая, так как в точках, расположенных близко друг к другу погрешность мала, а в остальных точках значение достаточно велико.

Для сдачи задания выберите из получившихся 20 центров тот, который наименее удален от ближайшего к нему офиса. Ответ в этом задании — широта и долгота этого центра, записанные через пробел.

In [6]:
offices_coords = np.array([[33.751277, 25.867736, 51.503016, 52.378894, 39.366487, -33.868457],
                           [-118.188740, -80.324116, -0.075479, 4.885084, 117.036146, 151.205134]]).T

minimum_distances = []
distances = np.zeros(6)
for i in range(len(cluster_centers)):
    for j in range(len(offices_coords)):
        distances[j] = np.linalg.norm(cluster_centers[i] - offices_coords[j], ord=2)
    minimum_distances.append(min(distances))

np.savetxt('banners_answer.txt', cluster_centers[np.argmin(minimum_distances)], fmt='%.08f', newline=' ')

In [7]:
# Найдём индексы и координаты 20-ти ближайших к офисам центров кластеров

idx = np.array(minimum_distances).argsort()[:20]
twenty_coords_with_minimum_dist = cluster_centers[idx]
np.savetxt('twenty_nearest_cluster_centers.txt', twenty_coords_with_minimum_dist, fmt='%10.7f')