## Размещение банеров

Загружаем необходимые библиотеки:

In [1]:
import numpy as np
import pandas as pd

from sklearn.cluster import MeanShift

In [2]:
checkins = pd.read_csv('checkins.csv', header=0, sep=',')

In [3]:
checkins.head()

Unnamed: 0,id,user_id,venue_id,latitude,longitude,created_at
0,984222,15824,5222,38.895112,-77.036366,2012-04-2117:43:47
1,984234,44652,5222,33.800745,-84.41052,2012-04-2117:43:43
2,984291,105054,5222,45.523452,-122.676207,2012-04-2117:39:22
3,984318,2146539,5222,40.764462,-111.904565,2012-04-2117:35:46
4,984232,93870,380645,33.448377,-112.074037,2012-04-2117:38:18


In [4]:
checkins.shape

(396634, 6)

На 396634 строках кластеризация будет работать долго. Быть очень терпеливым не возбраняется — результат от этого только улучшится. Но для того, чтобы сдать задание, понадобится сабсет из первых 100 тысяч строк. Это компромисс между качеством и затраченным временем. Обучение алгоритма на всём датасете занимает около часа, а на 100 тыс. строк — примерно 2 минуты, однако этого достаточно для получения корректных результатов.

In [5]:
checkins_subset = checkins[:100000][['latitude', 'longitude']]

In [6]:
checkins_subset.shape

(100000, 2)

Используем теперь алгоритм MeanShift из библиотеки sklearn для кластеризации:

In [7]:
%%time
clustering = MeanShift(bandwidth = 0.1).fit(checkins_subset)

Wall time: 2min 51s


Координаты центров кластеров можно получить с помощью следующего параметра:

In [8]:
clustering.cluster_centers_ ## видимо, центры кластеров идут по порядку, т.е. первая строка - кластер номер 0 и так далее

array([[  40.7177164 ,  -73.99183542],
       [  33.44943805, -112.00213969],
       [  33.44638027, -111.90188756],
       ...,
       [ -37.8229826 ,  145.1811902 ],
       [ -41.2924945 ,  174.7732353 ],
       [ -45.0311622 ,  168.6626435 ]])

А метки кластеров для набора данных с помощью следующего:

In [9]:
clustering.labels_

array([ 5,  7, 30, ..., 25, 19,  4], dtype=int64)

Взглянем на количество уникальных кластеров:

In [10]:
unique_labels = np.unique(clustering.labels_)
print(unique_labels)

[   0    1    2 ... 3228 3229 3230]


Итак, всего около 3200 кластеров. Однако необходимо убрать те, в которые вошло менее 15 точек, так как они не интересны с точки зрения рекламы:

Для этого для каждой метки кластера проверяем число точек, попавших в него, и записываем прошедшие проверку метки в отдельный массив.

In [11]:
gr_than_15_labels = []
for label in unique_labels:
    if (np.count_nonzero(clustering.labels_ == label) > 15):
       gr_than_15_labels.append(label)
gr_than_15_labels = np.array(gr_than_15_labels)
#

Номера кластеров, в которых содержится 15 и более точек:

In [12]:
gr_than_15_labels.shape

(592,)

Видим, что таких кластеров осталось всего 592.

In [16]:
# bulk_coordinates_100 = clustering.cluster_centers_[gr_than_15_labels[:100]] # можно взять первые 100
bulk_coordinates_100 = clustering.cluster_centers_[gr_than_15_labels[:]]
print(bulk_coordinates_100)

[[  40.7177164   -73.99183542]
 [  33.44943805 -112.00213969]
 [  33.44638027 -111.90188756]
 ...
 [  41.61853175  -88.44556818]
 [  39.2494686   -77.1821271 ]
 [  38.65877915  -76.8856871 ]]


In [17]:
np.savetxt('bulk_entrys.txt', bulk_coordinates_100, fmt='%f10')

Отобразить эти координаты можно скопировав из файла в графу Bulk Entry на сайте https://www.mapcustomizer.com/#

Далее найдем кластеры с минимальным расстоянием до офисов согласно заданию.

Запишем координаты офисов компании "Carnival Cruise Line" из задания:

In [20]:
offices = {
    "Los Angeles": [33.751277, -118.188740],
    "Miami": [25.867736, -80.324116],
    "London": [51.503016, -0.075479],
    "Amsterdam": [52.378894, 4.885084],
    "Beijing": [39.366487, 117.036146],
    "Sydney": [-33.868457, 151.205134]
}

Так можно итерировать по имеющимся офисам и их координатам:

In [28]:
for location, office_coordinates in offices.items():
    print(office_coordinates)

[33.751277, -118.18874]
[25.867736, -80.324116]
[51.503016, -0.075479]
[52.378894, 4.885084]
[39.366487, 117.036146]
[-33.868457, 151.205134]


Рассмотрим для примера вычисление расстояние между центром одного из кластеров и всеми офисами:

In [29]:
gr_than_15_labels[0] # берем первый номер кластер

0

In [30]:
clustering.cluster_centers_[0] # извлекаем координаты кластера с номером 0

array([ 40.7177164 , -73.99183542])

In [49]:
offices["Sydney"] # для примера берем координаты одного из офисов

[-33.868457, 151.205134]

In [50]:
distance = np.linalg.norm(clustering.cluster_centers_[0] - offices["Sydney"]) # пренебрегаем тем, что Земля круглая 
                                                                              # и вычисляем евклидово расстояние
distance

237.22725875825117

In [51]:
cluster_coordinates = clustering.cluster_centers_[0] # пример для вычисления минимального расстояния до любого из офисов
distance_to_offices = []
for location, office_coordinates in offices.items():
    print(location)
    distance = np.linalg.norm(cluster_coordinates - office_coordinates)
    print(distance)
    distance_to_offices.append(distance)
print("Минимальное расстояние")
print(min(distance_to_offices))

Los Angeles
44.74257091784804
Miami
16.14371999090071
London
74.69906581687445
Amsterdam
79.73425537531013
Beijing
191.0327602958311
Sydney
237.22725875825117
Минимальное расстояние
16.14371999090071


Теперь применяем этот же подход для всех кластеров, в которых 15 и более точек. Минимальное расстояние записываем в словарь, где ключ - номер кластера

In [54]:
d = dict() 
for label in gr_than_15_labels[:]:
    cluster_coordinates = clustering.cluster_centers_[label]
    distance_to_offices = []
    for location, office_coordinates in offices.items():
        #print(location)
        distance = np.linalg.norm(cluster_coordinates - office_coordinates)
        #print(distance)
        distance_to_offices.append(distance)
    #print("Минимальное расстояние")
    #print(min(distance_to_offices))
    d[label] = min(distance_to_offices)

In [53]:
#d

Теперь находим 20 элементов из словаря с минимальным расстоянием. (Реализация взята с https://www.geeksforgeeks.org/python-smallest-k-values-in-dictionary/)

In [47]:
from operator import itemgetter
K = 20 # количество минимальных элементов
res = dict(sorted(d.items(), key = itemgetter(1))[:K])
res

{420: 0.007834758163107856,
 370: 0.009353316185992226,
 419: 0.022674066158385495,
 58: 0.05005829482278787,
 51: 0.07084773242719973,
 29: 0.13410903336184654,
 167: 0.16740596425035326,
 92: 0.18887596060185083,
 87: 0.19577945647763628,
 42: 0.21181053682436798,
 291: 0.2222332907317907,
 320: 0.2713007595066735,
 119: 0.2949788868004569,
 55: 0.3022701186924605,
 27: 0.30473050307840693,
 11: 0.3148837903362732,
 32: 0.3388104702511318,
 159: 0.3408456533220572,
 17: 0.37868750125029754,
 47: 0.3867062248427277}

Номер минимального кластера 420, извлекаем его координаты. Записанные через пробел они и будут ответом на задание.

In [48]:
clustering.cluster_centers_[420]

array([-33.86063043, 151.20477593])

### Some experiments

In [22]:
clustering.predict(clustering.cluster_centers_[5].reshape(1, -1))

array([5], dtype=int64)

In [26]:
clustering.predict(np.array( [40.73 ,  -73.99]).reshape(1, -1))

array([0], dtype=int64)

In [31]:
y = [2, 2, 4, 4, 6, 6]
np.bincount(y)

array([0, 0, 2, 0, 2, 0, 2], dtype=int64)

In [32]:
np.bincount(clustering.labels_)

array([12506,  4692,  3994, ...,     1,     1,     1], dtype=int64)

In [33]:
np.count(clustering.labels_ > 15)

AttributeError: module 'numpy' has no attribute 'count'

In [39]:
np.count_nonzero(clustering.labels_ == 0)

12506