Представим, что международное круизное агентство Carnival Cruise Line решило себя разрекламировать с помощью баннеров и обратилось для этого к вам. Чтобы протестировать, велика ли от таких баннеров польза, их будет размещено всего 20 штук по всему миру. Вам надо выбрать 20 таких локаций для размещения, чтобы польза была большой и агентство продолжило с вами сотрудничать.

Агентство крупное, и у него есть несколько офисов по всему миру. Вблизи этих офисов оно и хочет разместить баннеры — легче договариваться и проверять результат. Также эти места должны быть популярны среди туристов.

Для поиска оптимальных мест воспользуемся базой данных крупнейшей социальной сети, основанной на локациях — Foursquare.

In [1]:
import numpy as np
import pandas as pd

dtypes = {
    'id': int,
    'user_id': int,
    'venue_id': int,
    'latitude': float,
    'longitude': float,
    'created_at': str
}

df = pd.read_csv('checkins.dat', sep='|', skipinitialspace=True,
                 skiprows=[1], skipfooter=2, header=0,
                 names=['id', 'user_id', 'venue_id', 'latitude', 'longitude', 'created_at'],
                 dtype=dtypes, engine='python')
df.dropna(inplace=True)
df.head()

Unnamed: 0,id,user_id,venue_id,latitude,longitude,created_at
1,984222,15824,5222,38.895112,-77.036366,2012-04-21 17:43:47
3,984234,44652,5222,33.800745,-84.41052,2012-04-21 17:43:43
7,984291,105054,5222,45.523452,-122.676207,2012-04-21 17:39:22
9,984318,2146539,5222,40.764462,-111.904565,2012-04-21 17:35:46
10,984232,93870,380645,33.448377,-112.074037,2012-04-21 17:38:18


In [114]:
# from sklearn.cluster import MeanShift
from scipy.spatial.distance import cdist

X = df.loc[:, ['latitude', 'longitude']].to_numpy()
clustering = MeanShift(bandwidth=0.1, n_jobs=-1).fit(X)

# Убираем кластеры содержащие меньще 15 координат (доработка)
# {label : np.unique(X[np.where(clustering.labels_ == label)[0], :], axis=0) for label in clustering.labels_}

office_coord = np.array([[33.751277, -118.188740],
                         [25.867736, -80.324116],
                         [51.503016, -0.075479],
                         [52.378894, 4.885084],
                         [39.366487, 117.036146],
                         [-33.868457, 151.205134]])

# Определяем координаты самого ближайшего к офису баннера
matrix_dist = cdist(clustering.cluster_centers_, office_coord, metric='euclidean')
coord = clustering.cluster_centers_[np.argmin(np.min(matrix_dist, axis=1)), :]

with open('ans.txt', 'w') as f:
    f.write(' '.join(map(str, coord)))