In [282]:
import pandas as pd
import numpy as np
import sklearn
import csv
from numpy import linalg

Представим, что международное круизное агентство Carnival Cruise Line решило себя разрекламировать с помощью баннеров и обратилось для этого к вам. Чтобы протестировать, велика ли от таких баннеров польза, их будет размещено всего 20 штук по всему миру. Вам надо выбрать 20 таких локаций для размещения, чтобы польза была большой и агентство продолжило с вами сотрудничать.

Агентство крупное, и у него есть несколько офисов по всему миру. Вблизи этих офисов оно и хочет разместить баннеры — легче договариваться и проверять результат. Также эти места должны быть популярны среди туристов.

Для поиска оптимальных мест воспользуемся базой данных крупнейшей социальной сети, основанной на локациях — Foursquare.
Нас будет интересовать файл checkins.dat. 

In [283]:
with open('checkins.dat') as dat_file, open('file.csv', 'w') as csv_file:
    csv_writer = csv.writer(csv_file)

    for line in dat_file:
        row = [field.strip() for field in line.split('|')]
        if len(row) == 6 and row[3] and row[4]:
            csv_writer.writerow(row)

In [284]:
data = pd.read_csv('file.csv')

С помощью pandas построим DataFrame и убедимся, что все 396634 строки с координатами считаны успешно.

Теперь необходимо кластеризовать данные координаты, чтобы выявить центры скоплений туристов. Поскольку баннеры имеют сравнительно небольшую площадь действия, нам нужен алгоритм, позволяющий ограничить размер кластера и не зависящий от количества кластеров.

Эта задача — хороший повод познакомиться с алгоритмом MeanShift, который мы обошли стороной в основной части лекций. Его описание при желании можно посмотреть в sklearn user guide, а чуть позже появится дополнительное видео с обзором этого и некоторых других алгоритмов кластеризации. Используйте MeanShift, указав bandwidth=0.1, что в переводе из градусов в метры колеблется примерно от 5 до 10 км в средних широтах.

Примечание:на 396634 строках кластеризация будет работать долго. Быть очень терпеливым не возбраняется — результат от этого только улучшится. Но для того, чтобы сдать задание, понадобится сабсет из первых 100 тысяч строк. Это компромисс между качеством и затраченным временем. Обучение алгоритма на всём датасете занимает около часа, а на 100 тыс. строк — примерно 2 минуты, однако этого достаточно для получения корректных результатов.

In [285]:
sample = data[['latitude','longitude']].sample(n = 100000, replace = True)

In [286]:
from sklearn.cluster import MeanShift
ms = MeanShift(bandwidth=0.1)
ms.fit_predict(sample)

array([ 183,  183, 1095, ...,    0,  287,   12])

In [287]:
labels = ms.labels_
cluster_centers = ms.cluster_centers_
n_clusters_ = len(ms.cluster_centers_)

Некоторые из получившихся кластеров содержат слишком мало точек — такие кластеры не интересны рекламодателям. 
Поэтому надо определить, какие из кластеров содержат, скажем, больше 15 элементов.
Центры этих кластеров и являются оптимальными для размещения.

In [288]:
labels_unique, indexes, inverse ,counts = np.unique(ms.labels_, return_index = True, return_inverse= True, return_counts = True)

In [289]:
big_clusters = []
for i in range(n_clusters_):
    if counts[i] > 15:
        big_clusters.append(i)
big_clusters = np.array(big_clusters)

In [290]:
n = len(big_clusters)

Как мы помним, 20 баннеров надо разместить близ офисов компании. Найдем на Google Maps по запросу Carnival Cruise Line адреса всех офисов

In [291]:
offices = np.array([[33.751277, -118.188740],
                  [25.867736, -80.324116],
                  [51.503016, -0.075479],
                  [52.378894, 4.885084],
                  [39.366487, 117.036146]])

Осталось определить 20 ближайших к ним центров кластеров. Т.е. посчитать дистанцию до ближайшего офиса для каждой точки и выбрать 20 с наименьшим значением.

Примечание: при подсчете расстояний и в кластеризации можно пренебречь тем, что Земля круглая, так как в точках, расположенных близко друг к другу погрешность мала, а в остальных точках значение достаточно велико.

Для сдачи задания выберите из получившихся 20 центров тот, который наименее удален от ближайшего к нему офиса. Ответ в этом задании — широта и долгота этого центра, записанные через пробел.

In [292]:
distances = np.zeros(n*len(offices)).reshape(n,len(offices))

In [293]:
for i in range(n):
    for j in range(len(offices)):
        distances[i][j] = linalg.norm(cluster_centers[big_clusters[i]]-offices[j])
    

In [294]:
# Get the minimum value from complete 2D numpy array
minValue = np.amin(distances)
cluster_centers[np.where(distances == distances.min())[0]]

array([[52.37146118,  4.89191997]])