In [283]:
import pandas as pd
import numpy as np
from sklearn.cluster import MeanShift, estimate_bandwidth
from collections import Counter

In [280]:
# считываем данные, удаляем пустые значения
df = pd.read_csv('./umn_foursquare_datasets/checkins.dat', sep = '|', skipinitialspace = True).dropna()

In [281]:
df.head()

Unnamed: 0,id,user_id,venue_id,latitude,longitude,created_at
2,984222,15824.0,5222.0,38.895112,-77.036366,2012-04-21 17:43:47
4,984234,44652.0,5222.0,33.800745,-84.41052,2012-04-21 17:43:43
8,984291,105054.0,5222.0,45.523452,-122.676207,2012-04-21 17:39:22
10,984318,2146539.0,5222.0,40.764462,-111.904565,2012-04-21 17:35:46
11,984232,93870.0,380645.0,33.448377,-112.074037,2012-04-21 17:38:18


In [63]:
len(df)

396634

In [65]:
# нужные данные для кластеризации
X = df[['latitude      ','longitude     ']]

In [67]:
# выполняем кластеризацию с помощью алгоритма MeanShift
ms = MeanShift(bandwidth=0.1)
ms.fit(X[:100000])

labels = ms.labels_  # метки кластеров
cluster_centers = ms.cluster_centers_ # центры кластеров

labels_unique = np.unique(labels)
n_clusters_ = len(labels_unique)

print("number of estimated clusters : %d" % n_clusters_)

number of estimated clusters : 3230


In [293]:
# определяем кластера с более чем 15-ю точками

d = Counter(labels)
good_labels = list()
for k,v in zip(d.keys(), d.values()):
    #print 'cluster label: ', k , 'number of clusters: ',  v
    if v > 15:
        good_labels.append(k)

In [169]:
len(good_labels)

593

In [285]:
# делаем общую таблицу с исходными точками, меткой кластера, центром кластера

cluster_center_df = pd.DataFrame(cluster_centers).reset_index().rename(columns={'index':'label',0:'latitude_center',1:'longitude_center'})

In [286]:
df_labeled = pd.concat([X[:100000].reset_index(drop=True), pd.DataFrame(labels)], axis = 1).rename(columns={0:'label'})

In [287]:
df_total = pd.merge(df_labeled, cluster_center_df, on = 'label')

In [296]:
# фильтруем только точки из больших кластеров (больше 15 точек)

df_good_points = df_total[df_total.label.isin(good_labels)]

In [297]:
df_good_points.head()

Unnamed: 0,latitude,longitude,label,latitude_center,longitude_center
0,38.895112,-77.036366,5,38.886165,-77.048783
1,38.895112,-77.036366,5,38.886165,-77.048783
2,38.804835,-77.046921,5,38.886165,-77.048783
3,38.895112,-77.036366,5,38.886165,-77.048783
4,38.895112,-77.036366,5,38.886165,-77.048783


In [299]:
# массив из центров больших кластеров

good_cluster_centers = np.array(df_good_points[[3,4]].drop_duplicates())
len(df_good_points[[3,4]].drop_duplicates())

593

In [300]:
cluster_centers_more.shape

(593, 2)

In [307]:
# координаты офисов компании (из задания)

offices = np.array([[33.751277, -118.188740], [25.867736, -80.324116], [51.503016, -0.075479], 
                    [52.378894, 4.885084], [39.366487, 117.036146], [-33.868457, 151.205134] ])

In [302]:
def distance(x, y):
    return np.sqrt( np.sum((x - y)**2) )

In [308]:
# считаем расстояния между центром каждого большого кластера и координатами офисов

distances_from_nearest_office = np.empty(good_cluster_centers.shape[0])

for i, item in enumerate(good_cluster_centers):
    distances_to_offices = []
    for j in range(len(offices)):
        dist = distance(item, offices[j])
        distances_to_offices.append(dist)
        
    distances_from_nearest_office[i] = min(distances_to_offices)

In [311]:
# сортируем полученный массив 

minimal_distance = np.sort(distances_from_nearest_office)[0] # нашли минимальную дистанцию
nearest_point = good_cluster_centers[np.argwhere(distances_from_nearest_office==minimal_distance )] # нашли какому центру
                                                                                                    # кластера он соответствует

In [305]:
print('Minimal distance: %f' % minimal_distance)
print('Coordinates of closest centroid: %s' % str(nearest_point))

Minimal distance: 0.007835
Coordinates of closest centroid: [[[ -33.86063043  151.20477593]]]


In [314]:
# запишем ответы
answer = str(nearest_point[0,0,0]) + ' ' + str(nearest_point[0,0,1])
with open('answer.txt', 'w') as fout:
    fout.write(answer)