In [6]:
import numpy as np
import pandas as pd
import scipy
from matplotlib import pylab, gridspec, pyplot as plt
%matplotlib inline
plt.style.use('fivethirtyeight')

In [7]:
df = pd.read_csv("data.csv", index_col=False)

In [8]:
df.head()

Unnamed: 0,arr_line,dest_line,arr_station,dest_station
0,Сокольническая линия,Сокольническая линия,Черкизовская,Преображенская площадь
1,Сокольническая линия,Сокольническая линия,Преображенская площадь,Сокольники
2,Сокольническая линия,Сокольническая линия,Сокольники,Красносельская
3,Сокольническая линия,Сокольническая линия,Красносельская,Комсомольская
4,Сокольническая линия,Сокольническая линия,Комсомольская,Красные ворота


In [9]:
df['transf'] = False
df["arr_line"] = " " + df["arr_line"]

In [10]:
df.loc[df["arr_line"] != df["dest_line"], "transf"] = True

In [11]:
df.head(10)

Unnamed: 0,arr_line,dest_line,arr_station,dest_station,transf
0,Сокольническая линия,Сокольническая линия,Черкизовская,Преображенская площадь,False
1,Сокольническая линия,Сокольническая линия,Преображенская площадь,Сокольники,False
2,Сокольническая линия,Сокольническая линия,Сокольники,Красносельская,False
3,Сокольническая линия,Сокольническая линия,Красносельская,Комсомольская,False
4,Сокольническая линия,Сокольническая линия,Комсомольская,Красные ворота,False
5,Сокольническая линия,Кольцевая линия,Комсомольская,Комсомольская,True
6,Сокольническая линия,Сокольническая линия,Красные ворота,Чистые пруды,False
7,Сокольническая линия,Сокольническая линия,Чистые пруды,Лубянка,False
8,Сокольническая линия,Калужско-Рижская линия,Чистые пруды,Тургеневская,True
9,Сокольническая линия,Люблинская линия,Чистые пруды,Сретенский бульвар,True


In [12]:
new_df = pd.DataFrame(columns=['from', 'to'])

In [13]:
new_df['from'] = df['arr_line'] + df['arr_station']
new_df['to'] = df['dest_line'] + df['dest_station']
new_df.head()

Unnamed: 0,from,to
0,Сокольническая линия Черкизовская,Сокольническая линия Преображенская площадь
1,Сокольническая линия Преображенская площадь,Сокольническая линия Сокольники
2,Сокольническая линия Сокольники,Сокольническая линия Красносельская
3,Сокольническая линия Красносельская,Сокольническая линия Комсомольская
4,Сокольническая линия Комсомольская,Сокольническая линия Красные ворота


In [14]:
stations = np.unique(new_df[['from', 'to']].values)
dict_stations = dict(zip(stations, range(stations.shape[0])))
dict_transform = dict(zip(range(stations.shape[0]), stations))

In [15]:
adj_matrix = np.zeros([stations.shape[0], stations.shape[0]])
adj_matrix.shape

(202, 202)

In [16]:
new_df['from'] = new_df['from'].map(dict_stations)
new_df['to'] = new_df['to'].map(dict_stations)
new_df.head()

Unnamed: 0,from,to
0,164,158
1,158,160
2,160,152
3,152,151
4,151,153


In [17]:
data_l_in = list(new_df['from'])
data_l_out = list(new_df['to'])
i , j = 0, 0
while i < len(data_l_in) - 1:
    adj_matrix[data_l_out[i]][data_l_in[j]] = adj_matrix[data_l_in[j]][data_l_out[i]] = 1
    j+=1
    i+=1
adj_matrix = adj_matrix.astype(int)

In [18]:
print(dict_transform[0], adj_matrix[0])

 Арбатско-Покровская линия Арбатская [0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0]


In [21]:
def neighbors(station: int) -> list:
    list_neighbors = []
    for i in range(len(adj_matrix[station])):
        if adj_matrix[station][i] == 1:
            list_neighbors.append(dict_transform[i])
    return list_neighbors

In [22]:
neighbors(0)

[' Арбатско-Покровская линия Площадь Революции',
 ' Арбатско-Покровская линия Смоленская',
 ' Серпуховско-Тимирязевская линия Боровицкая',
 ' Сокольническая линия Библиотека имени Ленина',
 ' Филевская линия Александровский сад']

In [14]:
def guess_class(x,y,k):
    '''
        Функция отрисовки окрестности точки (x,y) и функция поиска расстояния между точками b,c на плоскости
    '''
    def draw_points(x,y):
        plt.figure(figsize=(5,5))
        plt.grid(ls='--')
        plt.scatter(a,blues,c='b')
        plt.scatter(a,reds,c='r')
        plt.scatter(x,y,c='g')
        plt.xlim(x-7, x+7)
        plt.ylim(y-7, y+7)
    draw_points(x,y)
    
    def distance_2d(b,c):
        return np.sqrt((b[0]-c[0])**2+(b[1]-c[1])**2)
    '''
        Функция подсчета расстояний между ближайшими k точками
    '''
    def calculate_k_distances(class_points,l):
        distances = []
        labels = []
        for point in class_points:
            # считаем расстояние от точки до точки класса
            distances.append(distance_2d(point,[x,y]))
        distances = np.sort(distances)[::-1]
        return [(x,l) for x in distances[:k]]  
             
    b = np.array(calculate_k_distances(blue_pairs,'b')) # расстояния до ближайших k соседей класса blue
    r = np.array(calculate_k_distances(red_pairs,'r')) # расстояния до ближайших k соседей класса red
    
    print('Ближайшие {} синих соседей'.format(k),b)
    print('Ближайшие {} красных соседей'.format(k),r)
    nearest_k_dists = pd.DataFrame(np.concatenate((b,r)),
                                   columns=['distance', 'label']).sort_values(by='distance',
                                                                              ascending=False)[::-1][:k]
    print('======================================================')
    print(nearest_k_dists)
    r, b =0, 0 
    for i in range(2*k):
        try:
            if nearest_k_dists['label'][i] == 'r':
                r += 1
            else:
                b += 1
        except:
            continue
    if r > b :
        print('red')
    else:
        print('blue')