In [1]:
import numpy as np
import pandas as pd
import scipy
from matplotlib import pylab, gridspec, pyplot as plt
%matplotlib inline
plt.style.use('fivethirtyeight')

*Сохраняем данные*

In [2]:
df = pd.read_csv("data.csv", index_col=False)

*Вид данных*

In [3]:
df.head()

Unnamed: 0,arr_line,dest_line,arr_station,dest_station
0,Сокольническая линия,Сокольническая линия,Черкизовская,Преображенская площадь
1,Сокольническая линия,Сокольническая линия,Преображенская площадь,Сокольники
2,Сокольническая линия,Сокольническая линия,Сокольники,Красносельская
3,Сокольническая линия,Сокольническая линия,Красносельская,Комсомольская
4,Сокольническая линия,Сокольническая линия,Комсомольская,Красные ворота


In [4]:
df["arr_line"] = " " + df["arr_line"]

*Преобразуем в однородные данные*

In [5]:
new_df = pd.DataFrame(columns=['from', 'to'])

In [6]:
new_df['from'] = df['arr_line'] + df['arr_station']
new_df['to'] = df['dest_line'] + df['dest_station']
new_df.head()

Unnamed: 0,from,to
0,Сокольническая линия Черкизовская,Сокольническая линия Преображенская площадь
1,Сокольническая линия Преображенская площадь,Сокольническая линия Сокольники
2,Сокольническая линия Сокольники,Сокольническая линия Красносельская
3,Сокольническая линия Красносельская,Сокольническая линия Комсомольская
4,Сокольническая линия Комсомольская,Сокольническая линия Красные ворота


*Создадим матрицу смежности*

In [7]:
stations = np.unique([*new_df['from'], *new_df['to']])
dim = stations.shape[0]
adj_matrix = np.zeros([dim, dim], dtype='int')
adj_matrix

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

*Создадим словари для хранения названий станций и ключей*

In [8]:
dict_stations = dict(zip(stations, range(stations.shape[0]))) 
rev_dict_stations = dict(zip(range(stations.shape[0]), stations)) 

*Новый датафрейм с ключами станций*

In [9]:
df_num = new_df.copy()
df_num['from'] = df_num['from'].map(dict_stations)
df_num['to'] = df_num['to'].map(dict_stations)
df_num.head()

Unnamed: 0,from,to
0,164,158
1,158,160
2,160,152
3,152,151
4,151,153


*Заполним матрицу смежности*

In [10]:
list_from = list(df_num['from'])
list_to = list(df_num['to'])
for i in range(len(list_from)):
    adj_matrix[list_to[i]][list_from[i]] = adj_matrix[list_from[i]][list_to[i]] = 1

adj_matrix

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

*Нахождение кратчайших путей между станциями при помощи алгоритма Дейкстры*

In [11]:
class Graph:
    def __init__(self, matrix):
        self.matrix = matrix
        self.dim = matrix.shape[0]

    def _short_path(self, src: int):
        dist = np.full(self.dim, np.inf)
        prev = np.full(self.dim, False)
        dist[src] = 0
        for i in range(self.dim):
            u = np.inf
            for j in range(self.dim):
                if prev[j] == False and dist[j] <= u:
                    u = dist[j]
                    cur = j
        
            prev[cur] = True
       
            for j in range(self.dim):
                if self.matrix[cur][j] > 0 and prev[j] == False:
                    if dist[cur] + self.matrix[cur][j] < dist[j]:
                        dist[j] = dist[cur] + self.matrix[cur][j]
        return dist

    def distance_matrix(self):
        return np.array([self._short_path(i) for i in range(self.dim)], dtype='int')

*Получим матрицу расстояний между станциями*

In [12]:
%%time
# лучше не запускать
graph = Graph(adj_matrix)
distances = graph.distance_matrix()
distances

CPU times: user 17.6 s, sys: 155 ms, total: 17.7 s
Wall time: 18.5 s


array([[ 0,  3, 10, ...,  4,  6,  8],
       [ 3,  0, 13, ...,  7,  9, 11],
       [10, 13,  0, ..., 10, 10,  8],
       ...,
       [ 4,  7, 10, ...,  0,  2,  4],
       [ 6,  9, 10, ...,  2,  0,  2],
       [ 8, 11,  8, ...,  4,  2,  0]])

*Сохраним полученую матрицу в .csv формат*

In [13]:
temp = pd.DataFrame(distances)
temp.to_csv("distance_data.csv", index = False)


In [14]:
df_dist = pd.read_csv("distance_data.csv")
df_dist.head()        

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,192,193,194,195,196,197,198,199,200,201
0,0,3,10,7,2,7,5,2,11,6,...,4,3,6,5,5,7,3,4,6,8
1,3,0,13,4,5,10,8,1,14,9,...,7,6,9,8,8,10,6,7,9,11
2,10,13,0,17,8,3,5,12,1,4,...,10,9,6,11,11,7,10,10,10,8
3,7,4,17,0,9,14,12,5,18,13,...,11,10,13,12,12,14,10,11,13,15
4,2,5,8,9,0,5,3,4,9,4,...,2,1,4,3,3,5,2,2,4,6


*Заполним признаки "напитков" и сохраним в .csv список станций*

In [15]:
df_names = pd.DataFrame(stations, columns=['name'])
df_names['coffee'] = 0
df_names['tea'] = 0

In [16]:
tea_map = {' Замоскворецкая линия Царицыно': 2, ' Таганско-Краснопресненская линия Текстильщики': 1, '  Замоскворецкая линия Войковская': 2, ' Калужско-Рижская линия Бабушкинская': 1, ' Серпуховско-Тимирязевская линия Отрадное': 1, ' Замоскворецкая линия Орехово': 1, ' Замоскворецкая линия Ховрино': 1}
coffee_map = {' Калужско-Рижская линия Академическая': 1, ' Серпуховско-Тимирязевская линия Тимирязевская': 1, ' Люблинская линия Окружная': 1, ' Арбатско-Покровская линия Молодёжная': 1, '  Люблинская линия Бутырская': 1, ' Кольцевая линия Комсомольская': 1, ' Замоскворецкая линия Речной вокзал': 1, ' Замоскворецкая линия Войковская': 2, ' Замоскворецкая линия Сокол': 1}

In [17]:
print(coffee_map, tea_map, sep= '\n\n')

{' Калужско-Рижская линия Академическая': 1, ' Серпуховско-Тимирязевская линия Тимирязевская': 1, ' Люблинская линия Окружная': 1, ' Арбатско-Покровская линия Молодёжная': 1, '  Люблинская линия Бутырская': 1, ' Кольцевая линия Комсомольская': 1, ' Замоскворецкая линия Речной вокзал': 1, ' Замоскворецкая линия Войковская': 2, ' Замоскворецкая линия Сокол': 1}

{' Замоскворецкая линия Царицыно': 2, ' Таганско-Краснопресненская линия Текстильщики': 1, '  Замоскворецкая линия Войковская': 2, ' Калужско-Рижская линия Бабушкинская': 1, ' Серпуховско-Тимирязевская линия Отрадное': 1, ' Замоскворецкая линия Орехово': 1, ' Замоскворецкая линия Ховрино': 1}


In [18]:
for i, row in df_names[df_names['name'].isin(coffee_map.keys())].iterrows():
    df_names.at[i, 'coffee'] = coffee_map[df_names.at[i, 'name']]
for i, row in df_names[df_names['name'].isin(tea_map.keys())].iterrows():
    df_names.at[i, 'tea'] = tea_map[df_names.at[i, 'name']]
df_names.to_csv('station_list.csv', index=False)
df_names.head(10)

Unnamed: 0,name,coffee,tea
0,Арбатско-Покровская линия Арбатская,0,0
1,Арбатско-Покровская линия Бауманская,0,0
2,Арбатско-Покровская линия Волоколамская,0,0
3,Арбатско-Покровская линия Измайловская,0,0
4,Арбатско-Покровская линия Киевская,0,0
5,Арбатско-Покровская линия Крылатское,0,0
6,Арбатско-Покровская линия Кунцевская,0,0
7,Арбатско-Покровская линия Курская,0,0
8,Арбатско-Покровская линия Митино,0,0
9,Арбатско-Покровская линия Молодёжная,1,0


In [19]:
df_dist['coffee'] = df_names['coffee']
df_dist['tea'] = df_names['tea']

In [20]:
df_dist[df_dist['tea'] != 0]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,194,195,196,197,198,199,200,201,coffee,tea
44,10,11,20,15,12,17,15,10,21,16,...,16,14,14,17,13,13,15,17,0,1
50,13,14,20,18,12,17,15,13,21,16,...,16,14,14,17,13,13,15,17,0,1
51,9,10,19,14,11,16,14,9,20,15,...,15,13,13,16,12,12,14,16,0,2
64,12,11,20,15,12,17,15,10,21,16,...,16,14,14,17,13,13,15,17,0,1
135,10,12,19,16,11,16,14,11,20,15,...,15,13,13,16,12,12,14,16,0,1
185,8,7,18,11,10,15,13,6,19,14,...,14,12,12,15,11,11,13,15,0,1


In [21]:
def guess_class(x: int, k: int):
    """определение класса для станции x по k соседям"""
    return

In [22]:
# def guess_class(x,y,k):
#     '''
#         Функция отрисовки окрестности точки (x,y) и функция поиска расстояния между точками b,c на плоскости
#     '''
#     def draw_points(x,y):
#         plt.figure(figsize=(5,5))
#         plt.grid(ls='--')
#         plt.scatter(a,blues,c='b')
#         plt.scatter(a,reds,c='r')
#         plt.scatter(x,y,c='g')
#         plt.xlim(x-7, x+7)
#         plt.ylim(y-7, y+7)
#     draw_points(x,y)
    
#     def distance_2d(b,c):
#         return np.sqrt((b[0]-c[0])**2+(b[1]-c[1])**2)
#     '''
#         Функция подсчета расстояний между ближайшими k точками
#     '''
#     def calculate_k_distances(class_points,l):
#         distances = []
#         labels = []
#         for point in class_points:
#             # считаем расстояние от точки до точки класса
#             distances.append(distance_2d(point,[x,y]))
#         distances = np.sort(distances)[::-1]
#         return [(x,l) for x in distances[:k]]  
             
#     b = np.array(calculate_k_distances(blue_pairs,'b')) # расстояния до ближайших k соседей класса blue
#     r = np.array(calculate_k_distances(red_pairs,'r')) # расстояния до ближайших k соседей класса red
    
#     print('Ближайшие {} синих соседей'.format(k),b)
#     print('Ближайшие {} красных соседей'.format(k),r)
#     nearest_k_dists = pd.DataFrame(np.concatenate((b,r)),
#                                    columns=['distance', 'label']).sort_values(by='distance',
#                                                                               ascending=False)[::-1][:k]
#     print('======================================================')
#     print(nearest_k_dists)
#     r, b =0, 0 
#     for i in range(2*k):
#         try:
#             if nearest_k_dists['label'][i] == 'r':
#                 r += 1
#             else:
#                 b += 1
#         except:
#             continue
#     if r > b :
#         print('red')
#     else:
#         print('blue')