# Метод ближайших соседей при классификации станций метро по количеству людей которые пьют чай или кофе

## Подготовка данных

In [1]:
import os

# Текущий каталог где находятся файлы
FILES_DIR = "C:\\Projects\\knn"

# stations.txt содержит данные по станциям на линиях метро, а также соседние станции
# Сначала заполняем матрицу смежности для вершин на линиях метро и соседних станций
metro_stations = {}
with open(os.path.join(FILES_DIR, "stations.txt"), "r", encoding = "utf8") as st:
    m_lines = []
    # Заполняем станции по линиям метро
    for line in st:
        if "***ПЕРЕХОДЫ***" in line:
            break
        if ("***" in line):
            if m_lines:
                # конец линии
                for i in range(len(m_lines)):
                    if m_lines[i] not in metro_stations.keys():
                        metro_stations[m_lines[i]] = {}
                    for j in range(len(m_lines)):
                        metro_stations[m_lines[i]][m_lines[j]] = abs(i-j)
                m_lines=[]
        else:
            m_lines.append(line.split("(")[0].strip().lower())
    
    # Заполняем смежные станции
    for line in st:
        line = line.split("(")[0].strip().lower().replace("+", "/")
        if "/" in line:
            m_lines = line.split("/")
            for i in range(len(m_lines)):
                    if m_lines[i] not in metro_stations.keys():
                        metro_stations[m_lines[i]] = {}
                    for j in range(len(m_lines)):
                        metro_stations[m_lines[i]][m_lines[j]] = 0
    # Результат в metro_stations

In [2]:
import sys
sys.path.append(FILES_DIR)
from classes_data import cl_data
from metro_matrix_full import METRO

## Алгоритмы классификации KNN

In [3]:
def get_neighbors(k, metro):
    # Код получения соседних станций (включая саму станцию) по k и названию метро из словаря METRO
    neighbours = {}
    for i in METRO[metro]:
    
        if METRO[metro][i] <= k:
            neighbours.update(  {   i : METRO[metro][i]   }   )

    return neighbours

In [4]:
def knn(neighbors):
    # В neighbors содержится словарь с данными по соседним станциям и самой станции
    # Подсчетываем количества людей для классов "чай" и "кофе"
    # Нужно проверить особый случай когда кол-во людей для "чай" и "кофе" одинаковое
    # тогда используем взвешенное голосование (для каждого класса ["чай" и "кофе"] подсчитываем сумму по всем 
    # станциям 1/квадрат расстояния)
    votes_tea = 0
    votes_coffee = 0
    
    for i in neighbors:
        if i not in cl_data.keys():
            votes_tea, votes_cofee = 0, 0
        else:
            votes_tea += ((1000 - neighbors[i]) / 1000) * cl_data[i]['чай']
            votes_coffee += ((1000 - neighbors[i]) / 1000) * cl_data[i]['кофе']

    if votes_tea > votes_coffee:
        return("чай", votes_tea, votes_coffee)
    elif votes_tea < votes_coffee:
        return("кофе", votes_tea, votes_coffee)

    return ("", votes_tea, votes_coffee)

## Ввод данных и выполнение классификации

In [None]:
k = 0
metro = ''
print("Для выхода нажмите <ENTER>")
while True:
    print("Введите k:")
    k = input()
    if k == '':
        break
    print("Введите название метро:")
    metro = input().strip().lower()
    if metro == '':
        break
    try:
        result = knn(get_neighbors(int(k), metro))
    except KeyError:
        print("Неправильно указана станция метро")
        continue
    except ValueError:
        print("Число k указано неправильно")
        continue
        
    if not result[0]:
        if result[1] == result[2] == 0:
            print("По станции метро {0} отсутствуют данные".format(metro))
        else:
            print("На станции метро {0} c k={1} чай и кофе пьют поровну".format(metro, k))
    if result[0] == "чай":
        print("На станции метро {0} с k={1} пьют чай".format(metro, k))
    if result[0] == "кофе":
        print("На станции метро {0} с k={1} пьют кофе".format(metro, k))

Для выхода нажмите <ENTER>
Введите k:
1
Введите название метро:
Чертановская
По станции метро чертановская отсутствуют данные
Введите k:
комсомольская
Введите название метро:
в
Число k указано неправильно
Введите k:
1
Введите название метро:
комсомольская
На станции метро комсомольская с k=1 пьют кофе
Введите k:
