Для выполнения задачи кластеризации и определения наиболее предпочтительных условий для поездки, необходимо создать новый набор данных, который включает все возможные маршруты с указанием всех характеристик, упомянутых выше. Также можно добавить внешние данные, такие как плотность пассажиропотока, время ожидания на станциях, уровень комфорта и т.д.

Переформирование набора данных
Создание маршрутов:

Включим информацию о всех возможных маршрутах, соединяющих различные станции.
Определим продолжительность поездки для каждого маршрута.
Характеристики маршрутов:

Включим такие характеристики, как загруженность станций, пропускная способность, продолжительность поездки и т.д.
Добавим внешние данные, такие как время ожидания и уровень комфорта

In [4]:
import pandas as pd
import numpy as np

# Примерный датасет поездок
data = {
    'Станция': ['Станция А', 'Станция B', 'Станция А', 'Станция C', 'Станция B', 'Станция А', 'Станция C'],
    'Линия': ['Линия 1', 'Линия 2', 'Линия 1', 'Линия 3', 'Линия 2', 'Линия 1', 'Линия 3'],
    'Номер билета': [12345, 12346, 12347, 12348, 12349, 12350, 12351],
    'Время входа': pd.to_datetime(['2024-06-07 08:30:00', '2024-06-07 08:35:00', '2024-06-07 09:00:00',
                                  '2024-06-07 09:10:00', '2024-06-07 09:15:00', '2024-06-07 09:30:00',
                                  '2024-06-07 09:45:00']),
    'Время выхода': pd.to_datetime(['2024-06-07 08:50:00', '2024-06-07 08:55:00', '2024-06-07 09:20:00',
                                   '2024-06-07 09:30:00', '2024-06-07 09:35:00', '2024-06-07 09:50:00',
                                   '2024-06-07 10:05:00'])
}

df = pd.DataFrame(data)

# Вычисление продолжительности поездки
df['Продолжительность поездки'] = (df['Время выхода'] - df['Время входа']).dt.total_seconds() / 60  # в минутах

# Внешние данные о времени ожидания и уровне комфорта на станциях
external_data = {
    'Станция': ['Станция А', 'Станция B', 'Станция C'],
    'Среднее время ожидания (мин)': [2, 3, 1.5],
    'Уровень комфорта': [4, 3, 5]  # Допустим, 1 - низкий комфорт, 5 - высокий комфорт
}
external_df = pd.DataFrame(external_data)

# Слияние данных о поездках с внешними данными
merged_df = df.merge(external_df, on='Станция')

# Расчёт загруженности и пропускной способности
total_load = merged_df['Станция'].value_counts().reset_index()
total_load.columns = ['Станция', 'Количество пассажиров']
average_load = merged_df['Станция'].value_counts().mean()
merged_df['Пропускная способность, %'] = merged_df['Станция'].map(merged_df['Станция'].value_counts() / average_load * 100)

# Подготовка данных маршрутов
routes_data = {
    'Маршрут': ['А-Б', 'А-С', 'Б-С'],
    'Начальная станция': ['Станция А', 'Станция А', 'Станция B'],
    'Конечная станция': ['Станция B', 'Станция C', 'Станция C']
}
routes_df = pd.DataFrame(routes_data)

# Примерное время в пути между станциями (минуты)
routes_df['Средняя продолжительность поездки (мин)'] = [20, 30, 15]

# Добавление внешних характеристик к маршрутам
routes_df = routes_df.merge(external_df.rename(columns={'Станция': 'Начальная станция'}), on='Начальная станция')
routes_df = routes_df.merge(external_df.rename(columns={'Станция': 'Конечная станция',
                                                        'Среднее время ожидания (мин)': 'Среднее время ожидания конечной станции (мин)',
                                                        'Уровень комфорта': 'Уровень комфорта конечной станции'}), on='Конечная станция')

print(merged_df)
print(routes_df)


     Станция    Линия  Номер билета         Время входа        Время выхода  \
0  Станция А  Линия 1         12345 2024-06-07 08:30:00 2024-06-07 08:50:00   
1  Станция А  Линия 1         12347 2024-06-07 09:00:00 2024-06-07 09:20:00   
2  Станция А  Линия 1         12350 2024-06-07 09:30:00 2024-06-07 09:50:00   
3  Станция B  Линия 2         12346 2024-06-07 08:35:00 2024-06-07 08:55:00   
4  Станция B  Линия 2         12349 2024-06-07 09:15:00 2024-06-07 09:35:00   
5  Станция C  Линия 3         12348 2024-06-07 09:10:00 2024-06-07 09:30:00   
6  Станция C  Линия 3         12351 2024-06-07 09:45:00 2024-06-07 10:05:00   

   Продолжительность поездки  Среднее время ожидания (мин)  Уровень комфорта  \
0                       20.0                           2.0                 4   
1                       20.0                           2.0                 4   
2                       20.0                           2.0                 4   
3                       20.0                   

In [5]:
merged_df

Unnamed: 0,Станция,Линия,Номер билета,Время входа,Время выхода,Продолжительность поездки,Среднее время ожидания (мин),Уровень комфорта,"Пропускная способность, %"
0,Станция А,Линия 1,12345,2024-06-07 08:30:00,2024-06-07 08:50:00,20.0,2.0,4,128.571429
1,Станция А,Линия 1,12347,2024-06-07 09:00:00,2024-06-07 09:20:00,20.0,2.0,4,128.571429
2,Станция А,Линия 1,12350,2024-06-07 09:30:00,2024-06-07 09:50:00,20.0,2.0,4,128.571429
3,Станция B,Линия 2,12346,2024-06-07 08:35:00,2024-06-07 08:55:00,20.0,3.0,3,85.714286
4,Станция B,Линия 2,12349,2024-06-07 09:15:00,2024-06-07 09:35:00,20.0,3.0,3,85.714286
5,Станция C,Линия 3,12348,2024-06-07 09:10:00,2024-06-07 09:30:00,20.0,1.5,5,85.714286
6,Станция C,Линия 3,12351,2024-06-07 09:45:00,2024-06-07 10:05:00,20.0,1.5,5,85.714286


In [6]:
routes_df

Unnamed: 0,Маршрут,Начальная станция,Конечная станция,Средняя продолжительность поездки (мин),Среднее время ожидания (мин),Уровень комфорта,Среднее время ожидания конечной станции (мин),Уровень комфорта конечной станции
0,А-Б,Станция А,Станция B,20,2.0,4,3.0,3
1,А-С,Станция А,Станция C,30,2.0,4,1.5,5
2,Б-С,Станция B,Станция C,15,3.0,3,1.5,5
