In [2]:
import pandas as pd
from datetime import datetime, timedelta
import numpy as np

# Примерные данные
data = {
    'станция входа': ['Станция А', 'Станция Б', 'Станция А', 'Станция В', 'Станция Г',
                      'Станция А', 'Станция Б', 'Станция В', 'Станция Г', 'Станция Д'],
    'станция выхода': ['Станция Б', 'Станция В', 'Станция В', 'Станция Г', 'Станция Д',
                       'Станция Д', 'Станция А', 'Станция Д', 'Станция А', 'Станция Б'],
    'линия метро': ['Линия 1', 'Линия 1', 'Линия 2', 'Линия 2', 'Линия 3',
                    'Линия 1', 'Линия 3', 'Линия 1', 'Линия 2', 'Линия 3'],
    'номер билета': [101, 102, 103, 104, 105, 106, 107, 108, 109, 110],
    'время входа': [
        '2023-06-01 08:00:00', '2023-06-01 08:15:00', '2023-06-01 08:30:00',
        '2023-06-01 08:45:00', '2023-06-01 09:00:00', '2023-06-01 09:15:00',
        '2023-06-01 09:30:00', '2023-06-01 09:45:00', '2023-06-01 10:00:00',
        '2023-06-01 10:15:00'
    ],
    'время выхода': [
        '2023-06-01 08:20:00', '2023-06-01 08:35:00', '2023-06-01 08:50:00',
        '2023-06-01 09:05:00', '2023-06-01 09:20:00', '2023-06-01 09:35:00',
        '2023-06-01 09:50:00', '2023-06-01 10:05:00', '2023-06-01 10:20:00',
        '2023-06-01 10:35:00'
    ]
}

# Создание DataFrame
df = pd.DataFrame(data)
# Преобразование времени в формат datetime
df['время входа'] = pd.to_datetime(df['время входа'])
df['время выхода'] = pd.to_datetime(df['время выхода'])

# Общая загруженность станции
station_load = df['станция входа'].value_counts() + df['станция выхода'].value_counts()

# Средняя пропускная способность
average_capacity = station_load.mean()

# Пропускная способность в процентах
station_capacity_percent = (station_load / average_capacity) * 100

# Количество входов и выходов на станции
entry_count = df['станция входа'].value_counts()
exit_count = df['станция выхода'].value_counts()

# Временные интервалы поездки и продолжительность поездки
df['длительность поездки'] = df['время выхода'] - df['время входа']
average_trip_duration = df['длительность поездки'].mean()

# Вывод результатов
print("Общая загруженность станции:")
print(station_load)
print("\nПропускная способность в процентах:")
print(station_capacity_percent)
print("\nКоличество входов на станции:")
print(entry_count)
print("\nКоличество выходов на станции:")
print(exit_count)
print("\nСредняя продолжительность поездки:")
print(average_trip_duration)


Общая загруженность станции:
Станция А    5
Станция Б    4
Станция В    4
Станция Г    3
Станция Д    4
dtype: int64

Пропускная способность в процентах:
Станция А    125.0
Станция Б    100.0
Станция В    100.0
Станция Г     75.0
Станция Д    100.0
dtype: float64

Количество входов на станции:
Станция А    3
Станция Б    2
Станция В    2
Станция Г    2
Станция Д    1
Name: станция входа, dtype: int64

Количество выходов на станции:
Станция Д    3
Станция Б    2
Станция В    2
Станция А    2
Станция Г    1
Name: станция выхода, dtype: int64

Средняя продолжительность поездки:
0 days 00:20:00


Создание всех возможных маршрутов

In [None]:
import pandas as pd
from datetime import datetime, timedelta

# Примерные данные
data = {
    'станция входа': ['Станция А', 'Станция Б', 'Станция А', 'Станция В', 'Станция Г',
                      'Станция А', 'Станция Б', 'Станция В', 'Станция Г', 'Станция Д'],
    'станция выхода': ['Станция Б', 'Станция В', 'Станция В', 'Станция Г', 'Станция Д',
                       'Станция Д', 'Станция А', 'Станция Д', 'Станция А', 'Станция Б'],
    'линия метро': ['Линия 1', 'Линия 1', 'Линия 2', 'Линия 2', 'Линия 3',
                    'Линия 1', 'Линия 3', 'Линия 1', 'Линия 2', 'Линия 3'],
    'номер билета': [101, 102, 103, 104, 105, 106, 107, 108, 109, 110],
    'время входа': [
        '2023-06-01 08:00:00', '2023-06-01 08:15:00', '2023-06-01 08:30:00',
        '2023-06-01 08:45:00', '2023-06-01 09:00:00', '2023-06-01 09:15:00',
        '2023-06-01 09:30:00', '2023-06-01 09:45:00', '2023-06-01 10:00:00',
        '2023-06-01 10:15:00'
    ],
    'время выхода': [
        '2023-06-01 08:20:00', '2023-06-01 08:35:00', '2023-06-01 08:50:00',
        '2023-06-01 09:05:00', '2023-06-01 09:20:00', '2023-06-01 09:35:00',
        '2023-06-01 09:50:00', '2023-06-01 10:05:00', '2023-06-01 10:20:00',
        '2023-06-01 10:35:00'
    ]
}

# Создание DataFrame
df = pd.DataFrame(data)

# Преобразование времени в формат datetime
df['время входа'] = pd.to_datetime(df['время входа'])
df['время выхода'] = pd.to_datetime(df['время выхода'])

# Определение всех уникальных станций
stations = pd.concat([df['станция входа'], df['станция выхода']]).unique()

# Создание всех возможных маршрутов
routes = pd.DataFrame([(start, end) for start in stations for end in stations if start != end], columns=['станция входа', 'станция выхода'])


Подсчет характеристик для каждого маршрута

In [None]:
# Объединение данных для маршрутов
routes = routes.merge(df, on=['станция входа', 'станция выхода'], how='left')

# Заполнение пропусков
routes.fillna({'линия метро': 'N/A', 'номер билета': -1, 'время входа': pd.NaT, 'время выхода': pd.NaT}, inplace=True)

# Рассчет общей загруженности станции, пропускной способности и количественных характеристик
entry_count = df['станция входа'].value_counts()
exit_count = df['станция выхода'].value_counts()
station_load = entry_count.add(exit_count, fill_value=0)

average_capacity = station_load.mean()
station_capacity_percent = (station_load / average_capacity) * 100

# Добавление характеристик в маршруты
routes['входы на станцию'] = routes['станция входа'].map(entry_count).fillna(0)
routes['выходы на станцию'] = routes['станция выхода'].map(exit_count).fillna(0)
routes['общая загруженность входа'] = routes['станция входа'].map(station_load).fillna(0)
routes['общая загруженность выхода'] = routes['станция выхода'].map(station_load).fillna(0)
routes['пропускная способность входа (%)'] = routes['станция входа'].map(station_capacity_percent).fillna(0)
routes['пропускная способность выхода (%)'] = routes['станция выхода'].map(station_capacity_percent).fillna(0)

# Временные интервалы поездки и продолжительность поездки
routes['длительность поездки'] = routes.apply(lambda x: x['время выхода'] - x['время входа'] if pd.notnull(x['время входа']) and pd.notnull(x['время выхода']) else pd.NaT, axis=1)
routes['средняя длительность поездки'] = df.groupby(['станция входа', 'станция выхода'])['длительность поездки'].transform('mean')

# Вывод результатов
print(routes)


Вывод
Этот код создает набор данных, содержащий все возможные маршруты, а также рассчитанные характеристики для каждого маршрута, такие как:

Общая загруженность станции
Пропускная способность в процентах по отношению к средней пропускной способности
Количественные характеристики входного и выходного оборудования
Временные интервалы поездки
Продолжительность поездки
Этот набор данных можно использовать для дальнейшей кластеризации и определения наиболее предпочтительных условий для поездки.