Для выполнения задачи оценки качества кластеризации, выберем метрику оценки качества кластеризации, обоснуем выбор методов и приемов, выполним визуальный анализ кластерных структур и определим лучший алгоритм кластеризации на основе выбранной метрики.

Метрики оценки качества кластеризации
Существует несколько метрик для оценки качества кластеризации. В данном случае мы рассмотрим следующие метрики:

Внутрикластерная дисперсия (Inertia): Сумма квадратов расстояний от каждой точки до ближайшего центроида. Чем меньше значение, тем лучше.
Силуэтный коэффициент (Silhouette Score): Оценивает, насколько хорошо точки в одном кластере схожи друг с другом по сравнению с точками в других кластерах. Значения варьируются от -1 до 1, где значения ближе к 1 указывают на лучшее качество кластеризации.
Обоснование выбора методов и приемов
Внутрикластерная дисперсия (Inertia): Простая и часто используемая метрика для оценки кластеризации K-means.
Силуэтный коэффициент (Silhouette Score): Учитывает как внутрикластерное, так и межкластерное расстояние, что дает более полное представление о качестве кластеризации.
Реализация в Streamlit-приложении
Добавим вычисление метрик качества кластеризации, визуализацию кластерных структур и анализ качества кластеризации в наше приложение.

In [None]:
import streamlit as st
import pandas as pd
import plotly.express as px
from sqlalchemy import create_engine
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import silhouette_score
import numpy as np

# Настройка подключения к базе данных PostgreSQL
DATABASE_URL = "postgresql://username:password@localhost:5432/metro_data"
engine = create_engine(DATABASE_URL)

# Загрузка данных
@st.cache
def load_data():
    conn = engine.connect()
    query = '''
    SELECT
        t1.станция AS Станция,
        t1.линия AS Линия,
        t1.номер_билета AS Номер_билета,
        t1.время_входа AS Время_входа,
        t1.время_выхода AS Время_выхода,
        EXTRACT(EPOCH FROM (t1.время_выхода - t1.время_входа)) / 60 AS Продолжительность_поездки,
        t2.среднее_время_ожидания AS Среднее_время_ожидания,
        t2.уровень_комфорта AS Уровень_комфорта,
        t2.инфраструктура_для_маломобильных AS Инфраструктура_для_маломобильных
    FROM поездки AS t1
    JOIN станция_инфо AS t2 ON t1.станция = t2.станция
    '''
    df = pd.read_sql(query, conn)
    conn.close()
    df['Время_входа'] = pd.to_datetime(df['Время_входа'])
    df['Время_выхода'] = pd.to_datetime(df['Время_выхода'])
    df['Час_входа'] = df['Время_входа'].dt.hour
    return df

df = load_data()

# Фильтрация данных
stations = st.multiselect('Выберите станции', df['Станция'].unique(), default=df['Станция'].unique())
time_range = st.slider('Выберите временной интервал', 0, 23, (0, 23))

filtered_df = df[(df['Станция'].isin(stations)) & (df['Час_входа'] >= time_range[0]) & (df['Час_входа'] <= time_range[1])]

# Расчёт метрик
total_load = filtered_df['Станция'].value_counts().reset_index()
total_load.columns = ['Станция', 'Количество пассажиров']
max_load = total_load['Количество пассажиров'].max()
total_load['Загруженность в %'] = (total_load['Количество пассажиров'] / max_load) * 100

avg_passengers = filtered_df.groupby('Станция').size().mean()
stations_no_infra = df[df['Инфраструктура_для_маломобильных'] == False]['Станция'].nunique()

# Кластеризация
clustering_data = filtered_df[['Продолжительность_поездки', 'Час_входа', 'Среднее_время_ожидания', 'Уровень_комфорта']]
scaler = StandardScaler()
clustering_data_scaled = scaler.fit_transform(clustering_data)

kmeans = KMeans(n_clusters=3, random_state=0).fit(clustering_data_scaled)
filtered_df['Кластер'] = kmeans.labels_

# Метрики оценки кластеризации
inertia = kmeans.inertia_
silhouette_avg = silhouette_score(clustering_data_scaled, kmeans.labels_)

# Визуализации
fig_load = px.bar(total_load, x='Станция', y='Количество пассажиров', title='Общая загруженность станций')
fig_percent_load = px.bar(total_load, x='Станция', y='Загруженность в %', title='Загруженность станций в % относительно максимальной')
fig_avg_passengers = px.bar(filtered_df.groupby('Час_входа').size().reset_index(name='Количество пассажиров'), x='Час_входа', y='Количество пассажиров', title='Среднее количество пассажиров в час')

# Визуализация кластеров
fig_clusters = px.scatter(filtered_df, x='Час_входа', y='Продолжительность_поездки', color='Кластер', title='Кластеры поездок')

# Интерфейс Streamlit
st.title("Аналитический дашборд метрополитена")

st.header("Общая загруженность станций")
st.plotly_chart(fig_load)

st.header("Загруженность станций в % относительно максимальной")
st.plotly_chart(fig_percent_load)

st.header("Динамика среднего количества пассажиров по часам")
st.plotly_chart(fig_avg_passengers)

st.header("Кластеры поездок")
st.plotly_chart(fig_clusters)

st.header("Метрики оценки качества кластеризации")
st.metric("Внутрикластерная дисперсия (Inertia)", round(inertia, 2))
st.metric("Силуэтный коэффициент (Silhouette Score)", round(silhouette_avg, 2))

st.header("Ключевые показатели")
st.metric("Среднее количество пассажиров на станциях", round(avg_passengers, 2))
st.metric("Количество станций без инфраструктуры для маломобильных граждан", stations_no_infra)

st.header("Детали поездок")
st.dataframe(filtered_df)


Результат
В данном дашборде пользователь может выбирать станции и временные интервалы для анализа загруженности, отображая ключевые метрики и кластеры поездок, включая визуализацию распределения поездок по кластерам. Метрики оценки качества кластеризации, такие как внутрикластерная дисперсия (Inertia) и силуэтный коэффициент (Silhouette Score), помогут определить качество кластеризации. Визуальный анализ кластерных структур позволит пользователю определить, насколько хорошо разделены кластеры и какие маршруты являются оптимальными, нежелательными или те, от которых следует воздержаться.