# Основы кластерного анализа

Кластеризация – это метод машинного обучения без учителя, который группирует данные на основе схожести объектов. Цель кластерного анализа – найти естественные группы (кластеры) в данных, чтобы объекты в одной группе были максимально похожи друг на друга, а объекты в разных группах – максимально различны. В основе большинства методов кластеризации лежат концепции расстояний или плотности точек данных.

1. **Как работает кластеризация?**
   - **Определение сходства:** Сходство между объектами обычно измеряется с помощью метрик расстояния, таких как евклидово, манхэттенское или косинусное расстояние.
   - **Разделение данных:** Методы кластеризации делят данные на кластеры, опираясь на выбранные метрики сходства, минимизируя внутрикластерные расстояния и максимизируя межкластерные.
   - **Обновление кластеров:** Некоторые алгоритмы, например, K-means, итеративно обновляют центроиды кластеров, чтобы минимизировать общую дисперсию, пока кластеры не станут стабильными.

2. **Процесс кластерного анализа:**
   - **Выбор метода кластеризации:** Зависит от структуры данных, количества кластеров и целей анализа.
   - **Определение параметров:** Например, для K-means нужно указать количество кластеров (k), а для DBSCAN – плотностные параметры.
   - **Интерпретация кластеров:** После выполнения кластеризации важно понять, что представляют собой группы, и проверить, насколько хорошо они отделены друг от друга.

---

## Основы кластерного анализа

### Теоретические основы кластеризации

Кластеризация — это метод обучения без учителя, который разделяет объекты на группы таким образом, чтобы объекты в одной группе были схожи между собой, а объекты в разных группах — различались.

![image.png](attachment:f16ac7d2-2195-4c6f-9cf7-81a94a9df958.png)

Основные методы кластеризации:

1. **K-means (К-средних)**:
   - Один из самых популярных методов.
   - Разделяет данные на **k** кластеров, минимизируя расстояние между объектами и их центроидами.
   - Ключевая проблема: необходимо заранее знать количество кластеров.

2. **DBSCAN (Density-Based Spatial Clustering of Applications with Noise)**:
   - Основан на плотности: кластеры определяются как области с высокой плотностью точек.
   - Хорошо справляется с шумом (выбросами) и кластерами любой формы.
   - Требует настройки двух параметров: радиус кластера (`eps`) и минимальное количество точек для кластера (`min_samples`).

3. **Иерархическая кластеризация**:
   - Формирует дерево (дендрограмму), где каждый узел представляет собой кластер.
   - Не требует заранее знать количество кластеров.
   - Можно выбрать, как объединять кластеры (например, по минимальному или максимальному расстоянию между точками).
  
Здесь приведены только наиболее популярные методы.

### **Когда и зачем применять кластеризацию:**

1. **K-means (К-средних):**
   - **Когда использовать:** Когда данные можно разделить на заранее известное количество кластеров. K-means хорошо работает на больших наборах данных с четко выраженными и почти сферическими кластерами.
   - **Примеры применения:** Сегментация клиентов по поведению, группировка объектов на карте по местоположению.
   - **Преимущества:** Простота и высокая скорость выполнения на больших объемах данных.
   - **Недостатки:** Требует заранее знать количество кластеров и чувствителен к выбросам и форме кластеров.

2. **DBSCAN (Density-Based Spatial Clustering of Applications with Noise):**
   - **Когда использовать:** Когда нужно найти кластеры произвольной формы и справиться с шумом или выбросами. DBSCAN подходит для данных, где плотность точек варьируется.
   - **Примеры применения:** Анализ геопространственных данных, выделение аномалий в наборе данных, обнаружение кластеров в данных с выбросами.
   - **Преимущества:** Автоматически определяет выбросы и хорошо работает с кластерами разной формы.
   - **Недостатки:** Параметры (eps и min_samples) могут быть сложными для настройки, особенно при варьирующейся плотности данных.

3. **Иерархическая кластеризация:**
   - **Когда использовать:** Когда нужно создать дендрограмму для визуализации иерархической структуры данных. Подходит для небольших наборов данных, где структура кластеров менее очевидна.
   - **Примеры применения:** Биологическая классификация (например, иерархия видов), анализ текстов, визуализация связей между группами.
   - **Преимущества:** Не требует заранее знать количество кластеров, и можно легко экспериментировать с разными уровнями агрегации.
   - **Недостатки:** Низкая производительность на больших данных, так как алгоритм требует много времени для выполнения.

---

### **Ограничения кластерного анализа:**

1. **Неопределенность количества кластеров:**
   - Некоторые методы, такие как K-means, требуют заранее знать количество кластеров. Это может быть проблемой, если у вас нет предположений о количестве групп в данных.
   - Решение: Использовать методы оценки, такие как метод локтя (elbow method) или силуэтный анализ, чтобы выбрать оптимальное количество кластеров.

2. **Чувствительность к выбросам:**
   - K-means, например, чувствителен к выбросам, так как они могут значительно сместить центроиды кластеров.
   - Решение: Предварительно очистить данные от выбросов или использовать методы, такие как DBSCAN, которые лучше справляются с шумом.

3. **Форма и размер кластеров:**
   - K-means предполагает, что кластеры имеют сферическую форму и одинаковый размер, что не всегда верно для реальных данных.
   - Решение: Применять более гибкие методы, такие как DBSCAN или иерархическую кластеризацию, если форма кластеров более сложная.

4. **Высокая размерность данных:**
   - Эффективность и точность кластеризации могут снижаться при работе с данными высокой размерности, так как метрики расстояния становятся менее информативными.
   - Решение: Использовать методы уменьшения размерности, такие как PCA, чтобы сократить число признаков перед кластеризацией.

Кластеризация – это мощный инструмент анализа данных, который помогает группировать объекты на основе их схожести. Выбор метода зависит от структуры данных и цели анализа. Важно помнить об ограничениях каждого метода и правильно настраивать параметры, чтобы получить максимально полезные и интерпретируемые результаты.

## Нормирование данных

Для большинства алгоритмов машинного обучения надо выполнить нормирование данные. Нормирование данных заключается в приведении диапазона изменения значений признаков к некоторым требуемым границам (например, от 0 до 1). Нормирование является необходимым начальным этапом обработки данных при использовании многих многомерных статистических методов — снижения размерности признакового пространства, классификации и т.д., особенно если переменные измерены в шкалах, существенно различающихся в величинах (например, от миллиметров до километров).

Воспользуемся препроцессиногом библиотеки sklearn.

```python
from sklearn import preprocessing

import random
import numpy as np
import matplotlib.pyplot as plt

a=np.array([[random.randint(0,10), random.randint(0,30)] for z in range(20)])
a
```

### MinMaxScaler
MinMaxScaler лучше всего подходит для отображения данных и их использования при той же кластеризации.

**MinMaxScaler** – это метод нормализации данных, который масштабирует числовые значения в заданный диапазон, обычно от 0 до 1. Он важен при подготовке данных для алгоритмов машинного обучения, особенно тех, которые чувствительны к масштабу признаков, как, например, K-means. Без нормализации признаки с большим масштабом могут доминировать в расчетах и приводить к искажениям.

Этот метод полезен для кластеризации, поскольку помогает равномерно распределить все признаки, обеспечивая более точные результаты. MinMaxScaler также часто применяется в нейронных сетях и алгоритмах оптимизации для ускорения сходимости и повышения стабильности модели. Однако он чувствителен к выбросам: если в данных есть сильно отклоняющиеся значения, нормализация может быть искажена.

В целом, MinMaxScaler – простой и эффективный способ нормализации, но его применение следует учитывать в зависимости от структуры данных. При наличии выбросов может потребоваться предварительная обработка данных или использование альтернативных методов нормализации, чтобы добиться лучших результатов.

```python
min_max_scaler = preprocessing.MinMaxScaler()
minmax = min_max_scaler.fit_transform(a)
minmax 
```

### StandardScaler
StandardScaler лучше подходит для нормирования в рамках алгоритмов машинного обучения.

**StandardScaler** – это метод нормализации данных, который приводит числовые признаки к нулевому среднему значению и единичному стандартному отклонению. Он лучше всего подходит для алгоритмов машинного обучения, чувствительных к распределению данных, таких как логистическая регрессия, метод опорных векторов (SVM) и линейная регрессия. StandardScaler помогает уравновесить влияние признаков и делает расчеты более стабильными.

Этот метод важен, когда признаки имеют разное распределение и масштаб, так как алгоритмы, основанные на градиентном спуске, могут сходиться быстрее при нормализованных данных. StandardScaler особенно эффективен в задачах, где данные распределены нормально или близко к нормальному распределению. Это улучшает качество модели и предотвращает ситуацию, когда один признак доминирует над другими.

Однако StandardScaler также имеет ограничения: он может быть чувствителен к выбросам, которые могут сильно повлиять на среднее значение и стандартное отклонение. В случаях с выбросами или ненормальным распределением данных стоит рассмотреть использование устойчивых методов нормализации, таких как RobustScaler.

```python
scaler = preprocessing.StandardScaler().fit(a)
standart=scaler.fit_transform(a)
standart
```

### RobustScaler
RobustScaler лучше работает с зашумленными данными и выбросами.

**RobustScaler** – это метод нормализации данных, который масштабирует признаки, используя медиану и межквартильный размах, вместо среднего и стандартного отклонения. Это делает его особенно эффективным при работе с зашумленными данными и в присутствии выбросов. В отличие от других методов нормализации, RobustScaler менее чувствителен к крайним значениям, что помогает избежать искажений в данных.

Этот метод подходит для алгоритмов машинного обучения, когда данные имеют выбросы или аномальные значения, которые могут негативно повлиять на производительность модели. RobustScaler нормализует данные таким образом, чтобы основные распределения оставались информативными, сохраняя важные характеристики и сводя к минимуму влияние шума. Он также полезен в случаях, когда данные не имеют нормального распределения.

Однако RobustScaler не всегда является лучшим выбором, особенно если данные не содержат значительных выбросов, так как в этом случае другие методы нормализации могут работать лучше. Важно понимать, что он масштабирует данные с использованием информации только о центральной части распределения, что может привести к потере деталей в данных с равномерным распределением или с незначительными колебаниями.

```python
from sklearn.preprocessing import RobustScaler
robust = RobustScaler().fit_transform(a)
robust
```

### Различия в способах нормирования
Для того, чтобы лучше понять, как работают различные способы нормирования, отобразим их на графике.

```python
import seaborn as sns
import pandas as pd

f=np.array([a, standart, minmax, robust])
label=['Оригинальные', 'Standart', 'MinMax', 'Robust']

m=[]

for i in range(len(f)):
    for j in f[i]:
        m.append([j[0], j[1], label[i]])
dfG=pd.DataFrame(m, columns=['x','y','standart'])

fig, ax = plt.subplots(figsize=(8,6))
sns.scatterplot(x='x', y='y', hue='standart', data=dfG) 
plt.show()
```

## Практика кластерного анализа с использованием Python

Теперь рассмотрим применение кластеризации на практике с использованием библиотеки **Scikit-learn**.

### Пример 1: Кластеризация методом K-means

```python
import pandas as pd
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn import preprocessing

# Загрузка данных
df = pd.read_excel('railway_freight_data.xlsx')

# Выбор признаков для кластеризации
# Вы можете добавить произвольное количество столбцов, но не забывайте вносить правки в код далее
target=['Weight_Tons', 'Cost_USD','Delay_Hours']
X = df[target]
scaler = preprocessing.StandardScaler().fit(X)
X=scaler.fit_transform(X)

# Применение K-means с 3 кластерами
kmeans = KMeans(n_clusters=3, random_state=42)
df['Cluster'] = kmeans.fit_predict(X)

#Укажите названия столбцов, по которым хотите построить график
xLine='Weight_Tons' # ось Х
yLine='Delay_Hours' # ось Y
# Визуализация кластеров
plt.scatter(df[xLine], df[yLine], c=df['Cluster'], cmap='viridis')
plt.title('Кластеризация методом K-means')
plt.xlabel('Вес груза (тонн)')
plt.ylabel('Задержка')
plt.show()
```

### Пояснение:
- **`KMeans(n_clusters=3)`** — задаём 3 кластера.
- **`fit_predict(X)`** — обучает модель и возвращает метки кластеров для каждого наблюдения.
- **`plt.scatter()`** — визуализирует результаты кластеризации по двум признакам (вес и стоимость).

#### Результаты

Посомтреть усредненные характеристики кластеров можно с использованием кода

```python
df_result=df.groupby('Cluster')[target].mean()
df_result['Count']=df.groupby('Cluster')['Cluster'].count()
df_result
```

Не забывайте изменять названия столбца при группировке, который хранит номера кластеров для каждого отдельного подхода.

### Пример 2: Кластеризация методом DBSCAN

```python
from sklearn.cluster import DBSCAN

# Применение DBSCAN
dbscan = DBSCAN(eps=0.8, min_samples=5)
df['Cluster_DBSCAN'] = dbscan.fit_predict(X)

# Визуализация кластеров
plt.scatter(df['Weight_Tons'], df['Cost_USD'], c=df['Cluster_DBSCAN'], cmap='plasma')
plt.title('Кластеризация методом DBSCAN')
plt.xlabel('Вес груза (тонн)')
plt.ylabel('Стоимость перевозки (USD)')
plt.show()
```

### Пояснение:
- **`DBSCAN(eps=1000, min_samples=5)`** — определяет параметры для DBSCAN, где `eps` — радиус для формирования кластера, а `min_samples` — минимальное количество точек для кластера.

# Определение eps

Этот код выполняет вычисление k-дистанций для каждой точки данных и строит график этих дистанций для определения оптимального значения параметра eps для алгоритма DBSCAN (Density-Based Spatial Clustering of Applications with Noise).

```python
# Вычисление k-дистанции
from sklearn.neighbors import NearestNeighbors
k = 5  # Количество ближайших соседей
neigh = NearestNeighbors(n_neighbors=k)
nbrs = neigh.fit(X)
distances, indices = nbrs.kneighbors(X)

# Сортировка k-дистанций
distances = np.sort(distances[:, k-1], axis=0)

# Построение графика k-дистанций
plt.figure(figsize=(10, 4))
plt.plot(distances)
plt.xlabel('Точки данных, отсортированные по расстоянию')
plt.ylabel(f'{k}-дистанция')
plt.title(f'График {k}-дистанций для выбора eps')
plt.show()
```

- k: Количество ближайших соседей, которое используется для вычисления k-дистанций. Обычно выбирается значение в диапазоне от 4 до 10. Чем больше значение k, тем более гладким будет график k-дистанций, но это может привести к потере деталей.
- eps: Максимальное расстояние между двумя точками, чтобы они считались соседними. Оптимальное значение eps можно определить по графику k-дистанций.- 
NearestNeighbors: Инициализация объекта для вычисления расстояний до k ближайших соседей.- 
fit: Обучение модели на данных X- .
kneighbors: Вычисление расстояний и индексов k ближайших соседей для каждой точки данн

На графике k-дистанций обычно можно увидеть "локоть" — точку, где график резко меняет наклон. Эта точка указывает на оптимальное значение eps. Значение eps выбирается как значение k-дистанции в точке "локтя". Это значение является оптимальным для алгоритма DBSCAN, так как оно отражает плотность кластеров в данныхых.

### Пример 3: Иерархическая кластеризация (дендрограмма)

```python
from scipy.cluster.hierarchy import dendrogram, linkage

# Построение дендрограммы
Z = linkage(X, method='ward')

plt.figure(figsize=(10, 7))
dendrogram(Z)
plt.title('Дендрограмма (иерархическая кластеризация)')
plt.xlabel('Наблюдения')
plt.ylabel('Расстояние')
plt.show()
```

### Пояснение:
- **`linkage()`** — вычисляет расстояния между кластерами с использованием метода Варда.
- **`dendrogram()`** — строит дендрограмму, где высота каждого соединения показывает расстояние между кластерами.

Разделение на кластера происходит на основании указанного расстояния, можно подобрать оптимальное расстояние на основе дендрограммы.

```python
from scipy.cluster.hierarchy import fcluster

# Определение кластеров на основе порогового расстояния
max_distance = 20  # Пороговое значение расстояния, можно изменить в зависимости от данных
clusters = fcluster(Z, max_distance, criterion='distance')

# Вывод кластеров для каждой строки
print(clusters)
```

### Поиск оптимального количества кластеров

Выбор правильного количества кластеров — одна из важнейших задач в K-means. Существует несколько методов для поиска оптимального количества кластеров:

1. **Метод локтя (Elbow method)**:
   - Основан на графике зависимости внутрикластерного расстояния (инерции) от количества кластеров.
   - Оптимальное количество кластеров — точка, где график "сгибается" (локоть).

##### Пример использования метода локтя:

```python
wcss = []  # Список для хранения суммы квадратов расстояний (inertia)

# Проверка для различных значений k (от 1 до 10)
for i in range(1, 11):
    kmeans = KMeans(n_clusters=i, random_state=42)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_)

# Построение графика метода локтя
plt.plot(range(1, 11), wcss, marker='o')
plt.title('Метод локтя для определения оптимального количества кластеров')
plt.xlabel('Количество кластеров')
plt.ylabel('WCSS (Сумма квадратов расстояний)')
plt.show()
```

### Пояснение:
- **`wcss.append(kmeans.inertia_)`** — сохраняет значение внутрикластерного расстояния для каждого значения k.
- График показывает, где инерция перестает значительно уменьшаться. Это и есть оптимальное количество кластеров.

2. **Средний силуэтный коэффициент (Average Silhouette Score)**:
   - Этот метод оценивает, насколько хорошо объекты присвоены кластерам.
   - Оптимальное количество кластеров соответствует максимальному значению силуэтного коэффициента.

##### Пример поиска оптимального количества кластеров по силуэтному коэффициенту:

```python
from sklearn.metrics import silhouette_score
silhouette_scores = []

# Проверка для различных значений k (от 2 до 10)
for i in range(2, 11):
    kmeans = KMeans(n_clusters=i, random_state=42)
    labels = kmeans.fit_predict(X)
    sil_score = silhouette_score(X, labels)
    silhouette_scores.append(sil_score)

# Построение графика силуэтного коэффициента
plt.plot(range(2, 11), silhouette_scores, marker='o')
plt.title('Силуэтный коэффициент для определения оптимального количества кластеров')
plt.xlabel('Количество кластеров')
plt.ylabel('Силуэтный коэффициент')
plt.show()
```

### Пояснение:
- **`silhouette_score()`** — вычисляет силуэтный коэффициент для каждого количества кластеров.
- Оптимальное количество кластеров соответствует максимальному значению силуэтного коэффициента.

## Заключение:

1. **Методы кластеризации**:
   - K-means подходит для данных с явно выраженными кластерами и заранее известным количеством кластеров.
   - DBSCAN лучше справляется с шумом и кластерами произвольной формы.
   - Иерархическая кластеризация полезна

# Задание

Задача распределить задержки по отдельным группам (кластерам) на основе 3-4 признаков. Группы должны позволять принимать управленческие решения о способах устранения задержек единообразно к кластеру. 

Используйте вновьсозданные признаки на прошлом этапе.