# **Постановка задачи**
# Кластерный анализ: Вроцлавская таксономия

**Датасет:** Extrovert vs. Introvert Behavior Data  
**Объём данных:** 2903 наблюдения

## Цель
Выделить группы людей со схожими поведенческими характеристиками, используя метод Вроцлавской таксономии.  
Это позволит выявить поведенчески однородные группы для дальнейшего анализа (например, в сфере HR, психологии или маркетинга).

---


**Дано:**  
- Множество объектов $ X = \{x_1, x_2, \dots, x_m\} $, где $ x_i $ — человек, описанный набором признаков $ D = \{d_1, d_2, \dots, d_n\} $:  
  $ D = {Time_spent_Alone,Stage_fear,Social_event_attendance, Going_outside, Drained_after_socializing, Friends_circle_size, Post_frequency}.  

**Требуется:**  
- Найти множество кластеров \( Y = \{c_1, c_2, \dots, c_p\} \), таких что:

  1. Каждый кластер \( c_k \subset X \) — связная компонента графа, построенного на объектах \(X\) с рёбрами, соединяющими пары с минимальными расстояниями, после удаления \((k-1)\) самых длинных рёбер.

  2. Кластеры не пересекаются, объекты из разных кластеров различны.



## Признаки

| Признак                  | Описание                                              |
|--------------------------|-------------------------------------------------------|
| Time_spent_Alone         | Время, проведённое в одиночестве (часов в день)       |
| Stage_fear               | Боязнь сцены (Yes/No)                                  |
| Social_event_attendance  | Посещение социальных мероприятий (в неделю)           |
| Going_outside            | Частота выхода на улицу (в неделю)                    |
| Drained_after_socializing| Усталость после общения (Yes/No)                      |
| Friends_circle_size      | Размер круга общения                                  |
| Post_frequency           | Частота публикаций в соцсетях                         |
| Personality              | **Целевая переменная**: Introvert или Extrovert       |

Категориальные переменные бинаризуются:
- Yes = 1  
- No = 0

`Personality` используется **только** для проверки качества кластеров, **не участвует** в их формировании.

---

## Этапы построения дендрита

### 1. Нормализация данных

$$
x_{ij}' = \frac{x_{ij} - \min(x_j)}{\max(x_j) - \min(x_j)}, \quad j = 1, \dots, n
$$

---

### 2. Построение матрицы расстояний

$$
d(x_i, x_j) = \sqrt{\sum_{k=1}^{n} \left( x'_{ik} - x'_{jk} \right)^2}
$$

$$
D = [d_{ij}], \quad d_{ij} = d_{ji}, \quad d_{ii} = 0
$$

---

### 3. Минимизация расстояний

$$
\forall i \in [1, m] \quad \Rightarrow \quad j = \arg\min_{\substack{j=1 \\ j \ne i}}^{m} d_{ij}
$$

---

### 4. Построение дендрита

Создаём граф, соединяя каждую пару $(x_i, x_j)$ с минимальным расстоянием.

---

### 5. Объединение кластеров

$$
d(A, B) = \min_{\substack{x \in A \\ y \in B}} d(x, y)
$$

---

### 6. Выделение компактных кластеров

Удаляем $(k - 1)$ самых длинных рёбер из дендрита, чтобы получить $k$ связных компонент (кластеров):

$$
\text{Удаляем } \max(d(x_i, x_j)) \text{ } (k - 1) \text{ раз}
$$

После удаления — каждая связная компонента графа образует отдельный кластер.

## Результаты

Это позволяет использовать кластеры для дальнейшего анализа и сегментации по поведенческим признакам.

