# Отчет по лабораторной работе "Кластеризация методом K-средних".

## Цели и задачи

**Цель:** изучение кластерного анализа данных на основе метода К-средних.

**Основные задачи:**

- получение навыков рефакторинга кода в проектах интеллектуального анализа данных;

- изучение принципов определения оптимального количества кластеров в методах кластерногоанализа;

- изучение возможностей языка Python для реализации кластероного анализа.

## Задание 1

Подберите набор данных на ресурсе https://archive.ics.uci.edu/. Студент может предложитьсинтезированный набор данных или набор данных, полученный в рамках исследованияпроцессов на предприятии региона.

In [2]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

В качестве данных для построения модели кластеризации был выбран набор данных о посуточной аренде квартир в Иркутске. Данные взяты из объявлений пользователей, размещенных на портале Суточно.ру: https://sutochno.ru/.

В наборе присутствуют признаки:

- **Район:** Район города, в котором располагается квартира (Октбрьский, Правобережный, Свердловский);
- **Ремонт:** Вид реонта в квартире (евро, дизайнерский, косметический);
- **Этаж:** Этаж, на котором располагается квартира (Нижний, Средний, Верхний);
- **Парковка:** Наличие парковки рядо с домом (да, нет);
- **Лифт:** Наличие лифта в доме (да, нет);
- **Стоимость,руб./сут.:** Стоимость посуточной аренды квартиры в руб.;
- **Предоплата,руб.:** Размер предоплаты в руб.;
- **Площадь, м^2:** Площадь квартиры в м^2.

Набор содержит 96 записей и актуальны на 12.02.2024.

In [3]:
## Загрузка данных
dataset = pd.read_csv('Копия Суточно.ру - Лист1.csv')
dataset.head()


Unnamed: 0,№,Район,"Стоимость, руб./сут.","Предоплата, руб.","Площадь, м^2",Этаж,Ремонт,Парковка,Лифт
0,2,Октябрьский,2520,630,25,Верхний,евроремонт,да,да
1,3,Октябрьский,2300,460,30,Верхний,евроремонт,да,да
2,4,Октябрьский,3300,660,48,Верхний,евроремонт,да,да
3,5,Октябрьский,2290,458,42,Верхний,евроремонт,да,да
4,6,Октябрьский,4125,1031,37,Верхний,евроремонт,да,да


## Задание 2

Постройте модель кластеризации (K-Means).

### Описание задачи кластеризации

Рассмотрим задачу кластеризации данных о 96 предложениях о посуточной аренде кваартир в Иркутске. Требуется выполнить кластеризацию предложений по выбранным параметрам (Стоимость,руб./сут., Площадь, м^2) 

In [4]:
X = dataset.iloc[:, [4, 2]].values

## Определение оптимального количества кластеров

In [None]:
# Использование elbow method для поиска оптимального количества кластеров
from sklearn.cluster import KMeans
# Within Clusters Sum of Squares (WCSS)
wcss = []
for i in range(1, 11):
    kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 42)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_)
plt.plot(range(1, 11), wcss)
plt.title('Метод локтя')
plt.xlabel('Количество кластеров')
plt.ylabel('WCSS')
plt.show()

Из полученного графика видно, что оптимальным для рассматриваемых данных будет количество кластеров равное пяти.

## Обучение модели кластеризации для оптимального количества кластеров

In [None]:
# Training the K-Means model on the dataset
kmeans = KMeans(n_clusters = 5, init = 'k-means++', random_state = 42)
y_kmeans = kmeans.fit_predict(X)

## Визуализация результатов

In [None]:
plt.scatter(X[y_kmeans == 0, 0], X[y_kmeans == 0, 1], s = 100, c = '#FF8E30', label = 'Cluster 1')
plt.scatter(X[y_kmeans == 1, 0], X[y_kmeans == 1, 1], s = 100, c = '#EB3B8B', label = 'Cluster 2')
plt.scatter(X[y_kmeans == 2, 0], X[y_kmeans == 2, 1], s = 100, c = '#AAF53D', label = 'Cluster 3')
plt.scatter(X[y_kmeans == 3, 0], X[y_kmeans == 3, 1], s = 100, c = '#2B7D93', label = 'Cluster 4')
plt.scatter(X[y_kmeans == 4, 0], X[y_kmeans == 4, 1], s = 100, c = '#AF3BD4', label = 'Cluster 5')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s = 150, c = 'red', label = 'Centroids', marker = 's')
plt.title('Кластеры квартир')
plt.xlabel('Площадь (м^2)')
plt.ylabel('Стоимость посуточной аренды квартиры (руб.)')
plt.legend()
plt.grid(color='lightgray', linestyle='-', linewidth=0.4) 
plt.legend()
plt.show()

## Результаты кластеризации

Метод кластеризации K-средних был использован для разделения данных на 5 групп (кластеров).

Графическое представление кластеров позволяет визуально оценить, как распределяются квартиры по двум рассматриваемым параметрам:

- Кластер 1 (оранжевый: #FF8E30): Включает в себя квартиры с низкой стоимостью аренды и маленькой или средней площадью. Это может быть группа доступных для аренды объектов.
- Кластер 2 (розовый: #EB3B8B): Здесь находятся квартиры с более высокой стоимостью аренды, они имеют средние или большие площади. Это может быть связано с более высококачественными предложениями или дополнительными факторами такими, как более качественный ремонт или лучшее расположение.
- Кластер 3 (зеленый: #AAF53D): В данном кластере представлены квартиры со средней стоимостью аренды, и небольшой или средней площадью. Это может быть распространенный вариант, который удовлетворяет среднему классу потребителей.
- Кластер 4 (синий: #AF3BD4): Квартиры с высокой стоимостью аренды и большой площадью. Это может соответствовать более элитным предложениям, которые располагаются в лучших районах.
- Кластер 5 (фиолетовый: #2B7D93): Этот кластер содержит квартиры с низкой ценой и маленькой площадью. Он соответствует наиболее бюджетным предложениям.

На графике также показаны центры кластеров (в красных квадратных метках). Эти центры представляют собой средние значения по двум переменным для квартир в каждом кластере. Они позволяют быстро оценить, каков типичный экземпляр из каждого кластера.

Таким образом, результаты кластеризации предоставляют полезную информацию о распределении предложений на аренду в Иркутске. Каждый кластер характеризуется определенными параметрами цены и площади, что может помочь как арендаторам в нахождении подходящих предложений, так и арендодателям в понимании сегментации рынка.

## Ответы на контрольные вопросы

### Что такое кластерный анализ?

Кластерный анализ — это метод статистической классификации, который используется для группировки объектов на основе их сходств. Этот подход находит множество применений в разных областях, таких как маркетинг, биология, экономика, машинное обучение и анализ данных. Основная идея кластерного анализа заключается в том, чтобы разделить набор данных на группы (кластеры) так, чтобы объекты внутри одного кластера были более похожи друг на друга, чем объекты из других кластеров.

Кластерный анализ является полезным инструментом для анализа данных, позволяющим делать выводы о структуре наборов данных, а также выявлять закономерности и тенденции, которые могут быть полезными в различных областях.

### Перечислите известные методы кластерного анализа.

Кластерный анализ включает множество методов, каждый из которых имеет свои особенности и применения.

- **K-средних (K-means)**: Алгоритм делит данные на K кластеров, минимизируя расстояние между объектами и центрами кластеров.

- **Иерархическая кластеризация**: Создает дерево кластеров (дендрограмму) путем последовательного объединения или разделения кластеров. Существует два основных подхода: агломеративный (снизу вверх) и дивизивный (сверху вниз).

- **DBSCAN (Density-Based Spatial Clustering of Applications with Noise)**: Метод, основанный на плотности, который объединяет точки, находящиеся в пределах заданной плотности, и может обнаруживать кластеры произвольной формы, игнорируя шум.

- **OPTICS (Ordering Points To Identify the Clustering Structure)**: Расширение DBSCAN, которое лучше справляется с различными плотностями кластеров и создает упорядоченные списки точек, отображающие структуру кластера.

- **Mean Shift**: Алгоритм, который перемещает точки в направлении наибольшей плотности выборки данных. Он не требует заранее известного количества кластеров.

- **Gaussian Mixture Model (GMM)**: Статистическая модель, которая предполагает, что данные можно описать как линейную комбинацию нескольких гауссовских распределений, что позволяет находить кластеры с учетом их формы и размеров.

- **Agglomerative Clustering**: Подход, начинающий с каждого объекта как отдельного кластера и итеративно объединяющего наименее похожие кластеры, пока не останется один.

- **BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)**: Алгоритм, который эффективно обрабатывает большие наборы данных и создает иерархические кластеры, используя дерево.

- **Spectral Clustering**: Использует спектральные свойства матриц смежности графа, чтобы находить кластеры в многообразных данных, что позволяет учитывать нелинейные взаимосвязи между объектами.

- **Fuzzy C-means**: Расширение K-средних, в котором каждый объект принадлежит кластерам с определенной вероятностью, а не определено принадлежностью или непринятием.

### Перечислите классы и функции Python, которые задействованы при реализациикластерного анализа.


Для реализации кластерного анализа в Python существует несколько библиотек, которые предлагают различные классы и функции. Наиболее популярные из них в рамках метода KMeans:

- Библиотека scikit-learn. Класс sklearn.cluster.KMeans. Методы: fit(), predict(), fit_predict().

- Библиотека numpy. Функции для работы с массивами: numpy.array(), numpy.mean(), numpy.std() и пр.

- Библиотека matplotlib. Визуализация результатов кластерного анализа: matplotlib.pyplot.scatter().


### Опишите принцип определения оптимального количества кластеров.

В данной работе определение оптимального количества кластеров для одели кластериизации было реализовано при помощи метода локтя. Метод локтя (Elbow Method) применяется для определения оптимального числа кластеров в задаче кластеризации данных.

Основная идея метода заключается в том, чтобы построить график зависимости суммы квадратов расстояний от точек данных до их ближайших центров кластеров от числа кластеров. 
Затем оптимальное число кластеров можно выбрать как точку на этом графике, где сумма квадратов расстояний перестает значительно уменьшаться с увеличением числа кластеров. 

### Опишите принципиальные отличия методов регрессии, кластеризации и классификации

Методы регрессии, кластеризации и классификации представляют собой три различных подхода в области анализа данных, машинного обучения и статистики. Каждое из этих направлений решает свою задачу, используя различные методы, и предполагает различную природу данных.

**Методы регрессии** используются для предсказания количественной переменной на основе одной или нескольких независимых переменных.

Применение: Прогнозирование результатов (например, прогнозирование цен на жилье, продаж, температуры), моделирование взаимосвязей между переменными и др.

**Методы кластеризации** используются для группировки набора объектов так, чтобы объекты в одной группе (кластере) были более похожи друг на друга, чем на объекты в других группах.

Применение: Сегментация клиентов, анализ паттернов и аномалий, обнаружение "неведомых" групп данных и др.

**Методы классификации** применяются при процессе предсказания категориальной (дискретной) переменной на основе независимых переменных. Это означает, что задача классификации заключается в том, чтобы классифицировать объекты в заранее определенные категории.

Применение: Определение спама в сообщениях, диагностика заболеваний на основе симптомов, распознавание изображений и др.