# Конспект: Классификация, Регрессия и Кластеризация

## Введение

Машинное обучение разделяется на несколько типов задач, среди которых основными являются классификация, регрессия и кластеризация. Классификация и регрессия относятся к методам обучения с учителем (supervised learning), где алгоритм обучается на размеченных данных. В то время как кластеризация относится к методам обучения без учителя (unsupervised learning), где целевые метки отсутствуют.

### Цели данного конспекта:
- Описать основные концепции классификации и регрессии, где алгоритмы обучаются на размеченных данных.
- Рассмотреть методы кластеризации, которые позволяют группировать данные на основе схожести.
- Показать практическое применение каждого подхода с помощью Python и библиотек машинного обучения.

## 1. Классификация

Классификация является одним из наиболее популярных методов машинного обучения с учителем, где модель обучается на данных с известными метками (классами), а затем предсказывает метки для новых данных.

### Примеры реальных задач классификации:
- Распознавание лиц на фотографиях (метки: каждое лицо принадлежит определённому человеку).
- Прогнозирование заболевания на основе медицинских данных (метки: "болен", "здоров").
- Определение тональности текста (положительная, отрицательная, нейтральная).

Классификация может быть:
- Бинарной (2 класса): например, "да" или "нет", "0" или "1".
- Многоклассовой: когда классов больше двух. Пример — классификация изображений на категории "собака", "кошка", "птица".
- Многометочной (multilabel): объект может принадлежать сразу нескольким классам.

### Алгоритмы классификации:
1. Логистическая регрессия
2. Метод опорных векторов (SVM)
3. k-ближайших соседей (k-NN)
4. Деревья решений
5. Градиентный бустинг

### Метрики для оценки моделей классификации:
- Точность (accuracy): доля правильных предсказаний от общего числа предсказаний.
- Полнота (recall): доля правильно классифицированных объектов среди всех объектов положительного класса.
- Точность (precision): доля правильно классифицированных объектов среди всех объектов, классифицированных как положительные.
- F1-оценка: гармоническое среднее точности и полноты.

### Пример классификации: Логистическая регрессия
```python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
```

# Загрузка набора данных "iris"
```python
iris = load_iris()
X = iris.data
y = iris.target
```

# Разделение данных на обучающую и тестовую выборки
```python
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
```

# Построение модели логистической регрессии
```python
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)
```
# Предсказание на тестовой выборке
```python
y_pred = model.predict(X_test)
```

# Оценка модели
```python
print("Классификационный отчет:")
print(classification_report(y_test, y_pred))
```
## 2. Регрессия

Регрессия — это другой тип задач обучения с учителем, в котором целевая переменная является числовой, а не категориальной.

### Примеры задач регрессии:
- Прогнозирование цен на жилье.
- Прогнозирование спроса на товары.
- Оценка производительности системы на основе входных данных.

### Алгоритмы регрессии:
1. Линейная регрессия
2. Полиномиальная регрессия
3. Лассо и гребневая регрессия
4. Регрессия с помощью деревьев решений
5. Градиентный бустинг для регрессии

### Метрики для оценки моделей регрессии:
- Среднеквадратическая ошибка (MSE): среднее значение квадратов разностей между предсказанными и фактическими значениями.
- R²: доля вариации зависимой переменной, объяснённая моделью.

### Пример линейной регрессии
```python
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
```

# Создание простого набора данных
```python
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([1, 4, 9, 16, 25])  # квадратичная зависимость
```

# Построение модели линейной регрессии
```python
model = LinearRegression()
model.fit(X, y)
```

# Предсказание
```python
y_pred = model.predict(X)
```

# Оценка модели
```python
mse = mean_squared_error(y, y_pred)
r2 = r2_score(y, y_pred)

print(f"Среднеквадратическая ошибка (MSE): {mse:.2f}")
print(f"R^2: {r2:.2f}")
```
## 3. Кластеризация

Кластеризация — это метод обучения без учителя, при котором объекты группируются на основе их схожести.

### Примеры задач кластеризации:

- Сегментация рынка для разделения клиентов на группы по схожести в покупательском поведении.
- Группировка новостных статей по темам.
- Выделение аномалий в данных.


### Алгоритмы кластеризации:
```
1. k-средних (k-means)
2. Иерархическая кластеризация
3. DBSCAN
4. Gaussian Mixture Model (GMM)
```
### Метрики оценки кластеризации:
```
- Внутрикластерное расстояние: сумма расстояний внутри каждого кластера.
- Индекс Силуэта: показывает, насколько хорошо объекты соответствуют своему кластеру по сравнению с другими кластерами.
```

### Пример кластеризации методом k-средних
```python
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
```
# Генерация случайных данных для кластеризации
```python
from sklearn.datasets import make_blobs
X, _ = make_blobs(n_samples=300, centers=4, random_state=42)
```
# Построение модели k-средних
```python
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)
```
# Визуализация результатов кластеризации
```python
plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels_, cmap='viridis')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=300, c='red')
plt.title("Кластеризация методом k-средних")
plt.show()
```
## Заключение

Классификация, регрессия и кластеризация являются важными методами в арсенале исследователей данных. Каждый из этих методов имеет свои уникальные задачи и подходы к их решению. Важно выбрать правильную модель и метрики для оценки качества работы алгоритмов.
