# Лекция 1: Задачи машинного обучения

Машинное обучение (ML) - это область искусственного интеллекта, которая разрабатывает алгоритмы и модели, позволяющие программам изучать закономерности в данных и принимать решения на основе полученного опыта. 

В основе ML лежит идея: вместо того чтобы задавать каждому шагу алгоритма **точную инструкцию**, мы предоставляем системе данные, и она самостоятельно находит **универсальные правила** для решения поставленных задач.

Для описания систем часто выделают два подхода: 
- rule-based - когда поведение определяется набором правил или уравнений.
- [data-driven](https://practicum.yandex.ru/blog/chto-takoe-data-driven-podhod/) - когда описание поведения составляется на основе данных и закономерности выявляются без явного задания правил.

В контексте машинного обучения используется именно второй подход, относительно него строятся задачи и модели, нацеленные именно на выявления неявных закономерностей в привычных нам данных.

<img src="../images/rulebased_datadriven.jpg" alt="Подходы" width="500">

Если рассматривать задачи с точки зрения процесса обучения, методы могут быть разделены на три категории:
- **Обучение с учителем (Supervised Learning):** при наличии разметки - каждому входному примеру сопоставляется метка или целевое значение.
- **Обучение без учителя (Unsupervised Learning):** данные не размечены, и задача заключается в выявлении скрытой структуры или закономерностей в данных.
- **Обучение с подкреплением (Reinforcement Learning, RL):** добавлен механизм влияния на процесс обучения модели факторов из "окружающего мира".

Это наиболее распространенное разделение, однако в индустрии используются и более современные подходы:
- **Обучение с частичным привлечением учителя (Semi-Supervised Learning):** используется небольшое количество размеченных примеров и большое количество неразмеченных, модель учится использовать неразмеченные данные для улучшения качества предсказания.
- **Обучение с самоконтролем (Self-Supervised Learning, SSL)**: особый случай обучения без учителя, где метки генерируются автоматически на основе самих данных, то есть используется закономерности в них, не требующие дополнительной разметки.

<img src="../images/supervised_learning.jpg" alt="Типы обучения" width="500">

Если рассматривать задачи с точки зрения конечной цели, можно выделить две основные категории:
- **Дискриминативные задачи:** направлены на разделение данных, предсказание меток или регрессию. Примерами являются классификация и регрессия. Моделируют зависимость вида $ p(y \mid x) $. Цель таких моделей - предсказывать метки или значения на основе входных признаков, не пытаясь смоделировать сам процесс генерации данных.
- **Генеративные задачи:** целятся в изучение и моделирование полного распределения данных, что позволяет генерировать новые, «реалистичные» примеры, аналогичные исходным. Моделируют совместное распределение $ p(x, y) $ (или просто $ p(x) $ в случае отсутствия меток) и, таким образом, способны генерировать новые данные, похожие на исходные, а также могут использоваться для решения задач классификации через вычисление условных вероятностей. Примеры — генерация текста, изображений, музыки и т.д.

В первую очередь будут рассмотрены постановки основных типов дискреминативных задач машинного обучения, а именно: **классификацию**, **регрессию** и **кластеризацию**.

<img src="../images/ml_task_types.png" alt="Типы задач" width="500">

### Классификация

##### Суть задачи
Классификация применяется, когда необходимо распределить объекты по заранее определённым категориям. В обучающей выборке каждый объект сопровождается меткой класса, что позволяет модели изучить характерные особенности каждого класса и впоследствии использовать их для распознавания новых данных.

##### Постановка задачи
Допустим, у нас имеется обучающая выборка:
$$
\mathcal{D} = \{ (\mathbf{x}_i, y_i) \}_{i=1}^N,
$$
где $\mathbf{x}_i \in \mathbb{R}^d$ — вектор признаков, а $y_i \in \{1, 2, \dots, K\}$ — метка класса.

Цель построить функцию $f: \mathbb{R}^d \to \{1,\dots,K\}$, такую что для **новых** точек $\mathbf{x}$ она правильно предсказывает их класс.

##### Основные типы классификации
- **Бинарная классификация** ($K=2$) — два класса.
- **Мультиклассовая классификация** ($K>2$) — более двух категорий.
- **Multi-label классификация** — один объект может принадлежать сразу нескольким классам одновременно.

##### Основные модели
- **Логистическая регрессия**
- **Наивный байес**
- **Метод опорных векторов (SVM)**
- **Деревья решений и ансамбли**
- **k-ближайших соседей (КNN)**
- **Нейронные сети**

##### Примеры
- **Распознавание рукописных цифр:** например, набор данных MNIST, где изображенные цифры нужно отнести к соответствующим числам.
- **Фильтрация спама:** классификация электронных писем на "спам" и "не спам".
- **Распознавание образов:** определение типа объекта на изображении (кот, собака, автомобиль и т.д.).

> Задача классификации в контексте линейных моделей рассматривается в подробнее в [учебнике](https://education.yandex.ru/handbook/ml/article/linear-models)

<img src="../images/classification.png" alt="Классификация" width="500">

### Регрессия

##### Суть задачи
Регрессия направлена на предсказание непрерывной величины. Здесь модель изучает зависимость между входными признаками и непрерывным выходом, пытаясь минимизировать ошибку между предсказанными и истинными значениями.

##### Постановка задачи
Рассмотрим обучающую выборку вида:
$$
\mathcal{D} = \{ (\mathbf{x}_i, y_i) \}_{i=1}^N,
$$
где $\mathbf{x}_i \in \mathbb{R}^d$ — вектор признаков, а $y_i \in \mathbb{R}$ — непрерывное значение, которое требуется предсказать (тоже может быть многомерным, $\mathbb{R}^m$).

Цель построить функцию $f: \mathbb{R}^d \to \mathbb{R}$ (или $\mathbb{R}^m$), так чтобы предсказания $\hat y = f(\mathbf{x})$ были как можно ближе к истинным $y$.

##### Основные модели
- **Линейная регрессия**
- **Полиномиальная регрессия**
- **Регуляризованная регрессия**
- **Метод опорных векторов для регрессии (SVR)**
- **Деревья решений и ансамбли**
- **k-ближайших соседей (КNN)**
- **Нейронные сети**

##### Примеры
- **Прогнозирование цен:** например, оценка рыночной стоимости недвижимости или прогнозирование цен акций.
- **Физические прогнозы:** определение физических параметров системы по различным показателям.
- **Временные ряды:** прогнозирование на основе исторических данных.

> Задача регрессии в контексте линейных моделей рассматривается в подробнее в [учебнике](https://education.yandex.ru/handbook/ml/article/linear-models)

<img src="../images/regression.png" alt="Регрессия" width="500">

### Кластеризация

##### Суть задачи
Кластеризация относится к методам обучения без учителя. Здесь задача состоит в **автоматическом разделении** набора неразмеченных объектов на группы (кластеры) по принципу максимального внутригруппового сходства и минимального межгруппового сходства. Кластеризация позволяет автоматически выявлять скрытые структуры и паттерны в данных.

##### Постановка задачи
Пусть имеется набор объектов без меток:
$$
\mathcal{D} = \{ \mathbf{x}_i \}_{i=1}^N, \quad \mathbf{x}_i \in \mathbb{R}^d.
$$
Задача кластеризации заключается в разделении объектов на $K$ групп, таких что объекты внутри одной группы максимально похожи друг на друга, а объекты разных групп — существенно различаются. При этом в части методов $K$ не задается наперед.

Требуется найти функцию $g\colon\mathbb{R}^d\to\{1,2,\dots,K\}$, которая присваивает каждому объекту номер кластера, при этом для объектов одного кластера расстояния (или меры несхожести) между признаковыми векторами минимальны, а для объектов разных кластеров — максимальны. В ряде методов число кластеров $K$ задаётся заранее, в других оно определяется автоматически.

##### Типы кластеризации
- **Плоская (partitional):** сразу строится разбиение на заданное число $K$ кластеров.
- **Иерархическая:** строится дерево вложенных кластеров.
- **Плотностная:** кластеры определяются как области высокой плотности точек, число кластеров не задаётся заранее.
- **Нечетная (fuzzy) кластеризация:** объект может частично принадлежать сразу нескольким кластерам.

##### Основные модели
- **k-means**
- **Agglomerative Clustering**
- **DBSCAN**
- **Spectral Clustering**
- **Gaussian Mixture Models (GMM)**

##### Примеры
- **Сегментация клиентов:** выделение групп потребителей с похожим поведением или интересами.
- **Группировка документов:** автоматическое распределение текстов по темам.
- **Обнаружение аномалий:** обнаружение выбросов или аномальных объектов в наборе данных.

> Подробнее про методы и задачу кластеризации в целом можно прочитать в [учебнике](https://education.yandex.ru/handbook/ml/article/klasterizaciya)

<img src="../images/clustering.jpg" alt="Кластеризация" width="800">

## Практические примеры

### Классификация

In [None]:
import sklearn
dir(sklearn)

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.linear_model import LogisticRegression

In [None]:
iris = datasets.load_iris()
X = iris.data[:, [2, 3]]
y = iris.target

In [None]:
classifier = LogisticRegression(multi_class='ovr', 
                                solver='lbfgs', 
                                max_iter=200)
classifier.fit(X, y)

In [None]:
x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5

xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01),
                        np.arange(y_min, y_max, 0.01))
grid = np.c_[xx.ravel(), yy.ravel()]

Z = classifier.predict(grid)
Z = Z.reshape(xx.shape)

In [None]:
plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.Set1)
plt.scatter(
    X[:, 0], X[:, 1],
    c=y, edgecolors='k', cmap=plt.cm.Set1,
    s=40, linewidth=0.5
)
plt.xlabel('Petal length')
plt.ylabel('Petal width')
plt.title('Iris Classification with Logistic Regression')
plt.grid(True, linestyle='--', linewidth=0.5, alpha=0.7)
plt.tight_layout()
plt.show()

### Регрессия

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [None]:
X, y = make_regression(n_samples=100, n_features=1, noise=10, random_state=42)

In [None]:
model = LinearRegression()
model.fit(X, y)
y_pred = model.predict(X)

In [None]:
plt.scatter(X, y, label='Data', s=30, edgecolors='k')
sorted_idx = X[:, 0].argsort()
plt.plot(
    X[sorted_idx], y_pred[sorted_idx],
    color='red', linewidth=2, label='Regression line'
)
plt.xlabel('Feature')
plt.ylabel('Target')
plt.title('Linear Regression Fit')
plt.grid(True, linestyle='--', linewidth=0.5, alpha=0.7)
plt.legend()
plt.tight_layout()
plt.show()

### Кластеризация

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

In [None]:
X, y_true = make_blobs(n_samples=300, centers=3, cluster_std=1.0,
                       random_state=42)

In [None]:
kmeans = KMeans(n_clusters=3, random_state=42)
y_kmeans = kmeans.fit_predict(X)
centers = kmeans.cluster_centers_

In [None]:
plt.figure(figsize=(8, 6))
plt.scatter(
    X[:, 0], X[:, 1],
    c=y_kmeans, s=60, cmap='viridis', edgecolors='k', alpha=0.8,
    label='Clusters'
)
plt.scatter(
    centers[:, 0], centers[:, 1],
    c='red', s=250, marker='X', edgecolors='k', linewidth=1.5,
    label='Centroids'
)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('KMeans Clustering')
plt.grid(True, linestyle='--', linewidth=0.5, alpha=0.7)
plt.legend()
plt.tight_layout()
plt.show()