# Лекция 1.1: Задачи машинного обучения

Машинное обучение (ML) – это область искусственного интеллекта, которая разрабатывает алгоритмы и модели, позволяющие программам изучать закономерности в данных и принимать решения на основе полученного опыта. 

В основе ML лежит идея: вместо того чтобы задавать каждому шагу алгоритма **точную инструкцию**, мы предоставляем системе данные, и она самостоятельно находит **универсальные правила** для решения поставленных задач.

Для описания систем часто выделают два подхода: 
- **rule-based** – когда поведение определяется набором правил или уравнений.
- [**data-driven**](https://practicum.yandex.ru/blog/chto-takoe-data-driven-podhod/) - когда описание поведения составляется на основе данных и закономерности выявляются без явного задания правил.

В контексте машинного обучения используется именно второй подход, относительно него строятся задачи и модели, нацеленные на выявления неявных закономерностей в привычных нам данных.

<img src="../../images/rulebased_datadriven.jpg" alt="Подходы" width="500">

Основной способ достижения цели – обучение – автоматический процесс настройки параметров модели.

<img src="../../images/ml_pipeline.png" alt="Обучение" width="700">

Если рассматривать задачи с точки зрения процесса обучения, методы могут быть разделены на три категории:
- **Обучение с учителем (Supervised Learning):** при наличии разметки – каждому входному примеру сопоставляется метка или целевое значение.
- **Обучение без учителя (Unsupervised Learning):** данные не размечены, и задача заключается в выявлении скрытой структуры или закономерностей в данных.
- **Обучение с подкреплением (Reinforcement Learning, RL):** добавлен механизм влияния на процесс обучения модели факторов из "окружающего мира".

Это наиболее распространенное разделение, однако иногда полезными оказываются и другие подходы:
- **Обучение с частичным привлечением учителя (Semi-Supervised Learning):** используется небольшое количество размеченных примеров и большое количество неразмеченных, модель учится использовать неразмеченные данные для улучшения качества предсказания.
- **Обучение с самоконтролем (Self-Supervised Learning, SSL)**: особый случай обучения без учителя, где метки генерируются автоматически на основе самих данных, то есть используется закономерности в них, не требующие дополнительной разметки.

<img src="../../images/supervised_learning.jpg" alt="Типы обучения" width="500">

Поскольку на практике приходится работать с данными различной природы и объема, полезно разделять алгоритмы машинного обучения по масштабируемости (по аналогии с пространственной сложностью обычных алгоритмов):
- **Параметрические модели**: имеют фиксированное, заранее заданное количество параметров, которое не зависит от размера данных. Обучение заключается в подборе значений этих параметров.
- **Непараметрические модели**: сложность модели растёт с увеличением объёма данных, так как они не фиксируют жёсткую функциональную форму, а "запоминают" данные или адаптируют свою структуру под них.

Если рассматривать задачи с точки зрения конечной цели, можно выделить две основные категории:
- **Дискриминативные задачи:** направлены на разделение данных, предсказание меток или регрессию. Примерами являются классификация и регрессия. Моделируют зависимость вида $ p(y \mid x) $. Цель таких моделей – предсказывать метки или значения на основе входных признаков, не пытаясь смоделировать сам процесс генерации данных.
- **Генеративные задачи:** целятся в изучение и моделирование полного распределения данных, что позволяет генерировать новые, «реалистичные» примеры, аналогичные исходным. Моделируют совместное распределение $ p(x, y) $ (или просто $ p(x) $ в случае отсутствия меток) и, таким образом, способны генерировать новые данные, похожие на исходные, а также могут использоваться для решения задач классификации через вычисление условных вероятностей.

В первую очередь будут рассмотрены постановки основных типов дискреминативных задач машинного обучения, а именно: **классификация**, **регрессия** и **кластеризация**.

<img src="../../images/ml_task_types.png" alt="Типы задач" width="500">

Как мы уже поняли, модели (или алгоритмы) машинного обучения позволяют решать задачи на основании некоторого процесса обучения над данными. Важно понимать, что помимо прочих особенностей и вариативности этапа обучения, которые подробнее будут рассмотрены далее, есть также классификация по стратегии обучения:

- **Пакетное обучение (Batch/Offline)** – модель обучается сразу на всей полной выборке данных. Именно оно рассматривается в курсе, ввиду куда большей распространенности.
- **Инкрементальное обучение (Incremental/Online)** – модель дообучается постепенно, по мере поступления новых данных небольшими порциями. Подробнее можно посмотреть в [презентации](http://www.machinelearning.ru/wiki/images/1/17/Voron-ML-incremental-slides.pdf).

> По аналогии, обученная модель после внедрения в сервис может также работать в различных режимах:
> - **Пакетный (Offline)** – модель запускается по расписанию для обработки накопленных данных.
> - **Микропакетный (Near-online)** – предсказание выполняется часто, но не мгновенно, обрабатывая данные небольшими пачками.
> - **Поточный (Online)** – предсказание выполняется синхронно, по запросу, модель возвращает ответ в реальном времени.
> 
> Это относится уже не столько к машинному обучения, сколько к деталям реализации конкретного сервиса, однако заслуживает упоминания.

Обладая широким набором инструментов и возможных постановок решаемых задач, можно также выделить основные области применения алгоритмов машинного обучения:

- **General ML (Классический ML)** – охватывает фундаментальные алгоритмы и модели, которые являются универсальными и могут быть применены к данным любой природы без узкоспециализированной адаптации.
- **NLP (Обработка естественного языка)** – направлен на работу с текстом, понимание, интерпретацию и генерацию человеческого языка.
- **CV (Компьютерное зрение)** – направлен на понимание визуальную информации, анализ изображений и видео, распознавание объектов и сцен.
- **RecSys (Рекомендательные системы)** – прогнозировании предпочтений пользователей и фильтрации/поиска информации.
- **PIML/SciML (Научный ML)** – использует машинное обучение для решения научных задач, часто комбинируя данные с известными физическими законами для моделирования сложных систем и открытия новых закономерностей/решений.
- **Robotics (Робототехника)** – занимается созданием алгоритмов для роботов, позволяя им воспринимать окружающую среду, планировать движения и автономно выполнять задачи в реальном мире.

> Есть также работа со звуком, например голосовой ввод или синтез речи. Это направление редко выделяется как отдельное и чаще существует на стыке NLP и CV, используя дополнительно численные методы

#### Кто этим занимается?

Для обеспечения работы описанного процесса зачастую необходимо большое количество специалистов, каждый из которых имеет свою, конкретную специализацию:

- Product Manager – определяет решаемую проблему
- Data Analyst – исследует существующие данные
- Data Engineer – организует процессы поставки данных
- Machine Learning Engineer – определяет как разработать модель, подходящую для реального использования
- Machine Learning Researcher – проводить исследование, разрабатывает новое лучшее решение

Всем этим работникам необходима также тесная коммуникация с командами разработки (Frontend, Backend, Mobile, DevOps), именно в их процессы встраиваются ML-компоненты.

Часто DA, DE, MLE, MLR называют общим термином Data Scientist (DS) - по итогу за этим термином может скрываться любой набор навыков, которые ожидает видеть работодатель. Но это уже [проблемы](https://www.youtube.com/watch?v=Cs3ae65tmKA&t=247s) рынка труда.

Курс направлен на подготовку MLE или MLR и дает поверхностные знания в других направлениях. Непосредственно MLE обычно занимается следующими задачами:
1. Выбором архитектуры (математической модели)
2. Выбором гиперпараметров модели
3. Определением способа настройки параметров модели
4. Обучением моделей
5. Оценкой качества моделей
6. Сопоставлением различных моделей
7. Продуктивизация, то есть внедрение модели в реальные процессы с учетом их метрик, по типу [SLA](https://cloud.google.com/blog/products/devops-sre/sre-fundamentals-slis-slas-and-slos)

Важно понимать, что обязанности специалистов могут отличаться в зависимости от компании.

### Типовые этапы и понятие pipeline

Прежде чем переходить к конкретным задачам, рассмотрим несколько максимально общих терминов и этапов работы с данными.

<img src="../../images/ml_solution.png" alt="Этапы решения задач" width="800">

Самым значимым отличием решения заданий в университете является присутствие этапа понимания бизнеса, который часто опускается в академической среде. Так, задача от бизнеса может формулироваться общими словами и требовать широких знаний и опыта для перевода ее на язык ML.

После того как задача поставлена, можно проводить подготовку модели. Данная задача может быть также разбита на этапы, каждый и которых часто является отдельной небольшой задачей. В общем случае шаги следующие: 
- загрузка данных
- предобработка
- обучение или использование предобученной модели
- пост-обработка
- оценка результатов

> Валидация может отличаться в зависимости от данных и используемого ML-подхода, но чаще всего она осуществляется путем расчета метрик качества на отложенной выборке (моделирование ситуации "неизвестного будущего" для модели). То, как именно должны быть отложены данные и какие метрики необходимо посчитать сильно зависит от задачи и требует экспертизы, а иногда и общей эрудиции.

Само обучение, как мы узнаем далее, может быть либо дообучением, либо переобучением модели с нуля. В курсе будет рассмотрен первый подход и его вариации, но для примеров чаще будет использован второй. Он обычно реализуется следующим образом:
- сначала имеющаяся выборка разбивается на тренировочную, валидационную и тестовую
- модель учится на тренировочной выборке, а валидационная используется для оценки качества модели
- поскольку у модели есть гиперпараметры, от которых значительно зависит итоговое качество, результаты оценки на валидации используется для их подбора

<div class="alert alert-danger">
<b>Замечание:</b> Выбирая модель с использованием результатов на валидационной выборке, мы допускаем <b>утечку данных</b>, при этом даже не проводя обучения модели на них. Работа с данными будет подробнее рассмотрена в следующем <a href="week01_02_data.ipynb" target="_blank">ноутбуке</a>
</div>

- получаем итоговые метрики модели на тестовых данных, которые специально отложены для этой конечной оценки
- модель с подобранными гиперпараметрами с нуля обучается на всей выборке

<img src="../../images/train_test_val.png" alt="Разбиение данных" width="800">

Разобравшись с основной идеи работы с данными можно переходить в постановке и формализации конкретных задач.

### Классификация

##### Суть задачи
Классификация применяется, когда необходимо распределить объекты по заранее определённым категориям. В обучающей выборке каждый объект сопровождается меткой класса, что позволяет модели изучить характерные особенности каждого класса и впоследствии использовать их для распознавания новых данных.

##### Постановка задачи
Допустим, у нас имеется обучающая выборка:
$$
\mathcal{D} = \{ (\mathbf{x}_i, y_i) \}_{i=1}^N,
$$
где $\mathbf{x}_i \in \mathbb{R}^d$ – вектор признаков, а $y_i \in \{1, 2, \dots, K\}$ – метка класса.

Цель построить функцию $f: \mathbb{R}^d \to \{1,\dots,K\}$, такую что для **новых** точек $\mathbf{x}$ она правильно предсказывает их класс.

##### Основные типы классификации
- **Бинарная классификация** ($K=2$) – два класса.
- **Мультиклассовая классификация** ($K>2$) – более двух категорий.
- **Multi-label классификация** – один объект может принадлежать сразу нескольким классам одновременно.

##### Основные модели
- **Логистическая регрессия**
- **Наивный байес**
- **Метод опорных векторов (SVM)**
- **Деревья решений и ансамбли**
- **k-ближайших соседей (КNN)**
- **Нейронные сети**

##### Примеры
- **Распознавание рукописных цифр:** например, набор данных MNIST, где изображенные цифры нужно отнести к соответствующим числам.
- **Фильтрация спама:** классификация электронных писем на "спам" и "не спам".
- **Распознавание образов:** определение типа объекта на изображении (кот, собака, автомобиль и т.д.).

> Задача классификации в контексте линейных моделей рассматривается в подробнее в [учебнике](https://education.yandex.ru/handbook/ml/article/linear-models)

<img src="../../images/classification.png" alt="Классификация" width="500">

Практический пример:

In [None]:
import sklearn
dir(sklearn)

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.linear_model import LogisticRegression

In [None]:
iris = datasets.load_iris()
X = iris.data[:, [2, 3]]
y = iris.target

In [None]:
classifier = LogisticRegression(multi_class='ovr', 
                                solver='lbfgs', 
                                max_iter=200)
classifier.fit(X, y)

In [None]:
x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5

xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01),
                        np.arange(y_min, y_max, 0.01))
grid = np.c_[xx.ravel(), yy.ravel()]

Z = classifier.predict(grid)
Z = Z.reshape(xx.shape)

In [None]:
plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.Set1)
plt.scatter(
    X[:, 0], X[:, 1],
    c=y, edgecolors='k', cmap=plt.cm.Set1,
    s=40, linewidth=0.5
)
plt.xlabel('Petal length')
plt.ylabel('Petal width')
plt.title('Iris Classification with Logistic Regression')
plt.grid(True, linestyle='--', linewidth=0.5, alpha=0.7)
plt.tight_layout()
plt.show()

### Регрессия

##### Суть задачи
Регрессия направлена на предсказание непрерывной величины. Здесь модель изучает зависимость между входными признаками и непрерывным выходом, пытаясь минимизировать ошибку между предсказанными и истинными значениями.

##### Постановка задачи
Рассмотрим обучающую выборку вида:
$$
\mathcal{D} = \{ (\mathbf{x}_i, y_i) \}_{i=1}^N,
$$
где $\mathbf{x}_i \in \mathbb{R}^d$ – вектор признаков, а $y_i \in \mathbb{R}$ – непрерывное значение, которое требуется предсказать (тоже может быть многомерным, $\mathbb{R}^m$).

Цель построить функцию $f: \mathbb{R}^d \to \mathbb{R}$ (или $\mathbb{R}^m$), так чтобы предсказания $\hat y = f(\mathbf{x})$ были как можно ближе к истинным $y$.

##### Основные модели
- **Линейная регрессия**
- **Полиномиальная регрессия**
- **Регуляризованная регрессия**
- **Метод опорных векторов для регрессии (SVR)**
- **Деревья решений и ансамбли**
- **k-ближайших соседей (КNN)**
- **Нейронные сети**

##### Примеры
- **Прогнозирование цен:** например, оценка рыночной стоимости недвижимости или прогнозирование цен акций.
- **Физические прогнозы:** определение физических параметров системы по различным показателям.
- **Временные ряды:** прогнозирование на основе исторических данных.

> Задача регрессии в контексте линейных моделей рассматривается в подробнее в [учебнике](https://education.yandex.ru/handbook/ml/article/linear-models)

<img src="../../images/regression.png" alt="Регрессия" width="500">

Практический пример:

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [None]:
X, y = make_regression(n_samples=100, n_features=1, noise=10, random_state=42)

In [None]:
model = LinearRegression()
model.fit(X, y)
y_pred = model.predict(X)

In [None]:
plt.scatter(X, y, label='Data', s=30, edgecolors='k')
sorted_idx = X[:, 0].argsort()
plt.plot(
    X[sorted_idx], y_pred[sorted_idx],
    color='red', linewidth=2, label='Regression line'
)
plt.xlabel('Feature')
plt.ylabel('Target')
plt.title('Linear Regression Fit')
plt.grid(True, linestyle='--', linewidth=0.5, alpha=0.7)
plt.legend()
plt.tight_layout()
plt.show()

### Кластеризация

##### Суть задачи
Кластеризация относится к методам обучения без учителя. Здесь задача состоит в **автоматическом разделении** набора неразмеченных объектов на группы (кластеры) по принципу максимального внутригруппового сходства и минимального межгруппового сходства. Кластеризация позволяет автоматически выявлять скрытые структуры и паттерны в данных.

##### Постановка задачи
Пусть имеется набор объектов без меток:
$$
\mathcal{D} = \{ \mathbf{x}_i \}_{i=1}^N, \quad \mathbf{x}_i \in \mathbb{R}^d.
$$
Задача кластеризации заключается в разделении объектов на $K$ групп, таких что объекты внутри одной группы максимально похожи друг на друга, а объекты разных групп – существенно различаются. При этом в части методов $K$ не задается наперед.

Требуется найти функцию $g\colon\mathbb{R}^d\to\{1,2,\dots,K\}$, которая присваивает каждому объекту номер кластера, при этом для объектов одного кластера расстояния (или меры несхожести) между признаковыми векторами минимальны, а для объектов разных кластеров – максимальны. В ряде методов число кластеров $K$ задаётся заранее, в других оно определяется автоматически.

##### Типы кластеризации
- **Плоская (partitional):** сразу строится разбиение на заданное число $K$ кластеров.
- **Иерархическая:** строится дерево вложенных кластеров.
- **Плотностная:** кластеры определяются как области высокой плотности точек, число кластеров не задаётся заранее.
- **Нечетная (fuzzy) кластеризация:** объект может частично принадлежать сразу нескольким кластерам.

##### Основные модели
- **k-means**
- **Agglomerative Clustering**
- **DBSCAN**
- **Spectral Clustering**
- **Gaussian Mixture Models (GMM)**

##### Примеры
- **Сегментация клиентов:** выделение групп потребителей с похожим поведением или интересами.
- **Группировка документов:** автоматическое распределение текстов по темам.
- **Обнаружение аномалий:** обнаружение выбросов или аномальных объектов в наборе данных.

> Подробнее про методы и задачу кластеризации в целом можно прочитать в [учебнике](https://education.yandex.ru/handbook/ml/article/klasterizaciya)

<img src="../../images/clustering.jpg" alt="Кластеризация" width="800">

Практический пример:

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

In [None]:
X, y_true = make_blobs(n_samples=300, centers=3, cluster_std=1.0,
                       random_state=42)

In [None]:
kmeans = KMeans(n_clusters=3, random_state=42)
y_kmeans = kmeans.fit_predict(X)
centers = kmeans.cluster_centers_

In [None]:
plt.figure(figsize=(8, 6))
plt.scatter(
    X[:, 0], X[:, 1],
    c=y_kmeans, s=60, cmap='viridis', edgecolors='k', alpha=0.8,
    label='Clusters'
)
plt.scatter(
    centers[:, 0], centers[:, 1],
    c='red', s=250, marker='X', edgecolors='k', linewidth=1.5,
    label='Centroids'
)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('KMeans Clustering')
plt.grid(True, linestyle='--', linewidth=0.5, alpha=0.7)
plt.legend()
plt.tight_layout()
plt.show()

### Ранжирование

##### Суть задачи
Ранжирование применяется, когда требуется упорядочить объекты по степени их важности, релевантности или полезности. Например, при поиске в интернете алгоритмы ранжирования определяют порядок выдачи результатов на основе их соответствия запросу пользователя.

##### Постановка задачи
Пусть даны объекты $\{\mathbf{x}_i\}_{i=1}^N$ и функция оценки важности (релевантности) $f(\mathbf{x})$. Задача построить такую функцию $f: \mathbb{R}^d \to \mathbb{R}$, чтобы при сортировке объектов по значениям $f(\mathbf{x})$ наиболее релевантные объекты располагались выше.

> Эта задача является частью систем поиска или рекомендаций, поэтому привести короткий наглядный пример тут, пожалуй, невозможно.

### Понижение размерности

##### Суть задачи
Понижение размерности применяется, когда данные имеют большое число признаков и требуется упростить их представление, уменьшая размерность пространства при сохранении важной структуры данных. Такой подход позволяет упростить визуализацию, ускорить вычисления и избавиться от избыточной информации.

##### Постановка задачи
Пусть исходные данные описываются в пространстве $\mathbb{R}^d$ (где $d$ – большое число признаков). Необходимо найти отображение $g: \mathbb{R}^d \to \mathbb{R}^k$ ($k < d$), такое что новые признаки сохраняют основную информативную структуру исходных данных.

Практический пример:

In [None]:
from sklearn.datasets import make_blobs
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

In [None]:
X_3d, y_3d = make_blobs(
    n_samples=300,
    n_features=3,
    centers=3,
    random_state=42,
    cluster_std=2.8
)

pca2 = PCA(n_components=2)
X_2d = pca2.fit_transform(X_3d)

pca1 = PCA(n_components=1)
X_1d = pca1.fit_transform(X_3d)

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(19, 5))

ax = fig.add_subplot(1, 3, 1, projection='3d')
scatter = ax.scatter(
    X_3d[:, 0], X_3d[:, 1], X_3d[:, 2], 
    c=y_3d, s=50, cmap='viridis', edgecolors='k', alpha=0.8
)
ax.set_xlabel('Feature 1')
ax.set_ylabel('Feature 2')
ax.set_zlabel('Feature 3')

axes[1].scatter(
    X_2d[:, 0], X_2d[:, 1],
    c=y_3d, s=50, cmap='viridis', edgecolors='k', alpha=0.8
)
axes[1].set_xlabel('PC1')
axes[1].set_ylabel('PC2')
axes[2].scatter(
    X_1d[:, 0], [0]*len(X_1d),
    c=y_3d, s=50, cmap='viridis', edgecolors='k', alpha=0.8
)
axes[2].set_xlabel('PC1')
axes[2].set_yticks([])

plt.tight_layout()
plt.show()