### Введение в машинное обучение

#### Постановка задачи

Объект - для чего хотим делать предсказания.

Целевая переменная - что предсказываем (ответ).

Обучающая выборка (Dataset) - набор данных для обучения, с известными правильными ответами.

Каждый объект в датасете описывается набором (вектором) признаков:

$
x = (x_1, x_2, ..., x_d)
$

#### Модель

Модель - это функция, которая предсказывает ответ для любого объекта $x$:

$
a(x): X \rarr Y
$

Параметры (веса) - то, что мы выучиваем про $a(X)$ из данных: коэффициенты функции.

Пример: линейная модель. $w_1 * "площадь" + w_2 * "число_комнат" * w_3 * "расстояние_до_метро"$

Функция потерь

Функция потерь (loss function) - критерий качества. Измеряет, насколько предсказание отличается от ответа.

$
L(a,x)
$

Обычно используют: Среднеквадратичная ошибка (Mean Squared Error, MSE)

$
L(a,X) = \frac{1}{N}\sum_{n=1}^{N}(a(x_n) - y_n)^2
$

#### Обучение модели

Выбирают семейство модели $A$.

Обучение - поиск оптимальной модели (из выбранного семейства) в терминах функции потерь.

```mermaid
flowchart LR
    object["Объект"]
    model["Модель"]
    answer["Ответ модели"]
    loss["Функция потерь"]
    right_answer["Правильный ответ"]
    user["Пользователь"]
    object --> model
    model --> answer
    answer --> loss
    right_answer --> loss
    loss -- Оценка результата --> user
    user -- Корректировка параметров (коэффициентов) --> model
```

#### ML Pipeline

Обучение на датасете.
Проветка на тестовом датасете.
Выбор из нескольких моделей по валидационному датасету.

```mermaid
flowchart TD
  models
  loss
  training_dataset
  training
  trained_models
  validation_dataset
  metric
  test_dataset
  compare_models
  best_model
  testing
  model_quality

  models --> training
  loss --> training
  training_dataset --> training

  validation_dataset --> compare_models
  metric --> compare_models
  metric --> testing
  test_dataset --> testing

  training --> trained_models
  trained_models --> compare_models
  compare_models --> best_model
  best_model --> testing
  testing --> model_quality
```

#### Задачи ML

* Обучение
  * Обучение с учителем (supervised learning)
    * в обучающих данных есть правильные ответы
      * задачи классификации
        * бинарная
        * мультиклассовая ($Y = \{ 1, ..., K \}$)
      * задачи регрессии; ответ - действительное число ($Y = \R$)
        * предсказание чего-либо
  * Обучение без учителя (unsupervised learning)
    * в обучающих данных есть только примеры, а зависимости алгоритм находит сам
      * кластеризация
        * детекция аномалий
      * уменьшение размерности (обобщение)
      * ассоциация

#### Типы признаков

* числовые
  * $D_j = \R$
* бинарные
  * $D_j = \{ 0, 1 \}$
* категориальные: фиксированный набор значений (категорий), как в enumeration (только их нельзя упорядочить): $D_j = \{ u_1, ..., u_m \}$
  * способы кодирования
    * one-shot encoding: замена на m бинарных признаков
    * frequency encoding: как часто категория встречается в обучающих данных
    * mean target encoding: среднее значение целевой переменной для категории
* порядковые: как категориальный, только с порядком значения признака
  * $D_j = \{ u_1, ..., u_m \}$