Одной из основных задач в машинном обучении является нахождение сложных зависимостей между исходными и целевыми данными. Эти данные могут иметь совершенно разную природу:

| Задача | Исходные данные | Целевые данные |
| --- | --- | --- |
| Кредитный скоринг | Набор доступной информации о клиенте. | Его благонадежность как заемщика кредита.
| Детектирование животных | Видеозапись камеры наблюдения. | Положение и вид животного на видеозаписи.
| Перенос стиля | Любое изображение (набор пикселей). | Похожее изображение, но стилизованное под картину Ван Гога.
| Распознавание лиц | Изображение с лицом человека. | Некий числовой код этого лица (вектор). Похожими считаются лица с близкими числовыми кодами.
| Машинный перевод | Текст на одном языке. | Текст на другом языке.
| Автономное вождение | Данные с видеокамер, данные о моторе, история действий. | Следующее действие.

Общее среди этих задач то, что зависимость слишком сложна, чтобы ее можно быть запрограммировать вручную. В первом случае это еще кое-как можно сделать, хотя чем больше доступной информации - тем сложнее учесть ее всю, хочется как-то автоматизировать процесс. В следующих задачах вручную написать надежный алгоритм уже практически нереально. Однако для всех перечисленных задач (кроме, пожалуй, задачи переноса стиля) мы можем собрать большой обучающий набор, состоящий из пар исходные + целевые данные. Существуют алгоритмы, способные обучаться на таком наборе, находя в них скрытые закономерности. Таким образом алгоритм обучается решать задачу, то есть преобразовывать исходные данные в целевые.

При этом важно, чтобы алгоритм выдавал верные ответы не только на тех данных, на которых он обучался. Алгоритм, просто запомнивший все обучающие примеры, но неспособный выдать ответ на других примерах, не имеет практической ценности. Поэтому неотъемлемой частью машинного обучения является тестирование - проверка качества работы алгоритма на данных, которые не встречались при обучении. Тем самым мы проверяем, насколько хорошо алгоритм смог вывести общие правила из частных случаев, и насколько он пригоден к использованию.

Существует большое множество разных алгоритмов машинного обучения, и еще больше разнообразных их конфигураций и настроек. Как правило, наиболее примитивные алгоритмы страдают от одной из двух проблем: либо плохо обучаются (так и не начинают выдавать верные ответы даже на обучающих примерах), либо сильно переобучаются (то есть выдают точные ответы на обучающих примерах, но совсем плохо работают на тестовых примерах). Целью в ML является избавление от этих двух недостатков.

## Как работает ML-инженер?

Из сказанного выше можно вывести самый простой алгоритм действий ML-инженера - "starter pack": перебирать большое количество разных алгоритмов и их настроек, сравнивать точность при тестировании и выбирать наилучший. На практике часто так и делают. Но если бы ML ограничивался такими действиями, он не был бы столь высокооплачиваемой областью. На самом деле чтобы достичь действительно хорошего результата нужно преодолеть тернистый путь:
1. Выбрать для поставленной бизнес-задачи корректную метрику, то есть способ оценки качества предсказания. Это непростая задача с высокой ценой ошибки.
2. Собрать данные, если нет уже готового набора данных, либо если его размер слишком мал.
3. Тщательно подготовить данные, произведя с ними предварительные манипуляции. ML-модели (обучаемые алгоритмы) обучаются по принципу "мусор на входе - мусор на выходе". Чем лучше вы обработаете входные данные - тем лучше будет результат обучения.
4. Вдумчиво выбирать модели, зная их сильные и слабые стороны, или даже придумывать собственные модели. Особенно это касается нейронных сетей, где можно создать бесчисленное множество разных архитектур, как алхимик может смешать множество разных зелий. Но лишь немногие из этих архитектур покажут при обучении действительно хорошие результаты.
5. Корректно выстроить процесс обучения и тестирования, чтобы в итоге получить алгоритм, в надежности которого вы уверены.
6. Иногда возникает потребность не только делать предсказания, но и объяснять их. Это усложняет задачу: далеко не каждый ML-алгоритм способен "объяснять" свой ответ.
7. Вывести обученный алгоритм в "продакшн", то есть заставить его работать на сервере, в приложении на смартфоне или где-либо еще, при этом убедиться в достаточной его производительности. Также по необходимости дорабатывать и улучшать алгоритм.

## Другие ML-задачи

В перечисленном выше списке задач требовалось преобразовать исходные данные в целевые, однако есть и совсем иные задачи машинного обучения, где данные не разбиваются на независимые пары вопрос-ответ, а рассматриваются как единое целое:

| Задача | Формулировка |
| --- | --- |
| Кластеризация пользователей | На основе истории пользования сайтом найти группы пользователей со схожим поведением, чтобы упростить анализ аудитории сайта.
| Рекомендательная система | Автоматически подготавливать для пользователей интернет-магазина персональные рекомендации товаров на основе истории покупок.
| Предсказание результатов матчей | Автоматически предсказывать результаты матчей на основе базы данных результатов предыдущих матчей и другой доступной информации.
| Предсказание курса акций | Разработать алгоритм предсказания курсов акций.
| Ранжирование результатов поиска | Разработать алгоритм выдачи наиболее релевантных результатов на поисковые запросы.

Каждая из описанных задач имеет свою специфику. Во многих задачах (в рекомендательных системах, предсказании результатов матчей, ранжировании) идет работа с большим количеством уникальных сущностей (покупателей, товаров, игроков, команд, веб-страниц), о которых нужно накапливать информацию. Это уже сильно отличается от задач типа "вопрос-ответ", с рассмотрения которых мы начали.

Как видим, есть много совершенно разных видов задач, в которых используется машинное обучение.