# Базовая модель (Baseline model)

---

**Источники:**

[Always start with a stupid model, no exceptions.](https://blog.insightdatascience.com/always-start-with-a-stupid-model-no-exceptions-3a22314b9aaa)

[How To Get Baseline Results And Why They Matter](https://machinelearningmastery.com/how-to-get-baseline-results-and-why-they-matter/)

[What Is Machine Learning Inference?](https://hazelcast.com/glossary/machine-learning-inference/#:~:text=Machine%20learning%20(ML)%20inference%20is,as%20a%20single%20numerical%20score.&text=ML%20inference%20is%20the%20second,data%20to%20produce%20actionable%20output.)

[AI Basics: Training vs Inference – What’s the Difference?](https://community.arm.com/developer/ip-products/processors/b/ml-ip-blog/posts/ai-basics-training-vs-inference-whats-the-difference)

[Deploying Machine Learning models to production — Inference service architecture patterns](https://medium.com/data-for-ai/deploying-machine-learning-models-to-production-inference-service-architecture-patterns-bc8051f70080)

---

## Обучение (Training) и  Вывод (Inference)

<img src="images/train_inference.png">

**Обучение (training) модели** просто означает изучение (определение) хороших значений для всех весов и смещений из примеров. При обучении с учителем алгоритм машинного обучения строит модель, исследуя множество примеров и пытаясь найти модель, которая минимизирует потери (loss).

**Логический вывод машинного обучения (learning inference)** - это процесс ввода данных в реальном времени в алгоритм машинного обучения (или "модель машинного обучения") для вычисления результата. 

## Базовая модель (Baseline Model)

<blockquote>
Все должно быть сделано настолько просто, насколько вообще возможно, но не проще.
    
    Альберт Эйнштейн.
</blockquote>

**Всегда начинайте с глупых модели, без исключений.**

(TODO: KISS, YAGNI («You aren't gonna need it»)

При решении сложных проблем простые решения имеют множество недостатков:
- Иногда игнорируют важные аспекты ввода. Например, простые модели часто игнорируют порядок слов в предложении или корреляции между переменными.
- Большинство простых моделей, возможно, потребуется связать с эвристикой или созданными вручную правилами, прежде чем они будут представлены покупателю.
- С ними не так весело работать, и они могут не дать вам передового исследовательского опыта, который хочется развивать.


Ошибочный вывод, часто производимый этими решениями, может показаться нам очень глупым, отсюда и название "глупые (stupid) модели". 

Однако, **"глупые (stupid) модели" предоставляют невероятно полезный первый шаг и позволяют лучше понять проблему, чтобы проинформировать о наилучшем способе ее решения**.

**Другими словами: если вы хотите поиграть в забавные игрушки, начните со сложной модели. Если вы хотите решать проблемы и создавать продукты, начните с глупого.**


По сути, базовая модель (или просто **baseline**) - это **модель, которая проста в настройке и имеет разумные шансы на получение достойных результатов.** 

**Экспериментировать с baseline моделями обычно быстро и недорого (время/деньги/железо/...), поскольку реализации широко доступны в популярных пакетах.**

Несколько базовых моделей, которые может быть полезно помнить:
- **Линейная регрессия (Linear Regression)**. Надежный первый подход к прогнозированию непрерывных значений (цены, возраст и т.д.) на основе набора признаков.
- **Логистическая регрессия (Logistic Regression)**. При попытке классифицировать структурированные данные или естественный язык логистическая регрессия обычно дает быстрые и надежные результаты.
- **Деревья с градиентным бустингом (XGBoost)**. Классика Kaggle! Для прогнозов временных рядов и общих структурированных данных трудно превзойти деревья с градиентным усилением. Хотя интерпретировать их немного сложнее, чем другие базовые модели, они обычно работают очень хорошо.
- **Простая сверточная архитектура (Simple Convolutional Architecture)** - NNs. Тонкая настройка VGG или повторное обучение некоторого варианта U-сети обычно является отличным началом для большинства проблем классификации, обнаружения или сегментации изображений.
- и множество других!

Выбор простой базовой модели **зависит от типа данных и задачи**

Линейная регрессия имеет смысл, если нужно спрогнозировать цены на жилье по различным характеристикам (предсказывая значение из набора функций), но не в том случае, если нужно построить алгоритм преобразования речи в текст. Чтобы выбрать лучшую базовую модель, полезно подумать о том, чего надеетесь получить, используя ее.

Начиная работу над проектом, **первоочередной задачей является изучение того, какие потенциально непредвиденные проблемы будут стоять на пути**. Даже если они не будут окончательной версией вашей модели, базовые модели позволяют выполнять итерацию очень быстро, с минимальными затратами времени. Вот несколько причин, почему:
- **Базовая модель займет у менее 1/10 времени и может обеспечить до 90% результатов.**
    - Распространенный сценарий: команда хочет реализовать модель для предсказания вероятности того, что пользователь нажмет на объявление. Они начинаются с логистической регрессии и быстро (после небольшой настройки) достигают точности 90%. Отсюда возникает вопрос: должна ли команда сосредоточиться на достижении точности до 95% или они должны решать другие проблемы на 90%?
    - Большинство современных моделей по-прежнему работают с ненулевым коэффициентом ошибок из-за их стохастической (случайной) природы. Это зависит от ситуации, но большая часть эффективности системы является мультипликативной по своей природе, что означает, что лучше предпочесть иметь 10 последовательных шагов с точностью 90% (что приводит к общей точности 34%), а не один с 99%, за которым следует 9 с 10% (Общая точность 0,00000000099%).
    - **Начиная с базовой модели в первую очередь устраняются узкие места!**
- Базовая модель помещает более сложную модель в контекст. Обычно есть три уровня производительности, которые можно легко оценить:
    - Тривиально достижимая (trivially attainable) производительность — показатель, который теоретически, может превзойти любая модель. Примером этого значения может быть точность, которая получается, угадав наиболее частый класс в задаче классификации.
    - Производительность человека (Human performance), то есть уровень, на котором человек может выполнить эту задачу. Компьютеры намного лучше людей справляются с некоторыми задачами (например, игра в го) и хуже с другими (например, с написанием стихов). Знание того, насколько хорош человек в чем-то, может помочь вам заранее определить ожидания для алгоритма, но, поскольку разница между человеком и компьютером широко варьируется в зависимости от области, может потребоваться некоторый поиск литературы для калибровки.
    - Требуемая для развертывания (required to deploy) производительность — минимальное значение, которое сделает вашу модель пригодной для производства с точки зрения бизнеса и удобства использования. Обычно это значение можно сделать более достижимым с помощью разумных дизайнерских решений. [Google Smart Reply](https://research.google/pubs/pub45189/) показывает три предложенных ответа, что значительно увеличивает их шансы на получение полезного результата.
    - Чего не хватает на этих уровнях, так это того, что можно назвать "разумной автоматизированной производительностью (reasonable automated performance)", что представляет собой то, что может быть достигнуто с помощью относительно простой модели. Наличие этого эталонного теста (benchmark) жизненно важно для оценки того, хорошо ли работает сложная модель, и позволяет нам решить проблему компромисса между точностью и сложностью.
    - Часто обнаруживается, что базовые модели равны сложным моделям или превосходят их, особенно когда сложная модель была выбрана без учета того, где базовая модель не работает.
    - Сложные модели обычно сложнее развернуть, а это означает, что измерение их "подъемной силы" по сравнению с простой базовой моделью является необходимым предшественником инженерных усилий, необходимых для их развертывания.
- **Базовые модели легко развернуть (easy to deploy).**
    - По определению, базовые модели просты. Обычно они состоят из относительно небольшого числа обучаемых параметров и могут быть быстро адаптированы к вашим данным без особых усилий.
    - Это означает, что в инженерном отношении простыми моделями являются:
        - **Быстро обучаются (Faster to train)**, что дает очень быструю оценку производительности.
        - **Легко изучаемы (Better studied)**, это означает, что большинство ошибок, с которыми  сталкиваетесь, будут либо простыми ошибками в модели, либо укажут на то, что с данными что-то не так.
        - **Быстрее для инференса (inference)**, что означает, что их развертывание не требует значительного проектирования инфраструктуры и не увеличивает задержку.
- После того как базовую модель обучена и развернута, можно лучше всего решить, какой шаг делать дальше.
- **Базовая модель поможет понять данные.**
    - Если базовая модель работает хорошо, значит, вы избавили себя от головной боли, связанной с настройкой более сложной модели. Если базовая модель работает плохо, то ошибки, которые она делает, очень поучительны в отношении предвзятости и конкретных проблем с данными. Большинство проблем с машинным обучением решаются за счет лучшего понимания и подготовки данных, а не за счет простого выбора более сложной модели. Глядя на поведение базовой модели, можно сделать выводы:
        - Какие классы сложнее разделить. Для большинства задач классификации просмотр матрица путаницы (confusion matrix) будет очень информативным при изучении того, какие классы создают проблемы для модели. Когда производительность особенно низка для набора классов, стоит изучить данные, чтобы понять, почему.
        - Какой тип сигнала принимает ваша модель. Большинство базовых показателей позволят извлечь важность функций, выявив, какие аспекты входных данных являются наиболее предсказуемыми. Анализ важности функций — отличный способ понять, как модель принимает решения и чего ей может не хватать.
        - Какой сигнал у модели отсутствует. Если есть определенный аспект данных, который кажется интуитивно важным, но который модель игнорирует, хорошим следующим шагом будет разработка функции или выбор другой модели, которая могла бы лучше использовать этот конкретный аспект ваших данных.
- **Базовая модель поможет понять задачу.**
    - Помимо изучения данных, базовая модель позволит увидеть, какие части вывода легкие, а какие — трудные. В свою очередь, это позволяет исследовать, в каком направлении следует улучшить свою модель, чтобы она лучше решала самые сложные вопросы.
    - Большинство задач машинного обучения подчиняются теореме ["не существует бесплатного обеда (No free lunch theorem)"](https://en.wikipedia.org/wiki/No_free_lunch_theorem): не существует универсального решения. Задача состоит в том, чтобы выбрать из множества архитектур, стратегий встраивания и моделей ту, которая лучше всего может извлекать и использовать структуру данных. Наблюдение за тем, что простая базовая модель пытается смоделировать — отличный способ обосновать это решение.
- **Когда базовая модель просто не подойдет**:
    - Для некоторых задач очень сложно построить адекватную базовую модель.
    - Если необходимо работать над разделением разных спикеров в аудиозаписи ([Феномен вечеринки с коктейлем (Cocktail party effect)](https://ru.wikipedia.org/wiki/%D0%A4%D0%B5%D0%BD%D0%BE%D0%BC%D0%B5%D0%BD_%D0%B2%D0%B5%D1%87%D0%B5%D1%80%D0%B8%D0%BD%D0%BA%D0%B8_%D1%81_%D0%BA%D0%BE%D0%BA%D1%82%D0%B5%D0%B9%D0%BB%D0%B5%D0%BC)),  может потребоваться начать со сложной модели, чтобы получить удовлетворительные результаты. 
    - В таких случаях, **вместо упрощения модели, хорошей альтернативой является упрощение данных**: попробуйте настроить сложную модель для очень небольшого подмножества данных (overfit to a very small subset of your data). Если ваша модель обладает достаточной "силой", необходимой для обучения, это должно быть легко. Если эта часть оказывается сложной, то это обычно означает, что нужно попробовать другую модель!
    
    
**Легко упустить из виду простые методы, если знаете о существовании более мощных, но в машинном обучении, как и во многих других областях, всегда полезно начинать с основ.**

Хотя научиться применять сложные методы, безусловно, является сложной задачей, самая большая проблема, с которой сталкиваются инженеры по машинному обучению, - это выбрать стратегию моделирования для данной задачи. Это решение можно принять, попробовав сначала простую модель; если производительность невысока, переходите к более сложной модели, которая будет особенно полезна для избежания конкретных ошибок, которые, как уже известно, допускала базовая модель.