## Модель и параметры

Пусть мы решаем задачу [машинного обучения](@Машинное обучение), в которой из исходных данных нужно получить целевые. Это означает, что мы хотим найти алгоритм, который преобразует исходные данные в целевые. Обычно делают таким образом: задают некий фиксированный математический алгоритм (модель), который вычисляет ответ, используя входные данные и набор параметров. Затем в ходе обучения этот набор параметров подбирается таким образом, чтобы на обучающих данных модель выдавала ответы, как можно более близкие к верным.

Рассмотрим максимально простой пример. Пусть мы вычисляем целевой признак $Y$ на основе трех исходных признаков: $X1$, $X2$, $X3$. Мы решили использовать следующую модель:

$Y = C1X1 + C2X2 + C3X3 + C4$

У этой модели 4 параметра: $C1$, $C2$, $C3$, $C4$. Эти параметры подбираются в ходе обучения, а затем фиксируются и больше не меняются. Теперь подставив в формулу исходные признаки мы сможем вычислить целевой признак. Такая модель называется линейной регрессией. Конечно если зависимость $Y$ от $X1$, $X2$, $X3$ нелинейна, то линейная регрессия не даст хорошей точности, какие бы значения параметров мы не подбирали. В этом случае можно использовать другие, более сложные модели.

Таким образом, модель - это фиксированный математический алгоритм, который вычисляет ответ, используя входные данные и набор параметров (весов). Модель еще можно назвать вычислительной архитектурой, или параметризованным семейством алгоритмов. Процесс обучения модели заключается в подборе параметров. Конечно, модель не будет иметь смысла, если для нее не определен алгоритм обучения.

Параметров у модели как правило очень много. Например, в нейронных сетях используется матричное умножение вектора входных данных на матрицу параметров. Если матрица параметров имеет размер 100х100, то мы имеем 10 тысяч параметров (весов). Все эти веса настраиваются в ходе обучения. У больших нейронных сетей могут быть миллионы, в редких случаях - даже триллионы параметров.

## Гиперпараметры

В отличие от параметров, гиперпараметры напрямую не используются в расчете ответа и не обучаются. Вместо этого они влияют на всю архитектуру в целом. Например, количество нейронов является гиперпараметром в нейронной сети. От значения этого параметра зависит количество обучаемых параметров в сети, поэтому значение этого гиперпараметра нужно выбрать еще до начала обучения. Также гиперпараметрами называются различные настройки самого процесса обучения.

Итак, гиперпараметры не обучаются, но выбрать их каким-то образом нужно (если конечно они есть). Это обычно делается либо по опыту, либо подбором, то есть многократными экспериментами с выбором значения, давшего наилучшие результаты.

## Модель, параметры и гиперпараметры в sklearn

Рассмотрим вышесказанное на примере библиотеки scikit-learn (sklearn).

Модель описывается неким классом, например [`DecisionTreeClassifier`](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html) - "решающее дерево". Создав экземпляр этого класса, мы задаем гиперпараметры, например:

`model = DecisionTreeClassifier(criterion='entropy', max_depth=5)`

Теперь мы можем обучить модель, вызвав метод .fit() и передав в него обучающие данные. В итоге мы получим обученный алгоритм с фиксированными значениями параметров (весов). Также есть метод [`sklearn.base.clone`](https://scikit-learn.org/stable/modules/generated/sklearn.base.clone.html), который принимает любую модель и создает необученную копию этой модели с теми же гиперпараметрами. Это полезно если мы хотим обучать одну и ту же модель несколько раз на разных данных. В этом случае мы получим несколько обученных моделей с разными параметрами (весами).

Есть в sklearn и уже рассмотренная выше линейная регрессия: [`LinearRegression`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html). У нее также есть гиперпараметры, например `fit_intercept` определяет будет ли использоваться свободное слагаемое ($C4$ в формуле выше).