# **Глава 3. Линейная регрессия**

*Вопрос 1: Перечислите возможные гиперпараметры модели линейной регрессии.*


Ответ:

Классическая линейная регрессия (без регуляризации) не имеет гиперпараметров, кроме fit_intercept (учитывать ли свободный член) и параметров численного метода решения.

Линейная регрессия с регуляризацией:

*   Ridge-регрессия (L2-регуляризация): alpha - коэффициент регуляризации (чем больше, тем сильнее штрафуются большие веса); solver - метод оптимизации (saga, svd, lsqr, lbfgs и др.); max_iter - максимальное число итераций (если метод итерационный); tol - критерий остановки (если метод итерационный).
*   Lasso-регрессия (L1-регуляризация): alpha - коэффициент регуляризации (может обнулять коэффициенты); selection - стратегия выбора признаков (cyclic или random); max_iter, tol - параметры итерационного процесса.
*   ElasticNet (гибрид L1 и L2): alpha - общий коэффициент регуляризации; l1_ratio - баланс между L1 и L2 (0 - Ridge, 1 - Lasso); max_iter, tol - параметры численного решения.

Дополнительные гиперпараметры - эти параметры могут быть в разных реализациях: fit_intercept - учитывать ли свободный член (True/False); normalize - требуется ли нормализация перед обучением; copy_X - копировать ли входные данные (важно для оптимизации памяти); positive - заставлять ли коэффициенты быть неотрицательными; (solver) - зависят от регуляризации (например, saga в sklearn).

*Вопрос 2: Может ли коэффициент детерминации быть отрицательным
числом?*

Ответ: Да, коэффициент детерминации ($\ R^2 $) может быть отрицательным, хотя это нечасто встречается.

Формула: $\ R^2 = 1 - \frac {SS_{res}} {SS_{tot}} $

Обычно $\ R^2 $ принимает значения от 0 до 1, где:

*   $\ R^2 = 1 $ означает, что модель идеально предсказывает данные.
*   $\ R^2 = 0 $ означает, что модель предсказывает так же, как простое среднее целевой переменной.
*   $\ R^2 < 0 $ возникает, если модель делает предсказания хуже, чем усреднённое значение, то есть сумма квадратов ошибок модели превышает сумму квадратов отклонений от среднего. Это может происходить из-за ошибок в данных, недостаточных признаков или неподходящего выбора модели.






*Вопрос 3: Оцените MSE для следующих данных: реальные значения $\ y $ {1, 2, 3, 4}, предсказания модели $\ \hat{y} $ {2, 1, 4, 6}.*




Ответ:

Среднеквадратичная ошибка (MSE, Mean Squared Error) вычисляется по формуле: $\ MSE = \frac {1} {n} \sum_{i = 1} ^ {n} (y_{i} - \hat{y_{i}})^2 $,

где:
*   $\ y_{i} $ - реальные значения: {1, 2, 3, 4}
*   $\ \hat{y_{i}} $ - предсказанные значения: {2, 1, 4, 6}
*   $\ n = 4 $ (количество точек)

Рассчитаем квадрат ошибки для каждого элемента:

$\ (1 - 2)^2 = 1 $

$\ (2 - 1)^2 = 1 $

$\ (3 - 4)^2 = 1 $

$\ (4 - 6)^2 = 4 $

Суммируем:

$\ 1 + 1 + 1 + 4 = 7 $

Теперь вычисляем MSE:

$\ MSE = \frac {7} {4} = 1,75 $



*Вопрос 4: Предположим, что у вас есть вектор весов $\ w $ {10, 5, 6}. Вы посчитали градиент функции потерь, который равен {20, −10, 40}.
Посчитайте обновленный вектор весов при условии, что скорость обучения составляет 0.1.*

Ответ:

Обновление весов в градиентном спуске выполняется по следующей формуле:

$\ w_{i} ^ {new} =  w_{i} ^ {old} - \eta * \nabla L_{i}$

где:

*   $\ w_{i} ^ {old} $ - старые веса (данные: {10, 5, 6})
*   $\ \nabla L_{i} $ - градиент функции потерь (данные: {20, -10, 40})
*   $\ \eta $ - скорость обучения (learning rate), дано 0,1

Теперь обновим веса:

$\ w_{1} ^ {new} = 10 - 0,1 * 20 = 10 - 2 = 8 $

$\ w_{2} ^ {new} = 5 - 0,1 * (-10) = 5 + 1 = 6 $

$\ w_{3} ^ {new} = 6 - 0,1 * 40 = 6 - 4 = 2 $

Обновлённый вектор весов: {8, 6, 2}.

*Вопрос 5: Перечислите данные, которые вам необходимы для расчета
градиента функции потерь.*

Ответ:

*   Вектор предсказанных значений — эти значения получаются после прохождения входных данных через модель.
*   Вектор правильных значений — функция потерь обычно вычисляется как разница между предсказанными и истинными значениями.
*   Массив признаков — признаки (или входные данные) используются для вычисления предсказаний модели. Например, для линейной регрессии или нейронной сети, входные признаки влияют на параметры модели.
*   Флаг bias — в некоторых моделях (например, линейной регрессии или нейронных сетях) используется смещение (bias). Он добавляется в модель как отдельный параметр, и флаг bias может указывать, будет ли он учитываться в расчёте.

*Вопрос 6: Вы выполнили обучение линейной модели дважды: с регуляризацией и без. У вас есть два вектора весов модели $\ w_{1} $ {14.37, 22.80,
32.20} и $\ w_{2} $ {0.69, 2.02, 4.20}, но вы не помните, какой вектор весов
какой модели соответствует. Как вы считаете, который из приведенных весов соответствует случаю регуляризации?*

Ответ:

В случае регуляризации (например, L2-регуляризации или Ridge) цель состоит в том, чтобы минимизировать как ошибку модели, так и величину весов. Это приводит к тому, что веса модели с регуляризацией будут меньше, чем веса модели без регуляризации.

Веса в w1 значительно больше, чем в w2, что говорит о том, что без регуляризации модель может «переборщить» с весами, чтобы лучше соответствовать данным.
В w2 веса гораздо меньше, что характерно для модели с регуляризацией, поскольку регуляризация заставляет модель выбирать более «простые» и ограниченные веса, чтобы избежать переобучения.

Таким образом, w2 скорее соответствует модели с регуляризацией, а w1 — без регуляризации.

*Вопрос 7: Вы получили веса модели $\ w $ {3, −2, 2}. В модели не используется смещение. Оцените предсказание модели для следующих
значений параметров $\ x $ {1, 3, 1}.*

Ответ:

Для оценки предсказания модели нужно вычислить скалярное произведение вектора весов $\ w $ и вектора признаков $\ x $.

Предсказания модели $\ \hat{y} $ вычисляется как:

$\ \hat{y} = w_{1} * x_{1} + w_{2} * x_{2} + w_{3} * x_{3}$

Подставим значения:

$\ \hat{y} = 3 * 1 + (-2) * 3 + 2 * 1 $

$\ \hat{y} = 3 - 6 + 2 = -1 $

Итак, предсказание модели для данных значений параметров $\ x $ равно -1.

*Ворпос 8: Оцените коэффициент детерминации для следующих данных: реальные значения $\ y $ {1, 2, 3, 4}, предсказания модели $\ \hat{y} $ {2, 1, 4, 6}.*

Ответ:

Коэффициент детерминации $\ R^2 $ оценивает, насколько хорошо модель объясняет изменчивость данных. Он вычисляется по следующей формуле:

$\ R^2 = 1 - \frac {\sum_{i = 1} ^ {n} (y_{i} - \hat{y_{i}})^2} {\sum_{i = 1} ^ {n} (y_{i} - \bar{y_{i}})^2} $

где:

*   $\ y_{i} $ - реальные значения,
*   $\ \hat{y_{i}} $ - предсказания модели,
*   $\ \bar{y} $ - среднее значение реальных данных,
*   $\ n $ - количество наблюдений.


Вычислим среднее значение реальных данных:

$\ \bar{y} = \frac {1 + 2 +3 + 4} {4} = \frac {10} {4} = 2,5 $

Вычислим сумму квадратов отклонений реальных значений от среднего:


$\ \sum(y_{i} - \bar{y})^2 = (1 - 2,5)^2 + (2 - 2,5)^2 + (3 - 2,5)^2 + (4 - 2,5)^2 = (-1,5)^2 + (-0,5)^2 + (0,5)^2 + (1,5)^2 = 2,25 + 0,25 + 0,25 + 2,25 = 5$

Вычислим сумму квадратов отклонений предсказанных значений от реальных:

$\ \sum(y_{i} - \hat{y_{i}})^2 = (1 - 2)^2 + (2 - 1)^2 + (3 - 4)^2 + (4 - 6)^2 = (-1)^2 + (1)^2 + (-1)^2 + (-2)^2 = 1 + 1 + 1 + 4 = 7$

Вычислим $\ R^2 $:

$\ R^2 = 1 - \frac {7} {5} = 1 - 1,4 = -0,4 $

Коэффициент детерминации $\ R^2 $ для данных равен -0,4. Это означает, что модель не только не объясняет вариацию данных, но и работает хуже, чем простая модель, которая всегда предсказывает среднее значение.