# 2/6  2. Градиентный спуск

**Цель занятия** — изучить понятия функции потерь, функционала ошибки и градиента, а также ознакомиться с алгоритмом градиентного спуска.

Мы уже познакомились с методом ближайших соседей. Это очень простой метод, обучение в котором сводится к запоминанию обучающей выборки. На этом занятии мы приступим к изучению дифференцируемых моделей линейной регрессии, которые обучаются с помощью градиентного спуска. Давайте разберемся, что это такое.  

**Градиентный спуск** — это метод, который помогает модели машинного обучения находить оптимальные значения параметров. Он делает это путем постепенного изменения параметров таким образом, чтобы функция потерь (разница между предсказанными значениями и реальными значениями целевой переменной) становилась все меньше и меньше.

Градиентный спуск позволяет найти оптимальные значения параметров модели, минимизируя функцию потерь. Благодаря этому методу можно обучать различные модели машинного обучения: линейные модели, нейронные сети и другие.

## <center>ФУНКЦИИ ПОТЕРЬ И ФУНКЦИОНАЛЫ ОШИБКИ В РЕГРЕССИИ

Начнем знакомство с градиентным спуском с таких понятий, как функции потерь и функционалы ошибок в задачах регрессии.

**Функция потерь (loss function)** в задачах регрессии используется для оценки того, насколько хорошо модель предсказывает целевую переменную. Функция потерь выражает разницу между предсказанными значениями и реальными значениями целевой переменной на конкретном обучающем примере.

В задачах регрессии наиболее популярные функции потерь — это квадратичная ошибка, абсолютная ошибка и функция потерь Хьюбера.

<figure class="img"><img src="//lms-cdn.skillfactory.ru/assets/courseware/v1/9b08092676ef6a5ddcb13c1f1e6518a2/asset-v1:SkillFactory+MFTIDSLIGHT+2022_DEC+type@asset+block/mftidslight_algo_m3_01.png" alt="" width="850px">
<div class="megaflex" style="align-items: flex-start; justify-content: center;">
<p><em>Квадратичная функция потерь</em></p>
<p><em>Абсолютная функция потерь</em></p>
<p><em> Функция потерь Хьюбера</em></p>
</div>
</figure>

Функции потерь используются при обучении моделей для определения оптимальных значений параметров модели, которые минимизируют потери. Для определения минимума функции удобно использовать производную функции.

<figure class="img"><img src="//lms-cdn.skillfactory.ru/assets/courseware/v1/c3bdb389cac19ffb83d1e8b4dffbb09f/asset-v1:SkillFactory+MFTIDSLIGHT+2022_DEC+type@asset+block/mftidslight_algo_m3_02.png" alt="" width="850px"></figure>

Мы стартуем из произвольной точки, вычисляем в ней производную и движемся в сторону, обратную значению производной, со скоростью, указанной в параметре *learning rate*. Траектория движения указана красными линиями.

Например, для направленной вверх параболы (квадратичная функция), которая является гладкой функцией с одним глобальным минимумом, производная указывает направление роста функции. Соответственно, двигаясь в обратном направлении, можно достичь глобального минимума. Это справедливо и для абсолютной функции потерь. Однако стоит заметить, что в абсолютной функции потерь производная не определена в нуле. Один из способов решения этой проблемы — использование функции потерь Хьюбера.

Давайте введем еще одно понятие — функционал ошибки.  

**Функционал ошибки (cost function)** — это математическая функция, которая измеряет среднюю ошибку модели на всем наборе данных. Функционал ошибки представляет собой сумму функции потерь на всех примерах обучающих данных, нормализованную на количество примеров в наборе данных. Функционал ошибки показывает, как хорошо модель работает на всех данных в целом, и служит основной метрикой для оценки качества модели.

Основное отличие между функцией потерь и функционалом ошибки заключается в том, что функция потерь измеряет ошибку на каждом примере данных, в то время как функционал ошибки измеряет среднюю ошибку на всем наборе данных.

В задачах регрессии наиболее популярные функционалы потерь — это среднеквадратичная ошибка (*MSE*), средняя абсолютная ошибка (*MAE*) и функционал ошибки *Хьюбера*.

## <center>ГРАДИЕНТ ФУНКЦИИ ПОТЕРЬ

Для минимизации функции потерь, включающей в себя более чем один параметр, в машинном обучении используется **градиент** — вектор частных производных, который указывает направление наискорейшего возрастания функции потерь относительно параметров модели.

Градиент функции потерь используется для обновления параметров модели во время обучения с помощью метода градиентного спуска. Градиент функции потерь $L \left(x \cdot w, \hat{y}\right)$ обозначается с помощью символа «набла»: $\nabla L \left(x \cdot w, \hat{y}\right)$.

Градиент в машинном обучении может быть вычислен с помощью алгоритмов дифференцирования, таких как автоматическое дифференцирование или символьное дифференцирование.

Важно отметить, что в некоторых случаях функция потерь может быть не дифференцируемой или иметь разрывы. Это усложняет вычисление градиента и требует использования альтернативных методов оптимизации.

Например, в регрессии абсолютная функция потерь недифференцируема в нуле. Для решения этой проблемы используют функцию потерь Хьюбера, где для малых значений функция потерь вычисляется через квадратичную ошибку, а для значений, больших $\delta$, — через абсолютную ошибку.

В функции потерь Хьюбера существует гиперпараметр , отвечающий за переход от подсчета квадратичной ошибки к абсолютной. Часто в литературе встречается значение . Но это значение не является универсальным, и его следует выбирать, исходя из характеристик данных и требуемой чувствительности к выбросам.

**Градиент** — это вектор, показывающий направление наискорейшего возрастания функции в заданной точке. В машинном обучении градиент используется для настройки параметров модели с помощью методов оптимизации, таких как градиентный спуск или его модификации.

### СВОЙСТВА ГРАДИЕНТА

Рассмотрим некоторые из свойств градиента в машинном обучении.

**Экстремумы функций.** С помощью градиента можно находить точки экстремума функции (локальные минимумы и максимумы). Экстремум функции — это точка на ее графике, в которой функция достигает наибольшего (максимум) или наименьшего (минимум) значения в данной области определения.

Нахождение локальных и глобального минимумов функции потерь — основная цель использования градиента в машинном обучении.

<figure class="img"><img src="//lms-cdn.skillfactory.ru/assets/courseware/v1/843ba951cc47237b4cc7027a7dec7a6e/asset-v1:SkillFactory+MFTIDSLIGHT+2022_DEC+type@asset+block/mftidslight_algo_m3_03.png" alt="alt_text" width="500px">
<center><p><em>Экстремумы функции</em></p>
</figure>

Если функция дифференцируема в экстремуме, то градиент в этой точке равен нулю. Соответственно, с помощью градиента можно искать экстремумы функции. Можно делать это аналитически. Однако в случае сложных функций, какими зачастую являются функции потерь в машинном обучении, используются численные методы нахождения минимальных значений функции.

<figure class="img"><img src="//lms-cdn.skillfactory.ru/assets/courseware/v1/88b328c9b56a11838616861d6d474e1a/asset-v1:SkillFactory+MFTIDSLIGHT+2022_DEC+type@asset+block/mftidslight_algo_m3_04.png" alt="alt_text" title="image_tooltip" width="600px">
<center><p><em>Сложные функции потерь</em></p>
</figure>

**Минимум функции.** Направление наискорейшего убывания: градиент показывает направление наибольшего увеличения функции в заданной точке. Это позволяет использовать градиент для настройки параметров модели с целью уменьшения функциональной ошибки. Для этого используется антиградиент — значение градиента с обратным знаком.

<body>
<figure class="img"><img src="//lms-cdn.skillfactory.ru/assets/courseware/v1/bed38106b93802197a7c57d2d31cd305/asset-v1:SkillFactory+MFTIDSLIGHT+2022_DEC+type@asset+block/mftidslight_algo_m3_05.png" alt="alt_text" title="image_tooltip" width="600px">
<p><center>Использование антиградиента для нахождения минимума функции</center></p>
</figure>
</body>

Для объяснения использования градиента для выявления направления наискорейшего убывания обычно пользуются метафорой горы. Представьте, что вы стоите на вершине горы и хотите спуститься в долину. Вы хотите найти точку с наименьшей высотой долины и двигаться в этом направлении. Вы можете смотреть в любом направлении и определять, куда надо двигаться, чтобы спуститься вниз.

Градиент функции — это инструмент, который позволяет понять, в каком направлении двигаться для достижения минимального значения функции. Если градиент функции большой, это значит, что вы находитесь на крутом склоне горы, и вам нужно двигаться быстрее, чтобы спуститься вниз. Если градиент маленький, это значит, что вы находитесь на пологом участке горы, и двигаться можно медленно.

<figure class="img"><img src="//lms-cdn.skillfactory.ru/assets/courseware/v1/d8043423ec93981e971ff8038e0e6b7e/asset-v1:SkillFactory+MFTIDSLIGHT+2022_DEC+type@asset+block/mftidslight_algo_m3_06.png" alt="alt_text" title="image_tooltip" width="600px">
<p><center>Аналогия градиента и спуска с горы</center></p>
</figure>

<p><strong>Другие свойства градиента функции потерь:</strong></p>
<ul class="list">
<li>Норма градиента связана со скоростью обучения — чем больше градиент, тем быстрее модель обучается. Однако слишком большой градиент может привести к неустойчивости процесса оптимизации и переобучению модели.</li><p></p>
<li>Градиент может быть вычислен аналитически. В некоторых случаях градиент функции может быть выражен в явном виде, что упрощает процесс оптимизации. Например, для линейной регрессии градиент можно выразить в явном виде.</li><p></p>
<li>Градиент может быть вычислен численно. В случаях, когда аналитический градиент не может быть вычислен, можно использовать численное дифференцирование для приближенного вычисления градиента.</li><p></p>
<li>Градиент направлен перпендикулярно линии уровня в определенной точке функции. Линия уровня функции — это множество точек в ее области определения, в которых значение функции остается постоянным, т. е. все точки на линии имеют одинаковое значение функции.<p></p>
<figure class="img"><img src="//lms-cdn.skillfactory.ru/assets/courseware/v1/fc5843e00ee97a55429f49b88f7489f8/asset-v1:SkillFactory+MFTIDSLIGHT+2022_DEC+type@asset+block/mftidslight_algo_m3_07.png" alt="alt_text" title="image_tooltip" width="600px">
<p><center>Градиент перпендикулярно линии уровня</center></p>
</figure>
</li>
</ul>

### ОПРЕДЕЛЕНИЕ ГРАДИЕНТНОГО СПУСКА

Теперь мы познакомились со всеми понятиями, необходимыми для определения градиентного спуска.

**Градиентный спуск** — это метод оптимизации, используемый в машинном обучении для нахождения локального минимума функции потерь модели. Он основан на вычислении градиента функции потерь по параметрам модели и последующем обновлении этих параметров в направлении наиболее быстрого убывания градиента.

Псевдокод алгоритма градиентного спуска описан ниже.

Входные параметры. Функция потерь $L \left(w\right)$, начальные параметры $w_0$, шаг обучения $\alpha$, максимальное число итераций $T$, допустимая ошибка $\epsilon$.
Выходные параметры. Оптимальные параметры 

1: $w \leftarrow w_0$ // Инициализируем значения весов $w$ с помощью $w_0$  
2: $t \leftarrow 0$ // Инициализируем счетчик итераций $t$  
3: $e \leftarrow \infty$ // Инициализируем значение функции потерь $\infty$  
4: Запускаем цикл **while**  
4: **while** $t<T$ do // Пока совершено менее $T$ шагов  
4:     Вычислить функцию потерь $L \left(w_t\right)$ и градиент $\nabla L \left(w_t\right)$  
4:           Обновить параметры: $w_{t+1} \leftarrow w_t − \alpha_t \nabla L \left(w_t\right)$ // $\alpha_t$ — скорость обучения на текущем шаге  
             // Проверить выполнение критерия останова, в данном случае, если норма разности нового и старого векторов весов < $\epsilon$  
4:         if ${||w}_{t+1} \ -\ w_t ||<\ \epsilon$ then  
4:        break  
4:       end if  
4:    $t \leftarrow t+1$  
4: end while  
5: return $w^* =0$

Градиентный спуск — один из основных методов оптимизации в машинном обучении. Он может использоваться для настройки параметров любых моделей, которые могут быть обучены с помощью градиентного спуска.

### ПАРАМЕТРЫ ГРАДИЕНТНОГО СПУСКА

Рассмотрим подробнее параметры градиентного спуска.

**Скорость обучения (learning rate)** — это гиперпараметр, который определяет размер шага в каждой итерации обновления параметров. Если скорость обучения выбрана слишком большой, то метод может не сойтись, и оптимизация не будет достигнута. Если скорость обучения слишком мала, метод может занять слишком много времени на поиск оптимума.

Выбор оптимальной длины шага (шага градиентного спуска) в градиентном спуске — это важный вопрос, который может существенно влиять на скорость и точность сходимости алгоритма.

Вот несколько способов выбора длины шага в градиентном спуске:

**Адаптивный шаг (*adaptive step*).** Длина шага изменяется по формуле или в зависимости от ситуации на каждой итерации. Например, можно использовать методы AdaGrad, RMSprop или Adam, которые адаптивно изменяют длину шага в зависимости от градиента и предыдущих шагов.
Пример базовой формулы для изменения скорости обучения:
$$\alpha_t = \alpha_0 \cdot \frac{1}{1+d \cdot t},$$
где $\alpha_t$ — скорость обучения в момент времени $t$,  

$\alpha_0$ — начальная скорость обучения,  
$d$ — коэффициент затухания скорости обучения,  
$t$ — текущая эпоха обучения.

**Фиксированный шаг (*constant step*).** Длина шага остается постоянной в течение всего процесса обучения. Этот метод прост в реализации, но может быть неэффективным, так как шаг может быть слишком маленьким или большим, что приведет к медленной сходимости или неустойчивости.

**Backtracking line search.** Это метод, который на каждой итерации градиентного спуска ищет оптимальную длину шага, которая удовлетворяет определенным критериям. Например, можно использовать метод Армихо (Armijo), который гарантирует уменьшение функции потерь на каждом шаге. Или метод золотого сечения (golden section), который находит оптимальную длину шага в заданном интервале.

**Метод инициализации параметров** — это способ задания начальных значений параметров. Он может влиять на скорость сходимости метода, так как некоторые методы инициализации могут быть более эффективными, чем другие.

Некоторые из наиболее распространенных методов инициализации включают в себя следующее:

* Случайная инициализация — начальные значения параметров модели выбираются случайным образом. Это наиболее распространенный метод инициализации.

* Инициализация нулями — начальные значения всех параметров устанавливаются в ноль. Этот метод может быть полезным, если модель уже имеет предварительно обученные веса, которые затем можно дообучить на новых данных.

* Инициализация на основе распределения — начальные значения параметров выбираются из определенного распределения, такого как нормальное или равномерное. Этот метод может быть полезным для определенных типов моделей и задач.

Если начальные значения слишком далеки от оптимальных, то метод может потребовать больше времени на достижение оптимума. Для решения проблемы застревания в неоптимальных локальных минимумах существует техника *мультистарта*.

***Мультистарт (англ. multistart)** — это метод инициализации весов модели, который заключается в запуске обучения модели несколько раз с разными начальными значениями весов. Использование мультистарта может улучшить качество обучения модели и уменьшить вероятность застревания в локальных оптимумах.*

**Количество итераций** — это количество шагов обновления параметров, которые нужно выполнить, чтобы достичь оптимума. Это может быть фиксированный параметр или параметр, который зависит от критерия сходимости.

**Критерии остановки** градиентного спуска определяют, когда следует остановить итерации алгоритма оптимизации. Это важно для того, чтобы избежать бесконечного цикла и переобучения модели.

Вот некоторые распространенные критерии остановки градиентного спуска:

* Достижение определенного количества итераций. Задается максимальное число итераций, после чего алгоритм останавливается. Количество итераций, необходимых для обучения алгоритма машинного обучения, может значительно различаться в зависимости от многих факторов — размер и сложность набора данных, выбранный алгоритм обучения, используемая аппаратная конфигурация, настройки гиперпараметров и т. д.

  В целом, обучение алгоритма машинного обучения требует проведения множества итераций, или эпох, где одна эпоха представляет собой один проход по всем обучающим примерам в наборе данных. Часто требуется проводить многократные эпохи для достижения оптимальных результатов обучения.

  Например, для некоторых типов нейронных сетей на больших наборах данных, может потребоваться проведение сотен или даже тысяч итераций, прежде чем модель сможет достигнуть высокой точности предсказаний. Однако для более простых моделей или на более маленьких наборах данны, может потребоваться гораздо меньшее количество итераций (до 100) для достижения приемлемых результатов.

*  Достижение определенной точности. Определяется, какой порог разницы между значениями функции потерь на текущей и предыдущей итерациях считать достаточным для остановки алгоритма. Если разница меньше порога, то алгоритм прекращает работу.


* Норма градиента становится меньше заданного значения. Норма градиента определяет скорость изменения функции потерь в каждой точке пространства параметров модели. Если норма градиента становится меньше заданного значения, то это означает, что модель достигла локального минимума, и алгоритм может быть остановлен.

* Сходимость функции потерь. Алгоритм останавливается, когда значения функции потерь перестают существенно меняться на протяжении нескольких итераций.

* Проверка изменения параметров модели. Алгоритм может быть остановлен, когда значения параметров модели перестают изменяться существенно на протяжении нескольких итераций.

* Превышение максимального времени работы. Можно установить максимальное время работы алгоритма, после истечения которого он будет остановлен. Время можно установить в зависимости от сложности задачи и располагаемых вычислительных ресурсов.

Выбор критерия остановки градиентного спуска зависит от конкретной задачи и требуемой точности. Хорошая практика — комбинирование нескольких критериев, чтобы получить более надежный результат. Например, одновременное отслеживание нормы градиента, изменения параметров модели, сходимости функции потерь.

### МОДИФИКАЦИИ ГРАДИЕНТНОГО СПУСКА

Существуют различные модификации алгоритма градиентного спуска, которые позволяют улучшить сходимость и скорость работы. Рассмотрим некоторые из них.

#### МОДИФИКАЦИИ С ОБУЧЕНИЕМ НЕ ПО ВСЕЙ ВЫБОРКЕ

**Стохастический градиентный спуск (SGD) и мини-батч градиентный спуск (mini-batch GD)** — методы оптимизации для обучения нейронных сетей и других моделей машинного обучения.

SGD используется для обновления весов модели после каждого примера обучающего набора, в то время как mini-batch GD используется для обновления весов после каждой небольшой группы примеров, называемой мини-батч.

**Преимущества модификаций с обучением не по всей выборке:**

Быстрее обучают модели, так как обновления происходят на каждом примере или мини-батче.
Работают с большими обучающими наборами данных, которые не могут поместиться в память компьютера для GD.
Помогают избежать застревания в локальных оптимумах, поскольку они более случайные, чем обычный градиентный спуск.

**Формула модификации стохастического градиентного спуска (SGD)**. Вместо вычисления градиента по всей выборке данных SGD вычисляет градиент только по одному обучающему объекту на каждой итерации. Это позволяет ускорить обучение и уменьшить требования к памяти.

Формула SGD представлена в уравнении:
$$w_{t+1}=w_t-\alpha_t \nabla L\left(w_t ; y_{i t}, m\left(x_{i t}\right)\right),$$
где $w_t$ — вектор параметров модели на шаге $t$,  
$\alpha_t$ — скорость обучения (learning rate), определяющая величину шага в каждой итерации,  
$\nabla L$ — градиент функции потерь $L(w_t ; y_{i t}, m(x_{i t}))$ по параметрам модели $m$,  
$x_it$ и $y_it$ — $i$-й обучающий пример из обучающего набора данных, используемый на шаге $t$.

**Формула модификации мини-пакетного градиентного спуска (mini-batch GD)**. Это комбинация стохастического градиентного спуска и полного градиентного спуска. На каждой итерации алгоритм вычисляет градиент на подвыборке данных фиксированного размера (например, 32 или 64 элемента), что позволяет улучшить скорость обучения и сходимость.

Формула *mini-batch GD* представлена в уравнении:  
$$w_{t+1}=w_t-\alpha_t \frac{1}{\text { length }(M B)} \sum_{i \in M B} \nabla L\left(w_t ; y_{i t}, m\left(x_{i t}\right)\right),$$
где $w_t$ — вектор параметров модели на шаге $t$,  
$\alpha_t — скорость обучения (learning rate), определяющая величину шага в каждой итерации,  
$MB$ — *mini-batch* (мини-пакет) размера $length \left(MB\right)$, выбранный случайным образом из обучающего набора данных. Обычно $MB$ выбирается от нескольких десятков до нескольких сотен обучающих примеров, в зависимости от размера обучающего набора данных,  
$\nabla L$ — градиент функции потерь $L(w_t ; y_{i t}, m(x_{i t}))$ по параметрам модели $m$,  
$x_it$ и $y_it$ — $i$-й обучающий пример из *mini-batch* набора данных.

### МОДИФИКАЦИИ С ИНЕРЦИЕЙ

**Градиентный спуск с инерцией (Momentum) и Nesterov Accelerated Gradient (NAG)** — расширения стандартного градиентного спуска. Они позволяют учитывать различный масштаб признаков и быстрее продвигаться к оптимуму функции потерь со сложными линиями уровней.
Оптимизация с помощью **Momentum** — это метод стохастической оптимизации, который ускоряет процесс обучения за счет накопления «импульса» градиентов векторов.

В процессе обучения градиенты вычисляются на каждом шаге для обновления параметров модели. При использовании Momentum, градиенты на каждом шаге умножаются на коэффициент «импульса» (обычно примерно равный 0.9). Он указывает, какую долю предыдущего шага нужно сохранить при вычислении градиентов на следующем шаге.

Таким образом, импульс помогает ускорить компоненты градиента в тех направлениях, в которых они сохраняются на протяжении нескольких последовательных шагов, и затормозить в направлениях, в которых градиенты меняются быстро. Это позволяет быстрее и более стабильно сходиться к локальному оптимуму и уменьшить вероятность застревания в локальном минимуме.
При использовании метода Momentum также возможно снижение количества осцилляций (взлетов и падений) при движении к минимуму функции потерь.

Метод Momentum можно применять совместно с различными алгоритмами оптимизации — SGD (стохастический градиентный спуск), Adam и RMSprop.

**Nesterov Accelerated Gradient (NAG)** — это метод стохастической оптимизации, который является модификацией метода Momentum. В методе Momentum градиенты на каждом шаге умножаются на коэффициент «импульса» и складываются с предыдущим шагом для обновления параметров модели. Однако в этом случае имеется небольшая задержка в обновлении параметров, так как градиенты вычисляются на текущей позиции, а обновление параметров происходит на следующем шаге.

В методе NAG сначала вычисляются градиенты на текущей позиции, затем делается шаг в направлении, заданном градиентами на следующей позиции. И только затем вычисляются импульсы, которые накапливаются и добавляются к шагу.

Преимущества модификаций с инерцией:
* Помогают избежать локальных минимумов и ускоряют сходимость.

* Позволяют обучать более глубокие и сложные модели с большим количеством параметров.

* Устойчивы к застреванию в локальных оптимумах и помогают более быстро достигать глобального минимума функции потерь.

**Формула модификации Моментум (Momentum)**. Эта модификация градиентного спуска учитывает предыдущие изменения вектора градиента при обновлении весов модели. Это позволяет ускорить обучение и уменьшить вероятность застревания в локальных минимумах.

$$v_{t+1}=\eta v_t+\alpha_t \nabla L\left(w_t\right),$$
где $v_t$ — momentum, усредненное направление движения на шаге $t$,  
$\eta$ — коэффициент момента, выбирается около 0.9 для большинства задач,  
$a_t$ — скорость обучения (*learning rate*), определяющая величину шага в каждой итерации,  
$\nabla L$ — градиент функции потерь $L \left(w_t\right)$ по параметрам модели $m$,  
$L \left(w_t\right)$ — вектор параметров модели на шаге %t%.


Формула градиентного спуска с моментом добавляет вектор скорости $v_t$, который является экспоненциальным сглаживанием градиента на предыдущих шагах. Это помогает ускорить процесс оптимизации и сгладить колебания, особенно на «шумных» данных.

**Формула модификации Nesterov Accelerated Gradient (NAG).** Это модификация градиентного спуска, которая улучшает сходимость за счет добавления момента движения. В отличие от обычного градиентного спуска, который обновляет веса на основе текущего градиента, Nesterov momentum сначала делает шаг в направлении предыдущего накопленного градиента, а затем корректирует его на основе текущего градиента.

$$v_{t+1}=\eta v_t+\alpha_t \nabla L\left(w_t-\eta v_t\right),$$
$$w_{t+1} = w_t − v_{t+1},$$
где $v_t$ — nesterov momentum, усредненное направление движения на шаге $t$,  
$\eta$ — коэффициент момента, выбирается около 0.9 для большинства задач,  
$\alpha_t$ — скорость обучения (*learning rate*), определяющая величину шага в каждой итерации,  
$\nabla L$ — градиент функции потерь $L \left(w_t\right)$ по параметрам модели $m$,  
$w_t$ — вектор параметров модели на шаге $t$.  

Формула *Nesterov Accelerated Gradient* добавляет корректировку вектора скорости $v_t$ перед вычислением градиента. Это позволяет более точно оценить градиент $cost$ функции и ускоряет процесс оптимизации.

### МОДИФИКАЦИИ С АДАПТИВНОЙ СКОРОСТЬЮ ИЗМЕНЕНИЯ КАЖДОГО ВЕСА

Модификации градиентного спуска с адаптивной скоростью изменения каждого веса, такие как Adagrad и RMSProp, являются расширениями стандартного градиентного спуска. Они позволяют эффективно оптимизировать функции потерь, учитывая различные характеристики градиента.

**Adagrad** — это метод стохастической оптимизации, который позволяет автоматически адаптировать скорость обучения для каждого параметра модели в процессе обучения.

Основная идея метода *Adagrad* заключается в том, чтобы присваивать больший вес параметрам, для которых наблюдается более редкое обновление, и меньший вес параметрам, для которых наблюдается частое обновление. Для этого на каждом шаге метод *Adagrad* вычисляет диагональную матрицу G, которая хранит сумму квадратов градиентов для каждого параметра на протяжении всего обучения. Затем скорость обучения для каждого параметра на текущем шаге вычисляется путем деления скорости обучения на корень из суммы квадратов градиентов для данного параметра на предыдущих шагах.

Преимущество метода Adagrad заключается в том, что он позволяет более эффективно обновлять параметры модели для различных направлений в пространстве параметров, что позволяет более быстро и точно сходиться к оптимальному решению. Кроме того, Adagrad не требует подбора скорости обучения, что является важным преимуществом в задачах с большим количеством параметров.

Однако метод Adagrad может иметь проблемы со сходимостью в случае, когда сумма квадратов градиентов становится очень большой. Эта проблема может быть решена с помощью методов оптимизации, основанных на *Adagrad*, — *Adadelta* и *RMSprop*.

**RMSprop (Root Mean Square Propagation)** — это метод стохастической оптимизации, который использует историю градиентов для адаптации скорости обучения на каждом шаге.
В методе RMSprop, вместо хранения суммы квадратов градиентов для каждого параметра, как в Adagrad, используется экспоненциально взвешенное среднее (*exponential moving average*) для хранения истории градиентов.

**Преимущество** метода RMSprop заключается в том, что он позволяет более эффективно обновлять параметры модели для различных направлений в пространстве параметров, учитывая историю градиентов. Кроме того, RMSprop автоматически адаптирует скорость обучения для каждого параметра, что упрощает настройку гиперпараметров.

**Недостатком** метода RMSprop является то, что он не учитывает адаптацию скорости обучения в различных направлениях в пространстве параметров, что может привести к неэффективному движению вдоль осей, где градиенты меньше, чем вдоль осей, где градиенты больше.

<div class="green-container div-margin">
<p><strong>Преимущества градиентного спуска с адаптивной скоростью изменения каждого веса:</strong></p>
<ul class="list">
<li>Позволяют быстрее и эффективнее оптимизировать функции потерь, учитывая различные характеристики градиента.</li>
<li>Могут помочь избежать застревания в локальных оптимумах и быстрее достигать глобального минимума функции потерь.</li>
<li>Устойчивы к изменениям в данных и помогают улучшить обобщающую способность модели.</li>
</ul>
</div>


**Формула модификации адаптивного градиентного спуска (Adaptive GD, AdaGrad).** Эта модификация алгоритма позволяет изменять длину шага (*learning rate*) в зависимости от геометрических свойств поверхности функции потерь.

Например, метод *Adagrad* позволяет изменять длину шага для каждого параметра модели в зависимости от того, как часто он обновляется.

$$G_{j t+1}=G_{j t}+\nabla L\left(w_t\right)_j^2,$$
$$w_{j t+1}=w_{j t}-\frac{\alpha_t}{\sqrt{G_{j t}+\epsilon}} \nabla L\left(w_t\right)_j,$$
где $G_{j t}$ — накопленные квадраты $j$ компонента градиента для шага $t$,  
$\nabla L$ — градиент функции потерь $L \left(w_t\right)$ по параметрам модели $m$,  
$\alpha_t$ — скорость обучения (*learning rate*), определяющая величину шага в каждой итерации,  
$\epsilon$ — значение, добавляемое для стабилизации вычислений,
$w_t$ — вектор параметров модели на шаге $t$.  

Формула *Adagrad* предлагает уникальный подход к выбору скорости обучения для каждого параметра, основанный на адаптивном масштабировании скорости обучения в соответствии с суммой квадратов предыдущих градиентов. *Adagrad* эффективен для работы с разреженными данными и шумными градиентами, что делает его популярным в обработке естественного языка и компьютерном зрении.

**Формула модификации алгоритма RMSprop (Root Mean Square Propagation).** Эта модификация алгоритма корректирует скорость обучения каждого параметра в сети на основе среднего квадрата градиентов для этого параметра.

Интуиция за алгоритмом RMSprop заключается в том, чтобы уделять больше внимания последним градиентам и меньше внимания прошлым градиентам при обновлении параметров модели.

$$G_{j_{\mathrm{t}+1}}=\eta G_{j_t}+(1-\eta) \nabla L\left(w_t\right)_j^2 w_{j_{\mathrm{t}+1}}=w_{j_t}-\frac{\alpha_t}{\sqrt{G_{j_t}+\epsilon}} \nabla L\left(w_t\right)_j G_{j_t},$$
$$G_{j t+1}=\eta G_{j t}+(1-\eta) \nabla L\left(w_t\right)_j^2,$$
$$w_{j t+1}=w_{j t}-\frac{\alpha_t}{\sqrt{G_{j t}+\varepsilon}} \nabla L\left(w_t\right)_j,$$

где $G_{j t}$ — накопленные квадраты  компонента градиента для шага $t$,  
$\eta$ — коэффициент затухания (*damping factor*), выбирается около 0.9 для большинства задач,  
$\nabla L$ — градиент функции потерь $L \left(w_t\right)$ по параметрам модели $m$,  
$\alpha_t$ — скорость обучения (*learning rate*), определяющая величину шага в каждой итерации,  
$\epsilon$ — значение, добавляемое для стабилизации вычислений,
$w_t$ — вектор параметров модели на шаге $t$.

Формула *RMSprop* использует скользящее среднее квадрата градиента, чтобы нормировать скорость обучения для каждого параметра. Это позволяет уменьшить влияние выбросов в градиентах на процесс обучения и улучшить сходимость. Коэффициент затухания позволяет «забывать» более старые значения градиента, чтобы учитывать только более актуальные значения.

### МОДИФИКАЦИИ С ИНЕРЦИЕЙ И АДАПТИВНОЙ СКОРОСТЬЮ ИЗМЕНЕНИЯ КАЖДОГО ВЕСА

**Adam (Adaptive Moment Estimation)** — это метод стохастической оптимизации, который комбинирует идеи методов Momentum и *RMSprop*. *Adam* использует экспоненциально взвешенное среднее градиентов, как в *RMSprop*, и добавляет коррекцию смещения, как в методе Momentum. Это позволяет обеспечить более стабильную и сбалансированную оптимизацию.

<div class="megaflex">
<div class="pros">
<ul class="list" style="margin-top: 0;">
<li><strong>Адаптивная скорость обучения.</strong> Adam автоматически адаптирует скорость обучения для каждого параметра в процессе оптимизации, что позволяет более быстро достигнуть оптимального значения функции потерь.</li>
<li><strong>Контроль момента.</strong> Adam использует два экспоненциально сглаженных момента градиента для адаптивного выбора скорости обучения. Это позволяет более эффективно обрабатывать шум в данных и делать более точные оценки градиента.</li>
<li><strong>Эффективность.</strong> Adam показывает хорошую производительность на больших наборах данных и быстро сходится к оптимальному значению функции потерь.</li>
<li><strong>Использование памяти</strong>. Adam хранит только первые и вторые моменты градиента, что позволяет оптимизировать параметры на больших наборах данных, не требуя больших объемов оперативной памяти.</li>
<li><strong>Сходимость.</strong> Adam показывает быструю сходимость на многих задачах, и его параметры могут быть настроены автоматически при помощи алгоритмов оптимизации гиперпараметров.</li>
</ul>
</div>
<div class="cons">Недостатком метода Adam является его сложность, которая может замедлить процесс обучения на больших моделях. Также в некоторых случаях метод Adam может не сходиться к оптимальному решению. Для некоторых задач может быть более эффективным использовать методы оптимизации, основанные на методе Momentum или RMSprop.</div>
</div>

**Формула модификации.** Формула *Adam* объединяет идеи из Momentum и RMSprop и использует два скользящих средних — скользящее среднее градиента и скользящее среднее квадрата градиента . Она исправляет начальное смещение в начале оптимизации и адаптивно регулирует скорость обучения для каждого параметра.

$$g_t = \nabla L \left(w_t\right),$$
$$m_t = \beta_1 m_{t−1} + \left(1− \beta_1\right) g_t,$$
$$v_t = \beta_2 v_{t−1} + \left(1− \beta_2\right) g_t^2,$$
$$\hat{m}_t=\frac{m_t}{1-\beta_1^t},$$
$$\hat{v}_t=\frac{v_t}{1-\beta_2^t},$$
$$w_{t+1}=w_t-\frac{\alpha}{\sqrt{\hat{v}_t}+\epsilon} \hat{m}_t,$$
где $g_t$ — градиент на шаге $t$,  
$m_t$ — скользящее среднее градиента на шаге $t$,  
$\beta_1$ и $\beta_2$ — коэффициенты момента, обычно выбираются около 0.9 и 0.999 соответственно,  
$v_t$ — скользящее среднее квадрата градиента на шаге $t$,  
$\hat{m_t}$ и $\hat{v_t}$ — исправленные значения скользящего среднего градиента и квадрата градиента на шаге , чтобы учитывать начальное смещение в начале оптимизации,  
$v_t$ — скользящее среднее квадрата градиента на шаге $t$,  
$\alpha_t$ — скорость обучения (*learning rate*), определяющая величину шага в каждой итерации,  
$\epsilon$ — значение, добавляемое для стабилизации вычислений,
$w_t$ — вектор параметров модели на шаге $t$.  

*Adam* — один из наиболее эффективных методов градиентного спуска, который часто используется в глубоком обучении.

# 3/6  3. Регуляризация

**Цель занятия** — изучить регуляризацию — набор методик, которые помогают снизить переобучение моделей машинного обучения.   

Мы уже немного затрагивали тему регуляризации в предыдущем модуле. На этом занятии более подробно разберем различные методы регуляризации.

**Регуляризация в машинном обучении** — это методика, которая помогает снизить переобучение моделей. Переобучение возникает, когда модель слишком хорошо подстраивается под тренировочные данные, что приводит к тому, что она плохо обобщается на новые данные. Регуляризация может быть полезна во многих задачах машинного обучения, особенно в случаях, когда у вас мало тренировочных данных или когда модель имеет очень много параметров.

## <center>ОСНОВНЫЕ МЕТОДЫ РЕГУЛЯРИЗАЦИИ

ОСНОВНЫЕ МЕТОДЫ РЕГУЛЯРИЗАЦИИ
Существует несколько основных методов регуляризации в машинном обучении:

<ul class="list">
<li><strong>L1-регуляризация (Lasso)</strong> добавляет к функции потерь модели сумму абсолютных значений весов, что приводит к разреженности весов и выбору наиболее значимых признаков.</li>
<p></p>
<li><strong>L2-регуляризация (Ridge)</strong> добавляет к функции потерь модели квадрат суммы всех весов, что приводит к сокращению весов и снижению влияния шумовых признаков.</li>
<p></p>
<li><strong>Elastic Net</strong> — комбинация L1-регуляризации и L2-регуляризации, которая помогает учесть преимущества обоих методов и уменьшить их недостатки.</li>
<p></p>
<li><strong>Dropout </strong>случайным образом исключает некоторые узлы из обучения на каждом шаге, что помогает снизить переобучение и повысить обобщающую способность модели (используется в глубинном обучении).</li>
<p></p>
<li><strong>Data augmentation</strong> — методика, которая заключается в создании новых тренировочных данных путем искажения и изменения исходных данных, что помогает снизить переобучение и увеличить обобщающую способность модели.</li>
<p></p>
<li><strong>Early stopping </strong>— методика, которая заключается в прекращении обучения модели, когда ее производительность на проверочном наборе данных перестает улучшаться; это помогает избежать переобучения и выбрать наилучшую модель.</li>
</ul>


*L1*-регуляризацию, *L2*-регуляризацию и *Elastic Net* можно использовать с любыми моделями, где оптимизируются веса с помощью функции потерь. *Early stopping* применяется в случаях, когда происходит мониторинг метрик качества или изменения норм весов. *Dropout* и *Data augmentation* применяются в основном в нейросетевых моделях.

### МЕТОДЫ РЕГУЛЯРИЗАЦИИ, ОСНОВАННЫЕ НА ДОБАВЛЕНИИ СЛАГАЕМОГО К ФУНКЦИИ ПОТЕРЬ МОДЕЛИ

Разберем те типы регуляризации, которые работают путем добавления дополнительного слагаемого к функции потерь модели. Существует два основных типа такой регуляризации — *L1-регуляризация* и *L2-регуляризация*.

*L1-регуляризация* добавляет к функции потерь модели сумму абсолютных значений всех весов модели, тогда как L2-регуляризация добавляет к функции потерь модели квадрат суммы всех весов модели. Это дополнительное слагаемое, которое называется регуляризатором. Он заставляет модель предпочитать более простые решения, которые не зависят слишком сильно от конкретных тренировочных данных.

Интуиция за данным действием следующая. Большие веса признака свидетельствуют о том, что модель переобучилась. Соответственно, добавление дополнительного слагаемого к функции потерь заставляет модель снижать значение весов признаков.

Принцип регуляризации, основанной на добавлении слагаемого к функции потерь модели, можно продемонстрировать на следующей иллюстрации — с помощью полиномиальной функции 1, 4 и 8 степени мы пытаемся выучить закономерности в данных.

<figure class="img"><img src="//lms-cdn.skillfactory.ru/assets/courseware/v1/23cfa34b88bfcd31a3413b6d7d3fd691/asset-v1:SkillFactory+MFTIDSLIGHT+2022_DEC+type@asset+block/mftidslight_algo_m3_08.png" alt="" width="900">
<div class="megaflex">
<p><em>Полином 1-й степени, недообучение</em></p>
<p><em>Полином 4-й степени, соответствие данным</em></p>
<p><em>Полином 8-й степени, переобучение</em></p>
</div>
</figure>

Мы видим, что отсутствие регуляризации (третий график) приводит к слишком сильному подстраиванию под данные, что соответствует ситуации переобучения. Наоборот, слишком сильная регуляризация (первый график) приводит к упрощению модели и недообучению.

Оптимальный вариант показан на втором графике. В этом случае регуляризация оптимальна, модель правильно улавливает закономерности в данных. Сила регуляризации в L1- и L2-регуляризации контролируется через параметр .

### L1-РЕГУЛЯРИЗАЦИЯ

**L1-регуляризация** (или *Lasso*, от англ. *Least Absolute Shrinkage and Selection Operator*) — это метод регуляризации в машинном обучении, который использует сумму абсолютных значений весов модели, чтобы ограничить их величину.

Он работает путем добавления слагаемого, пропорционального сумме абсолютных значений весов модели, к общей функции потерь модели.
$$L_{L 1}=L+\lambda \sum_{j=1}^d\left|w_j\right|,$$
где $L$ — функция потерь без регуляризации,  
$\lambda$ — гиперпараметр, который контролирует силу регуляризации,  
$d$ — количество признаков,  
$w_j$ — вес признака $j$.

<div class="megaflex">
<div class="pros">
<ul class="list">
😀
<li>Одно из главных преимуществ L1-регуляризации — ее способность к отбору признаков. Модель, обученная с использованием L1-регуляризации, часто имеет многие веса, которые равны нулю. Это позволяет определить, какие признаки важны для предсказания и какие можно исключить. Это упрощает модель и уменьшает шум в данных, что может привести к более точным прогнозам.</li>
<li>Работает лучше, когда у модели есть несколько важных признаков и много незначительных признаков.</li>
<li>Может быть реализована с помощью различных методов оптимизации, включая стохастический градиентный спуск и координатный спуск.</li>
</ul>
</div>
<div class="cons">
<ul class="list">
🙁
<li>Не работает хорошо, когда все признаки важны: она может уменьшить слишком много весов и потерять информацию.</li>
<li>Может быть менее эффективной, чем L2-регуляризация, если признаки коррелируют друг с другом, потому что она не сможет различать их.</li>
<li>Может быть более сложной для оптимизации, чем L2-регуляризация, потому что функция потерь не является дифференцируемой в точках, где весы равны нулю.</li>
</ul>
</div>
</div>

### L2-РЕГУЛЯРИЗАЦИЯ


**L2-регуляризация** (или Ridge) — это метод регуляризации в машинном обучении, который использует квадратичную сумму весов модели, чтобы ограничить их величину.

Он работает путем добавления слагаемого, пропорционального сумме квадратов весов модели, к общей функции потерь модели.
$$L_{L 2}=L+\lambda \sum_{j=1}^d w_j^2,$$
где $L$ — функция потерь без регуляризации,  
$\lambda$ — гиперпараметр, который контролирует силу регуляризации,  
$d$ — количество признаков,  
$w_j$ — вес признака $j$.

<div class="megaflex">
<div class="pros">
<ul class="list">
😀
<li>Помогает уменьшить вариацию весов модели, уменьшить переобучение и улучшить обобщающую способность модели.</li>
<li>Может быть лучше, чем L1-регуляризация, когда все признаки важны для модели или когда признаки сильно коррелируют друг с другом.</li>
<li>Функция потерь с L2-регуляризацией имеет гладкую форму и может быть легче оптимизирована с помощью градиентных методов.</li>
</ul>
</div>
<div class="cons">
<ul class="list">
🙁
<li>L2-регуляризация не уменьшает веса до нуля, поэтому она не может использоваться для отбора признаков.</li>
<li>Может быть менее эффективной, чем L1-регуляризация, когда модель имеет много незначительных признаков, которые можно исключить из модели.</li>
<li>Не способна различать между сильно коррелирующими признаками, поэтому она может сохранить все такие признаки в модели, в то время как L1-регуляризация может установить некоторые из них в ноль.</li>
</ul>
</div>
</div>

### ОТБОР ПРИЗНАКОВ С ПОМОЩЬЮ L1-РЕГУЛЯРИЗАЦИИ

L1-регуляризация приводит к сжатию некоторых весов до нуля, что позволяет отбросить ненужные признаки и уменьшить размерность модели. Это происходит из-за свойств абсолютной функции, которая имеет резкий градиент в нуле. При увеличении коэффициента регуляризации модель становится более склонной к сокращению весов признаков до нуля.

Таким образом, L1-регуляризация — эффективный метод отбора признаков, так как она устанавливает нулевые веса для ненужных признаков, в результате чего они не влияют на предсказание модели. Однако, если все признаки являются важными для модели, L1-регуляризация может привести к потере точности, поскольку важные признаки также могут быть установлены в ноль.

Геометрическое объяснение, почему L1-регуляризация приводит к отбору признаков, связано с формой ограничений, наложенных на модель L1-регуляризацией.

Представим, что мы имеем двумерный набор данных с двумя признаками, и мы хотим создать модель регрессии для этого набора данных. Рассмотрим пространство параметров нашей модели, т. е. все возможные комбинации весов признаков. Это пространство параметров представляет собой двумерную плоскость. Если мы не используем регуляризацию, то модель может выбрать любую точку в этом пространстве параметров.

Когда мы применяем L1-регуляризацию, мы добавляем к функции потерь ограничение на сумму абсолютных значений весов модели. Функция ограничений имеет форму ромба с вершинами, соответствующими значениям, равным  по каждой координате.

Когда мы применяем L2-регуляризацию, мы добавляем к функции потерь ограничение на сумму квадратов значений весов модели. Функция ограничений имеет форму круга с радиусом, равным .

Оптимизация функции потерь с L1-регуляризацией эквивалентна выбору точки на плоскости, которая пересекается с ромбом. Эта точка находится на одной из вершин ромба, что соответствует некоторой комбинации признаков, для которых веса равны нулю.

В ситуации же с L2-регуляризацией гораздо меньше шансов, что линия уровня коснется пространства ограничений в точке пересечения с одной из осей.

<figure class="img"><img src="//lms-cdn.skillfactory.ru/assets/courseware/v1/5f41af68beab7c58cb54d06cfcfb45af/asset-v1:SkillFactory+MFTIDSLIGHT+2022_DEC+type@asset+block/mftidslight_algo_m3_09.png" alt="" width="600px;">
<p><center>Отбор признаков с L1-регуляризацией</center></p>
</figure>

Таким образом, использования L1-регуляризации приводит к отбору признаков путем установления нулевых весов для ненужных признаков.

Такое геометрическое объяснение можно обобщить на пространстве параметров большей размерности и на модели с несколькими признаками. Когда мы добавляем L1-регуляризацию в модель, ограничение на сумму абсолютных значений весов формирует многогранник, у которого некоторые вершины соответствуют комбинациям признаков с нулевыми весами. Оптимизация функции потерь с L1-регуляризацией приводит к выбору точки на этом многограннике, что соответствует выбору определенного подмножества признаков, для которых веса не равны нулю.

# 4/6  4. Линейная регрессия

**Цель занятия** — знакомство с линейной регрессией — дифференцируемой моделью машинного обучения.

## ВИЗУАЛЬНАЯ ДЕМОНСТРАЦИЯ АЛГОРИТМА

На практике достаточно часто встречаются ситуации линейной зависимости одной переменной от другой или других переменных. Линейную зависимость между двумя переменными можно вывести с помощью стандартных статистических методов, таких как корреляция.

Если же целевая переменная зависит от нескольких признаков (в статистике их называют предикторами), используют более сложные модели. И первая из таких моделей — алгоритм линейной регрессии.

Визуальная демонстрация алгоритма представлена на рисунке.

![mftidslight_algo_m3_10.png](attachment:mftidslight_algo_m3_10.png)

На рисунке (1) приведена зависимость тормозного пути автомобиля от его скорости как пример построения линейной регрессии с одним признаком. Такая зависимость аппроксимируется линией и может быть визуализирована в двумерном пространстве. Алгоритм начинает поиск оптимального решения со случайных значений (синяя линия) и постепенно приближается к оптимальному значению (красная линия) — рисунок 2.

Если в наборе данных содержится два признака, то оптимальные значения будут аппроксимироваться плоскостью в трехмерном пространстве — рисунок 3.

В линейной регрессии мы вычисляем ошибку модели как расстояние между каждой точкой данных и гиперплоскостью, которая является аппроксимацией линейной связи между независимыми и зависимой переменными. Это расстояние измеряется вдоль нормали (или перпендикуляра) к гиперплоскости.

Можно представить себе, что мы опускаем нормаль от каждой точки данных до гиперплоскости, получая расстояние между точкой данных и гиперплоскостью. Это расстояние называется остаточной суммой (residual sum) и является мерой того, насколько хорошо модель соответствует данным.

В линейной регрессии мы стремимся минимизировать остаточную сумму, настраивая коэффициенты гиперплоскости таким образом, чтобы она была максимально близка к данным.

Для модели с $d$-признаками (исключая свободный коэффициент), линейная регрессия аппроксимируется гиперплоскостью в $(d+1)$-мерном пространстве. Каждый признак умножается на соответствующий вес.

Также в модель добавляется настраиваемый свободный коэффициент ($b$ или $w_0$), который позволяет модели не выдавать нулевой прогноз при нулевых значениях для остальных признаков. Для свободного коэффициента обычно добавляется «фиктивный признак», все значения которого равны 1.

Предсказание модели в таком случае — это скалярное произведение вектора весов на вектор признаков, изображенное на рисунке (4). Оно демонстрирует математическую суть линейной регрессии — в двумерном случае линейная регрессия задается хорошо известным еще со школы уравнением прямой.

$$y=a \cdot x+b,$$
где $y$ — целевая (зависимая) переменная,  
$x$ — признак (независимая переменная),  
$a$ — угол наклона прямой (*slope*),  
$b$ — свободный коэффициент (*intercept* или *bias*), точка пересечения с осью y.

В терминах машинного обучения коэффициенты $b$ и $a$ обозначаются как $w_1$ и $w_2$ соответственно (веса модели). Для нахождения коэффициентов $b$ и $a$ можно пользоваться различными методами — градиентным спуском или аналитическим методом (формула ${\left(X^T X\right)}^{−1} X^T y$ не всегда применима).

### ОПИСАНИЕ АЛГОРИТМА

Перейдем от визуального описания алгоритма линейной регрессии к примеру его использования и формальному определению.

Линейная регрессия с несколькими признаками, также называемая множественной линейной регрессией, — это метод анализа данных, который позволяет определить линейную зависимость между целевой (зависимой) переменной и несколькими признаками (независимыми переменными).

Предположим, что вы хотите определить, какие факторы влияют на цену на недвижимость. В этом случае зависимой переменной будет цена на недвижимость, а независимыми переменными могут быть такие факторы, как площадь квартиры, количество комнат, расстояние до ближайшего метро, возраст здания и т. д.

Множественная линейная регрессия позволяет определить, как каждый из этих факторов влияет на цену недвижимости, и как их комбинация может объяснить изменения цен на рынке недвижимости.

Например, если мы построим модель множественной линейной регрессии для цен на недвижимость, используя площадь квартиры, количество комнат и расстояние до ближайшего метро как независимые переменные, то мы можем получить следующее уравнение:

*Цена = 5000 + 100 \* Площадь + 2000 \* Комнаты — 500 \* Расстояние*

В этом уравнении коэффициент перед каждой независимой переменной (площадью, количеством комнат и расстоянием до ближайшего метро) показывает, как каждая из этих переменных влияет на цену на недвижимость.

Например, увеличение площади квартиры на 1 кв. метр приведет к увеличению цены на 100 единиц, увеличение количества комнат на 1 приведет к увеличению цены на 2000 единиц, а увеличение расстояния до ближайшего метро на 1 км приведет к уменьшению цены на 500 единиц.

Таким образом, множественная линейная регрессия позволяет определить, как каждый из факторов влияет на зависимую переменную, а также как их комбинация влияет на изменения цен на рынке недвижимости.


Дадим формальное определение линейной регрессии.

**Линейная регрессия** — это метод машинного обучения, который используется для оценки линейной зависимости между набором признаков (независимых переменных) и целевой (зависимой) переменной. Линейная регрессия позволяет найти линейную функцию, которая наилучшим образом описывает зависимость между признаками и целевой переменной.

Математически линейная регрессия определяется следующим образом.

Пусть $X$ — матрица признаков размерности $n \times d$, где каждая строка представляет собой один наблюдаемый пример, а каждый столбец — один признак. Пусть $y$ — вектор целевых переменных размерности $n \times 1$.

Тогда модель линейной регрессии выглядит следующим образом:
$$\hat{y} =Xw+b,$$
где $w$ — вектор весов размерности $n \times 1$,  
$b$ — смещение (bias),  
$\hat{y}$ — вектор предсказанных значений целевой переменной.  

Если для $b$ добавить фиктивный признак, равный 1 для всех примеров, то уравнение примет еще более простой вид произведения матрицы признаков на вектор весов:
$$\hat{y} =X \cdot w$$

Задача линейной регрессии заключается в нахождении оптимальных значений вектора весов $w$ и смещения $b$ таким образом, чтобы минимизировать ошибку (в примере дана среднеквадратичная ошибка) между предсказанными и реальными значениями целевой переменной:
$$\min _{w, b} \frac{1}{m} \sum_{i=1}^m\left(\hat{y}_i-y_i\right)^2,$$
где $\hat{y_i}$ — предсказанное значение целевой переменной для -го примера,  
$y_i$ — реальное значение целевой переменной -го примера,
$w$ — вектор весов,  
$b$ — смещение (*bias*),  
$m$ — количество примеров в обучающем наборе.

### ПОДГОТОВКА ДАННЫХ ДЛЯ АЛГОРИТМА

Перед применением алгоритма линейной регрессии необходимо выполнить следующие шаги подготовки данных.

**Очистка данных** включает удаление неполных или некорректных записей, заполнение пропущенных значений и преобразование данных в формат, подходящий для анализа.

**Нормализация данных** — это приведение данных к общему масштабу, чтобы каждый признак имел одинаковый вклад в анализ.

Нормирование признаков является важным шагом в предобработке данных перед использованием линейной регрессии. Это связано с тем, что линейная регрессия оценивает веса (коэффициенты) каждого признака в модели, чтобы предсказать целевую переменную. Если масштабы разных признаков значительно отличаются друг от друга, то оценка весов может быть смещена в сторону признаков с большими значениями. Это может привести к неверным выводам и плохому качеству предсказания.

Обычно используются два основных способа нормирования:

* Стандартизация. Признаки масштабируются так, чтобы их среднее значение было равно 0, а стандартное отклонение было равно 1.

* Нормализация. Признаки масштабируются так, чтобы их значения находились в диапазоне от 0 до 1.

После нормирования признаков каждый из них будет иметь примерно одинаковый вклад в предсказание целевой переменной, что позволит линейной регрессии более точно оценивать их веса и делать более точные прогнозы.

**Разбиение данных на обучающую и тестовую выборки.** Обучающая выборка используется для обучения модели, а тестовая выборка — для оценки ее точности.

### ПРОЦЕСС ОБУЧЕНИЯ

Для решения этой задачи используются аналитическое решение и метод градиентного спуска. Результатом обучения модели линейной регрессии является набор оптимальных значений весов и смещения , которые могут быть использованы для предсказания целевой переменной для новых наблюдений.

#### АНАЛИТИЧЕСКОЕ РЕШЕНИЕ ЛИНЕЙНОЙ РЕГРЕССИИ


Существует аналитическое решение для линейной регрессии:
$$w^\star = {\left(X^T X\right)}^{−1} X^T y,$$
где $X$ — матрица объектов-признаков,  
$y$ — вектор ответов для объектов,  
$w^\star$ — вектор оптимальных весов.

Рассмотрим, как оно получено. Для вывода нормального уравнения линейной регрессии рассмотрим многомерную линейную регрессионную модель:
$$y_i=w_0+w_1 x_{i 1}+w_2 x_{i 2}+\ldots+w_d x_{i d}+\epsilon_i i=1,2, \ldots, n,$$
где $y_i$ — значение зависимой переменной для $i$-го наблюдения,  
$x_{i1} , x_{i2} , \ldots , x_{id}$ — значения  независимых переменных (признаков) для -го наблюдения,  
$w_0 , w_1 , \ldots , w_d$ — параметры регрессии,  
$\epsilon_i$ — случайная ошибка или шум, имеет нулевое среднее и постоянную дисперсию.

Для удобства обозначим $X$ матрицей признаков размерности $n \times \left(d+1\right)$, в которой первый столбец заполнен единицами, и  вектором размерности $\left(d+1\right) \times 1$, состоящим из параметров регрессии:
$$X=\left[\begin{array}{ccccc} 1 & w_{11} & w_{12} & \cdots & w_{1 d} \\ 1 & w_{21} & w_{22} & \cdots & w_{2 d} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & w_{n 1} & w_{n 2} & \cdots & w_{n d} \end{array}\right], w=\left[\begin{array}{c} w_1 \\ w_2 \\ \vdots \\ w_d \end{array}\right]$$


Тогда модель может быть записана в матричной форме:
$$y=X \cdot w+ \epsilon$$
Для нахождения оценок коэффициентов регрессии $\hat{w}$, которые минимизируют сумму квадратов ошибок, воспользуемся методом наименьших квадратов. Сначала нам нужно определить функцию ошибок $L \left(w\right)$, которая является суммой квадратов отклонений прогнозируемых значений от фактических значений:
$$L(w)=\sum_{i=1}^n \epsilon_i^2=\sum_{i=1}^n\left(y_i-w_0-w_1 x_i 1-w_2 x_i 2-\ldots-w_d x_i d\right)^2$$

Для минимизации функции $L \left(w\right)$ найдем ее производные по каждому элементу вектора $w$ и приравняем их к нулю:
$$\frac{\partial L \left(w\right)}{\partial w} =2 X^T \left(Xw−y\right) =0,$$

где $\frac{\partial L \left(w\right)}{\partial w}$ — частные производные $L(w)$ по весам, $X^T$ — транспонированная матрица $X$,
$y$ — вектор значений целевой переменной.

Умножив обе части уравнения на $X^T$, получим:
$$X^T Xw= X^T y$$

Это называется нормальным уравнением линейной регрессии. Решив его относительно вектора параметров $w$, получим:
$$w= {\left(X^T X\right)}^{−1} X^T y$$

Таким образом, мы получили аналитическую формулу для оценки коэффициентов линейной регрессии. Оценки параметров $w^\star$, которые минимизируют сумму квадратов ошибок, находятся как решение нормального уравнения.

Уравнение $w= {\left(X^T X\right)}^{−1} X^T y$, которое также называется нормальным уравнением, очень часто не применимо на практике в силу нескольких причин.

**Причины неприменимости нормального уравнения:**

* Большой размер матрицы $X$ — на обращение матрицы требуется порядка $n^3$ операций.

* есуществование обратной матрицы. Если матрица $\left(X^T X\right)$ не имеет обратной матрицы, то уравнение не может быть использовано. Это может произойти, когда столбцы матрицы 𝑋 линейно зависимы.

* Некорректность модели. Если модель линейной регрессии неправильно специфицирована, то уравнение не даст правильных результатов. 
Например, если зависимость между переменными является нелинейной, то линейная регрессия не будет работать правильно.

* Наличие выбросов. Если в данных есть выбросы, то уравнение может дать неверные результаты. Выбросы могут сильно влиять на оценку параметров модели и приводить к неправильным выводам.

* Недостаточный размер выборки. Если выборка слишком мала, то уравнение может давать неустойчивые оценки параметров модели. В таких случаях необходимо использовать более сложные методы оценки параметров.

* Нарушение предположений модели. Если предположения модели о распределении ошибок не соблюдаются, то уравнение может давать неверные результаты. Например, если ошибки не являются нормально распределенными или имеют гетероскедастичности, то уравнение может дать неправильные оценки параметров модели.


#### ЛИНЕЙНАЯ РЕГРЕССИЯ В МАТРИЧНОЙ ФОРМЕ

На практике гораздо чаще применяются численные методы решения линейной регрессии, такие как градиентный спуск.

Функция ошибки для линейной регрессии может быть записана так:
$$L \left(w\right) = \frac{1}{2n} * \sum_{i=1}^n {\left(y_i −Xw\right)}^2 ,$$
где $X$ — матрица объектов-признаков,
$y$ — вектор ответов,
$w$ — вектор параметров,
$n$ — количество наблюдений.

Градиентный спуск находит минимум функции ошибки, обновляя параметры модели 𝜃 на каждой итерации в направлении антиградиента функции ошибки:
$$w=w− \alpha \frac{1}{n} X^T \left(Xw−y\right) ,$$

где $\alpha$ — скорость обучения, которая контролирует, размер шага на каждой итерации

Градиентный спуск повторяется до тех пор, пока значение функции ошибки не перестанет существенно изменяться или пока не будет достигнуто максимальное количество итераций.

Использование градиентного спуска для оптимизации линейной регрессии имеет некоторые преимущества: возможность работать с большими объемами данных и возможность настройки гиперпараметров, таких как скорость обучения.

**Выходные параметры.** Оптимальные параметры $w^*$

1: Задание параметров обучения: скорости обучения $\alpha$, числа эпох обучения $n_{epochs}$  
2: Инициализация весов $w$  
3: **for** $i=1$ **to** $n_{epochs}$ **do**  
4:      Вычисление предсказания модели ${\hat{y}}_i =X \cdot w$  
5:      Вычисление ошибок $errors= {\hat{y}}_i −y$  
6:      Вычисление градиента $\nabla L \left(w\right) = \frac{1}{n} \cdot X^T \cdot errors$  
7:      Обновление весов $w=w− \alpha \nabla L \left(w\right)$  
8: **end for** $=0$  

Здесь $n$ — это количество обучающих примеров. Метод градиентного спуска используется для обновления весов модели на каждом шаге обучения.

### ОЦЕНКА КАЧЕСТВА АЛГОРИТМА

Для оценки качества алгоритма линейной регрессии часто используют следующие метрики:

<ul class="list">
<li><strong>Mean Squared Error (MSE) </strong>— средняя квадратичная ошибка между прогнозами и истинными значениями.</li>
<p></p>
<li><strong>Mean Absolute Error (MAE) </strong>— средняя абсолютная ошибка между прогнозами и истинными значениями.</li>
<p></p>
<li><strong>Huber loss </strong>— комбинация MSE и MAE, которая более устойчива к выбросам в данных, чем MSE.</li>
</ul>

### ИНТЕРПРЕТАЦИЯ ПРИЗНАКОВ С ПОМОЩЬЮ АЛГОРИТМА

Интерпретация признаков в линейной регрессии заключается в понимании того, как каждый признак влияет на зависимую переменную в модели. Это помогает понять, какие признаки наиболее важны для прогнозирования целевой переменной и как они с ней связаны.

Наиболее простой способ оценить влияние того или иного признака — посмотреть на весовой коэффициент при признаке. Коэффициенты признаков в линейной регрессии представляют величину и направление влияния каждого признака на зависимую переменную.

Если значение признака большое, можно сказать, что его значение также большое (при условии нормализованных данных). Если коэффициент положительный, то увеличение значения признака будет приводить к увеличению значения зависимой переменной. Если коэффициент отрицательный, то увеличение значения признака будет приводить к уменьшению значения зависимой переменной.

### МОДИФИКАЦИИ АЛГОРИТМА

Существует несколько модификаций алгоритма линейной регрессии, которые могут быть применены в зависимости от задачи и данных.

Некоторые из них:

<ul class="list">
<li><strong>Ridge regression (гребневая регрессия) </strong>— добавление регуляризации L2 в функцию потерь для борьбы с переобучением. Это позволяет уменьшить веса модели, чтобы она была менее склонна к переобучению и более устойчива к шуму в данных.</li>
<p></p>
<li><strong>Lasso regression (лассо-регрессия) </strong>— добавление регуляризации L1 в функцию потерь, чтобы стимулировать разреженность весов модели. Это означает, что некоторые веса будут установлены на ноль, что может помочь идентифицировать наиболее важные признаки.</li>
<p></p>
<li><strong>Elastic Net </strong>— комбинация L1 и L2 регуляризации в функции потерь. Это позволяет улучшить баланс между разреженностью и устойчивостью к шуму.</li>
<p></p>
<li><strong>Polynomial regression (полиномиальная регрессия) </strong>— расширение линейной регрессии путем добавления полиномиальных признаков для учета нелинейных зависимостей между признаками и целевой переменной.</li>
<p></p>
<li><strong>Robust regression (робастная регрессия) </strong>— модификация линейной регрессии, которая более устойчива к выбросам в данных. Она использует альтернативные функции потерь, такие как Huber loss, которые уменьшают вклад выбросов в обучении модели.</li>
</ul>

### ОБЛАСТЬ ПРИМЕНЕНИЯ АЛГОРИТМА

Линейная регрессия — один из самых простых и наиболее распространенных методов машинного обучения, и может быть применена во многих областях.

Например:

<ul class="list">
<li><strong>Финансовый анализ.</strong> Линейная регрессия может использоваться для прогнозирования цен акций, доходности инвестиций и других финансовых показателей.</li>
<p></p>
<li><strong>Маркетинг. </strong>Линейная регрессия может использоваться для анализа данных о продажах и прогнозирования спроса на товары и услуги.</li>
<p></p>
<li><strong>Медицинская статистика. </strong>Линейная регрессия может использоваться для анализа данных о заболеваемости и смертности, прогнозирования риска развития заболеваний и определения факторов, влияющих на здоровье.</li>
<p></p>
<li><strong>Инженерия. </strong>Линейная регрессия может использоваться для анализа данных в различных областях, таких как электроника, механика и транспорт, для прогнозирования характеристик и поведения систем.</li>
<p></p>
<li><strong>Социальные науки. </strong>Линейная регрессия может использоваться для анализа социальных данных, таких как опросы общественного мнения, для прогнозирования выборов, определения влияния социальных факторов на поведение людей и т. д.</li>
</ul>

В целом, линейная регрессия может быть использована для анализа любых данных, для которых есть зависимость между одной или несколькими признаками и целевой переменной. Однако следует учитывать, что линейная регрессия может быть неэффективной для данных с нелинейными зависимостями и слабыми связями между переменными.

### ПЛЮСЫ И МИНУСЫ АЛГОРИТМА

Алгоритм линейной регрессии имеет ряд преимуществ и недостатков.  
😀
<ul class="list">
<li>Простота реализации и понимания — это один из самых простых алгоритмов машинного обучения.</li>
<li>Может использоваться для задач регрессии и оценки влияния признаков.</li>
<li>Эффективен на больших выборках и может быстро обучаться на большом количестве признаков.</li>
<li>Хорошо интерпретируется и может помочь понять важность каждого признака.</li>
</ul>
🙁  
<ul class="list">
<li>Чувствительность к выбросам и шуму в данных.</li>
<li>Требует выполнения предположения о линейной зависимости между признаками и целевой переменной, что может быть проблематично в некоторых случаях.</li>
<li>Не учитывает взаимодействие между признаками, что может привести к недооценке важности некоторых признаков.</li>
<li>Может быть склонен к переобучению, если в модели слишком много признаков или коэффициенты признаков сильно отличаются друг от друга.</li>
</ul>

В целом, алгоритм линейной регрессии также имеет простую и понятную логику, но его эффективность может быть низкой в случае шумных данных и если не выполняются предположения о линейной зависимости между признаками и целевой переменной.

### РЕАЛИЗАЦИЯ ЛИНЕЙНОЙ РЕГРЕССИИ В PYTHON

В библиотеке *Scikit-learn* в модуле *linear_model* реализован класс *LinearRegression* для линейной регрессии.

Класс **LinearRegression** имеет следующие параметры:

* **fit_intercept** — булевый параметр, указывающий, должно ли применяться смещение (*intercept/bias*). По умолчанию равен *True*.

* **copy_X** — булевый параметр, указывающий, должны ли данные быть скопированы перед обучением модели. По умолчанию равен True.

* **n_jobs** — количество параллельных задач, которые используются для расчета. По умолчанию равен None, что означает использование всех доступных процессоров.

Класс *LinearRegression* имеет методы *fit(X, y)* для обучения модели на данных *X* и *y*, а также метод *predict(X)* для предсказания целевых значений для новых данных *X*. Кроме того, класс *LinearRegression* имеет методы *score(X, y)* и *get_params()* для получения коэффициента детерминации (*R-квадрат*) и параметров модели соответственно.