In [1]:
import pandas as pd

>Линейная регрессия — это одна из простейших моделей машинного обучения, используемая для предсказания значения целевой переменной на основе одной или нескольких независимых переменных (признаков). В данной модели зависимость между целевой переменной y и признаками X предполагается линейной, что означает, что каждое изменение признаков приводит к пропорциональному изменению целевой переменной.

$$ y_{prediction} = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_x$$

>$y$ — целевая переменная, которую мы пытаемся предсказать, \
$x_1$,…,$x_n$ — независимые переменные (или признаки), \
$β_0$ — свободный член (интерсепт), который представляет собой значение целевой переменной при нулевых значениях всех признаков,\
$β_1,…,β_n$ — коэффициенты регрессии, показывающие влияние каждого признака на целевую переменную

$$цена\ дома=A∗площадь+B∗количество\ комнат+...+Y∗удаленность\ от\ метро+Z...$$

>Задача **минимизации функции** потерь может быть сформулирована как задача нахождения таких параметров модели θθ , при которых значение функции потерь L(θ)L(θ)  достигает своего минимума. Это может быть записано как:

$$ min_\theta L(\theta)$$

>где θ — это вектор параметров модели, а L(θ) — это функция потерь, зависящая от этих параметров. Вектор параметров может содержать коэффициенты регрессии, веса нейронной сети или другие переменные, которые определяют поведение модели.

## Градиент как направление наибольшего изменения
>Одним из наиболее эффективных и популярных методов численной оптимизации в машинном обучении (поиска локального минимума функции потерь, то есть тех весов модели, которые приводят к наименьшей ошибке) является градиентный спуск. Этот метод основан на вычислении градиента функции потерь. Градиент — это вектор, который указывает направление наибольшего роста функции. В случае минимизации, мы движемся в направлении, противоположном градиенту, чтобы уменьшить значение функции потерь.

<center><img alt="" height="284" name="image.png" src="https://ucarecdn.com/672288ab-0182-4d3d-aa54-2ce63a305c61/" width="431"></center>

Параметры модели обновляются по следующему правилу:

$$ \theta := \theta - \alpha \cdot \nabla L(\theta )$$

α — это скорость обучения (learning rate), которая определяет, насколько большие шаги делаются при каждом обновлении параметров,
∇L(θ) — это градиент функции потерь по параметрам θ, показывающий направление наибольшего увеличения значения функции потерь. 

## Процесс градиентного спуска

-    Инициализация параметров: Начинаем с какого-то начального набора параметров θθ, которые могут быть заданы случайно или на основе априорных знаний.

-    Вычисление градиента: На каждом шаге вычисляется градиент функции потерь по каждому параметру модели. Градиент показывает, насколько сильно изменение каждого параметра повлияет на изменение значения функции потерь.

-    Обновление параметров: Параметры корректируются в направлении, противоположном градиенту, чтобы уменьшить значение функции потерь.

-    Повторение итераций: Этот процесс повторяется до тех пор, пока не будет достигнут минимум функции потерь или до тех пор, пока изменения в параметрах становятся незначительными.


### Скорость обучения и её влияние

> Одним из ключевых параметров градиентного спуска является скорость обучения (α). Скорость обучения определяет, насколько большими будут шаги обновления параметров на каждом этапе. Если скорость обучения слишком мала, процесс минимизации будет очень медленным. Если же скорость обучения слишком велика, модель может перепрыгнуть через минимум функции потерь и не достичь оптимальных значений параметров.

> Выбор правильного значения скорости обучения — это важная часть настройки градиентного спуска. В некоторых случаях применяются методы адаптивной регулировки скорости обучения, которые уменьшают её значение по мере приближения к минимуму.

<center><img alt="" height="238" name="image.png" src="https://ucarecdn.com/6e616d5b-3411-4fb8-9757-03865391a730/" width="426"></center>

### Проблемы и улучшения градиентного спуска

>Хотя градиентный спуск — это мощный и эффективный метод оптимизации, у него есть свои ограничения. Например, при наличии нескольких локальных минимумов функция потерь может "застрять" в одном из них и не достичь глобального минимума. Для преодоления этой проблемы были разработаны различные модификации градиентного спуска, такие как стохастический градиентный спуск (SGD), который работает с случайными подвыборками данных, или методы с импульсом (momentum), которые учитывают предыдущие направления изменения параметров, что помогает избежать локальных минимумов.