In [2]:
import pandas as pd
import seaborn as sns
%matplotlib inline

In [3]:
df = pd.read_csv('data/listings.csv', encoding='utf-8')
df.head()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm,license
0,3176,Fabulous Flat in great Location,3718,Britta,Pankow,Prenzlauer Berg Südwest,52.53471,13.4181,Entire home/apt,105.0,63,148,2023-05-25,0.81,1,272,0,First name and Last name: Nicolas Krotz <br/> ...
1,9991,Geourgeous flat - outstanding views,33852,Philipp,Pankow,Prenzlauer Berg Südwest,52.53269,13.41805,Entire home/apt,180.0,6,7,2020-01-04,0.06,1,32,0,03/Z/RA/003410-18
2,14325,Studio Apartment in Prenzlauer Berg,55531,Chris + Oliver,Pankow,Prenzlauer Berg Nordwest,52.54813,13.40366,Entire home/apt,70.0,150,26,2023-11-30,0.15,4,185,1,
3,16644,In the Heart of Berlin - Kreuzberg,64696,Rene,Friedrichshain-Kreuzberg,nördliche Luisenstadt,52.50312,13.43508,Entire home/apt,90.0,93,48,2017-12-14,0.28,2,0,0,
4,17904,Beautiful Kreuzberg studio - 3 months minimum,68997,Matthias,Neukölln,Reuterstraße,52.49419,13.42166,Entire home/apt,25.0,92,299,2022-12-01,1.71,1,1,0,


In [4]:
df.describe()

Unnamed: 0,id,host_id,latitude,longitude,price,minimum_nights,number_of_reviews,reviews_per_month,calculated_host_listings_count,availability_365,number_of_reviews_ltm
count,13759.0,13759.0,13759.0,13759.0,8821.0,13759.0,13759.0,10521.0,13759.0,13759.0,13759.0
mean,3.529798e+17,161846900.0,52.509342,13.402723,154.840381,40.905952,38.364779,1.210078,11.022531,125.307799,8.933353
std,4.588343e+17,182218800.0,0.033789,0.067338,296.293035,52.400853,86.967422,1.836353,40.753865,129.410364,19.460106
min,3176.0,1581.0,52.34019,13.11815,9.0,1.0,0.0,0.01,1.0,0.0,0.0
25%,18847560.0,14476090.0,52.490077,13.362765,74.0,2.0,1.0,0.13,1.0,0.0,0.0
50%,42344260.0,67896780.0,52.50922,13.411275,114.0,5.0,7.0,0.55,1.0,82.0,1.0
75%,8.46125e+17,278539200.0,52.532147,13.43858,186.0,92.0,33.0,1.7,4.0,252.0,9.0
max,1.18403e+18,584684700.0,52.65611,13.72139,24277.0,1000.0,2611.0,51.32,281.0,365.0,512.0


# 1.3 Очистка данных

In [5]:
# Основные операции по очистке данных:

# Удаление переменных
# one-hot кодирование
# Удаление пропущенных значений
# Уменьшение размерности

In [6]:
del df['latitude']
del df['longitude']

![image.png](attachment:image.png)

In [7]:
df = pd.get_dummies(df,columns=['neighbourhood_group','neighbourhood'])

df.head()

Unnamed: 0,id,name,host_id,host_name,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,...,neighbourhood_West 3,neighbourhood_West 4,neighbourhood_West 5,neighbourhood_Westend,neighbourhood_Wiesbadener Straße,neighbourhood_Wilhelmstadt,neighbourhood_Zehlendorf Nord,neighbourhood_Zehlendorf Südwest,neighbourhood_nördliche Luisenstadt,neighbourhood_südliche Luisenstadt
0,3176,Fabulous Flat in great Location,3718,Britta,Entire home/apt,105.0,63,148,2023-05-25,0.81,...,False,False,False,False,False,False,False,False,False,False
1,9991,Geourgeous flat - outstanding views,33852,Philipp,Entire home/apt,180.0,6,7,2020-01-04,0.06,...,False,False,False,False,False,False,False,False,False,False
2,14325,Studio Apartment in Prenzlauer Berg,55531,Chris + Oliver,Entire home/apt,70.0,150,26,2023-11-30,0.15,...,False,False,False,False,False,False,False,False,False,False
3,16644,In the Heart of Berlin - Kreuzberg,64696,Rene,Entire home/apt,90.0,93,48,2017-12-14,0.28,...,False,False,False,False,False,False,False,False,True,False
4,17904,Beautiful Kreuzberg studio - 3 months minimum,68997,Matthias,Entire home/apt,25.0,92,299,2022-12-01,1.71,...,False,False,False,False,False,False,False,False,False,False


In [8]:
# Удаление столбцов с информацией, вытекающий из других столбцов методом исключения
# Например, в случае с Марико интерпретатор Python может сделать вывод о том, что объект из Токио, 
# на основании ложных аргументов city_london и city_mumbai. 
# В статистике это понятие известно как мультиколлинеарность 
# и описывает возможность предсказать переменную на основе значений других переменных.

# Мы можем добавить параметр drop_first=True, который удаляет первый столбец для каждой переменной.

![image.png](attachment:image.png) --> ![image-2.png](attachment:image-2.png)

In [9]:
# df = pd.get_dummies(df, columns = ['neighbourhood_group', 'neighbourhood'], drop_first = True)

# 1.4 Работа с пропусками

In [10]:
df.isnull().sum()

id                                     0
name                                   0
host_id                                0
host_name                              9
room_type                              0
                                      ..
neighbourhood_Wilhelmstadt             0
neighbourhood_Zehlendorf  Nord         0
neighbourhood_Zehlendorf  Südwest      0
neighbourhood_nördliche Luisenstadt    0
neighbourhood_südliche Luisenstadt     0
Length: 164, dtype: int64

In [11]:
# df.dropna(axis=0, how='any', thresh=None, subset=None, inplace=True)

![image.png](attachment:image.png)

# 1.5 Уменьшение размерности

In [12]:
# Уменьшение размерности преобразует данные в более низкую размерность. 
# Это позволяет сократить вычислительные ресурсы и визуализировать закономерности в данных.
# Размерность - это количество переменных, описывающих данные.

# 2.1 Разбиение данных

In [13]:
# Обучающий и тестовый набор
# Для выполнения раздельной валидации в Python можно использовать train_test_split от Scikit-learn, 
# который требует первоначального импорта из библиотеки sklearn.model_selection.

from sklearn.model_selection import train_test_split

In [14]:
# Перед использованием этой библиотеки сначала нужно задать значения x и y.

df = pd.read_csv('data/advertising.csv')
df.head()

Unnamed: 0,Daily Time Spent on Site,Age,Area Income,Daily Internet Usage,Ad Topic Line,City,Male,Country,Timestamp,Clicked on Ad
0,68.95,35,61833.9,256.09,Cloned 5thgeneration orchestration,Wrightburgh,0,Tunisia,2016-03-27 00:53:11,0
1,80.23,31,68441.85,193.77,Monitored national standardization,West Jodi,1,Nauru,2016-04-04 01:39:02,0
2,69.47,26,59785.94,236.5,Organic bottom-line service-desk,Davidton,0,San Marino,2016-03-13 20:35:42,0
3,74.15,29,54806.18,245.89,Triple-buffered reciprocal time-frame,West Terrifurt,1,Italy,2016-01-10 02:31:19,0
4,68.37,35,73889.99,225.58,Robust logistical utilization,South Manuel,0,Iceland,2016-06-03 03:36:18,0


In [15]:
X = df[['Daily Time Spent on Site', 'Age', 'Area Income', 'Daily Internet Usage', 'Ad Topic Line', 'Country']]
y = df['Clicked on Ad']

![image.png](attachment:image.png)

In [16]:
# В этом примере данные для обучения/тестирования разделены 70/30 и перемешаны, 
# а случайное состояние 10 «заложено в закладки» для будущего повторения кода 
# (чтобы «рандомное» разделение  в следующий раз  привело к тем же результатам).

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=10, shuffle=True)

In [17]:
# Валидационный набор
# Одним из быстрых решений является разбиение тестовых данных на две части, как показано ниже.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4)

# Таким образом, тренировочные данные составляют 60 %, а тестовые - 40 %. 
# Затем тестовые данные делятся 50/50, чтобы тестовые данные и набор для проверки были эквивалентны 20 % исходных данных.

X_test, X_val, y_test, y_val = train_test_split(X_test, y_test, test_size=0.5)

# 2.2 Создание модели

In [18]:
# План разработки модели  включает в себя следующие шаги:

# Импорт библиотек
# Импорт набора данных
# Разведывательный анализ данных
# Очистка и обработка данных
# Разбиение данных
# Алгоритм предварительного моделирования (опционально)
# Обучение алгоритма (получение модели)
# Прогнозирование
# Оценка качества предсказания
# Оптимизация

![image.png](attachment:image.png)

In [19]:
# 1) Импорт библиотек

# Учитывая, что интерпретатор Python работает сверху вниз по вашему коду, очень важно импортировать библиотеки перед вызовом определенных функций. 
# Например, если вы попытаетесь создать тепловую карту, не импортировав предварительно Seaborn и Matplolib, интерпретатор Python не сможет обработать ваш запрос.

# Библиотеки не обязательно должны быть размещены в верхней части кода.
# Некоторые специалисты по исследованию данных, например, предпочитают импортировать конкретные библиотеки, основанные на алгоритмах, в те разделы, 
# где они используются, при условии, что импорт производится перед ссылками кода на эту библиотеку.

In [20]:
# 2) Импорт набора данных

# Наборы данных обычно импортируются из архивов вашей организации или публичных хранилищ, таких как Kaggle. 
# Хотя Kaggle предлагает фантастическое количество наборов данных, стоит упомянуть, 
# что Scikit-learn предлагает несколько небольших встроенных наборов данных, которые не требуют загрузки извне.

Краткая информация о наборах данных Scikit-learn <br> <br>
![image.png](attachment:image.png)

In [21]:
# Создание блобов
# Используя Scikit-learn, можно самостоятельно сгенерировать случайный набор данных с помощью функции make blobs.

# from sklearn.datasets import make_blobs
# data = make_blobs(n_samples=200, n_features=2, centers=4, cluster_std=1.8, random_state=101)

In [22]:
# 3) Исследовательский анализ данных

# Третий этап, EDA, дает возможность ознакомиться с вашими данными, включая распределение и состояние пропущенных значений. 
# Исследовательский анализ данных также определяет следующий этап очистки данных и выбор алгоритма.

# Кроме того, EDA может использоваться и в других разделах кода, когда вы проверяете размер и структуру набора данных 
# и интегрируете эту обратную связь в прямую оптимизацию модели.

In [23]:
# 4) Очистка данных

# Этап очистки данных обычно отнимает больше всего времени и сил при разработке модели прогнозирования. 
# Как и при уходе за хорошей парой туфель, важно уделять внимание качеству данных.

In [24]:
# 5) Алгоритм предварительного моделирования (опционально)

# В качестве дополнения к процессу очистки данных при подготовке к анализу больших и сложных наборов данных иногда используются методы 
# неконтролируемого обучения, включая кластерный анализ и алгоритмы уменьшения размерности.

# Однако этот шаг необязателен и применяется не для всех моделей, 
# особенно редко для небольших наборов данных с малым количеством измерений (признаков) или строк.

In [25]:
# 6) Разделение данных

# Разделение данных используется для разделения данных на обучающие и тестовые. 
# На этом этапе также полезно рандомизировать данные с помощью функции shuffle и задать случайное состояние, 
# если вы хотите воспроизвести результаты модели в будущем.

In [26]:
# 7) Обучение алгоритма

# Алгоритмы - это центральный элемент любой модели машинного обучения, и выбирать их нужно тщательно.

# Алгоритм - это математически обоснованная последовательность шагов, которая реагирует на изменяющиеся закономерности, 
# чтобы сгенерировать решение или выход. Выполняя ряд шагов, определенных алгоритмом, модель реагирует на входные переменные, 
# чтобы интерпретировать закономерности, производить расчеты и принимать решения.

# Поскольку входные данные являются переменными, алгоритмы могут выдавать различные результаты в зависимости от входных данных. 
# Алгоритмы также могут быть изменчивыми, поскольку они имеют гиперпараметры, 
# которые можно корректировать для создания более адаптированной модели.

# Таким образом, алгоритмы представляют собой скорее подвижную структуру, чем конкретное уравнение, 
# и настраиваются в зависимости от целевого результата и характеристик входных данных.

# Для контекста не следует путать алгоритм с моделью. Модель - это конечное состояние алгоритма; 
# после консолидации гиперпараметров в ответ на шаблоны, полученные из данных, 
# и после завершения комбинации методов очистки данных, проверки на разделение и оценки. 
# Ниже приведен список популярных алгоритмов, используемых в машинном обучении, и их общие характеристики.

Краткая информация о наборах данных Scikit-learn <br> <br>
![image.png](attachment:image.png)

In [27]:
# 8) Предсказание

# После создания первоначальной модели с использованием паттернов, извлеченных из обучающих данных, 
# функция predict вызывается на тестовых данных для проверки модели.

# Функция predict генерирует числовое значение, например цену, или числовой показатель корреляции в задачах регрессии. 
# При классификации функция predict генерирует дискретные классы, такие как категория фильмов или классификация спам/не спам.

In [28]:
# 9) Оценка качества предсказания

# Следующий шаг в процессе разработки модели - оценка результатов. 
# Метод оценки зависит от сферы применения вашей модели. 
# В частности, это зависит от того, будет ли это классификационная или регрессионная модель. 
# При классификации распространенными методами оценки являются матрица путаницы, отчет о классификации и оценка точности.

![image.png](attachment:image.png)

In [29]:
# Accuracy

# Это простая метрика, измеряющая, сколько случаев модель классифицировала правильно, 
# деленная на полное количество случаев. Если все предсказания верны, показатель accuracy равен 1.0, 
# а если все случаи предсказаны неверно - 0.

# Хотя accuracy сама по себе обычно является надежной метрикой производительности, 
# она может скрывать чрезмерное количество ложных или отрицательных результатов. 
# Это не проблема, если количество ложноположительных и ложноотрицательных результатов сбалансировано, 
# но это также не то, что можно определить с помощью одной лишь точности. 
# Поэтому мы обратились к двум следующим методам оценки.

In [30]:
# Матрица путаницы

# Матрица запутанности (также известная как матрица ошибок) - это простая таблица, 
# которая обобщает результаты работы модели, включая точное количество ложноположительных и ложноотрицательных результатов.

![image.png](attachment:image.png)

In [31]:
# Как видно в левом верхнем поле, модель в этом примере правильно предсказала 134 точки данных как «0» и 125 как «1».
#  Модель также неправильно предсказала 12 точек данных как «1» и 29 случаев как «0». 
# Это означает, что 12 точек данных, которые были предсказаны как «1» (ложноположительные), 
# должны были быть классифицированы как «0», а 29 точек данных, предсказанных как «0» (ложноотрицательные), 
# должны были быть классифицированы как «1».

# Используя матрицу путаницы, вы можете проанализировать соотношение ложноположительных и ложноотрицательных результатов 
# и рассчитать итоговую точность предсказаний, разделив общее количество ложноположительных (12) и ложноотрицательных (29) результатов 
# на общее количество точек данных, которое в данном случае равно 300.

In [32]:
# Отчет о классификации

# Еще один популярный метод оценки - отчет о классификации, который генерирует три метрики оценки.

![image.png](attachment:image.png)

In [33]:
# Precision

# Precision - это отношение правильно предсказанных истинно положительных случаев к общему числу предсказанных положительных случаев. 
# Высокий показатель точности означает низкое количество ложных срабатываний.

![image.png](attachment:image.png)

In [34]:
# Эта метрика отвечает на вопрос о том, насколько точно модель предсказывает положительный результат. 
# Другими словами, это способность модели не выдать отрицательный случай за положительный, что важно, 
# например, в случае с тестами на наркотики.

In [35]:
# Recall

# Показатель recall модели аналогичен показателю precision, 
# но в данном случае представляет собой отношение правильно предсказанных истинных положительных результатов 
# к реальным положительным случаям. Другими словами, отзыв отвечает на вопрос о том, 
# сколько положительных результатов было правильно классифицировано как положительные. 
# Это можно понимать как способность модели идентифицировать все положительные случаи. 
# Обратите внимание, что числитель (вверху) одинаков для precision и recall, а знаменатели (внизу) различны.

![image.png](attachment:image.png)

In [36]:
# F1-score
# F1-score - это средневзвешенное значение precision и recall. 
# Обычно он используется в качестве метрики для сравнения моделей между собой, а не для оценки точности отдельной модели.

# Кроме того, показатель f1-score обычно ниже, чем показатель точности, из-за способа расчета recall и precision.

In [37]:
# Двумя наиболее распространенными оценочными показателями задач регрессии (прогнозирование непрерывных переменных) 
# являются MAE и RMSE.

In [38]:
# MAE (mean absolute error) измеряет средние ошибки в наборе прогнозов, 
# то есть насколько далеко линия регрессии находится от реальных точек данных. 

# RMSE (root mean square error), с другой стороны, измеряет стандартное отклонение ошибок прогнозирования, 
# которое показывает, насколько сконцентрированы или разбросаны ошибки прогнозирования от оптимального соответствия.

# Учитывая, что перед усреднением ошибки возводятся в квадрат, RMSE гораздо более чувствителен к большим ошибкам, чем MAE. 
# С другой стороны, RMSE не так легко интерпретировать, как MAE, поскольку он не описывает среднюю ошибку предсказаний модели. 
# Поэтому RMSE чаще используется в качестве механизма обратной связи для штрафования плохих предсказаний, 
# чем для исследования средней ошибки для каждого предсказания.

![image.png](attachment:image.png)

In [39]:
# 10) Оптимизация

# Последний шаг - оптимизация модели. 
# Оптимизация модели может быть выполнена вручную с помощью системы проб и ошибок 
# или с помощью автоматизации с использованием поиска по сетке (или кросс-валидации).

# Этот метод позволяет опробовать ряд конфигураций для каждого гиперпараметра 
# и методично протестировать каждый из возможных гиперпараметров. 
# Затем происходит автоматизированный процесс голосования для определения оптимальной модели.

# Поскольку модель должна исследовать каждую возможную комбинацию гиперпараметров, 
# поиск по сетке может занять много времени (в соответствии с количеством комбинаций, 
# которые вы задаете для каждого гиперпараметра).

# 2.3 Простая линейная регрессия

In [40]:
# Линейная регрессия — это одна из простейших моделей машинного обучения, 
# используемая для предсказания значения целевой переменной на основе одной
# или нескольких независимых переменных (признаков).

In [41]:
# цена дома = A∗площадь + B∗количество комнат +...+ Y∗удаленность от метро + Z

# где Z (a0) - свободный член (интерсепт), который представляет собой значение целевой переменной при нулевых значениях всех признаков.

In [42]:
# Графически линейная регрессия для одномерного случая выглядит как прямая линия, которая "лучшим образом" проходит через точки данных. 
# Мы пытаемся найти такие коэффициенты β0​ и β1, 
# которые минимизируют расхождения между предсказанными значениями y^ и реальными значениями y.

![image.png](attachment:image.png)

## Оценка точности модели

In [None]:
# Среднеквадратичная ошибка (MSE):
# MSE измеряет среднее значение квадратов отклонений предсказанных значений от реальных.

# Основной недостаток (но и преимущество) MSE заключается в том, 
# что она сильно штрафует большие ошибки (за счет возведения разницы в квадрат), 
# что может привести к ситуациям, когда модель чересчур сильно пытается уменьшить влияние выбросов 
# (нетипичных данных, сильно удаленных от средних значений).

![image.png](attachment:image.png)

In [None]:
# Средняя абсолютная ошибка (MAE):

# MAE измеряет среднюю величину ошибок в предсказаниях, но без возведения их в квадрат: 
# В отличие от MSE, MAE дает равномерное "штрафование" за ошибки любого масштаба и менее чувствительна к выбросам.

![image.png](attachment:image.png)

In [None]:
# Средний абсолютный процент ошибки (MAPE):

# MAPE измеряет средний процент отклонения предсказанных значений от реальных:
# MAPE особенно полезна для данных, где важна относительная ошибка, а не абсолютная величина ошибки.

![image.png](attachment:image.png)

In [None]:
# Корень из среднеквадратичной ошибки (RMSE):

# RMSE — это корень из MSE, который помогает вернуть ошибку в тех же единицах измерения, что и исходные данные. 
# RMSE полезна в тех случаях, когда требуется более интерпретируемая оценка, 
# чем просто MSE, поскольку её масштаб совпадает с масштабом целевой переменной.

In [None]:
# R^2 - Коэффициент детерминации

# Еще одной важной метрикой для оценки качества линейной регрессии является коэффициент детерминации R^2, 
# который показывает, какую долю изменчивости целевой переменной объясняет модель.
# Значение ближе к 1 указывает на лучшее качество модели — чем выше R^2, тем лучше модель объясняет данные.

## Оптимизация модели через минимизацию функции потерь

In [None]:
# Минимизация функции потерь является задачей оптимизации.

# Основной механизм, позволяющий оценить, насколько хорошо модель справляется с задачей, — это функция потерь, 
# которая измеряет расхождение между предсказанными и реальными значениями. 

# Наша конечная цель — найти такие параметры модели, которые минимизируют эту функцию потерь, 
# что позволит сделать наилучшие предсказания.

In [None]:
# Начальные параметры любой модели, как правило, далеки от оптимальных. 
# Для того чтобы улучшить качество предсказаний, мы должны скорректировать эти параметры таким образом, 
# чтобы минимизировать ошибку.

In [None]:
# Задача минимизации функции потерь может быть сформулирована как задача нахождения таких параметров модели θ, 
# при которых значение функции потерь L(θ) достигает своего минимума.

![image.png](attachment:image.png)

In [None]:
# где θ  — это вектор параметров модели, 
# а L(θ) — это функция потерь, зависящая от этих параметров. 

# Вектор параметров может содержать коэффициенты регрессии, веса нейронной сети или другие переменные, 
# которые определяют поведение модели.

In [None]:
# Численные методы оптимизации

# Поскольку аналитические решения практически недостижимы для сложных моделей, 
# задача сводится к поиску минимального значения функции потерь с использованием численных методов. 

# Такие методы предполагают итеративное обновление параметров модели с целью уменьшения значения функции потерь на каждом шаге.

# Основная идея численной оптимизации заключается в том, чтобы на каждом шаге менять параметры модели в направлении, 
# которое приводит к уменьшению значения функции потерь. 

# Этот процесс продолжается до тех пор, пока не будет достигнуто определённое условие остановки, 
# например, когда дальнейшие изменения параметров больше не приводят к существенному снижению ошибки.

## Градиент как направление наибольшего изменения

In [None]:
# Одним из наиболее эффективных и популярных методов численной оптимизации в машинном обучении 
# (поиска локального минимума функции потерь, то есть тех весов модели, которые приводят к наименьшей ошибке) 
# является градиентный спуск. 

# Этот метод основан на вычислении градиента функции потерь. 

# Градиент — это вектор, который указывает направление наибольшего роста функции. 
# В случае минимизации, мы движемся в направлении, противоположном градиенту, чтобы уменьшить значение функции потерь.

![image.png](attachment:image.png)

In [None]:
# Параметры модели обновляются по следующему правилу:
# θ := θ − α * ∇L(θ)

# где:
# α — это скорость обучения (learning rate), которая определяет, насколько большие шаги делаются при каждом обновлении параметров,
# ∇L(θ) — это градиент функции потерь по параметрам θ, 
# показывающий направление наибольшего увеличения значения функции потерь.

In [None]:
# Процесс градиентного спуска:

# 1) Инициализация параметров: 
# Начинаем с какого-то начального набора параметров θ, 
# которые могут быть заданы случайно или на основе априорных знаний.

# 2) Вычисление градиента: 
# На каждом шаге вычисляется градиент функции потерь по каждому параметру модели. 
# Градиент показывает, насколько сильно изменение каждого параметра повлияет на изменение значения функции потерь.

# 3) Обновление параметров: 
# Параметры корректируются в направлении, противоположном градиенту, 
# чтобы уменьшить значение функции потерь.

# 4) Повторение итераций: 
# Этот процесс повторяется до тех пор, пока не будет достигнут минимум функции потерь или до тех пор, 
# пока изменения в параметрах становятся незначительными.

In [None]:
# Скорость обучения и её влияние

# Одним из ключевых параметров градиентного спуска является скорость обучения (α). 
# Скорость обучения определяет, насколько большими будут шаги обновления параметров на каждом этапе. 

# Если скорость обучения слишком мала, процесс минимизации будет очень медленным. 
# Если же скорость обучения слишком велика, модель может перепрыгнуть через минимум функции потерь и не достичь оптимальных значений параметров.

# Выбор правильного значения скорости обучения — это важная часть настройки градиентного спуска. 
# В некоторых случаях применяются методы адаптивной регулировки скорости обучения, которые уменьшают её значение по мере приближения к минимуму.

![image.png](attachment:image.png)

In [None]:
# Проблемы и улучшения градиентного спуска

# Хотя градиентный спуск — это мощный и эффективный метод оптимизации, у него есть свои ограничения. 

# Например, при наличии нескольких локальных минимумов функция потерь может "застрять" в одном из них и не достичь глобального минимума. 

# Для преодоления этой проблемы были разработаны различные модификации градиентного спуска, такие как 
# стохастический градиентный спуск (SGD), который работает с случайными подвыборками данных, 
# или методы с импульсом (momentum), которые учитывают предыдущие направления изменения параметров, что помогает избежать локальных минимумов.

# 2.4 Имплементация линейной регрессии