# Машинное обучение, ФКН ВШЭ

# Практическое задание 1

## Общая информация

Срок сдачи: 28.10.2023 14:40

### О задании

Практическое задание 1 посвящено изучению основных библиотек для анализа данных, а также линейных моделей и методов их обучения. Вы научитесь:
 * применять библиотеки NumPy и Pandas для осуществления желаемых преобразований;
 * подготавливать данные для обучения линейных моделей;
 * обучать линейную, Lasso и Ridge-регрессии при помощи модуля scikit-learn;
 * реализовывать обычный и стохастический градиентные спуски;
 * обучать линейную регрессию для произвольного функционала качества.
 

### Оценивание и штрафы

Каждая из задач имеет определенную «стоимость» (указана в скобках около задачи). Максимально допустимая оценка за работу — 10 баллов. Кроме того, некоторые из заданий являются опциональными (необязательными), однако за их выполнение можно получить дополнительные баллы.

Сдавать задание после указанного срока сдачи нельзя. При выставлении неполного балла за задание в связи с наличием ошибок на усмотрение проверяющего предусмотрена возможность исправить работу на указанных в ответном письме условиях.

Задание выполняется самостоятельно. «Похожие» решения считаются плагиатом и все задействованные студенты (в том числе те, у кого списали) не могут получить за него больше 0 баллов. Если вы нашли решение какого-то из заданий (или его часть) в открытом источнике, необходимо указать ссылку на этот источник в отдельном блоке в конце Вашей работы (скорее всего вы будете не единственным, кто это нашел, поэтому чтобы исключить подозрение в плагиате, необходима ссылка на источник). 

Неэффективная реализация кода может негативно отразиться на оценке.


### Формат сдачи
Для сдачи задания переименуйте получившийся файл \*.ipynb в соответствии со следующим форматом: *HW1_Username.ipynb*, где *Username* — Ваша фамилия и инициалы на латинице (например, *HW1_IvanovII.ipynb*). Далее отправьте этот файл на bobrovskaya_op@surgu.ru или Smorodinov-1990@mail.ru.

## Библиотеки для анализа данных

### NumPy

Во всех заданиях данного раздела запрещено использовать циклы  и list comprehensions. Под вектором и матрицей в данных заданиях понимается одномерный и двумерный numpy.array соответственно.

In [None]:
import numpy as np

**1. (0.2 балла)** Реализуйте функцию, возвращающую максимальный элемент в векторе x среди элементов, перед которыми стоит нулевой. Для x = np.array([6, 2, 0, 3, 0, 0, 5, 7, 0]) ответом является 5. Если нулевых элементов нет, функция должна возвращать None.


In [None]:
def max_element(arr):
    zero_indices = np.where(arr[:-1] == 0)[0]
    if len(zero_indices) == 0:
        return None
    max_after_zero = np.max(arr[zero_indices + 1])
    return max_after_zero

**2. (0.2 балла)** Реализуйте функцию, принимающую на вход матрицу и некоторое число и возвращающую ближайший к числу элемент матрицы. Например: для X = np.arange(0,10).reshape((2, 5)) и v = 3.6 ответом будет 4.

In [None]:
def nearest_value(X, v):
    index = np.unravel_index(np.argmin(np.abs(X - v)), X.shape)
    return X[index]

**3. (0.2 балла)** Реализуйте функцию scale(X), которая принимает на вход матрицу и масштабирует каждый ее столбец (вычитает выборочное среднее и делит на стандартное отклонение). Убедитесь, что в функции не будет происходить деления на ноль. Протестируйте на случайной матрице (для её генерации можно использовать, например, функцию [numpy.random.randint](http://docs.scipy.org/doc/numpy/reference/generated/numpy.random.randint.html)).

In [None]:
def scale(X):
    means = np.mean(X, axis=0)
    stds = np.std(X, axis=0)
    scaled_X = (X - means) / np.where(stds == 0, 1, stds)
    return scaled_X

**4. (0.2 балла)** Реализуйте функцию, которая для заданной матрицы находит:
 - определитель
 - след
 - наименьший и наибольший элементы
 - норму Фробениуса
 - собственные числа
 - обратную матрицу

Для тестирования сгенерируйте матрицу с элементами из нормального распределения $\mathcal{N}$(10,1)

In [None]:
import numpy as np

def matrix_operations(matrix):
    determinant = np.linalg.det(matrix)

    trace = np.trace(matrix)
   
    min_element = np.min(matrix)
    max_element = np.max(matrix)
    
    frobenius_norm = np.linalg.norm(matrix, 'fro')
    
    eigenvalues = np.linalg.eigvals(matrix)
    
    inverse_matrix = np.linalg.inv(matrix)
    
    return {
        "Determinant": determinant,
        "Trace": trace,
        "Min Element": min_element,
        "Max Element": max_element,
        "Frobenius Norm": frobenius_norm,
        "Eigenvalues": eigenvalues,
        "Inverse Matrix": inverse_matrix
    }

random_matrix = np.random.normal(10, 1, (3, 3))

**5. (0.2 балла)** Повторите 100 раз следующий эксперимент: сгенерируйте две матрицы размера 10×10 из стандартного нормального распределения, перемножьте их (как матрицы) и найдите максимальный элемент. Какое среднее значение по экспериментам у максимальных элементов? 95-процентная квантиль?

In [None]:
max_elements = []

for exp_num in range(100):
    matrix1 = np.random.randn(10, 10)
    matrix2 = np.random.randn(10, 10)

    result_matrix = np.dot(matrix1, matrix2)

    max_element = np.max(result_matrix)

    max_elements.append(max_element)

mean_max_element = np.mean(max_elements)
quantile_95 = np.percentile(max_elements, 95)

### Pandas

![](https://metrouk2.files.wordpress.com/2015/10/panda.jpg)

#### Ответьте на вопросы о данных по авиарейсам в США за январь-апрель 2008 года.

[Данные](https://www.kaggle.com/datasets/prajitdatta/data-stories-of-us-airlines).

In [None]:
import pandas as pd
%matplotlib inline

**6. (0.3 балла)** Какая из причин отмены рейса (`CancellationCode`) была самой частой? (расшифровки кодов можно найти в описании данных)

In [None]:
df = pd.read_csv('airline_dec_2008_50k.csv')

most_common_cancellation_code = df['CancellationCode'].mode().values[0]

**7. (0.3 балла)** Найдите среднее, минимальное и максимальное расстояние, пройденное самолетом.

In [None]:
mean_distance = df['Distance'].mean()
min_distance = df['Distance'].min()
max_distance = df['Distance'].max()

**8. (0.3 балла)** Не выглядит ли подозрительным минимальное пройденное расстояние? В какие дни и на каких рейсах оно было? Какое расстояние было пройдено этими же рейсами в другие дни?

In [None]:
suspicious_flights = df[df['Distance'] == min_distance]

**9. (0.3 балла)** Из какого аэропорта было произведено больше всего вылетов? В каком городе он находится?

In [None]:
other_days_distance = df[(df['UniqueCarrier'].isin(suspicious_flights['UniqueCarrier'])) & (df['Distance'] != min_distance)]

**10. (0.3 балла)** Найдите для каждого аэропорта среднее время полета (`AirTime`) по всем вылетевшим из него рейсам. Какой аэропорт имеет наибольшее значение этого показателя?

In [None]:
max_avg_airtime_airport = df.groupby('Origin')['AirTime'].mean().idxmax()

**11. (0.5 балла)** Найдите аэропорт, у которого наибольшая доля задержанных (`DepDelay > 0`) рейсов. Исключите при этом из рассмотрения аэропорты, из которых было отправлено меньше 1000 рейсов (используйте функцию `filter` после `groupby`).

In [None]:
filtered_airports = df.groupby('Origin').filter(lambda x: len(x) >= 1000)
delayed_ratio_airport = filtered_airports.groupby('Origin')['DepDelay'].apply(lambda x: (x > 0).mean()).idxmax()

## Линейная регрессия

В этой части мы разберемся с линейной регрессией, способами её обучения и измерением качества ее прогнозов. 

Будем рассматривать датасет из предыдущей части задания для предсказания времени задержки отправления рейса в минутах (DepDelay). Отметим, что под задержкой подразумевается не только опоздание рейса относительно планируемого времени вылета, но и отправление до планируемого времени.

### Подготовка данных

**12. (0.5 балла)** Считайте выборку из файла при помощи функции pd.read_csv и ответьте на следующие вопросы:
   - Имеются ли в данных пропущенные значения?
   - Сколько всего пропущенных элементов в таблице "объект-признак"?
   - Сколько объектов имеют хотя бы один пропуск?
   - Сколько признаков имеют хотя бы одно пропущенное значение?

In [None]:
import pandas as pd

dtype = {'CancellationCode': str}
df = pd.read_csv('airline_dec_2008_50k.csv', dtype=dtype, low_memory=False)

any_null_values = df.isnull().any().any()
total_null_elements = df.isnull().sum().sum()
objects_with_nulls = df.isnull().any(axis=1).sum()
features_with_nulls = df.isnull().any().sum()

print(f"Имеются ли в данных пропущенные значения?: {any_null_values}")
print(f"Сколько всего пропущенных элементов в таблице 'объект-признак'?: {total_null_elements}")
print(f"Сколько объектов имеют хотя бы один пропуск?: {objects_with_nulls}")
print(f"Сколько признаков имеют хотя бы одно пропущенное значение?: {features_with_nulls}")


Как вы понимаете, также не имеет смысла рассматривать при решении поставленной задачи объекты с пропущенным значением целевой переменной. В связи с этим ответьте на следующие вопросы и выполните соответствующие действия:
- Имеются ли пропущенные значения в целевой переменной?
- Проанализируйте объекты с пропущенными значениями целевой переменной. Чем вызвано это явление? Что их объединяет? Можно ли в связи с этим, на ваш взгляд, исключить какие-то признаки из рассмотрения? Обоснуйте свою точку зрения.

Исключите из выборки объектыф **с пропущенным значением целевой переменной и со значением целевой переменной, равным 0**, а также при необходимости исключите признаки в соответствии с вашим ответом на последний вопрос из списка и выделите целевую переменную в отдельный вектор, исключив её из матрицы "объект-признак".

In [None]:
missing_target_values = df['Cancelled'].isnull().sum()
missing_target_objects = df[df['Cancelled'].isnull()]

df = df.dropna(subset=['Cancelled']).loc[df['Cancelled'] != 0]
df = df.drop(['CancellationCode'], axis=1)

target_variable = df['Cancelled']
df = df.drop(['Cancelled'], axis=1)

f"Имеются ли пропущенные значения в целевой переменной?: {missing_target_values}"


**13. (0.5 балла)** Обратите внимание, что признаки DepTime, CRSDepTime, ArrTime, CRSArrTime приведены в формате hhmm, в связи с чем будет не вполне корректно рассматривать их как вещественные.

Преобразуйте каждый признак FeatureName из указанных в пару новых признаков FeatureName\_Hour, FeatureName\_Minute, разделив каждое из значений на часы и минуты. Не забудьте при этом исключить исходный признак из выборки. В случае, если значение признака отсутствует, значения двух новых признаков, его заменяющих, также должны отсутствовать. 

Например, признак DepTime необходимо заменить на пару признаков DepTime_Hour, DepTime_Minute. При этом, например, значение 155 исходного признака будет преобразовано в значения 1 и 55 признаков DepTime_Hour, DepTime_Minute соответственно.

In [None]:
import pandas as pd
import numpy as np

# Считывание данных из файла
dtype = {'CancellationCode': str}
df = pd.read_csv('airline_dec_2008_50k.csv', dtype=dtype, low_memory=False)

# Преобразование признаков времени в новые признаки
def convert_time_feature(df, feature_name):
    df[feature_name] = df[feature_name].astype(str).str.zfill(4)

    # Изменения для обработки строк, которые невозможно преобразовать в числа
    df[f'{feature_name}_Hour'] = pd.to_numeric(df[feature_name].str.slice(0, 2), errors='coerce')
    df[f'{feature_name}_Minute'] = pd.to_numeric(df[feature_name].str.slice(2, 4), errors='coerce')

    df.drop([feature_name], axis=1, inplace=True)


time_features = ['DepTime', 'CRSDepTime', 'ArrTime', 'CRSArrTime']

for feature in time_features:
    convert_time_feature(df, feature)

**14. (0.5 балла)** Некоторые из признаков, отличных от целевой переменной, могут оказывать чересчур значимое влияние на прогноз, поскольку по своему смыслу содержат большую долю информации о значении целевой переменной. Изучите описание датасета и исключите признаки, сильно коррелирующие с ответами. Ваш выбор признаков для исключения из выборки обоснуйте. Кроме того, исключите признаки TailNum и Year.

In [None]:
dtype = {'CancellationCode': str}
df = pd.read_csv('airline_dec_2008_50k.csv', dtype=dtype, low_memory=False)

df = df.drop(['TailNum', 'Year'], axis=1)

df = pd.get_dummies(df, columns=['UniqueCarrier', 'Origin', 'Dest'], dummy_na=True)

df = df.drop(['CancellationCode'], axis=1)

correlation_with_target = df.corr()['Cancelled'].sort_values(ascending=False)

correlation_threshold = 0.2
highly_correlated_features = correlation_with_target[abs(correlation_with_target) > correlation_threshold].index.tolist()

df = df.drop(highly_correlated_features, axis=1)


**15. (1 балл)** Приведем данные к виду, пригодному для обучения линейных моделей. Для этого вещественные признаки надо отмасштабировать, а категориальные — привести к числовому виду. Также надо устранить пропуски в данных.

В первую очередь поймем, зачем необходимо применять масштабирование. Следующие ячейки с кодом построят гистограммы для 3 вещественных признаков выборки.

In [None]:
X['DepTime_Hour'].hist(bins=20)

In [None]:
X['TaxiIn'].hist(bins=20)

In [None]:
X['FlightNum'].hist(bins=20)

Какую проблему вы наблюдаете на этих графиках? Как масштабирование поможет её исправить?

Некоторые из признаков в нашем датасете являются категориальными. Типичным подходом к работе с ними является бинарное, или [one-hot-кодирование](https://en.wikipedia.org/wiki/One-hot).

Реализуйте функцию transform_data, которая принимает на вход DataFrame с признаками и выполняет следующие шаги:
1. Замена пропущенных значений на нули для вещественных признаков и на строки 'nan' для категориальных.
2. Масштабирование вещественных признаков с помощью [StandardScaler](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html).
3. One-hot-кодирование категориальных признаков с помощью [DictVectorizer](http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.DictVectorizer.html) или функции [pd.get_dummies](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html).

Метод должен возвращать преобразованный DataFrame, который должна состоять из масштабированных вещественных признаков и закодированных категориальных (исходные признаки должны быть исключены из выборки).

In [None]:
from sklearn.preprocessing import StandardScaler

def transform_data(data):
    data = data.fillna({'DepTime_Hour': 0, 'TaxiIn': 0, 'FlightNum': 0, 'UniqueCarrier': 'nan'})
    
    scaler = StandardScaler()
    data[['DepTime_Hour', 'TaxiIn', 'FlightNum']] = scaler.fit_transform(data[['DepTime_Hour', 'TaxiIn', 'FlightNum']])

    data = pd.get_dummies(data, columns=['UniqueCarrier'], dummy_na=True)

    return data

Примените функцию transform_data к данным. Сколько признаков получилось после преобразования?


In [None]:
transformed_data = transform_data(X)

print("Количество признаков после преобразования:", transformed_data.shape[1])

**16. (0.5 балла)** Разбейте выборку и вектор целевой переменной на обучение и контроль в отношении 70/30 (для этого можно использовать, например, функцию [train_test_split](http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.train_test_split.html)). 

In [None]:
from sklearn.model_selection import train_test_split

X = df.drop('Cancelled', axis=1)
y = df['Cancelled']

X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=42, stratify=y)

### Scikit-learn

<img src = "https://pp.vk.me/c4534/u35727827/93547647/x_d31c4463.jpg">
Теперь, когда мы привели данные к пригодному виду, попробуем решить задачу при помощи метода наименьших квадратов. Напомним, что данный метод заключается в оптимизации функционала $MSE$:

$$MSE(X, y) = \frac{1}{l} \sum_{i=1}^l (<w, x_i> - y_i)^2 \to \min_{w},$$

где $\{ (x_i, y_i ) \}_{i=1}^l$ — обучающая выборка, состоящая из $l$ пар объект-ответ.

Заметим, что решение данной задачи уже реализовано в модуле sklearn в виде класса [LinearRegression](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression).

**17. (0.5 балла)** Обучите линейную регрессию на 1000 объектах из обучающей выборки и выведите значения $MSE$ и $R^2$ на этой подвыборке и контрольной выборке (итого 4 различных числа). Проинтерпретируйте полученный результат — насколько качественные прогнозы строит полученная модель? Какие проблемы наблюдаются в модели?

**Подсказка**: изучите значения полученных коэффициентов $w$, сохраненных в атрибуте coef_ объекта LinearRegression.

In [None]:
pass

Для решения описанных вами в предыдущем пункте проблем используем L1- или L2-регуляризацию, тем самым получив Lasso и Ridge регрессии соответственно и изменив оптимизационную задачу одним из следующих образов:
$$MSE_{L1}(X, y) = \frac{1}{l} \sum_{i=1}^l (<w, x_i> - y_i)^2 + \alpha ||w||_1 \to \min_{w},$$
$$MSE_{L2}(X, y) = \frac{1}{l} \sum_{i=1}^l (<w, x_i> - y_i)^2 + \alpha ||w||_2^2 \to \min_{w},$$

где $\alpha$ — коэффициент регуляризации. Один из способов его подбора заключается в переборе некоторого количества значений и оценке качества на кросс-валидации для каждого из них, после чего выбирается значение, для которого было получено наилучшее качество.

**18. (0.5 балла)** Обучите линейные регрессии с L1- и L2-регуляризатором, подобрав лучшее значение параметра регуляризации из списка alpha_grid при помощи кросс-валидации c 5 фолдами на тех же 1000 объектах, что и в п.17. Выведите значения $MSE$ и $R^2$ на обучающей и контрольной выборках. Удалось ли решить указанные вами ранее проблемы?

Для выполнения данного задания вам могут понадобиться реализованные в библиотеке объекты [LassoCV](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LassoCV.html), [RidgeCV](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RidgeCV.html) и [KFold](http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.KFold.html).


In [None]:
pass

### Градиентный спуск

В предыдущем разделе мы использовали существующие реализации методов обучения линейной регрессии с регуляризацией и без. Тем не менее, подобные реализации, как правило, имеются лишь для ограниченного набора стандартных методов. В частности, при выходе функционала качества за пределы стандартного множества необходимо самостоятельно реализовывать составляющие процесса решения оптимизационной задачи. Именно этому и посвящен данный раздел задания.

Пусть необходимо минимизировать следующий функционал (Mean Square Percentage Error — модифицированный [RMSPE](https://www.kaggle.com/c/rossmann-store-sales/details/evaluation)):
$$MSPE(\{x_i, y_i\}_{i=1}^l, \, w) = \frac{1}{l}\sum_{i=1}^l \left( \frac{y_i - \langle w, x_i \rangle }{y_i} \right)^2,$$

где $\{x_i, y_i\}_{i=1}^l$ — обучающая выборка, $w$ — вектор весов линейной модели. Будем также рассматривать функционал $MSPE$ с L2-регуляризацией:

$$MSPE(\{x_i, y_i\}_{i=1}^l, \, w) = \frac{1}{l}\sum_{i=1}^l \left( \frac{y_i - \langle w, x_i \rangle }{y_i} \right)^2 + ||w||_2^2.$$

**19. (0 баллов)** Добавьте к объектам обеих выборок из п. 16 единичный признак.

In [None]:
# Your code here

**20. (1 балл)** Реализуйте функции, которые вычисляют:
 * прогнозы линейной модели;
 * функционал $MSPE$ и его градиент;
 * регуляризованный $MSPE$ и его градиент.

In [None]:
# возвращает вектор прогнозов линейной модели с вектором весов w для выборки X
def make_pred(X, w):
    return X.dot(w)

In [None]:
# возвращает значение функционала MSPE для выборки (X, y) и вектора весов w
def get_func(w, X, y):
    y_pred = make_pred(X, w)
    return mean_squared_percentage_error(y, y_pred)

In [None]:
# возвращает градиент функционала MSPE для выборки (X, y) и вектора весов w
def get_grad(w, X, y):
    y_pred = make_pred(X, w)
    return gradient_mspe(y, y_pred, X)


In [None]:
# возвращает значение регуляризованного функционала MSPE для выборки (X, y) и вектора весов w
def get_reg_func(w, X, y, alpha):
    mse = mean_squared_percentage_error(y, make_pred(X, w))
    regularization_term = alpha * np.sum(w**2)
    return mse + regularization_term

def mean_squared_percentage_error(y_true, y_pred):
    return ((y_true - y_pred) ** 2).mean()

In [None]:
# возвращает градиент регуляризованного функционала MSPE для выборки (X, y) и вектора весов w
def get_reg_grad(w, X, y, alpha):
    mse_grad = gradient_mspe(y, make_pred(X, w), X)
    regularization_grad = 2 * alpha * w
    return mse_grad + regularization_grad

def gradient_mspe(y_true, y_pred, X):
    n = len(y_true)
    grad = -2/n * X.T.dot((y_true - y_pred) / y_true)
    return grad

**21. (1 балл)** Реализуйте метод градиентного спуска для описанных функционалов ($MSPE$ и его регуляризованный вариант). Функция должна принимать следующие параметры:
 - X — матрица "объект-признак";
 - y — вектор целевой переменной;
 - w0 — начальное значение вектора весов;
 - step_size — значение темпа обучения;
 - max_iter — максимальное число итераций;
 - eps — значение, используемое в критерии останова;
 - is_reg — бинарный параметр, принимает значение True в случае наличия регуляризации функционала, False — в противном случае.
 
Процесс должен быть остановлен, если выполнено хотя бы одно из следующих условий:
 - было выполнено заданное количество итераций max_iter;
 - евклидова норма разности векторов $w$ на соседних итерациях стала меньше, чем eps.

Функция должна возвращать полученный в результате оптимизации вектор $w$ и список значений функционала на каждой итерации.

In [None]:
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler

def grad_descent(X, y, step_size, max_iter, eps, is_reg, alpha=0.1, w0=None):
    if w0 is None:
        w0 = np.zeros(X.shape[1])
    w = w0.copy()
    func_values = []
    
    for iteration in range(max_iter):
        grad = get_reg_grad(w, X, y, alpha) if is_reg else get_grad(w, X, y)
        w = w - step_size * grad
        func_value = get_reg_func(w, X, y, alpha) if is_reg else get_func(w, X, y)
        func_values.append(func_value)
        
        # Check convergence
        if iteration > 0 and np.linalg.norm(w - prev_w) < eps:
            break
        
        prev_w = w.copy()
    
    return w, func_values


Обучите линейную регрессию с функционалом $MSPE$ на обучающей выборке при помощи метода градиентного спуска и изобразите кривые зависимости значения функционала от номера итерации для различных:
 * значений размера шага из набора [0.001, 1, 10];
 * способов начальной инициализации вектора весов (нули, случайные веса).

Проанализируйте полученные результаты — влияют ли данные параметры на скорость сходимости и итоговое качество? Если да, то как?

In [None]:
pass

**22. (0.5 балла)** Обучите линейную регрессию с функционалом MSPE и его регуляризованным вариантом на обучающей выборке при помощи метода градиентного спуска и изобразите кривые зависимости значения функционала от номера итерации. Исследуйте зависимость скорости сходимости от наличия регуляризации. Обоснуйте, почему так происходит.

In [None]:
pass

Метод градиентного спуска может быть весьма трудозатратен в случае большого размера обучающей выборки. Поэтому часто используют метод стохастического градиентного спуска, где на каждой итерации выбирается случайный объект из обучающей выборки и обновление весов происходит только по этому объекту. 

**23. (1 доп. балл)**  Реализуйте метод стохастического градиентного спуска (SGD) для описанных функционалов ($MSPE$ и его регуляризованный вариант). Функция должна иметь параметры и возвращаемое значение, аналогичные оным функции grad\_descent из п.21. Кроме того, должен использоваться аналогичный критерий останова.

In [None]:
def sgd(X, y, step_size, max_iter, eps, is_reg, alpha=0.1, w0=None):
    if w0 is None:
        w0 = np.zeros(X.shape[1])
    w = w0.copy()
    func_values = []

    for iteration in range(max_iter):
        # Choose a random sample from the training set
        random_index = np.random.randint(0, len(y))
        X_random = X[random_index, :].reshape(1, -1)
        y_random = y[random_index]

        grad = get_reg_grad(w, X_random, y_random, alpha) if is_reg else get_grad(w, X_random, y_random)
        w = w - step_size * grad
        func_value = get_reg_func(w, X, y, alpha) if is_reg else get_func(w, X, y)
        func_values.append(func_value)

        # Check convergence
        if iteration > 0 and np.linalg.norm(w - prev_w) < eps:
            break

        prev_w = w.copy()

    return w, func_values


Обучите линейную регрессию с функционалом $MSPE$ и его регуляризованным вариантом на обучающей выборке при помощи метода стохастического градиентного спуска, подобрав при этом размер шага, при котором метод будет сходиться. Нарисуйте график сходимости. Выведите значения $MSPE, MSE, R^2$ на контрольной выборке.

In [None]:
# Your code here

**24. (0.5 доп. балла)** Аналогично п.22 исследуйте зависимость скорости сходимости метода SGD от наличия регуляризации. Обоснуйте, почему так происходит.

In [None]:
# Your code here

**25. (0.5 балла)** Обучите стандартную линейную регрессию с функционалом качества MSE на обучающей выборке и выведите значение MSPE полученного решения на контрольной выборке. Как оно соотносится с аналогичным результатом для решения, полученного в п.22? Почему?

In [None]:
# Your code here

Здесь вы можете поделиться своими мыслями по поводу этого задания.

А здесь — вставить вашу любимую картинку.