# Лабораторная работа 2. Линейная регрессия. Градиентный спуск

Вспомним нормальное уравнение:

$$\overrightarrow{w}_{opt} = \left(X^TX\right)^{-1}X^T\overrightarrow{y}.$$

Здесь присутствует обращение матрицы $X^TX$ – довольно трудоёмкая операция при большом количестве признаков: сложность вычислений $O(d^3)$. При решении реальных задач такая трудоёмкость часто оказывается непозволительной, поэтому параметры модели (весовые коэффициенты) ищут итерационными методами, стоимость которых меньше. Один из них – *градиентный спуск* (gradient descent – ['greɪdɪənt dɪ'sent]).

Напомним, что в градиентном спуске значения параметров на следующем шаге получаются из значений параметров на текущем шаге смещением в сторону антиградиента функционала ошибки: 

$$\overrightarrow{w}^{(k+1)} = \overrightarrow{w}^{(k)} - \eta_k \nabla Q(\overrightarrow{w}^{(k)}),$$
где $\eta_k$ – шаг градиентного спуска.

Формула градиента функционала ошибки выглядит следующим образом:

$$\nabla Q(\overrightarrow{w}) = \nabla_\overrightarrow{w}\left(\frac{1}{l}\|X\overrightarrow{w}-\overrightarrow{y}\|^2\right) = \frac{2}{l}X^T(X\overrightarrow{w} - \overrightarrow{y}).$$
 
Сложность вычислений в данном случае $O(dl)$.

Давайте разберемся с этими формулами пошагово.

### 1. Формула оптимальных весов:

$$\overrightarrow{w}_{opt} = \left(X^TX\right)^{-1}X^T\overrightarrow{y}.$$

Эта формула представляет собой решение нормального уравнения для задачи линейной регрессии. Здесь:

- \(X\) - матрица признаков (каждая строка представляет собой один пример, каждый столбец - один признак),
- \(\overrightarrow{y}\) - вектор целевых значений,
- \(\overrightarrow{w}_{opt}\) - вектор оптимальных весов.

Обращение матрицы \(X^TX\) - это обратная операция, и ее сложность \(O(d^3)\), где \(d\) - количество признаков. Это может быть трудозатратной операцией при большом числе признаков.

### 2. Градиентный спуск:

Вместо использования нормального уравнения, который может быть трудозатратным в случае большого числа признаков, мы можем использовать метод градиентного спуска для нахождения оптимальных весов. 

Формула обновления весов на каждом шаге градиентного спуска:

$$\overrightarrow{w}^{(k+1)} = \overrightarrow{w}^{(k)} - \eta_k \nabla Q(\overrightarrow{w}^{(k)}).$$

Здесь:

- \(\overrightarrow{w}^{(k)}\) - вектор весов на \(k\)-том шаге,
- \(\eta_k\) - шаг градиентного спуска,
- \(\nabla Q(\overrightarrow{w})\) - градиент функционала ошибки.

### 3. Градиент функционала ошибки:

Формула градиента функционала ошибки в случае линейной регрессии:

$$\nabla Q(\overrightarrow{w}) = \frac{2}{l}X^T(X\overrightarrow{w} - \overrightarrow{y}).$$

Здесь:

- \(l\) - количество примеров в обучающей выборке.

Сложность вычислений этого градиента \(O(dl)\), что может быть более эффективным для больших наборов данных и признаков, чем обращение матрицы \(X^TX\).

Градиентный спуск и его вариации (стохастический градиентный спуск, градиентный спуск по мини-батчам) используются в практике машинного обучения для эффективного нахождения оптимальных весов. Они особенно полезны, когда обращение матрицы становится слишком сложным или невозможным.

**Задание 1. Реализация градиентного спуска**  

Напишите функцию `gradient_descent`, которая находит вектор весов на основе градиентного спуска.  

В качестве критериев остановки можно использовать максимальное количество шагов и/или количество шагов, при котором отсутствуют значимые изменения весов.

Проверьте работу функции на простом примере из лекций:

$$x_1=2, x_2=3, x_3=5,$$

$$y_1=1, y_2=3, y_3=4.$$

Нарисуйте исходные данные и полученную линию регресии при помощи ``matplotlib``: для рисования точек используйте ``plt.scatter``, для рисования линии – ``plt.plot``.  

Сравните полученные результаты с результатами, полученными на основе нормального уравнения.

In [1]:
import numpy as np
import matplotlib.pyplot as plt

def gradient_descent(X, y, learning_rate=0.01, max_iter=1000, tol=1e-4):
    """
    Находит вектор весов с использованием градиентного спуска.

    Параметры:
    - X: Матрица признаков.
    - y: Вектор целевых значений.
    - learning_rate: Скорость обучения.
    - max_iter: Максимальное количество итераций.
    - tol: Критерий остановки по изменению весов.

    Возвращает:
    - Вектор весов.
    """
    m, n = X.shape
    weights = np.zeros(n)
    prev_weights = np.zeros(n)
    iterations = 0

    while iterations < max_iter and np.linalg.norm(weights - prev_weights) > tol:
        prev_weights = weights.copy()
        gradient = -2/m * X.T @ (y - X @ weights)
        weights -= learning_rate * gradient
        iterations += 1

    return weights

# Пример данных
X = np.array([[2], [3], [5]])
y = np.array([1, 3, 4])

# Добавляем столбец из единиц для учета свободного члена
X_with_bias = np.concatenate((np.ones((X.shape[0], 1)), X), axis=1)

# Получаем веса с использованием градиентного спуска
weights_gradient_descent = gradient_descent(X_with_bias, y)

# Получаем веса с использованием нормального уравнения (для сравнения)
weights_normal_equation = np.linalg.inv(X_with_bias.T @ X_with_bias) @ X_with_bias.T @ y

# Выводим результаты
print("Веса (градиентный спуск):", weights_gradient_descent)
print("Веса (нормальное уравнение):", weights_normal_equation)

# Рисуем график исходных данных и линии регрессии
plt.scatter(X, y, label='Исходные данные')
x_line = np.linspace(np.min(X), np.max(X), 100).reshape(-1, 1)
X_line_with_bias = np.concatenate((np.ones((x_line.shape[0], 1)), x_line), axis=1)

y_line_gradient_descent = X_line_with_bias @ weights_gradient_descent
y_line_normal_equation = X_line_with_bias @ weights_normal_equation

plt.plot(x_line, y_line_gradient_descent, label='Линия регрессии (градиентный спуск)', color='red')
plt.plot(x_line, y_line_normal_equation, label='Линия регрессии (нормальное уравнение)', linestyle='dashed', color='blue')

plt.xlabel('X')
plt.ylabel('Y')
plt.legend()
plt.show()


**Задание 2. Исследование скорости спуска**  

Протестируйте функцию `gradient_descent` на наборе данных `ml_lab1_train.txt`/`ml_lab1_test.txt` для разных значений скорости спуска $\eta_k$, например, $\eta_k = \{0.5, 1.0, 2.0\}$.  

Оцените количество шагов для получения решения в каждом случае.

In [None]:
def gradient_descent(X, y, learning_rate=0.01, max_iter=1000, tol=1e-4):
    """
    Находит вектор весов с использованием градиентного спуска.

    Параметры:
    - X: Матрица признаков.
    - y: Вектор целевых значений.
    - learning_rate: Скорость обучения.
    - max_iter: Максимальное количество итераций.
    - tol: Критерий остановки по изменению весов.

    Возвращает:
    - Вектор весов и количество итераций.
    """
    m, n = X.shape
    weights = np.zeros(n)
    prev_weights = np.zeros(n)
    iterations = 0

    while iterations < max_iter and np.linalg.norm(weights - prev_weights) > tol:
        prev_weights = weights.copy()
        gradient = -2/m * X.T @ (y - X @ weights)
        weights -= learning_rate * gradient
        iterations += 1

    return weights, iterations

# Загрузка данных из файла
train_data = np.loadtxt("ml_lab1_train.txt", delimiter=',')
X_train = train_data[:, 0].reshape(-1, 1)
y_train = train_data[:, 1]

# Добавляем столбец из единиц для учета свободного члена
X_train_with_bias = np.concatenate((np.ones((X_train.shape[0], 1)), X_train), axis=1)

# Разные значения скорости обучения
learning_rates = [0.5, 1.0, 2.0]

# Протестируем для каждой скорости обучения
for learning_rate in learning_rates:
    weights, iterations = gradient_descent(X_train_with_bias, y_train, learning_rate=learning_rate)
    print(f"\nСкорость обучения (η): {learning_rate}")
    print("Веса (градиентный спуск):", weights)
    print("Количество шагов:", iterations)

    # Рисуем график исходных данных и линии регрессии
    plt.scatter(X_train, y_train, label='Исходные данные')
    x_line = np.linspace(np.min(X_train), np.max(X_train), 100).reshape(-1, 1)
    X_line_with_bias = np.concatenate((np.ones((x_line.shape[0], 1)), x_line), axis=1)

    y_line_gradient_descent = X_line_with_bias @ weights
    plt.plot(x_line, y_line_gradient_descent, label=f'Линия регрессии (η={learning_rate})', linestyle='dashed')

    plt.xlabel('X')
    plt.ylabel('Y')
    plt.legend()
    plt.show()

**Задание 3. Стохастический градиентный спуск**  

Стохастический градиентный спуск отличается от обычного заменой градиента на его оценку по одному или нескольким объектам. В этом случае сложность становится $O(kd)$, где $k$ – количество объектов, по которым оценивается градиент, $k<<l$. Это отчасти объясняет популярность стохастических методов оптимизации.  

Реализуйте функцию `stochastic_gradient_descent`, которая находит вектор весов на основе стохастического градиентного спуска (вычисление градиента на одном случайном примере).  

На наборе данных `ml_lab1_train.txt`/`ml_lab1_test.txt` оцените количество шагов для получения решения при разных значениях скорости спуска $\eta_k$, например, $\eta_k = \{0.5, 1.0, 2.0\}$.

In [None]:
def stochastic_gradient_descent(X, y, learning_rate=0.01, max_iter=1000, tol=1e-4):
    """
    Находит вектор весов с использованием стохастического градиентного спуска.

    Параметры:
    - X: Матрица признаков.
    - y: Вектор целевых значений.
    - learning_rate: Скорость обучения.
    - max_iter: Максимальное количество итераций.
    - tol: Критерий остановки по изменению весов.

    Возвращает:
    - Вектор весов и количество итераций.
    """
    m, n = X.shape
    weights = np.zeros(n)
    prev_weights = np.zeros(n)
    iterations = 0

    while iterations < max_iter and np.linalg.norm(weights - prev_weights) > tol:
        prev_weights = weights.copy()
        for i in range(m):
            random_index = np.random.randint(0, m)
            X_i = X[random_index, :].reshape(1, -1)
            y_i = y[random_index]
            gradient = -2 * X_i.T @ (y_i - X_i @ weights)
            weights -= learning_rate * gradient.squeeze()
        iterations += 1

    return weights, iterations

# Загрузка данных из файла
train_data = np.loadtxt("ml_lab1_train.txt", delimiter=',')
X_train = train_data[:, 0].reshape(-1, 1)
y_train = train_data[:, 1]

# Добавляем столбец из единиц для учета свободного члена
X_train_with_bias = np.concatenate((np.ones((X_train.shape[0], 1)), X_train), axis=1)

# Разные значения скорости обучения
learning_rates = [0.5, 1.0, 2.0]

# Протестируем для каждой скорости обучения
for learning_rate in learning_rates:
    weights, iterations = stochastic_gradient_descent(X_train_with_bias, y_train, learning_rate=learning_rate)
    print(f"\nСкорость обучения (η): {learning_rate}")
    print("Веса (стохастический градиентный спуск):", weights)
    print("Количество шагов:", iterations)

    # Рисуем график исходных данных и линии регрессии
    plt.scatter(X_train, y_train, label='Исходные данные')
    x_line = np.linspace(np.min(X_train), np.max(X_train), 100).reshape(-1, 1)
    X_line_with_bias = np.concatenate((np.ones((x_line.shape[0], 1)), x_line), axis=1)

    y_line_stochastic_gradient_descent = X_line_with_bias @ weights
    plt.plot(x_line, y_line_stochastic_gradient_descent, label=f'Линия регрессии (η={learning_rate})', linestyle='dashed')

    plt.xlabel('X')
    plt.ylabel('Y')
    plt.legend()
    plt.show()

**Задание 4. Градиентный спуск по мини-батчам**  

Реализуйте функцию `mini_batch_gradient_descent`, которая находит вектор весов на основе градиентного спуска по мини-батчам (вычисление градиента на подмножестве случайно выбранных примеров). Размер мини-батча должен быть параметром функции.  

На наборе данных `ml_lab1_train.txt`/`ml_lab1_test.txt` оцените количество шагов для получения решения при разных значениях скорости спуска $\eta_k$, например, $\eta_k = \{0.5, 1.0, 2.0\}$.

In [1]:
def mini_batch_gradient_descent(X, y, learning_rate=0.01, batch_size=32, max_iter=1000, tol=1e-4):
    """
    Находит вектор весов с использованием градиентного спуска по мини-батчам.

    Параметры:
    - X: Матрица признаков.
    - y: Вектор целевых значений.
    - learning_rate: Скорость обучения.
    - batch_size: Размер мини-батча.
    - max_iter: Максимальное количество итераций.
    - tol: Критерий остановки по изменению весов.

    Возвращает:
    - Вектор весов и количество итераций.
    """
    m, n = X.shape
    weights = np.zeros(n)
    prev_weights = np.zeros(n)
    iterations = 0

    while iterations < max_iter and np.linalg.norm(weights - prev_weights) > tol:
        prev_weights = weights.copy()
        indices = np.random.choice(m, batch_size, replace=False)
        X_batch = X[indices, :]
        y_batch = y[indices]
        gradient = -2/batch_size * X_batch.T @ (y_batch - X_batch @ weights)
        weights -= learning_rate * gradient
        iterations += 1

    return weights, iterations

# Загрузка данных из файла
train_data = np.loadtxt("ml_lab1_train.txt", delimiter=',')
X_train = train_data[:, 0].reshape(-1, 1)
y_train = train_data[:, 1]

# Добавляем столбец из единиц для учета свободного члена
X_train_with_bias = np.concatenate((np.ones((X_train.shape[0], 1)), X_train), axis=1)

# Разные значения скорости обучения
learning_rates = [0.5, 1.0, 2.0]

# Протестируем для каждой скорости обучения
for learning_rate in learning_rates:
    weights, iterations = mini_batch_gradient_descent(X_train_with_bias, y_train, learning_rate=learning_rate)
    print(f"\nСкорость обучения (η): {learning_rate}")
    print("Веса (градиентный спуск по мини-батчам):", weights)
    print("Количество шагов:", iterations)

    # Рисуем график исходных данных и линии регрессии
    plt.scatter(X_train, y_train, label='Исходные данные')
    x_line = np.linspace(np.min(X_train), np.max(X_train), 100).reshape(-1, 1)
    X_line_with_bias = np.concatenate((np.ones((x_line.shape[0], 1)), x_line), axis=1)

    y_line_mini_batch_gradient_descent = X_line_with_bias @ weights
    plt.plot(x_line, y_line_mini_batch_gradient_descent, label=f'Линия регрессии (η={learning_rate})', linestyle='dashed')

    plt.xlabel('X')
    plt.ylabel('Y')
    plt.legend()
    plt.show()
