# Лабораторная работа 1. Линейная регрессия. Нормальное уравнение

Если для оценки качества в регресии используется среднеквадратичная ошибка (*mean squared error, MSE*), то ошибка на одном примере (*функция потерь*) будет определяться выражением:

$$L(y,a)=(a-y)^2$$

а суммарная ошибка (*функционал ошибки*):

$$MSE(a,X)=\frac1{l}\sum_{i=1}^lL(y_i,a(\overrightarrow{x_i}))=\frac1{l}\sum_{i=1}^l(a(\overrightarrow{x_i})-y_i)^2$$

В случае линейной регресии:

$$a(\overrightarrow{x_i})=\langle \overrightarrow{w},\overrightarrow{x_i}\rangle$$

Задача оптимизации:

$$\frac1{l}\sum_{i=1}^l (\langle \overrightarrow{w},\overrightarrow{x_i}\rangle-y_i)^2\to \min_{\overrightarrow{w}}$$

Тогда, продифференцировав функционал ошибки по $\overrightarrow{w}$, приравняв его нулю и решив полученное уравнение, получим следующее выражение для оптимального вектора весов, которое называется *нормальным уравнением*:

$$\overrightarrow{w}_{opt} = \left(X^TX\right)^{-1}X^T\overrightarrow{y}.$$

Давайте разберемся с этими формулами шаг за шагом.

### 1. Функция потерь для одного примера:

В регрессии мы часто используем среднеквадратичную ошибку (*mean squared error, MSE*) в качестве метрики качества. Для одного примера эта ошибка, или *функция потерь*, определяется как:

$$L(y, a) = (a - y)^2,$$

где:
- \(L\) - функция потерь,
- \(y\) - истинное значение целевой переменной,
- \(a\) - предсказанное значение целевой переменной.

### 2. Суммарная ошибка (Функционал ошибки):

Суммарная ошибка, или *функционал ошибки*, для всего набора данных определяется как среднее значение функции потерь:

$$MSE(a, X) = \frac{1}{l} \sum_{i=1}^{l} L(y_i, a(\overrightarrow{x_i})) = \frac{1}{l} \sum_{i=1}^{l} (a(\overrightarrow{x_i}) - y_i)^2,$$

где:
- \(MSE\) - функционал ошибки,
- \(l\) - количество примеров в наборе данных,
- \(y_i\) - истинное значение целевой переменной для \(i\)-го примера,
- \(a(\overrightarrow{x_i})\) - предсказанное значение целевой переменной для \(i\)-го примера.

### 3. Линейная регрессия:

В случае линейной регрессии предсказанное значение \(a(\overrightarrow{x_i})\) выражается как скалярное произведение весового вектора \(\overrightarrow{w}\) и вектора признаков \(\overrightarrow{x_i}\):

$$a(\overrightarrow{x_i}) = \langle \overrightarrow{w}, \overrightarrow{x_i} \rangle.$$

### 4. Задача оптимизации:

Цель линейной регрессии - минимизировать суммарную ошибку. Формально задача оптимизации выглядит следующим образом:

$$\frac{1}{l}\sum_{i=1}^{l} (\langle \overrightarrow{w}, \overrightarrow{x_i} \rangle - y_i)^2 \to \min_{\overrightarrow{w}}$$

где:
- \(\overrightarrow{w}\) - вектор весов, который мы хотим найти.

### 5. Нормальное уравнение:

Решением этой задачи оптимизации является вектор весов, который можно найти, продифференцировав функционал ошибки по весам, приравняв его к нулю и решив уравнение. Это приводит к *нормальному уравнению*:

$$\overrightarrow{w}_{opt} = \left(X^TX\right)^{-1}X^T\overrightarrow{y}.$$

где:
- \(\overrightarrow{w}_{opt}\) - оптимальный вектор весов,
- \(X\) - матрица признаков,
- \(\overrightarrow{y}\) - вектор целевых значений.

Это уравнение предоставляет аналитическое решение для оптимальных весов в задаче линейной регрессии. Однако, как упоминалось ранее, обращение матрицы \(X^TX\) может быть трудозатратным в случае большого количества признаков, и поэтому градиентные методы (градиентный спуск) предпочтительны в практических задачах.

**Задание 1. Пример из лекций**

Напишите функцию ``get_weight``, которая находит вектор весов на основе нормального уравнения.

Полезные функции: ``numpy.ones(n)`` для создания массива из единиц длины $n$ и ``numpy.concatenate((А, В), axis=1)`` для слияния двух матриц по столбцам (пара ``А`` и ``В`` превращается в матрицу ``[A B]``).

Проверьте работу функции на простом примере из лекций:

$$x_1=2, x_2=3, x_3=5$$

$$y_1=1, y_2=3, y_3=4$$

Имейте в виду, что $X$ – это матрица (в данном примере состоящая из одного столбца).

Нарисуйте исходные данные и полученную линию регресии при помощи ``matplotlib``: для рисования точек используйте ``plt.scatter``, для рисования линии – ``plt.plot``.

In [None]:
import numpy as np
import scipy.linalg as sla
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
# Пример данных
X = np.array([[2], [3], [5]])
y = np.array([1, 3, 4])

# Добавляем столбец из единиц
X_with_bias = np.concatenate((np.ones((X.shape[0], 1)), X), axis=1)

# Получаем вектор весов
weights = np.linalg.inv(X_with_bias.T @ X_with_bias) @ X_with_bias.T @ y

# Прогнозные значения
y_pred = X_with_bias @ weights

# Выводим результаты
print("Вектор весов:", weights)
print("Прогнозные значения:", y_pred)

# Вычисляем функционалы ошибки
mse = np.mean((y - y_pred)**2)
rmse = np.sqrt(mse)
r2 = 1 - (np.sum((y - y_pred)**2) / np.sum((y - np.mean(y))**2))

# Выводим значения функционалов ошибки
print("Mean Squared Error (MSE):", mse)
print("Root Mean Squared Error (RMSE):", rmse)
print("R-squared (R²):", r2)


In [1]:
def get_weight(X, y):
    """
    Находит вектор весов на основе нормального уравнения.

    Параметры:
    - X: Матрица признаков (numpy array), где каждая строка представляет собой один пример,
         а каждый столбец представляет собой один признак.
    - y: Вектор целевых значений (numpy array).

    Возвращает:
    - Вектор весов (numpy array), который минимизирует сумму квадратов ошибок.
    """

    # Добавляем столбец из единиц к матрице X для учета свободного члена в уравнении
    X_with_bias = np.concatenate((np.ones((X.shape[0], 1)), X), axis=1)

    # Нормальное уравнение: w = (X^T * X)^(-1) * X^T * y
    weights = np.linalg.inv(X_with_bias.T @ X_with_bias) @ X_with_bias.T @ y

    return weights

# Пример использования функции
# Предположим, у нас есть данные X и y
X = np.array([[1, 2], [3, 4], [5, 6]])
y = np.array([3, 7, 11])

# Получаем вектор весов
weights = get_weight(X, y)

print("Вектор весов:", weights)


NameError: name 'np' is not defined

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def plot_regression_line(X, y, weights):
    """
    Нарисовать исходные данные и линию регрессии.

    Параметры:
    - X: Матрица признаков (numpy array).
    - y: Вектор целевых значений (numpy array).
    - weights: Вектор весов (numpy array).
    """

    # Рисуем точки данных
    plt.scatter(X[:, 1], y, color='blue', label='Исходные данные')

    # Рисуем линию регрессии
    x_line = np.linspace(np.min(X[:, 1]), np.max(X[:, 1]), 100)
    y_line = weights[0] + weights[1] * x_line
    plt.plot(x_line, y_line, color='red', label='Линия регрессии')

    # Добавляем подписи и легенду
    plt.xlabel('Признак')
    plt.ylabel('Целевое значение')
    plt.title('Линия регрессии')
    plt.legend()

    # Показываем график
    plt.show()

# Пример использования функции с предыдущими данными
plot_regression_line(X, y, weights)


Найдите значения функционалов ошибки $MSE$, $RMSE$, $R^2$.

In [None]:
def MSE(y_test, y_predict):
    return np.mean((y_test - y_predict)**2)
    # Ваш код здесь
    

def RMSE(y_test, y_predict):
    return np.sqrt(MSE(y_test, y_predict))


def R2(y_test, y_predict):
    y_mean = np.mean(y_test)
    ss_total = np.sum((y_test - y_mean)**2)
    ss_residual = np.sum((y_test - y_predict)**2)
    return 1 - (ss_residual / ss_total)

Сравните полученные значения с библиотечными функциями $MSE$ и $R2$ из [scikit-learn](https://scikit-learn.org/stable/modules/model_evaluation.html#regression-metrics).

In [None]:
# Прогнозные значения
y_pred = X_with_bias @ weights

# Вычисление функционалов ошибкиОператор
# @ в выражении y_pred = X_with_bias @ weights используется для умножения матрицы X_with_bias на вектор весов weights, чтобы получить прогнозные значения целевой переменной.
mse = mean_squared_error(y, y_pred)
rmse = root_mean_squared_error(y, y_pred)
r2 = r_squared(y, y_pred)

print("Mean Squared Error (MSE):", mse)
print("Root Mean Squared Error (RMSE):", rmse)
print("R-squared (R²):", r2)

**Задание 2. Более сложный пример**.
Скачайте файлы ``ml_lab1_train.txt`` и ``ml_lab1_test.txt``. В первом из них находится обучающая выборка, а во втором – тестовая. Каждый из файлов содержит два столбца чисел, разделённых пробелами: в первом – $n$ точек (значения аргумента $x$), во втором – значения некоторой функции $y = f(x)$ в этих точках, искажённые случайным шумом. Ваша задача – по обучающей выборке подобрать функцию $y = a(x)$, приближающую неизвестную вам зависимость.

Загрузим обучающие и тестовые данные (не забудьте ввести правильный путь!).

In [None]:
data_train = np.loadtxt('.../ml_lab1_train.txt', delimiter=',')
data_test = np.loadtxt('.../ml_lab1_test.txt', delimiter=',')

In [2]:
X_train = data_train[:,0]
y_train = data_train[:,1]

# Сделайте то же для тестовой выборки


NameError: name 'data_train' is not defined

Найдите с помощью функции ``get_weight`` линейную функцию ($y = kx + b$), наилучшим образом приближающую неизвестную зависимость.  
Выведите значения весовых коэффициентов.

In [None]:
# Ваш код здесь
# Загрузка данных из файла
train_data = np.loadtxt("ml_lab1_train.txt", delimiter=',')
X_train = train_data[:, 0].reshape(-1, 1)
y_train = train_data[:, 1]

# Получаем веса для линейной регрессии (y = kx + b)
weights = get_weight(X_train, y_train)

# Выводим значения весовых коэффициентов
k, b = weights[:-1]  # Последний элемент - свободный член
print("Значение наклона (k):", k)
print("Значение свободного члена (b):", b)

Нарисуйте на плоскости точки обучающей и тестовой выборок (раскрасив в два цвета) $(x_i, y_i)$ и полученную линейную функцию.

In [None]:
# Ваш код здесь
import numpy as np
import matplotlib.pyplot as plt

def plot_linear_regression(X_train, y_train, X_test, y_test, weights):
    """
    Нарисовать точки обучающей и тестовой выборок и линейную регрессию.

    Параметры:
    - X_train: Матрица признаков обучающей выборки.
    - y_train: Вектор целевых значений обучающей выборки.
    - X_test: Матрица признаков тестовой выборки.
    - y_test: Вектор целевых значений тестовой выборки.
    - weights: Вектор весов линейной регрессии.
    """

    # Обучающая выборка
    plt.scatter(X_train, y_train, color='blue', label='Обучающая выборка')

    # Тестовая выборка
    plt.scatter(X_test, y_test, color='red', label='Тестовая выборка')

    # Линейная регрессия
    x_line = np.linspace(np.min(np.concatenate((X_train, X_test))), np.max(np.concatenate((X_train, X_test))), 100)
    y_line = weights[0] * x_line + weights[1]
    plt.plot(x_line, y_line, color='green', label='Линейная регрессия')

    # Добавляем подписи и легенду
    plt.xlabel('X')
    plt.ylabel('Y')
    plt.title('Линейная регрессия и выборки')
    plt.legend()

    # Показываем график
    plt.show()

# Пример использования с вашими данными
# Загрузка данных из файла
train_data = np.loadtxt("ml_lab1_train.txt", delimiter=',')
test_data = np.loadtxt("ml_lab1_test.txt", delimiter=',')

X_train = train_data[:, 0].reshape(-1, 1)
y_train = train_data[:, 1]

X_test = test_data[:, 0].reshape(-1, 1)
y_test = test_data[:, 1]

# Получаем веса для линейной регрессии (y = kx + b)
weights = get_weight(X_train, y_train)

# Рисуем график
plot_linear_regression(X_train, y_train, X_test, y_test, weights)


Найдите значения функционалов ошибки $MSE$, $RMSE$, $R^2$. Сравните их со значениями библиотечных функций `scikit-learn`.

In [None]:
# Ваш код здесь
def calculate_metrics(y_true, y_pred):
    """
    Рассчитывает значения функционалов ошибки MSE, RMSE, R².

    Параметры:
    - y_true: Фактические значения.
    - y_pred: Прогнозные значения.

    Возвращает:
    - Значения MSE, RMSE, R².
    """
    mse = mean_squared_error(y_true, y_pred)
    rmse = np.sqrt(mse)
    r2 = r2_score(y_true, y_pred)
    return mse, rmse, r2

# Пример использования с вашими данными
# Загрузка данных из файла
train_data = np.loadtxt("ml_lab1_train.txt", delimiter=',')
test_data = np.loadtxt("ml_lab1_test.txt", delimiter=',')

X_train = train_data[:, 0].reshape(-1, 1)
y_train = train_data[:, 1]

X_test = test_data[:, 0].reshape(-1, 1)
y_test = test_data[:, 1]

# Получаем веса для линейной регрессии (y = kx + b)
weights = get_weight(X_train, y_train)

# Прогнозные значения
y_train_pred = X_train @ weights[:-1] + weights[-1]
y_test_pred = X_test @ weights[:-1] + weights[-1]

# Рассчитываем метрики ошибки
mse_train, rmse_train, r2_train = calculate_metrics(y_train, y_train_pred)
mse_test, rmse_test, r2_test = calculate_metrics(y_test, y_test_pred)

# Выводим результаты
print("Обучающая выборка:")
print("MSE: ", mse_train)
print("RMSE:", rmse_train)
print("R²:  ", r2_train)
print("\nТестовая выборка:")
print("MSE: ", mse_test)
print("RMSE:", rmse_test)
print("R²:  ", r2_test)

# Теперь используем LinearRegression из scikit-learn для сравнения
model = LinearRegression()
model.fit(X_train, y_train)
y_train_pred_sklearn = model.predict(X_train)
y_test_pred_sklearn = model.predict(X_test)

mse_train_sklearn, rmse_train_sklearn, r2_train_sklearn = calculate_metrics(y_train, y_train_pred_sklearn)
mse_test_sklearn, rmse_test_sklearn, r2_test_sklearn = calculate_metrics(y_test, y_test_pred_sklearn)

# Выводим результаты scikit-learn
print("\nРезультаты scikit-learn (LinearRegression):")
print("Обучающая выборка:")
print("MSE: ", mse_train_sklearn)
print("RMSE:", rmse_train_sklearn)
print("R²:  ", r2_train_sklearn)
print("\nТестовая выборка:")
print("MSE: ", mse_test_sklearn)
print("RMSE:", rmse_test_sklearn)
print("R²:  ", r2_test_sklearn)