<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/ML/%D0%9F%D1%80%D0%BE%D1%81%D1%82%D0%B0%D1%8F_%D0%BB%D0%B8%D0%BD%D0%B5%D0%B9%D0%BD%D0%B0%D1%8F_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F_%D0%BE%D0%B1%D0%BE%D1%81%D0%BD%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D0%B0_%D0%BD%D0%B0%D0%B8%D0%BC%D0%B5%D0%BD%D1%8C%D1%88%D0%B8%D1%85_%D0%BA%D0%B2%D0%B0%D0%B4%D1%80%D0%B0%D1%82%D0%BE%D0%B2_%D1%87%D0%B5%D1%80%D0%B5%D0%B7_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4_%D0%BC%D0%B0%D0%BA%D1%81%D0%B8%D0%BC%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B3%D0%BE_%D0%BF%D1%80%D0%B0%D0%B2%D0%B4%D0%BE%D0%BF%D0%BE%D0%B4%D0%BE%D0%B1%D0%B8%D1%8F.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# 📌 Простая линейная регрессия: обоснование метода наименьших квадратов через метод максимального правдоподобия

## 1. Постановка задачи

Рассмотрим задачу моделирования зависимости целевой переменной $ y $ от одного независимого признака $ x_1 $. Предположим, что эта зависимость является линейной и может быть описана следующим образом:

$$
y = w_0 + w_1 x_1 + \varepsilon,
$$

где:
- $ w_0 $ — свободный член (bias),
- $ w_1 $ — коэффициент наклона, характеризующий влияние $ x_1 $ на $ y $,
- $ \varepsilon $ — случайный шум или ошибка наблюдения.

Целью исследования является **оценивание параметров** $ w_0 $ и $ w_1 $, минимизирующих отклонение предсказанных значений от реальных данных.



## 2. Вероятностная интерпретация ошибки

Для установления статистического обоснования метода наименьших квадратов (МНК), введём вероятностную модель ошибок. Будем предполагать, что случайная ошибка $ \varepsilon $ подчиняется нормальному закону распределения с нулевым математическим ожиданием и постоянной дисперсией $ \sigma^2 > 0 $:

$$
\varepsilon \sim \mathcal{N}(0, \sigma^2).
$$

Тогда условное распределение целевой переменной $ y $ при фиксированном значении $ x_1 $ также будет нормальным:

$$
y \mid x_1 \sim \mathcal{N}(w_0 + w_1 x_1,\ \sigma^2).
$$

Функция плотности распределения (PDF) для этой величины имеет вид:

$$
p(y \mid x_1; w_0, w_1) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(y - (w_0 + w_1 x_1))^2}{2\sigma^2} \right).
$$

Это выражение определяет вероятность наблюдения значения $ y $ при заданном $ x_1 $ и заданных значениях параметров $ w_0, w_1 $.

Заметим, что функция достигает максимума, когда $(y - (w_0 + w_1 x_1))^2 = 0$, то есть при $ y = w_0 + w_1 x_1 $. Таким образом, наиболее вероятное значение $ y $ при данном $ x_1 $ совпадает с предсказанием модели, что соответствует математическому ожиданию условного распределения.


## 3. Метод максимального правдоподобия (MLE)

Пусть у нас имеется выборка из $ n $ независимых наблюдений:

$$
D = \{(x^{(i)}, y^{(i)})\}_{i=1}^n.
$$

Предположим, что все наблюдения независимы и одинаково распределены (i.i.d.). Тогда функция правдоподобия, представляющая собой совместную плотность вероятностей всех наблюдений, запишется как произведение индивидуальных плотностей:

$$
L(w_0, w_1) = \prod_{i=1}^{n} p(y^{(i)} \mid x^{(i)}; w_0, w_1).
$$

Подставляя выражение для нормального распределения, получаем:

$$
L(w_0, w_1) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(y^{(i)} - (w_0 + w_1 x^{(i)}))^2}{2\sigma^2} \right).
$$

Для упрощения анализа перейдём к **логарифму функции правдоподобия**, так как логарифм — монотонно возрастающая функция, и точка максимума сохранится:

$$
\log L(w_0, w_1) = \sum_{i=1}^{n} \log \left[ \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(y^{(i)} - (w_0 + w_1 x^{(i)}))^2}{2\sigma^2} \right) \right].
$$

Используя свойства логарифма, преобразуем:

$$
\log L(w_0, w_1) = \sum_{i=1}^{n} \left[ -\frac{1}{2}\log(2\pi\sigma^2) - \frac{(y^{(i)} - (w_0 + w_1 x^{(i)}))^2}{2\sigma^2} \right].
$$

Выносим константы за знак суммы:

$$
\log L(w_0, w_1) = -\frac{n}{2} \log(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (y^{(i)} - (w_0 + w_1 x^{(i)}))^2.
$$

Обозначим сумму квадратов ошибок (SSE):

$$
\text{SSE} = \sum_{i=1}^{n} (y^{(i)} - (w_0 + w_1 x^{(i)}))^2.
$$

Таким образом, логарифм правдоподобия принимает вид:

$$
\log L(w_0, w_1) = C - \frac{1}{2\sigma^2} \cdot \text{SSE},
$$

где $ C = -\frac{n}{2} \log(2\pi\sigma^2) $ — аддитивная константа, не зависящая от параметров $ w_0 $ и $ w_1 $.



## 4. Переход к минимизации SSE

Поскольку множитель $ \frac{1}{2\sigma^2} > 0 $, максимизация логарифма правдоподобия эквивалентна **минимизации суммы квадратов ошибок (SSE)**:

$$
\max_{w_0, w_1} \log L(w_0, w_1) \quad \Longleftrightarrow \quad \min_{w_0, w_1} \text{SSE}.
$$


Более формально, можно записать:

$$
\max_{w_0, w_1} \left( -\frac{1}{2\sigma^2} \cdot \text{SSE} \right) \quad \Longleftrightarrow \quad \min_{w_0, w_1} \text{SSE}.
$$

Это следует из общего свойства оптимизации:


Это следует из общего свойства оптимизации:

$$
\max_w (-a f(w)) = -a \min_w f(w), \quad a > 0.
$$

Это ключевой результат: **максимизация функции правдоподобия при нормальном распределении ошибок приводит к тому же решению, что и метод наименьших квадратов**.


## 5. Аналитическое решение метода наименьших квадратов

Определим функцию потерь:

$$
J(w_0, w_1) = \sum_{i=1}^{n} (y^{(i)} - (w_0 + w_1 x^{(i)}))^2.
$$

Чтобы найти оптимальные значения $ w_0 $ и $ w_1 $, вычислим частные производные $ J $ по этим параметрам и приравняем их нулю.

### Частная производная по $ w_0 $:

$$
\frac{\partial J}{\partial w_0} = -2 \sum_{i=1}^{n} (y^{(i)} - w_0 - w_1 x^{(i)}).
$$

Приравнивая к нулю, получаем:

$$
\sum_{i=1}^{n} (y^{(i)} - w_0 - w_1 x^{(i)}) = 0
\Rightarrow n \bar{y} = n w_0 + w_1 n \bar{x}
\Rightarrow \bar{y} = w_0 + w_1 \bar{x}.
$$

### Частная производная по $ w_1 $:

$$
\frac{\partial J}{\partial w_1} = -2 \sum_{i=1}^{n} x^{(i)}(y^{(i)} - w_0 - w_1 x^{(i)}).
$$

Приравнивая к нулю:

$$
\sum_{i=1}^{n} x^{(i)}(y^{(i)} - w_0 - w_1 x^{(i)}) = 0.
$$

Из первого уравнения: $ w_0 = \bar{y} - w_1 \bar{x} $. Подставляем во второе уравнение:

$$
\sum_{i=1}^{n} x^{(i)}(y^{(i)} - \bar{y} - w_1(x^{(i)} - \bar{x})) = 0.
$$

Решая относительно $ w_1 $, получаем:

$$
w_1 = \frac{\sum_{i=1}^{n} (x^{(i)} - \bar{x})(y^{(i)} - \bar{y})}{\sum_{i=1}^{n} (x^{(i)} - \bar{x})^2}.
$$

А значение $ w_0 $ находится по формуле:

$$
w_0 = \bar{y} - w_1 \bar{x}.
$$

Эти выражения определяют **аналитическое решение задачи простой линейной регрессии**.


## 6. 🧭 Градиентный спуск

Если число признаков велико или нет возможности решать аналитически, используется **градиентный спуск**.

### Идея:
На каждом шаге двигаемся в направлении антиградиента:

$$
\nabla_w J(w_0, w_1) = \begin{bmatrix}
\frac{\partial J}{\partial w_0} \\
\frac{\partial J}{\partial w_1}
\end{bmatrix}
$$

Как мы уже нашли:

$$
\frac{\partial J}{\partial w_0} = -2 \sum_{i=1}^{n} (y^{(i)} - (w_0 + w_1 x^{(i)}))
$$
$$
\frac{\partial J}{\partial w_1} = -2 \sum_{i=1}^{n} x^{(i)} (y^{(i)} - (w_0 + w_1 x^{(i)}))
$$

Обновление весов:

$$
w_0 := w_0 - \alpha \cdot \frac{\partial J}{\partial w_0}
= w_0 + 2\alpha \sum_{i=1}^{n} e^{(i)}
$$
$$
w_1 := w_1 - \alpha \cdot \frac{\partial J}{\partial w_1}
= w_1 + 2\alpha \sum_{i=1}^{n} x^{(i)} e^{(i)}
$$

где $e^{(i)} = y^{(i)} - \hat{y}^{(i)}$, а $\hat{y}^{(i)} = w_0 + w_1 x^{(i)}$



## 7. Связь между SSE и MSE

В задачах регрессии часто используются две метрики качества модели:

### 1. **Сумма квадратов ошибок (SSE):**

$$
\text{SSE} = \sum_{i=1}^{n} (y^{(i)} - \hat{y}^{(i)})^2.
$$

### 2. **Среднеквадратическая ошибка (MSE):**

$$
\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y^{(i)} - \hat{y}^{(i)})^2.
$$

Существует прямая связь между этими величинами:

$$
\text{MSE} = \frac{\text{SSE}}{n}, \quad \text{или} \quad \text{SSE} = n \cdot \text{MSE}.
$$

С точки зрения оптимизации обе метрики имеют одинаковые точки экстремума, поэтому минимизация одной из них автоматически влечёт минимизацию другой.

Выбор между SSE и MSE зависит от контекста:
- При аналитических выкладках удобнее использовать SSE.
- В численных методах и при сравнении моделей предпочтительна MSE, поскольку она позволяет сравнивать качество на разных объёмах выборок.

Таким образом, метод наименьших квадратов (МНК), широко используемый в задаче линейной регрессии, имеет строгое обоснование в рамках метода максимального правдоподобия при допущении о нормальности ошибок. Это делает подход теоретически обоснованным и эффективным в условиях гауссовского шума.



# 🧮 Матричный подход в линейной регрессии

## 1. Запись модели в матричном виде

Рассмотрим простую линейную регрессию:

$$
y_i = w_0 + w_1 x_i + \varepsilon_i, \quad i = 1, 2, ..., n.
$$

Эти уравнения можно объединить в одну **матричную форму**:

$$
Y = Xw + \varepsilon,
$$

где:
- $ Y = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix} $ — вектор наблюдений целевой переменной размерности $n \times 1$;
- $ X = \begin{bmatrix} 1 & x_1 \\ 1 & x_2 \\ \vdots & \vdots \\ 1 & x_n \end{bmatrix} $ — матрица признаков размерности $n \times 2$, первый столбец которой состоит из единиц для учёта свободного члена $w_0$;
- $ w = \begin{bmatrix} w_0 \\ w_1 \end{bmatrix} $ — вектор параметров модели размерности $2 \times 1$;
- $ \varepsilon = \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{bmatrix} $ — вектор случайных ошибок размерности $n \times 1$.

Модель в таком виде позволяет нам использовать мощные инструменты линейной алгебры для оценки параметров и анализа свойств регрессии.



## 2. Связь с ранее найденными уравнениями

Напомним, что система нормальных уравнений для метода наименьших квадратов имеет вид:

1. $\sum y_i = n w_0 + w_1 \sum x_i$
2. $\sum x_i y_i = w_0 \sum x_i + w_1 \sum x_i^2$

Теперь покажем, как эти уравнения можно получить в матричной форме.

### Вычислим $X^T X$:

$$
X^T X =
\begin{bmatrix}
1 & 1 & \cdots & 1 \\
x_1 & x_2 & \cdots & x_n
\end{bmatrix}
\cdot
\begin{bmatrix}
1 & x_1 \\
1 & x_2 \\
\vdots & \vdots \\
1 & x_n
\end{bmatrix}
=
\begin{bmatrix}
n & \sum x_i \\
\sum x_i & \sum x_i^2
\end{bmatrix}
$$

### Теперь вычислим $X^T Y$:

$$
X^T Y =
\begin{bmatrix}
1 & 1 & \cdots & 1 \\
x_1 & x_2 & \cdots & x_n
\end{bmatrix}
\cdot
\begin{bmatrix}
y_1 \\
y_2 \\
\vdots \\
y_n
\end{bmatrix}
=
\begin{bmatrix}
\sum y_i \\
\sum x_i y_i
\end{bmatrix}
$$



## 3. Вывод решения через псевдообратную матрицу

Систему нормальных уравнений можно записать в общем виде:

$$
X^T X w = X^T Y
$$

Если матрица $X^T X$ невырожденная (т.е. её определитель не равен нулю), то она обратима, и мы можем найти решение:

$$
w = (X^T X)^{-1} X^T Y
$$

Это — **аналитическое решение задачи линейной регрессии** в матричной форме.



## 4. Интерпретация компонентов

- $w$ — вектор оценок коэффициентов модели ($2 \times 1$);
- $X$ — матрица факторов ($n \times 2$);
- $Y$ — вектор откликов ($n \times 1$);
- $X^T$ — транспонированная матрица $X$;
- $(X^T X)^{-1}$ — обратная матрица размерности $2 \times 2$.



## ✅ Пример

Пусть даны следующие данные:

| i | $x_i$ | $y_i$ |
|---|--------|--------|
| 1 |   1    |   3    |
| 2 |   2    |   5    |
| 3 |   3    |   7    |

Тогда:

$$
X = \begin{bmatrix}
1 & 1 \\
1 & 2 \\
1 & 3
\end{bmatrix}, \quad
Y = \begin{bmatrix}
3 \\
5 \\
7
\end{bmatrix}
$$

Вычислим:

$$
X^T X =
\begin{bmatrix}
3 & 6 \\
6 & 14
\end{bmatrix}, \quad
X^T Y =
\begin{bmatrix}
15 \\
38
\end{bmatrix}
$$

Найдём обратную матрицу:

$$
(X^T X)^{-1} =
\frac{1}{6} \begin{bmatrix}
14 & -6 \\
-6 & 3
\end{bmatrix}
=
\begin{bmatrix}
\frac{7}{3} & -1 \\
-1 & \frac{1}{2}
\end{bmatrix}
$$

Теперь вычислим:

$$
w = (X^T X)^{-1} X^T Y =
\begin{bmatrix}
1 \\
2
\end{bmatrix}
$$

Таким образом, модель: $y = 1 + 2x$ — действительно наилучшая прямая для этих данных.



## 📌 Итог

Матричная форма линейной регрессии позволяет:

- унифицировать обработку данных;
- эффективно решать задачи даже с большим количеством признаков;
- использовать численные библиотеки (NumPy, SciPy и др.) для расчётов.

Аналитическое решение:

$$
w = (X^T X)^{-1} X^T Y
$$

предоставляет точное значение вектора параметров, если матрица $X^T X$ невырожденная. Это — мощный инструмент, который лежит в основе множества современных алгоритмов машинного обучения.


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error


class SimpleLinearRegression:
    def __init__(self):
        self.w_analytic = None  # Аналитические веса
        self.w_gd = None        # Веса градиентного спуска
        self.w_sklearn = None   # Веса от sklearn
        self.loss_history = []  # История ошибок при обучении

    def generate_data(self, n_samples=100, noise=5, seed=42):
        """Сгенерируйте данные с шумом"""
        np.random.seed(seed)
        X = np.linspace(0, 10, n_samples).reshape(-1, 1)
        y = 2 * X.flatten() + 5 + np.random.normal(0, noise, X.shape[0])
        return X, y

    def split_data(self, X, y, test_size=0.2, val_size=0.2, random_state=42):
        """Разделите данные на обучающую, валидационную и тестовую выборки"""
        X_train, X_temp, y_train, y_temp = train_test_split(
            X, y, test_size=test_size + val_size, random_state=random_state
        )
        val_ratio = val_size / (test_size + val_size)
        X_val, X_test, y_val, y_test = train_test_split(
            X_temp, y_temp, test_size=test_size, random_state=random_state
        )
        return X_train, X_val, X_test, y_train, y_val, y_test

    def add_bias_term(self, X):
        """Добавьте столбец единиц для свободного члена"""
        return np.hstack([np.ones((X.shape[0], 1)), X])

    def analytic_solution(self, X, y):
        """Аналитическое решение методом наименьших квадратов"""
        X_b = self.add_bias_term(X)
        self.w_analytic = np.linalg.pinv(X_b.T @ X_b) @ X_b.T @ y

    def gradient_descent(self, X, y, X_val, y_val,
                         alpha=0.01, max_iter=1000, tol=1e-4, patience=10):
        """Градиентный спуск с early stopping по MSE на валидации"""
        X_b = self.add_bias_term(X)
        w = np.zeros(X_b.shape[1])
        best_w = w.copy()
        best_val_loss = float('inf')
        no_improvement_count = 0

        for i in range(max_iter):
            y_pred = X_b @ w
            error = y_pred - y
            grad = 2 * X_b.T @ error / len(y)

            w -= alpha * grad

            # Оценка на валидации
            val_pred = self._predict_with_weights(X_val, w)
            val_loss = mean_squared_error(y_val, val_pred)
            self.loss_history.append(val_loss)

            if val_loss < best_val_loss:
                best_val_loss = val_loss
                best_w = w.copy()
                no_improvement_count = 0
            else:
                no_improvement_count += 1

            if no_improvement_count >= patience:
                print(f"Early stopping на итерации {i}")
                break

        self.w_gd = best_w

    def _predict_with_weights(self, X, w):
        """Предсказание с заданными весами"""
        X_b = self.add_bias_term(X)
        return X_b @ w

    def fit_sklearn(self, X, y):
        """Обучение с помощью sklearn"""
        model = LinearRegression()
        model.fit(X, y)
        self.w_sklearn = np.array([model.intercept_, model.coef_[0]])

    def predict(self, X, method='analytic'):
        """Предсказание по выбранному методу"""
        if method == 'analytic':
            return self._predict_with_weights(X, self.w_analytic)
        elif method == 'gd':
            return self._predict_with_weights(X, self.w_gd)
        elif method == 'sklearn':
            return self._predict_with_weights(X, self.w_sklearn)
        else:
            raise ValueError("Метод должен быть 'analytic', 'gd' или 'sklearn'")

    def evaluate(self, X, y, method='analytic'):
        """Оценка качества модели на тестовых данных"""
        y_pred = self.predict(X, method)
        mse = mean_squared_error(y, y_pred)
        return mse

    def plot_regression(self, X, y, methods=['analytic', 'gd', 'sklearn']):
        """Визуализация результатов регрессии"""
        plt.figure(figsize=(10, 6))
        plt.scatter(X, y, color='gray', label='Данные')

        x_line = np.linspace(X.min(), X.max(), 100).reshape(-1, 1)
        for method in methods:
            y_line = self.predict(x_line, method)
            plt.plot(x_line, y_line, label=f'{method.capitalize()} модель')

        plt.xlabel('x')
        plt.ylabel('y')
        plt.title('Сравнение моделей линейной регрессии')
        plt.legend()
        plt.grid(True)
        plt.show()

    def plot_loss(self):
        """Визуализация истории ошибок при градиентном спуске"""
        plt.figure(figsize=(8, 4))
        plt.plot(self.loss_history, label='Validation Loss (GD)')
        plt.xlabel('Итерация')
        plt.ylabel('MSE')
        plt.title('Loss во время обучения (градиентный спуск)')
        plt.legend()
        plt.grid(True)
        plt.show()

    def plot_predictions_on_new_data(self, X_train, y_train, X_new, methods=['analytic', 'gd', 'sklearn']):
        """Визуализация предсказаний на новых точках"""
        plt.figure(figsize=(10, 6))
        plt.scatter(X_train, y_train, color='gray', label='Обучающие данные')
        plt.scatter(X_new, self.predict(X_new, method='analytic'), color='red', label='Новые точки (pred)', zorder=5)

        x_line = np.linspace(min(np.min(X_train), np.min(X_new)), max(np.max(X_train), np.max(X_new)), 100).reshape(-1, 1)

        for method in methods:
            y_line = self.predict(x_line, method)
            plt.plot(x_line, y_line, label=f'{method.capitalize()} модель')

        plt.xlabel('x')
        plt.ylabel('y')
        plt.title('Предсказания на новых данных')
        plt.legend()
        plt.grid(True)
        plt.show()


# === Пример использования ===
if __name__ == "__main__":
    model = SimpleLinearRegression()

    # Генерация данных
    X, y = model.generate_data(n_samples=200, noise=5)

    # Разделение на обучающую, валидационную и тестовую выборки
    X_train, X_val, X_test, y_train, y_val, y_test = model.split_data(X, y)

    # Обучение моделей
    model.analytic_solution(X_train, y_train)
    model.gradient_descent(X_train, y_train, X_val, y_val, alpha=0.01, max_iter=1000)
    model.fit_sklearn(X_train, y_train)

    # Оценка
    print("MSE (аналитика):", model.evaluate(X_test, y_test, method='analytic'))
    print("MSE (градиентный спуск):", model.evaluate(X_test, y_test, method='gd'))
    print("MSE (sklearn):", model.evaluate(X_test, y_test, method='sklearn'))

    # Визуализация
    model.plot_regression(X_test, y_test)
    model.plot_loss()

    # Тестирование на новые данные
    X_new = np.array([[11], [12], [13]])
    print("\nПредсказания на новых данных:")
    print("Аналитика:", model.predict(X_new, method='analytic'))
    print("Градиентный спуск:", model.predict(X_new, method='gd'))
    print("Sklearn:", model.predict(X_new, method='sklearn'))

    # Визуализация предсказаний на новых данных
    model.plot_predictions_on_new_data(X_train, y_train, X_new)