<a href="https://colab.research.google.com/github/AyazMurtazin/DeepLearnPythonKPFU/blob/main/ML/RegressionTask1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



# **Самостоятельная работа №1**



## 1) **Изучите математические основы линейной регрессии (в случае одномерной задачи):**



   - Выведите формулы коэффициентов регрессии аналитически через **МНК (метод наименьших квадратов)**.
   

### **Линейная регрессия: аналитический вывод через МНК и метод максимального правдоподобия**

Рассмотрим **одномерную линейную регрессию** (случай парной регрессии):  
$$ y_i = w_0 + w_1 x_i + \varepsilon_i, \quad i = 1, \dots, n $$
где:
- (**$ y_i $**) — зависимая переменная (целевая),
- (**$ x_i $**) — независимая переменная (признак),
- (**$ w_0 $**) (сдвиг) и (**$ w_1 $**) (угловой коэффициент) — параметры модели,
- (**$ \varepsilon_i $**) — случайная ошибка (шум).

---

## **1. Метод наименьших квадратов (МНК)**
Цель МНК — минимизировать сумму квадратов ошибок (остатков):  
$$ S(w_0, w_1) = \sum_{i=1}^n (y_i - w_0 - w_1 x_i)^2. $$

### **Находим оптимальные коэффициенты**
1. **Частные производные** по (**$ w_0 $**) и (**$ w_1 $**):  
   $$
   \frac{\partial S}{\partial w_0} = -2 \sum_{i=1}^n (y_i - w_0 - w_1 x_i),  
   \quad
   \frac{\partial S}{\partial w_1} = -2 \sum_{i=1}^n (y_i - w_0 - w_1 x_i) x_i.
   $$

2. **Приравниваем к нулю** и получаем систему уравнений:  
   $$
   \begin{cases}
   \sum (y_i - w_0 - w_1 x_i) = 0, \\
   \sum (y_i - w_0 - w_1 x_i) x_i = 0.
   \end{cases}
   $$

3. **Решаем систему** (используем обозначения средних (**$ \bar{x} = \frac{1}{n}\sum x_i $**), (**$ \bar{y} = \frac{1}{n}\sum y_i $**)):  
   $$
   w_0 = \bar{y} - w_1 \bar{x},  
   \quad
   w_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2} = \frac{\text{cov}(x, y)}{\text{var}(x)}.
   $$

**Вывод:** МНК даёт явные формулы для коэффициентов, минимизирующих сумму квадратов ошибок.

---

## **2. Метод максимального правдоподобия (ММП)**
Предположим, что ошибки (**$ \varepsilon_i $**) **нормально распределены**:  
$$ \varepsilon_i \sim \mathcal{N}(0, \sigma^2). $$  
Тогда (**$ y_i $**) также нормальны:  
$$ y_i \sim \mathcal{N}(w_0 + w_1 x_i, \sigma^2). $$

### **Функция правдоподобия**
$$
L(w_0, w_1, \sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{(y_i - w_0 - w_1 x_i)^2}{2 \sigma^2} \right).
$$

Логарифмируем (**логарифмическая функция правдоподобия**):  
$$
\ln L = -\frac{n}{2} \ln(2 \pi \sigma^2) - \frac{1}{2 \sigma^2} \sum_{i=1}^n (y_i - w_0 - w_1 x_i)^2.
$$

### **Максимизация по (**$ w_0 $**) и (**$ w_1 $**)**
Максимизация (**$ \ln L $**) эквивалентна **минимизации суммы квадратов ошибок**:  
$$
\sum (y_i - w_0 - w_1 x_i)^2 \to \min.
$$

Таким образом, оценки ММП для (**$ w_0 $**) и (**$ w_1 $**) **совпадают с МНК-оценками**.

### **Оценка дисперсии ошибок**
Максимизируя (**$ \ln L $**) по (**$ \sigma^2 $**), получаем:  
$$
\hat{\sigma}^2 = \frac{1}{n} \sum (y_i - \hat{w}_0 - \hat{w}_1 x_i)^2.
$$

---

## **3. Связь МНК и максимального правдоподобия**
- **Если ошибки нормальны**, то МНК-оценки совпадают с ММП-оценками.  
- **Если ошибки не нормальны**, МНК даёт наилучшие линейные несмещённые оценки (BLUE), но ММП требует другого распределения ошибок.  

**Итог:**  
МНК — это частный случай ММП при нормальном распределении ошибок.  
ММП более общий метод, но требует предположений о распределении.

1. Модель линейной регрессии
markdown
$$ y_i = w_0 + w_1 x_i + \varepsilon_i, \quad i = 1, \dots, n $$
где:

y
i
y
i
​
  — целевая переменная,

x
i
x
i
​
  — признак,

w
0
,
w
1
w
0
​
 ,w
1
​
  — параметры модели,

ε
i
ε
i
​
  — ошибка (шум).

2. Метод наименьших квадратов (МНК)
Минимизируем сумму квадратов ошибок:

markdown
$$ S(w_0, w_1) = \sum_{i=1}^n (y_i - w_0 - w_1 x_i)^2 $$
Оптимальные коэффициенты
Частные производные:

markdown
$$
\frac{\partial S}{\partial w_0} = -2 \sum_{i=1}^n (y_i - w_0 - w_1 x_i), \quad
\frac{\partial S}{\partial w_1} = -2 \sum_{i=1}^n (y_i - w_0 - w_1 x_i) x_i
$$
Решение системы:

markdown
$$
w_0 = \bar{y} - w_1 \bar{x}, \quad
w_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2} = \frac{\text{cov}(x, y)}{\text{var}(x)}
$$
3. Метод максимального правдоподобия (ММП)
Предполагаем нормальность ошибок:

markdown
$$ \varepsilon_i \sim \mathcal{N}(0, \sigma^2) $$
Функция правдоподобия:

markdown
$$
L(w_0, w_1, \sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( -\frac{(y_i - w_0 - w_1 x_i)^2}{2 \sigma^2} \right)
$$
Логарифмическое правдоподобие:

markdown
$$
\ln L = -\frac{n}{2} \ln(2 \pi \sigma^2) - \frac{1}{2 \sigma^2} \sum_{i=1}^n (y_i - w_0 - w_1 x_i)^2
$$
Оценка дисперсии:

markdown
$$ \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{w}_0 - \hat{w}_1 x_i)^2 $$
4. Связь МНК и ММП
markdown
- Если ошибки нормальны (**$\varepsilon_i \sim \mathcal{N}(0, \sigma^2)$**), оценки МНК и ММП **совпадают**.
- МНК — это частный случай ММП для нормальных ошибок.
- Для ненормальных ошибок МНК даёт BLUE-оценки, но ММП требует спецификации распределения.

   - Проделайте вывод параметров модели с использованием **метода максимального правдоподобия**, предполагая нормальное распределение ошибок.


   - Объясните, как связаны **МНК** и **максимальное правдоподобие**.





## 2) **Реализуйте с нуля класс `LinearRegression`, который поддерживает следующие функции:**
   - Обучение модели методом **градиентного спуска**.
   - Вычисление метрик качества:
     - MSE (Mean Squared Error)
     - MAE (Mean Absolute Error)
     - R² (коэффициент детерминации)
   - Механизм **early stopping** — остановка обучения при стабилизации ошибки на валидационной выборке.
   - Визуализация:
     - графика изменения ошибки от эпохи (**loss curve**),
     - графика предсказаний модели против реальных значений,
     - графика "истинных точек vs предсказанных".
   - Возможность тестирования модели на новых данных (`predict`).



## 3) Добавьте масштабирование признаков:
   - Реализуйте собственную функцию стандартизации (Z-score), чтобы улучшить сходимость градиентного спуска.
   - Сделайте масштабирование **опциональным аргументом** в `.fit()`.



## 4) Добавьте возможность работы с многомерными данными:
   - Расширьте реализацию для случая нескольких признаков (**множественная линейная регрессия**).
   - Убедитесь, что модель корректно работает как с одним, так и с несколькими факторами.



## 5) Протестируйте модель на различных наборах данных:
   - Создайте **синтетический датасет** с помощью `numpy`.
   - Проверьте работу модели на **реальных данных** (например, из библиотеки `sklearn.datasets` или Kaggle).
   - Протестируйте модель при разных уровнях шума, выбросов и количестве признаков.


## 6) Сравните вашу реализацию с `LinearRegression` из `sklearn`:
   - Сравните качество модели по метрикам (MSE, R² и т.д.).
   - Оцените разницу в предсказаниях и скорости сходимости.
   - Проанализируйте, насколько ваши графики обучения и визуализации соответствуют ожиданиям.



## 7) (Опционально) Добавьте дополнительные возможности:
   - Поддержку **L1-регуляризации (Lasso)** и **L2-регуляризации (Ridge)**.
   - Визуализацию весов модели.
   - Логирование результатов обучения (например, сохранение метрик в CSV или JSON).
   - Гиперпараметрический поиск (например, перебор learning rate, batch size и др.).



# 📌 На память: Механизм Early Stopping (Ранняя остановка)

### **Цель:**
Предотвратить **переобучение модели** за счёт контроля качества на **валидационной выборке** во время обучения. Если модель перестаёт улучшаться, обучение останавливается.


### **Как работает:**

1. Данные делятся на:
   - обучающую выборку (`X_train`, `y_train`)
   - валидационную выборку (`X_val`, `y_val`)  
     *(Если не передана — ранняя остановка не используется)*

2. Обучение происходит итеративно (например, по эпохам в градиентном спуске).

3. После каждой эпохи вычисляется значение **ошибки (loss)** на валидационной выборке.

4. Если ошибка:
   - **уменьшается** → продолжаем обучение и сохраняем текущую модель.
   - **не уменьшается или растёт** → увеличиваем счётчик "без улучшений" (`counter`).
     - Как только `counter >= patience`, обучение останавливается.

### **Параметры:**
- `patience` — количество эпох без улучшения, после которого обучение останавливается.
- `min_delta` — минимальное улучшение ошибки, которое считается значимым (используется для фильтрации шума).


### **Пример логики:**

```python
best_loss = float('inf')
counter = 0
for epoch in range(max_epochs):
    train_one_epoch()            # Обучение на обучающих данных
    val_loss = evaluate_on_val() # Вычисление ошибки на валидации

    if val_loss < best_loss - min_delta:
        best_loss = val_loss
        counter = 0              # Сброс счётчика
        save_model_weights()     # Сохраняем лучшие веса
    else:
        counter += 1             # Увеличиваем счётчик

    if counter >= patience:
        print("Early stopping!")
        break
```



### **Зачем это нужно?**
- Предотвращает переобучение.
- Ускоряет обучение — не нужно проходить все эпохи, если модель уже сошлась.
- Автоматически выбирает оптимальное число эпох без ручного подбора.



### **Пример сигнатуры метода `fit` с early stopping:**

```python
def fit(self, X_train, y_train, X_val=None, y_val=None,
        epochs=1000, lr=0.01, batch_size=None,
        early_stop=False, patience=5, min_delta=1e-4):
```
