<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/ML/Regression/%D0%A1%D0%B0%D0%BC%D0%BE%D1%81%D1%82%D0%BE%D1%8F%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0_%E2%84%961.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



# **Самостоятельная работа №1**

## 1) **Изучите математические основы линейной регрессии (в случае одномерной задачи):**
   - Выведите формулы коэффициентов регрессии аналитически через **МНК (метод наименьших квадратов)**.
   - Проделайте вывод параметров модели с использованием **метода максимального правдоподобия**, предполагая нормальное распределение ошибок.
   - Объясните, как связаны **МНК** и **максимальное правдоподобие**.



## 2) **Реализуйте с нуля класс `LinearRegression`, который поддерживает следующие функции:**
   - Обучение модели методом **градиентного спуска**.
   - Вычисление метрик качества:
     - MSE (Mean Squared Error)
     - MAE (Mean Absolute Error)
     - R² (коэффициент детерминации)
   - Механизм **early stopping** — остановка обучения при стабилизации ошибки на валидационной выборке.
   - Визуализация:
     - графика изменения ошибки от эпохи (**loss curve**),
     - графика предсказаний модели против реальных значений,
     - графика "истинных точек vs предсказанных".
   - Возможность тестирования модели на новых данных (`predict`).



## 3) Добавьте масштабирование признаков:
   - Реализуйте собственную функцию стандартизации (Z-score), чтобы улучшить сходимость градиентного спуска.
   - Сделайте масштабирование **опциональным аргументом** в `.fit()`.



## 4) Добавьте возможность работы с многомерными данными:
   - Расширьте реализацию для случая нескольких признаков (**множественная линейная регрессия**).
   - Убедитесь, что модель корректно работает как с одним, так и с несколькими факторами.



## 5) Протестируйте модель на различных наборах данных:
   - Создайте **синтетический датасет** с помощью `numpy`.
   - Проверьте работу модели на **реальных данных** (например, из библиотеки `sklearn.datasets` или Kaggle).
   - Протестируйте модель при разных уровнях шума, выбросов и количестве признаков.


## 6) Сравните вашу реализацию с `LinearRegression` из `sklearn`:
   - Сравните качество модели по метрикам (MSE, R² и т.д.).
   - Оцените разницу в предсказаниях и скорости сходимости.
   - Проанализируйте, насколько ваши графики обучения и визуализации соответствуют ожиданиям.



## 7) (Опционально) Добавьте дополнительные возможности:
   - Поддержку **L1-регуляризации (Lasso)** и **L2-регуляризации (Ridge)**.
   - Визуализацию весов модели.
   - Логирование результатов обучения (например, сохранение метрик в CSV или JSON).
   - Гиперпараметрический поиск (например, перебор learning rate, batch size и др.).



# 📌 На память: Механизм Early Stopping (Ранняя остановка)

### **Цель:**
Предотвратить **переобучение модели** за счёт контроля качества на **валидационной выборке** во время обучения. Если модель перестаёт улучшаться, обучение останавливается.


### **Как работает:**

1. Данные делятся на:
   - обучающую выборку (`X_train`, `y_train`)
   - валидационную выборку (`X_val`, `y_val`)  
     *(Если не передана — ранняя остановка не используется)*

2. Обучение происходит итеративно (например, по эпохам в градиентном спуске).

3. После каждой эпохи вычисляется значение **ошибки (loss)** на валидационной выборке.

4. Если ошибка:
   - **уменьшается** → продолжаем обучение и сохраняем текущую модель.
   - **не уменьшается или растёт** → увеличиваем счётчик "без улучшений" (`counter`).
     - Как только `counter >= patience`, обучение останавливается.

### **Параметры:**
- `patience` — количество эпох без улучшения, после которого обучение останавливается.
- `min_delta` — минимальное улучшение ошибки, которое считается значимым (используется для фильтрации шума).


### **Пример логики:**

```python
best_loss = float('inf')
counter = 0
for epoch in range(max_epochs):
    train_one_epoch()            # Обучение на обучающих данных
    val_loss = evaluate_on_val() # Вычисление ошибки на валидации

    if val_loss < best_loss - min_delta:
        best_loss = val_loss
        counter = 0              # Сброс счётчика
        save_model_weights()     # Сохраняем лучшие веса
    else:
        counter += 1             # Увеличиваем счётчик

    if counter >= patience:
        print("Early stopping!")
        break
```



### **Зачем это нужно?**
- Предотвращает переобучение.
- Ускоряет обучение — не нужно проходить все эпохи, если модель уже сошлась.
- Автоматически выбирает оптимальное число эпох без ручного подбора.



### **Пример сигнатуры метода `fit` с early stopping:**

```python
def fit(self, X_train, y_train, X_val=None, y_val=None,
        epochs=1000, lr=0.01, batch_size=None,
        early_stop=False, patience=5, min_delta=1e-4):
```
