# Домашнее задание №1: Линейная регрессия (МНК → Градиентный спуск → sklearn)

Цель задания — реализовать разные способы обучения линейной регрессии, сравнить результаты и визуализировать пространство данных и регрессионные плоскости.

---

# 1. Генерация данных

Сгенерируйте выборку из двух признаков. Например:

$$
y = 4 + 1.5 x_1 - 2 x_2 + \varepsilon,
$$

где:

- $x_1 \sim U(0, 10)$  
- $x_2 \sim U(-5, 5)$  
- $\varepsilon \sim N(0, 1)$  

Количество точек: хотя бы 300.

После генерации данных необходимо произвести разбиение на train/test и выполнить **нормализацию признаков** (не забыть про то, что на тесте через train коэффициенты нужно скейлить):

- вручную по формуле:
  $$
  x' = \frac{x - \mu}{\sigma}
  $$
  или  
- через соответствующий класс нормализации (`StandardScaler`).

Постройте **3D scatter-график** точек в пространстве $(x_1, x_2, y)$.

---

# 2. Метод наименьших квадратов (МНК) вручную

Реализуйте аналитическое решение:

$$
\hat{w} = (X^T X)^{-1} X^T y.
$$

(Матрица $X$ должна содержать первый столбец единиц — свободный член модели включается.)

**Сделать:**

1. Вывести оценённые коэффициенты $\hat{w}_0$, $\hat{w}_1$ и $\hat{w}_2$ и сравнить их с истинными параметрами  
2. Построить регрессионную **плоскость** поверх точек.  
3. Построить графики:
   - $y_\text{true}$ vs $y_\text{pred}$  
   - остатки $r = y - \hat{y}$ vs предсказания  
   - гистограмму остатков  

---

# 3. Линейная регрессия через градиентный спуск

Реализуйте линейную регрессию, минимизирующую:

$$
\mathrm{MSE}(w) = 
\frac{1}{n}
\sum_{i=1}^n 
\bigl(y^{(i)} - \hat{y}^{(i)}(w)\bigr)^2.
$$

Используйте три разных шага обучения. Например:

- $\eta = 0.01$  
- $\eta = 0.001$  
- $\eta = 0.0001$

**Для КАЖДОГО значения шага обучения необходимо:**

1. Построить график убывания MSE по эпохам (и train и test не забыть).
2. Построить график изменения метрики $R^2$ в процессе обучения (или другой метрики, но не MSE - например, MAE)  (и train и test не забыть).
3. Построить **траекторию** градиентного спуска в полном пространстве параметров
   $(w_0, w_1, w_2)$ — 3D-линия, показывающая путь оптимизации.  
4. Построить регрессионную плоскость и визуально сравнить её с плоскостью, полученной методом МНК.

**Сделать вывод:**  
Как влияет величина шага обучения на:
- скорость сходимости,
- устойчивость процесса,
- точность итоговых коэффициентов?

---

# 4. Линейная регрессия через `sklearn`

Соберите пайплайн из двух компонентов:

- нормализация признаков  
- линейная регрессия (`LinearRegression`)

**Сделать:**

1. Получить оценённые коэффициенты $w_0$, $w_1$ и $w_2$ и сравнить их с результатами МНК и градиентного спуска.  
2. Построить регрессионную плоскость поверх точек.  
3. Построить:
   - график $y_\text{true}$ vs $y_\text{pred}$  
   - график остатков  
   - гистограмму ошибок  

---

# 5. Сравнение всех моделей

Соберите таблицу вида:

| Модель | $w_0$ | $w_1$ | $w_2$ | MSE (train) | $R^2$ (train) | MSE (test) | $R^2$ (test) |
|--------|-------|-------|-------|--------------|----------------|--------------|----------------|
| МНК | … | … | … | … | … | … | … |
| Градиентный спуск, $\eta=0.01$ | … | … | … | … | … | … | … |
| Градиентный спуск, $\eta=0.001$ | … | … | … | … | … | … | … |
| Градиентный спуск, $\eta=0.0001$ | … | … | … | … | … | … | … |
| sklearn | … | … | … | … | … | … | … |

**Сделать выводы:**

- Почему оценки $w_1$ и $w_2$ в sklearn совпадают с МНК?  
- Как меняется качество и сходимость градиентного спуска при разных $\eta$?  
- Какая модель дала наиболее стабильный результат?  

---

# 6. (Необязательная часть) Полиномиальные признаки

Если хотите углубиться:

Добавьте полиномиальные признаки степеней $2, 3, 5, 8, 12$ (может быть и выше)  
и постройте зависимость:

$$
\text{degree} \;\rightarrow\; 
\bigl(MSE_\text{train},\; MSE_\text{test}\bigr).
$$

Определите момент, начиная с которого наблюдается выраженное переобучение.

---

# 7. Финальная визуализация

Сделайте один итоговый 3D-график:

- точки данных  
- регрессионная плоскость МНК  
- регрессионная плоскость sklearn  
- регрессионная плоскость лучшего варианта градиентного спуска  

Плоскости желательно отрисовать разными цветами и с небольшой прозрачностью.

---

# 8. Краткий заключительный отчёт

Ответьте коротко:

- Почему градиентный спуск даёт разные результаты при разных шагах обучения?  
- Почему аналитическое решение (МНК) является эталонным?  
- Почему sklearn совпадает с МНК?  
