# Регрессия для аналитика

В этом ноутбуке мы разберём:
1. Линейную регрессию
2. Множественную регрессию
3. Полиномиальную регрессию
4. Математику модели
5. Интерпретацию коэффициентов
6. Метрики качества (MAE, MSE, R²)
7. Пример на синтетических и реальных данных

## 1. Что такое регрессия
Регрессия — это метод машинного обучения, который используется для **прогнозирования числовых значений**.

**Примеры задач:**
- Предсказание цены квартиры
- Прогнозирование объёма продаж
- Оценка времени доставки

Регрессия помогает найти зависимость между признаками (X) и целевой переменной (y).

## 2. Виды регрессии
  
**Линейная регрессия** — простая зависимость вида: 
$ y = b_0 + b_1x $  
где:  
- $ b_0$ — свободный член (intercept)  
- $ b_1$ — коэффициент наклона  

**Множественная регрессия** — зависимость с несколькими признаками:  
$y = b_0 + b_1x_1 + b_2x_2 + ... + b_nx_n $  

**Полиномиальная регрессия** — когда добавляем степени признаков:  
$y = b_0 + b_1x + b_2x^2 + ... + b_mx^m $  
Это позволяет моделировать кривые зависимости.

## 3. Математика модели
Цель обучения — найти такие коэффициенты $b_0, b_1, ..., b_n$, которые минимизируют ошибку между предсказанными значениями и реальными.

Метод наименьших квадратов (OLS) минимизирует сумму квадратов ошибок:
$$\min \sum_{i=1}^n (y_i - \hat{y_i})^2$$

где:
- $y_i$ — реальное значение
- $\hat{y_i}$ — предсказанное значение

## 4. Интерпретация коэффициентов
- **$b_0$ (intercept)** — значение y, когда все X равны 0.
- **$b_i$ (slope)** — на сколько изменится y при изменении соответствующего X на 1 единицу, при прочих равных.

Например, если $b_1 = 2$, то увеличение признака x1 на 1 увеличит прогноз на 2.

## 5. Метрики качества регрессии
- **MAE** (Mean Absolute Error) — средняя абсолютная ошибка.
- **MSE** (Mean Squared Error) — средний квадрат ошибки.
- **R²** (коэффициент детерминации) — доля дисперсии, объяснённая моделью.

R² ближе к 1 — модель лучше объясняет данные.

In [1]:
# Пример: Линейная регрессия на синтетических данных
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# Синтетические данные
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)
y = np.array([2, 4, 5, 4, 5])

# Модель
model = LinearRegression()
model.fit(X, y)

y_pred = model.predict(X)

print('Коэффициент наклона:', model.coef_[0])
print('Intercept:', model.intercept_)
print('MAE:', mean_absolute_error(y, y_pred))
print('MSE:', mean_squared_error(y, y_pred))
print('R²:', r2_score(y, y_pred))

Коэффициент наклона: 0.6
Intercept: 2.2
MAE: 0.6399999999999999
MSE: 0.47999999999999987
R²: 0.6000000000000001


## 6. Пример на реальных данных (Boston Housing)
Мы будем предсказывать цену жилья по набору признаков.

📌 **Важно:** датасет Boston в scikit-learn считается устаревшим и заменён на California Housing, мы возьмём California.

In [2]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split

# Загружаем данные
data = fetch_california_housing()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target

# Разделяем
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Модель
model = LinearRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

print('MAE:', mean_absolute_error(y_test, y_pred))
print('MSE:', mean_squared_error(y_test, y_pred))
print('R²:', r2_score(y_test, y_pred))

MAE: 0.5332001304956558
MSE: 0.555891598695244
R²: 0.5757877060324511


## 7. Полиномиальная регрессия
Иногда зависимость между X и y нелинейная, и мы можем добавить степени признаков.

Это даёт больше гибкости модели, но может привести к переобучению.

In [3]:
from sklearn.preprocessing import PolynomialFeatures

# Полиномиальные признаки степени 2
poly = PolynomialFeatures(degree=2)
X_poly = poly.fit_transform(X)

# Модель
model_poly = LinearRegression()
model_poly.fit(X_poly, y)
y_poly_pred = model_poly.predict(X_poly)

print('R² полиномиальной модели:', r2_score(y, y_poly_pred))

R² полиномиальной модели: 0.683297629331749


## Задания для практики
1. Приведите три примера задач, где уместна линейная регрессия, и три — где лучше полиномиальная.
2. Возьмите свой датасет и постройте модель множественной регрессии.
3. Вычислите и сравните MAE и MSE для своей модели.
4. Интерпретируйте коэффициенты модели на своём примере.
5. Постройте полиномиальную регрессию степени 3 и сравните R² с линейной моделью.