# Лекция 6: Основы Supervised Learning и Линейная Регрессия

**Цели лекции:**
1.  Сформировать представление об основных парадигмах машинного обучения и месте обучения с учителем.
2.  Детально изучить стандартный жизненный цикл ML-проекта (CRISP-DM).
3.  Понять важность разделения данных и масштабирования признаков как ключевых этапов подготовки данных.
4.  Глубоко изучить математические основы и интерпретацию метода линейной регрессии.
5.  Освоить концепцию функции потерь (MSE) и познакомиться с основными метриками качества регрессионных моделей (MAE, RMSE, R²).

## 1. Карта мира Machine Learning

Прежде чем углубляться в конкретный метод, давайте посмотрим на машинное обучение (ML) с высоты птичьего полета, чтобы вы понимали, где мы находиемся и куда движемся. 

**Машинное обучение** — это область искусственного интеллекта, которая даёт компьютерам способность обучаться на основе данных, выявлять в них закономерности и принимать решения без явного программирования под каждую конкретную задачу.

### 1.1. Классификация методов ML

Все методы можно условно разделить на три большие парадигмы:

#### 1.1.1. Обучение с учителем (Supervised Learning)

*   **Суть:** У нас есть набор данных, где для каждого объекта (**признаки**, `X`) известен правильный ответ (**целевая переменная**, `y`). Модель, как прилежный ученик, учится на этих примерах находить зависимость `y ≈ f(X)`.
*   **Аналогия:** Ученику дают стопку фотографий животных (`X`) с подписанными названиями (`y`). После обучения он должен уметь называть животное на новой, ранее не виданной фотографии.

**Основные задачи Supervised Learning:**

1.  **Регрессия (Regression):**
    *   **Цель:** Предсказать **непрерывную** (числовую) целевую переменную `y`.
    *   **Примеры:**
        *   Предсказание цены квартиры по её площади, району, числу комнат.
        *   Прогнозирование температуры воздуха на завтра.
        *   Оценка спроса на товар в следующем месяце.
    *   **Наше место на карте:** **Это именно то, чем мы занимаемся сегодня.**

2.  **Классификация (Classification):**
    *   **Цель:** Предсказать **категориальную** целевую переменную `y` (метку класса).
    *   **Примеры:**
        *   Определить, является ли email спамом или нет (2 класса).
        *   Распознать цифру на изображении (10 классов: от 0 до 9).
        *   Диагностировать заболевание по медицинским анализам (несколько классов: здоров, болен типом А, болен типом Б).

#### 1.1.2. Обучение без учителя (Unsupervised Learning)

*   **Суть:** У нас есть только данные об объектах (`X`), без каких-либо "правильных ответов". Модель сама пытается найти в данных внутренние структуры, скрытые закономерности или аномалии.
*   **Аналогия:** Ученику дают ту же стопку фотографий животных, но без подписей. Он не знает, кто такие "кошки" или "собаки", но может рассортировать их на группы похожих друг на друга существ.

**Основные задачи Unsupervised Learning:**

1.  **Кластеризация (Clustering):**
    *   **Цель:** Разделить все объекты на группы (кластеры) так, чтобы объекты в одной группе были максимально похожи, а объекты из разных групп — максимально различны.
    *   **Пример:** Сегментация клиентов интернет-магазина по их поведению для проведения целевых маркетинговых кампаний.

2.  **Понижение размерности (Dimensionality Reduction):**
    *   **Цель:** Уменьшить количество признаков, сохранив при этом как можно больше полезной информации.
    *   **Пример:** Визуализация многомерных данных на 2D-графике или сжатие изображений.

#### 1.1.3. Обучение с подкреплением (Reinforcement Learning)

*   **Суть:** Модель (агент) учится, взаимодействуя с некой средой. За правильные действия она получает "награду" (reward), за неправильные — "штраф" (penalty). Цель агента — выработать стратегию поведения, которая максимизирует итоговую награду.
*   **Аналогия:** Дрессировка собаки. За выполненную команду ("сидеть") она получает лакомство (награда), за невыполненную — ничего.

**Примеры:**
*   Обучение автопилота для автомобиля.
*   Создание алгоритмов для игры в шахматы или го (AlphaGo).
*   Оптимизация управления роботом-манипулятором на заводе.

## 2. Жизненный цикл ML-проекта (на основе CRISP-DM)

Любой серьезный ML-проект — это не хаотичный набор действий, а структурированный, итеративный процесс. Одной из самых популярных методологий его организации является **CRISP-DM (Cross-Industry Standard Process for Data Mining)**. Она помогает обеспечить предсказуемость, управляемость и высокое качество конечного продукта.

#### Этапы жизненного цикла:

**1. Business Understanding (Понимание бизнес-задачи):**
*   **Вопросы:** Какую проблему мы решаем для бизнеса? Как выглядит успех? Какими метриками его можно измерить?
*   **Пример:** Задача не "построить модель регрессии", а "создать сервис для риэлторов, который прогнозирует рыночную стоимость квартиры с точностью до 10%, чтобы ускорить процесс оценки".
*   **Результат:** Четко сформулированная цель проекта и критерии успеха.

**2. Data Understanding (Анализ данных):**
*   **Действия:** Сбор данных, первичное исследование (EDA), статистики, распределения, корреляции, визуализации.
*   **Цель:** Понять, что за данные у нас есть, какого они качества, есть ли в них аномалии и достаточно ли их для решения задачи.

**3. Data Preparation (Подготовка данных):**
*   **Важность:** Это самый трудоемкий этап, занимающий до 80% времени проекта.
*   **Действия:**
    *   *Очистка:* обработка пропусков, удаление дубликатов, работа с выбросами.
    *   *Инжиниринг признаков (Feature Engineering):* создание новых, более информативных признаков из существующих.
    *   *Отбор признаков (Feature Selection):* выбор наиболее значимых признаков.
    *   *Преобразование данных:* кодирование категориальных признаков, **масштабирование числовых (о чем мы поговорим подробнее)**.

**4. Modeling (Моделирование):**
*   **Действия:** Выбор алгоритма, разделение данных на обучающую и тестовую выборки, обучение модели, подбор гиперпараметров.

**5. Evaluation (Оценка модели):**
*   **Действия:** Оценка качества обученной модели на отложенной выборке с помощью технических метрик и сравнение их с бизнес-критериями.

**6. Deployment (Внедрение):**
*   **Действия:** Интеграция готовой модели в существующую IT-инфраструктуру.

**Важно:** Этот процесс **итеративен**. Часто после этапа оценки приходится возвращаться к подготовке данных или даже к пониманию бизнес-задачи, чтобы улучшить результат.

### 2.1. Стандартный рабочий процесс в машинном обучении

Следующая диаграмма подчеркивает критическую важность разделения данных для объективной оценки модели.

1. **Разделение данных:** Исходные данные (`X` и `y`) делятся на **обучающий** и **тестовый** наборы.  
2. **Итеративный цикл обучения и настройки:**  
    * Модель **обучается** исключительно на *обучающем наборе*.  
    * Качество модели **оценивается** (часто на валидационной части обучающего набора).  
    * На основе оценки происходит **настройка** гиперпараметров модели.  
    * Этот цикл (`Обучение -> Оценка -> Настройка`) повторяется до тех пор, пока не будет найдена лучшая модель.  
3. **Финальная оценка:** После завершения настройки, лучшая модель **только один раз** проверяется на *тестовом наборе*. Эти данные модель никогда не видела в процессе обучения или настройки. Это дает нам честную, непредвзятую оценку её производительности.  
4. **Внедрение:** Если результаты на тесте удовлетворительны, модель готова к внедрению.

```mermaid
graph LR
    A["Данные<br/>X и y"] --> B["Обучающий<br/>набор данных"]
    A --> C["Тестовый<br/>набор данных"]
    
    B --> D["Обучение<br/>модели<br/>(fit/train)"]
    D --> F["Оценка<br/>работы<br/>модели"]
    F -->|итерация| E["Настройка<br/>модели"]
    E --> D
    
    C -->|финальная проверка| F
    E -->|лучшая модель| G["Внедрение<br/>модели"]
    
    %% Определение стилей
    classDef data fill:#f8c471,stroke:#333,stroke-width:2px,color:#000
    classDef training fill:#e5b4c4,stroke:#333,stroke-width:2px,color:#000
    classDef eval fill:#c8e6c9,stroke:#333,stroke-width:2px,color:#000
    classDef deploy fill:#d1c4e9,stroke:#333,stroke-width:2px,color:#000

    %% Применение стилей
    class A,B,C data
    class D,E training
    class F eval
    class G deploy

```

### 2.2. Важный шаг: Масштабирование признаков (Feature Scaling)

Масштабирование — один из самых важных шагов в подготовке данных. В большинстве случаев применение моделей машинного обучения к "сырым", немасштабированным данным является ошибкой.

#### Зачем это нужно?

Представьте, что мы предсказываем цену квартиры по двум признакам:
*   $x_1$: Количество комнат (значения от 1 до 5)
*   $x_2$: Площадь в квадратных метрах (значения от 30 до 200)

Диапазон значений площади гораздо больше, чем у количества комнат. Многие алгоритмы будут ошибочно считать признак "Площадь" более важным просто из-за его большого масштаба.

**Масштабирование приводит все признаки к сопоставимому диапазону значений, чтобы ни один из них не доминировал над другими по причине своего масштаба.**

Это критически важно для:
1.  **Алгоритмов, использующих градиентный спуск (включая линейные модели):** Если признаки имеют разный масштаб, "ландшафт" функции потерь становится вытянутым. Градиентному спуску потребуется гораздо больше шагов, чтобы найти минимум.
2.  **Моделей с регуляризацией (Ridge, Lasso), которые мы изучим позже:** Штраф зависит от величины коэффициентов, и без масштабирования он будет некорректно применяться к разным признакам.
3.  **Алгоритмов, основанных на расстоянии (например, KNN, SVM):** Расстояние будет почти полностью определяться признаком с наибольшим масштабом.

#### Способы масштабирования

1. **Стандартизация (Standardization)**

Преобразует данные так, чтобы они имели **среднее значение 0 и стандартное отклонение 1**.
$$ z = \frac{x - \mu}{\sigma} $$
*   **В `scikit-learn`:** `StandardScaler()`
*   **Свойства:** Является **методом выбора по умолчанию** для большинства задач, включая линейные модели.

2. **Нормализация (Normalization)**

"Сжимает" данные в диапазон **от 0 до 1**.
$$ x_{scaled} = \frac{x - x_{min}}{x_{max} - x_{min}} $$
*   **В `scikit-learn`:** `MinMaxScaler()`
*   **Свойства:** Полезен для некоторых алгоритмов (например, нейронных сетей), но очень чувствителен к выбросам.

#### Золотое правило масштабирования

Параметры для масштабирования (среднее, std, min/max) должны вычисляться **только на обучающей выборке** и затем применяться и к обучающей, и к тестовой выборкам. Это предотвращает **утечку данных (data leakage)**.

```python
# Пример правильного масштабирования
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Далее модель обучается на X_train_scaled и оценивается на X_test_scaled
```

## 3. Линейная регрессия: Глубокое погружение

**Задача:** Предсказать значение непрерывной целевой переменной `y` на основе набора признаков `X`.

### 3.1. Математическая постановка задачи

Пусть у нас есть обучающая выборка из `n` объектов. Для каждого объекта `i` известны `m` признаков $(x_{i1}, x_{i2}, ..., x_{im})$ и значение целевой переменной $y_i$. Мы хотим найти такую функцию $\hat{y} = f(x_1, ..., x_m)$, которая бы наилучшим образом приближала $y$.

В линейной регрессии мы делаем сильное, но очень полезное предположение, что эта зависимость **линейна**:
$$ \hat{y} = w_0 + w_1x_1 + w_2x_2 + ... + w_mx_m $$ 

*   $\hat{y}$ — предсказанное (модельное) значение целевой переменной.
*   $w_0$ — **свободный член (intercept)**, или **смещение (bias)**. Это базовое значение $\hat{y}$, когда все признаки равны нулю.
*   $w_1, ..., w_m$ — **веса (коэффициенты) модели**. Каждый вес $w_j$ показывает, на сколько в среднем изменится $\hat{y}$ при увеличении признака $x_j$ на единицу, **при условии, что все остальные признаки остаются неизменными**.

В векторной форме это записывается компактнее. Если мы добавим к нашим признакам фиктивный признак $x_0=1$, то формула примет вид:
$$ \hat{y} = \sum_{j=0}^{m} w_j x_j = w^T x $$

А для всей выборки сразу:
$$ \hat{Y} = Xw $$

Сгенерируем синтетические данные для наглядности.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Сгенерируем простые данные для демонстрации
np.random.seed(42)
X_simple = 2 * np.random.rand(100, 1)
y_simple = 4 + 3 * X_simple + np.random.randn(100, 1)

plt.figure(figsize=(10, 6))
plt.scatter(X_simple, y_simple)
plt.title('Пример данных для задачи регрессии')
plt.xlabel('Признак X')
plt.ylabel('Целевая переменная y')
plt.grid(True)
plt.show()

В идеальном мире точки данных лежали бы на одной прямой. Наша задача — предсказать значение Y по новому значению X.

![Идеальная линейная зависимость](https://raw.githubusercontent.com/yuliya-sabirova/ml-course/main/figs/lec6-1.png)

Но в реальности данные всегда содержат "шум". Мы не можем провести линию через все точки, но можем найти такую, которая проходит к ним **ближе всего**.

![Реальные данные с шумом](https://raw.githubusercontent.com/yuliya-sabirova/ml-course/main/figs/lec6-2.png)

### 3.2. Поиск "наилучших" весов: функция потерь и Метод Наименьших Квадратов (МНК)

Как найти "наилучшие" веса $w$? В машинном обучении этот вопрос решается через минимизацию **функции потерь (Loss Function)**. Она измеряет, насколько сильно предсказания модели ($\hat{y}$) отличаются от реальных значений ($y$) на обучающих данных. Задача алгоритма — подобрать такие веса `w`, чтобы значение этой функции было минимальным.

Для классической линейной регрессии основной функцией потерь является **Среднеквадратичная ошибка (Mean Squared Error, MSE)**.

$$ L(w) = MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2  \rightarrow \min_{w} $$

Процесс поиска весов `w`, которые минимизируют MSE, называется **Методом Наименьших Квадратов (МНК)** или **Ordinary Least Squares (OLS)**.

**Почему именно MSE?**
1.  **Дифференцируемость:** MSE — гладкая, дифференцируемая функция, что позволяет легко находить ее минимум с помощью производных.
2.  **Штраф за большие ошибки:** Возведение в квадрат сильно "наказывает" модель за большие промахи.
3.  **Единственный минимум:** MSE является выпуклой функцией, что гарантирует существование единственного глобального минимума, к которому можно сойтись.

Идея МНК — минимизировать общее расстояние между точками и линией. Расстояние от каждой точки до линии — это **ошибка** или **остаток**.

![Ошибки как расстояние до линии](https://raw.githubusercontent.com/yuliya-sabirova/ml-course/main/figs/lec6-3.png)

Чтобы ошибки с разными знаками не компенсировали друг друга, мы возводим их в квадрат. Наша цель — минимизировать сумму площадей этих квадратов.

![Сумма квадратов ошибок](https://raw.githubusercontent.com/yuliya-sabirova/ml-course/main/figs/lec6-4.png)

Продемонстрируем результат работы линейной регрессии

In [None]:
from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(X_simple, y_simple)
w0, w1 = lin_reg.intercept_[0], lin_reg.coef_[0][0]

plt.figure(figsize=(10, 6))
plt.scatter(X_simple, y_simple)
plt.plot(X_simple, lin_reg.predict(X_simple), color='red', linewidth=3, label='Линия регрессии')
plt.title(f'Результат работы линейной регрессии (y = {w0:.2f} + {w1:.2f}x)')
plt.xlabel('Признак X')
plt.ylabel('Целевая переменная y')
plt.legend()
plt.grid(True)
plt.show()

### 3.3. Метрики для оценки качества модели

Модель обучена. Теперь нам нужно понять, хорошая ли она. Для этого используются **метрики качества (Evaluation Metrics)**. В отличие от функции потерь, которая нужна алгоритму для обучения, метрики нужны **человеку для интерпретации** результата.

Оценка производится на данных, которые модель не видела в процессе обучения (тестовых).

1.  **MAE (Mean Absolute Error):** Средняя абсолютная ошибка. 
    $$ MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| $$
    *   **Интерпретация:** "В среднем наша модель ошибается на X единиц". Легко понять и объяснить заказчику.

2.  **RMSE (Root Mean Squared Error):** Корень из среднеквадратичной ошибки. 
    $$ RMSE = \sqrt{MSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2} $$
    *   **Интерпретация:** Самая популярная метрика. Измеряется в тех же единицах, что и целевая переменная, но при этом сильно штрафует за большие ошибки.

3.  **R² (Коэффициент детерминации):** Показывает, какую долю дисперсии целевой переменной `y` способна объяснить наша модель. 
    $$ R^2 = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2} $$
    *   **Интерпретация:** Значение R² от 0 до 1. Чем ближе к 1, тем лучше модель описывает данные. $R^2 = 0.75$ означает, что модель объясняет 75% изменчивости целевой переменной. Является относительной метрикой.
    *   **Важно:** R² — это **только метрика качества**. Ее не используют как функцию потерь.

### 3.4. Сравнение Функции потерь и Метрик качества

Важно четко понимать разницу между этими двумя понятиями.

| Характеристика      | Функция Потерь (Loss Function)                             | Метрика Качества (Evaluation Metric)                             |
| ------------------- | ---------------------------------------------------------- | ---------------------------------------------------------------- |
| **Назначение**      | Руководство процессом **обучения** модели                  | Оценка производительности **обученной** модели                   |
| **Кто "использует"** | **Алгоритм** оптимизации (например, градиентный спуск)     | **Человек** (Data Scientist, заказчик)                           |
| **Ключевое свойство** | Должна быть **дифференцируемой**                           | Должна быть **интерпретируемой** и понятной                      |
| **Когда**            | **Во время** подбора весов (`model.fit()`)                         | **После** обучения, для оценки на новых данных (`model.score()`) |
| **Пример для ЛР**   | **MSE** — удобна для математической оптимизации.           | **RMSE** и **R²** — понятны для оценки бизнес-результата.        |

**Итог:** Алгоритм линейной регрессии **минимизирует MSE** во время обучения. Мы, как люди, **смотрим на RMSE и R²**, чтобы оценить, насколько хорошо обученная модель будет работать в реальной жизни.

### 3.5. Важные допущения линейной регрессии

Чтобы оценки коэффициентов $w$, полученные с помощью МНК, были несмещенными и эффективными, а статистические выводы (доверительные интервалы, p-value) — корректными, должны выполняться несколько допущений:

1.  **Линейность:** Среднее значение целевой переменной линейно зависит от признаков.
2.  **Независимость ошибок:** Остатки $e_i$ должны быть независимы друг от друга.
3.  **Гомоскедастичность (постоянство дисперсии ошибок):** Дисперсия остатков должна быть одинаковой для всех значений признаков.
4.  **Нормальность распределения ошибок:** Остатки $e_i$ должны быть распределены нормально с математическим ожиданием, равным нулю.
5.  **Отсутствие мультиколлинеарности:** Признаки в матрице $X$ не должны сильно коррелировать друг с другом.

На практике эти допущения часто нарушаются, но модель все равно может давать приемлемые по качеству предсказания. Однако для построения надежных и интерпретируемых моделей важно проверять эти условия.

## Заключение по лекции 6

Сегодня мы заложили прочный фундамент для изучения supervised learning:
1.  Увидели, какое место задача регрессии занимает в мире ML.
2.  Поняли, что ML-проект — это структурированный инженерный процесс (CRISP-DM), и осознали важность правильной подготовки данных: разделения на выборки и масштабирования.
3.  Разобрали математику и логику работы линейной регрессии — модели, которая ищет наилучшую линейную зависимость путем минимизации среднеквадратичной ошибки (MSE).
4.  Научились отличать функцию потерь (для машины) от метрик качества (для человека) и познакомились с основными из них: MAE, RMSE и R².

На следующей лекции мы усложним нашу модель, чтобы описывать нелинейные зависимости, и столкнемся с ключевой проблемой машинного обучения — переобучением.