# Лекция 1: Введение в Машинное Обучение

**Курс:** Введение в машинное обучение

---

### Цели лекции

Сформировать целостную картину дисциплины и ответить на три ключевых вопроса:

1.  **Что** такое машинное обучение с интуитивной, исторической и математической точек зрения?
2.  **Зачем** оно нужно и какие реальные задачи решает?
3.  **Как** устроен типовой проект в области машинного обучения и какова наша дорожная карта в рамках курса?

Эта лекция — это "карта местности", которая поможет вам сориентироваться в мире Data Science и понять, для чего мы будем изучать различные инструменты в ближайшие недели.

## 1. Что такое Машинное Обучение?

Каждый день вы сталкиваетесь с десятками систем, в основе которых лежит машинное обучение. Netflix рекомендует вам фильм, почтовый клиент отправляет письмо в спам, ваш телефон узнает вас в лицо, а навигатор строит оптимальный маршрут. 

В классическом программировании мы пишем четкий набор правил (алгоритм), по которым компьютер решает задачу. Но что если правил слишком много или мы сами не можем их сформулировать? Как, например, написать правила для отличения кошки от собаки на фото?

> **Основная идея машинного обучения (ML) проста:** вместо того чтобы программист писал миллионы жестких правил вручную (`if-then-else`), мы показываем компьютеру тысячи примеров, и он **сам находит в данных скрытые закономерности**.

### Краткая история и определения

Хотя бум ML пришелся на последнее десятилетие, сама идея не нова. 

*   **1959 год, Артур Сэмюэл**, пионер в области ИИ, работая над программой для игры в шашки, дал классическое определение:
    > *"Машинное обучение — это область исследований, дающая компьютерам способность обучаться без явного программирования".*
    Его программа, играя сама с собой тысячи партий, становилась сильнее любого человека.

*   **1997 год, Том Митчелл**, дал более формальное, современное определение:
    > *"Говорят, что компьютерная программа обучается на основе **опыта E** при решении некоторой **задачи T**, если ее производительность **P** при решении этой задачи, измеренная на основе E, улучшается с получением опыта E".*
    *   **Задача (T):** Игра в шашки.
    *   **Опыт (E):** Тысячи партий, сыгранных программой.
    *   **Производительность (P):** Процент выигранных партий.

## 2. Жизненный цикл проекта в ML

Прежде чем погружаться в алгоритмы, важно понимать, из каких этапов состоит работа над ML-проектом. Все начинается с реального мира и заканчивается прикладным решением.

```mermaid
graph TD;
    A[Реальный мир] --> B(Сбор сырых данных);
    B --> C(Обработка и хранение);
    subgraph Data Engineering
        B; C;
    end
    C --> D(Очистка и структурирование);
    D --> E(Исследовательский анализ данных, EDA);
    subgraph Data Analysis
       D; E;
    end
    E --> F(Построение моделей ML);
    subgraph Data Science / ML Engineering
        F
    end
    F --> G[Продукт на основе данных];
    F --> H[Аналитические отчеты и дашборды];
    G --> A;
    H --> A;

```

1.  **Data Engineering:** Этап сбора и подготовки "топлива" для наших моделей. Это работа с базами данных, сенсорами, логами. 
2.  **Data Analysis:** Этап, на котором аналитики и ученые по данным пытаются понять данные: очищают от мусора, ищут аномалии, строят визуализации, чтобы нащупать первые гипотезы.
3.  **Machine Learning:** На основе подготовленных данных создается и обучается предсказательная модель. 
4.  **Внедрение:** Модель встраивается в продукт (например, в мобильное приложение) или ее результаты используются для принятия бизнес-решений (например, через отчеты).

Наш курс сфокусирован на этапах **Data Analysis** и **Machine Learning**.

## 3. Язык Машинного Обучения: Основные понятия

Теперь переведем интуицию на более строгий язык. Сначала на уровне терминов, а затем — математики. Возьмем простой пример: мы хотим научиться предсказывать цену квартиры.

| Термин | Описание | Пример (прогноз цены квартиры) |
|:---|:---|:---|
| **Объект (`x`)** | Сущность, которую мы изучаем и для которой делаем предсказание. | Конкретная квартира |
| **Признаки (`features`)**| Измеримые характеристики объекта, представленные в виде вектора. | `(Площадь, Число комнат, Этаж, Расстояние до метро)` |
| **Ответ (`y`)** | Целевая переменная, которую мы хотим предсказать. | Цена квартиры |
| **Обучающая выборка**| Набор данных `{x_i, y_i}`, где для множества объектов известны их признаки и правильные ответы. | Таблица с данными по 1000 проданным квартирам с их характеристиками и ценами |

### Оптимизационная постановка задачи машинного обучения

Теперь формализуем задачу обучения математически. Этот слайд является фундаментом для всех алгоритмов, которые мы будем изучать. 

**Дано:**
*   $X$ — пространство объектов (описываются признаками).
*   $Y$ — множество допустимых ответов (цены, классы, etc.).
*   Существует неизвестная целевая зависимость $y(x): X \to Y$. Мы не знаем ее вида, но у нас есть ее проявления на конкретных примерах.
*   Обучающая выборка (training sample) $\{x_1, \dots, x_\ell\} \subset X$ — это конечное число объектов, для которых нам известны правильные ответы.
*   Мы выдвигаем гипотезу о виде зависимости, выбирая **параметрическую модель** $a(x, w)$, где $w$ — это вектор настраиваемых параметров (весов).

**Найти:**
*   Такой вектор параметров $w$, чтобы наша модель $a(x, w)$ была как можно ближе к истинной зависимости $y(x)$.

**Критерий (Как найти?):**
*   Мы вводим **функцию потерь (loss function)** $L(w, x)$, которая показывает, насколько сильно наш алгоритм ошибся на одном объекте $x$. Чем больше отклонение $a(x, w)$ от правильного ответа $y(x)$, тем больше значение $L$.
*   Мы минимизируем **эмпирический риск** — среднюю ошибку на всех объектах обучающей выборки:
$$ \sum_{i=1}^{\ell} L(w, x_i) \to \min_{w} $$

> **Простыми словами:** Обучение модели — это оптимизационная задача. Мы ищем такие параметры `w`, при которых суммарный штраф за ошибки на обучающих данных минимален.

### Типы задач в ML

В зависимости от того, как выглядит множество ответов $Y$, задачи делятся на несколько основных типов:

#### Обучение с учителем (Supervised Learning)
У нас есть "учитель" — обучающая выборка с известными правильными ответами.

*   **Задача Классификации:** Ответы $y$ — это метки из конечного набора (классы). Например, $Y = \{	ext{да}, \text{нет}\}$ или $Y = \{	ext{кошка}, \text{собака}, \text{птица}\}$.
*   **Задача Регрессии:** Ответ $y$ — это действительное число. Например, $Y = \mathbb{R}$.

#### Обучение без учителя (Unsupervised Learning)
"Правильных ответов" нет, есть только объекты $x_i$.

*   **Задача Кластеризации:** Нужно сгруппировать похожие объекты вместе, не зная заранее, что это за группы.

Существуют и другие, более сложные типы, например, обучение с подкреплением (Reinforcement Learning), но в рамках нашего курса мы сосредоточимся на этих трех.

### Примеры прикладных задач

1.  **Задача классификации: Кредитный скоринг**
    *   **Объект:** Заёмщик, подающий заявку на кредит.
    *   **Признаки:** Возраст, доход, стаж работы, образование, наличие других кредитов.
    *   **Ответ (класс):** Вернет кредит ("хороший" клиент) или не вернет ("плохой" клиент).
    *   **Цель:** Построить модель, которая автоматически одобряет или отклоняет заявки, минимизируя риски банка.

2.  **Задача регрессии: Прогнозирование потребительского спроса**
    *   **Объект:** Конкретный товар в конкретном магазине.
    *   **Признаки:** День недели, цена товара, наличие промо-акций, сезон, погода.
    *   **Ответ (число):** Количество проданных единиц товара за следующий день.
    *   **Цель:** Оптимизировать закупки и логистику, чтобы на полках не было дефицита или излишков.

3.  **Задача кластеризации: Сегментация клиентов**
    *   **Объект:** Клиент телекоммуникационной компании.
    *   **Признаки:** Как часто звонит, сколько тратит на интернет, какими доп. услугами пользуется, как давно является клиентом.
    *   **Ответ:** Неизвестен.
    *   **Цель:** Разделить всех клиентов на группы (сегменты) со схожим поведением, чтобы затем предложить каждой группе персонализированные тарифы или акции.

## 4. Главная проблема: Переобучение (Overfitting)

> **Аналогия:** Представьте студента, который готовится к экзамену. Он может понять общие принципы решения задач, а может просто зазубрить ответы на 50 билетов, которые ему дали для подготовки. На этих 50 билетах он покажет блестящий результат. Но что будет, если на экзамене ему дадут 51-й билет с немного измененным условием? Он провалится.

С моделями машинного обучения происходит то же самое. Слишком сложная модель вместо поиска **общих закономерностей** просто "зазубривает" обучающие данные со всеми их случайными шумами. Такая модель будет идеально работать на обучающей выборке, но абсолютно бесполезна на новых данных.

### Как бороться с переобучением?

Решение простое: мы никогда не проверяем качество нашей модели на тех же данных, на которых ее обучали.

**Стандартный подход:** Вся наша исходная база данных делится на две (или три) части:

1.  **Обучающая выборка (Train set):** Используется для подбора параметров модели $w$ (т.е. для минимизации эмпирического риска).
2.  **Тестовая выборка (Test set):** Используется для финальной, честной оценки качества модели. Эти данные модель "видит" в первый раз.

> **Ключевой тезис:** Истинное качество модели определяется ее **обобщающей способностью**, то есть умением хорошо работать на новых, невиданных ранее данных.

## 5. Наш План Действий: Структура Курса

Теперь, когда у нас есть общая картина, давайте посмотрим, как будет построен наш курс. Он состоит из двух больших логических блоков.

### Модуль 1: Инструментарий (Первые 5 тем)

Чтобы строить ML-модели, нам нужен мощный и удобный "рабочий стол". Таким столом для нас будет язык **Python** и его ключевые библиотеки для анализа данных. Мы посвятим первые недели тому, чтобы освоить:

*   **Python & Jupyter:** Основы синтаксиса и интерактивная среда.
*   **NumPy:** Для быстрых математических (векторных) вычислений.
*   **Pandas:** Для работы с табличными данными (наши "обучающие выборки").
*   **Matplotlib / Seaborn:** Чтобы "видеть" данные и строить графики для исследовательского анализа.

Это необходимый фундамент, без которого невозможно двигаться дальше.

### Модули 2 и 3: Алгоритмы и Методы Машинного Обучения

Освоив инструментарий, мы перейдем к изучению самих моделей, от простых к сложным:

*   **Линейные модели** (Линейная и Логистическая регрессия)
*   **Метрики качества и методы оценки моделей** (Кросс-валидация)
*   **Подготовка данных** (Инженерия признаков)
*   **Метрические методы** (k-Ближайших Соседей)
*   **Продвинутые методы:** SVM, Деревья решений, Ансамбли (Random Forest)
*   **Обучение без учителя** (Кластеризация K-Means)


### Резюме и следующие шаги

*   **Что мы узнали сегодня:**
    *   Машинное обучение — это поиск закономерностей в данных для построения предсказательных моделей.
    *   Обучение — это задача оптимизации, где мы минимизируем суммарную ошибку (эмпирический риск).
    *   Основные типы задач: классификация, регрессия и кластеризация.
    *   Ключевая проблема в ML — это переобучение, и для борьбы с ним данные делят на обучающую и тестовую выборки.

*   **Что дальше?**
    *   На **сегодняшнем семинаре и лабораторной работе** мы настроим рабочее окружение (Jupyter Notebook) и начнем погружение в основы Python — наш главный рабочий инструмент.