# Введение в машинное обучение

В этом блокноте мы разберём:
- **Что такое машинное обучение** и чем оно отличается от классического программирования.
- **Основные типы задач** (регрессия, классификация, кластеризация).
- **Общий процесс построения модели** (ML-пайплайн).
- Простой пример использования библиотеки `scikit-learn`.

## 1. Что такое машинное обучение

**Машинное обучение (ML)** — это раздел искусственного интеллекта, в котором мы не программируем явные правила, а **обучаем модель на данных**.

Классический подход к программированию:
- У нас есть **правила** (алгоритм, набор `if-else`).
- У нас есть **данные**.
- На выходе мы получаем **ответ**.

Подход машинного обучения:
- У нас есть **данные** и **правильные ответы (разметка)**.
- Мы используем алгоритм обучения, чтобы построить **модель**.
- Получив новую порцию данных, модель **предсказывает ответ**.

Идея: модель **сама находит закономерности** в данных, чтобы обобщать на новые примеры.

## 2. Основные типы задач машинного обучения

В машинном обучении принято выделять несколько базовых типов задач.

### 2.1. Обучение с учителем (Supervised Learning)

Есть **признаки** (характеристики объекта) и **целевая переменная** (то, что мы хотим предсказать).

- **Регрессия** — предсказываем **число**.
  - Примеры: цена квартиры, температура завтра, время доставки.
- **Классификация** — предсказываем **класс/метку**.
  - Примеры: спам/не спам, положительный/отрицательный отзыв, вид цветка.

### 2.2. Обучение без учителя (Unsupervised Learning)

Есть только **признаки**, но нет целевой переменной. Модель ищет структуру в данных.

- **Кластеризация** — разбить объекты на группы (кластеры).
- **Снижение размерности** — упростить данные, оставив главное (например, для визуализации).

### 2.3. Другие типы

- **Обучение с подкреплением (Reinforcement Learning)** — агент действует в среде, получает награду и учится на опыте.

В этом курсе мы будем в основном работать с **классической задачей обучения с учителем** (регрессия и классификация).

## 3. Общий процесс работы над задачей (ML-пайплайн)

Типичный цикл работы с задачей ML выглядит так:

1. **Постановка задачи**
   - Что именно мы хотим предсказывать и зачем?
   - Как это будет использоваться на практике?
2. **Сбор и понимание данных**
   - Откуда берутся данные? Насколько они качественные?
3. **Предобработка данных**
   - Очистка пропусков, выбросов, работа с категориальными признаками, масштабирование.
4. **Разделение на обучающую и тестовую выборки**
   - Чтобы честно оценивать качество модели на невиданных данных.
5. **Выбор и обучение модели**
   - Линейная регрессия, логистическая регрессия, деревья решений и т.д.
6. **Оценка качества модели**
   - Метрики (MAE, MSE, accuracy, F1 и др.).
7. **Улучшение модели**
   - Настройка гиперпараметров, регуляризация, сбор большего количества данных.
8. **Деплой и мониторинг** (в индустрии)
   - Развёртывание модели в продакшене и отслеживание её работы.

В следующих блокнотах мы подробно разберём каждый из этих шагов на примерах.

In [1]:
# 4. Простой пример: предсказание цены на основе одной характеристики

import numpy as np
from sklearn.linear_model import LinearRegression

# Сгенерируем простые искусственные данные
# X — площадь квартиры (в квадратных метрах)
# y — цена квартиры (условные единицы)

X = np.array([[30], [40], [50], [60], [70], [80]])
y = np.array([3.0, 3.5, 4.0, 4.8, 5.2, 6.0])

model = LinearRegression()
model.fit(X, y)

print("Коэффициент наклона (w):", model.coef_[0])
print("Свободный член (b):", model.intercept_)

# Предскажем цену для квартиры в 55 м^2
X_new = np.array([[55]])
pred = model.predict(X_new)
print("Прогноз для 55 м^2:", pred[0])

Коэффициент наклона (w): 0.05971428571428572
Свободный член (b): 1.1323809523809523
Прогноз для 55 м^2: 4.416666666666667


## 5. Задания для самопроверки

**Теоретические вопросы**

1. Сформулируйте своими словами, чем отличается **обучение с учителем** от **обучения без учителя**.
2. Приведите по 2 примера задач **регрессии** и **классификации** из вашей области интересов.
3. Зачем нужно разделять данные на **обучающую** и **тестовую** выборки?
4. Какие шаги включает в себя типичный **ML-пайплайн**?

**Практические упражнения**

1. Измените массив `X` и `y` в примере выше так, чтобы имитировать другую зависимость (например, рост зарплаты от стажа работы). Посмотрите, как изменятся коэффициенты модели.
2. Добавьте ещё несколько точек в обучающие данные и посмотрите, как изменится прогноз.
3. Попробуйте предсказать значение для нескольких разных `X_new` (например, 35, 65, 90) и проинтерпретируйте результаты.

В следующих блокнотах мы подробнее разберём математическую модель линейной регрессии, работу с реальными данными и оценку качества моделей.

### Решения: теоретические ответы

1. **Обучение с учителем** — у нас есть размеченные данные (признаки + правильные ответы). Модель учится предсказывать целевую переменную. **Обучение без учителя** — есть только признаки, целевой переменной нет; модель ищет структуру в данных (кластеры, закономерности).

2. **Регрессия**: прогноз уровня глюкозы по признакам пациента; прогноз длительности лечения. **Классификация**: диагноз (здоров/болен); тип опухоли (доброкачественная/злокачественная).

3. Разделение нужно, чтобы **честно оценить обобщающую способность** модели: на тестовой выборке модель видит «новые» данные, которые не использовались при обучении. Иначе мы можем переоценить качество (переобучение).

4. ML-пайплайн: постановка задачи → сбор и понимание данных → предобработка → разбиение на train/test → выбор и обучение модели → оценка качества → улучшение (гиперпараметры, регуляризация) → при необходимости деплой и мониторинг.

In [2]:
# Решения: практические упражнения
# 1. Зависимость зарплаты от стажа (годы → усл. ед.)
import numpy as np
from sklearn.linear_model import LinearRegression

X = np.array([[1], [3], [5], [7], [10], [12]])   # стаж, лет
y = np.array([40, 55, 65, 78, 95, 110])          # зарплата, усл. ед.

model = LinearRegression()
model.fit(X, y)
print("Коэффициент (прирост зарплаты за год):", model.coef_[0])
print("Свободный член:", model.intercept_)

# 2. Добавляем точки и предсказываем для 35, 65, 90
X_ext = np.array([[1], [3], [5], [7], [10], [12], [15], [20]])
y_ext = np.array([40, 55, 65, 78, 95, 110, 125, 150])
model.fit(X_ext, y_ext)

X_new = np.array([[35], [65], [90]])
pred = model.predict(X_new)
print("\nПрогнозы для стажа 35, 65, 90 лет:", pred)
print("(Экстраполяция за пределами данных — интерпретировать осторожно.)")

Коэффициент (прирост зарплаты за год): 6.187022900763358
Свободный член: 34.648854961832065

Прогнозы для стажа 35, 65, 90 лет: [240.30980392 414.87189542 560.34030501]
(Экстраполяция за пределами данных — интерпретировать осторожно.)
