# Основы машинного обучения для аналитика

В этом ноутбуке мы разберём базовые шаги, которые нужны для первой модели машинного обучения.

Мы пройдём через:
1. Постановку задачи
2. Разделение данных на Train/Test
3. Кодирование категориальных признаков
4. Масштабирование данных
5. Оценку качества модели

## 1. Постановка задачи ML
Машинное обучение — это когда мы строим алгоритм, который учится на данных и потом может делать прогнозы.

**Типы задач:**
- **Классификация** — предсказываем категорию (например, 'купит' или 'не купит').
- **Регрессия** — предсказываем число (например, цену квартиры).

Для примера мы будем решать задачу **классификации** — предсказывать, купит ли клиент товар.

In [None]:
import pandas as pd

# Создадим небольшой пример данных
df = pd.DataFrame({
    'city': ['Moscow', 'SPB', 'Moscow', 'Kazan'],
    'age': [25, 32, 47, 51],
    'bought': [1, 0, 1, 0]
})

df

## 2. Разделение данных на Train/Test
Мы делим данные на:
- **Train** (обучающая выборка) — модель учится на этих данных.
- **Test** (тестовая выборка) — проверяем, как модель работает на новых данных.

Это нужно, чтобы понять, сможет ли модель обобщать знания, а не просто запоминать.

In [None]:
from sklearn.model_selection import train_test_split

# Признаки и целевая переменная
X = df[['city', 'age']]
y = df['bought']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

X_train, X_test

## 3. Кодирование категориальных признаков
Модели не умеют работать с текстом напрямую, поэтому нужно перевести категории в числа.

Мы используем **One-Hot Encoding**: создаём отдельный столбец для каждой категории.

In [None]:
from sklearn.preprocessing import OneHotEncoder

ohe = OneHotEncoder(sparse=False)
X_train_encoded = ohe.fit_transform(X_train[['city']])
X_test_encoded = ohe.transform(X_test[['city']])

X_train_encoded

## 4. Масштабирование данных
Некоторые модели чувствительны к диапазону значений признаков.
Масштабирование помогает привести их к одному масштабу.

Мы используем **StandardScaler** — приводим данные к среднему 0 и стандартному отклонению 1.

In [None]:
from sklearn.preprocessing import StandardScaler
import numpy as np

# Объединим закодированные города и числовые признаки
X_train_full = np.hstack([X_train_encoded, X_train[['age']].values])
X_test_full = np.hstack([X_test_encoded, X_test[['age']].values])

# Масштабируем
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train_full)
X_test_scaled = scaler.transform(X_test_full)

X_train_scaled

## 5. Обучение модели и оценка качества
Мы используем **Логистическую регрессию** для задачи классификации.

Оценим качество по метрике **Accuracy** (доля правильных ответов).

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Обучение модели
model = LogisticRegression()
model.fit(X_train_scaled, y_train)

# Предсказания
y_pred = model.predict(X_test_scaled)

# Оценка качества
print('Accuracy:', accuracy_score(y_test, y_pred))

## Задания для практики
1. Объясните разницу между классификацией и регрессией на своих примерах.
2. Загрузите свой датасет и разделите на Train/Test.
3. Примените One-Hot Encoding к любому категориальному признаку.
4. Масштабируйте данные с помощью MinMaxScaler и сравните с StandardScaler.
5. Обучите модель и посчитайте метрику F1-score.