# Классификация для аналитика

В этом ноутбуке мы разберём:
1. Логистическую регрессию
2. Деревья решений
3. Случайный лес (Random Forest)
4. Метрики качества (accuracy, precision, recall, F1, ROC-AUC)
5. Пример на синтетических и реальных данных

## 1. Что такое классификация
Классификация — это задача машинного обучения, в которой мы предсказываем категорию объекта.

**Примеры задач:**
- Определить, купит ли клиент товар (да/нет)
- Определить, спам ли письмо (да/нет)
- Классификация изображений (кот/собака)

В отличие от регрессии, мы предсказываем **метки классов**, а не числа.

## 2. Логистическая регрессия
Это простая и быстрая модель для бинарной классификации.

Идея: вместо того чтобы предсказывать число, модель оценивает вероятность принадлежности к классу, используя **логистическую функцию (сигмоиду)**:

$$
\sigma(z) = \frac{1}{1 + e^{-z}}
$$

Если вероятность > 0.5 — присваиваем класс 1, иначе 0.

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Синтетические данные
df = pd.DataFrame({
    'age': [22, 25, 47, 52, 46, 56],
    'salary': [20000, 30000, 40000, 50000, 60000, 80000],
    'bought': [0, 0, 1, 1, 1, 1]
})

X = df[['age', 'salary']]
y = df['bought']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

model = LogisticRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

print('Accuracy:', accuracy_score(y_test, y_pred))

Accuracy: 1.0


## 3. Деревья решений
Модель строит дерево, где в каждой вершине — проверка условия, а на концах — предсказание.

**Плюсы:**
- Легко интерпретировать
- Работает с числовыми и категориальными признаками

**Минусы:**
- Может переобучаться на шумных данных

In [4]:
from sklearn.tree import DecisionTreeClassifier

tree_model = DecisionTreeClassifier(max_depth=3, random_state=42)
tree_model.fit(X_train, y_train)

y_pred_tree = tree_model.predict(X_test)
print('Accuracy (Tree):', accuracy_score(y_test, y_pred_tree))

Accuracy (Tree): 1.0


## 4. Случайный лес (Random Forest)
Это ансамблевая модель: строит много деревьев и усредняет их прогнозы.

**Плюсы:**
- Уменьшает переобучение
- Хорошо работает «из коробки»

**Минусы:**
- Медленнее, чем одно дерево

In [5]:
from sklearn.ensemble import RandomForestClassifier

rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

y_pred_rf = rf_model.predict(X_test)
print('Accuracy (Random Forest):', accuracy_score(y_test, y_pred_rf))

Accuracy (Random Forest): 1.0


## 5. Метрики классификации
- **Accuracy** — доля правильных предсказаний.
- **Precision** — точность: доля верных положительных среди всех предсказанных положительных.
- **Recall** — полнота: доля верных положительных среди всех реальных положительных.
- **F1-score** — гармоническое среднее Precision и Recall.
- **ROC-AUC** — площадь под ROC-кривой, измеряет качество ранжирования.

In [6]:
from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score

print('Precision:', precision_score(y_test, y_pred_rf))
print('Recall:', recall_score(y_test, y_pred_rf))
print('F1:', f1_score(y_test, y_pred_rf))

# Для ROC-AUC нужно получить вероятности
y_proba_rf = rf_model.predict_proba(X_test)[:, 1]
print('ROC-AUC:', roc_auc_score(y_test, y_proba_rf))

Precision: 1.0
Recall: 1.0
F1: 1.0
ROC-AUC: 1.0


## 6. Пример на реальных данных (Iris dataset)
Классическая задача — определить вид цветка по его размерам.

In [7]:
from sklearn.datasets import load_iris

iris = load_iris()
X_iris = iris.data
y_iris = iris.target

X_train_i, X_test_i, y_train_i, y_test_i = train_test_split(X_iris, y_iris, test_size=0.3, random_state=42)

rf_model_iris = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model_iris.fit(X_train_i, y_train_i)

y_pred_iris = rf_model_iris.predict(X_test_i)
print('Accuracy (Iris):', accuracy_score(y_test_i, y_pred_iris))

Accuracy (Iris): 1.0


## Задания для практики
1. Объясните разницу между логистической регрессией и деревом решений.
2. Постройте модель логистической регрессии на своём датасете.
3. Вычислите Precision, Recall и F1-score для своей модели.
4. Постройте случайный лес и сравните метрики с логистической регрессией.
5. Нарисуйте ROC-кривую для своей модели.