# Гиперпараметры логистической регрессии

Этот документ объясняет **основные гиперпараметры логистической регрессии**:
- что они означают формально,
- как они влияют на модель,
- как их **выбирать на практике**,
- и как это объяснить простыми словами.

---

## Что такое гиперпараметры

**Гиперпараметры** — это настройки модели, которые:
- задаются **до обучения**,
- не обучаются из данных,
- определяют *поведение* алгоритма.

В логистической регрессии гиперпараметры управляют:
- силой регуляризации,
- типом штрафа,
- способом оптимизации,
- балансом классов,
- критериями остановки.

---

## Основные гиперпараметры логистической регрессии

Ниже рассмотрены **7 ключевых гиперпараметров**, которые используются чаще всего.

---

## 1. `C` — сила регуляризации

### Формально

`C` — это **обратная величина коэффициента регуляризации**.

- Малое `C` → сильная регуляризация  
- Большое `C` → слабая регуляризация

Регуляризация ограничивает величины весов модели, снижая риск переобучения.

### Понятно

`C` отвечает за вопрос:

> **Насколько модели можно "доверять данным"?**

- маленькое `C` → модель осторожная, простая  
- большое `C` → модель старается подогнаться под данные

### Практика

- Подбирается **по логарифмической шкале**
- Типичные значения:

0.001, 0.01, 0.1, 1, 10, 100


---

## 2. `penalty` — тип регуляризации

### Формально

Определяет **форму штрафа**, накладываемого на веса модели.

Основные варианты:
- `l1` — Lasso
- `l2` — Ridge

### Понятно

- `l1`:
  - может занулять веса
  - автоматически выбирает признаки
- `l2`:
  - уменьшает веса, но не зануляет
  - более стабильна

### Практика

- `l2` — безопасный стандарт
- `l1` — когда много признаков и нужен отбор

---

## 3. `solver` — алгоритм оптимизации

### Формально

Определяет метод численной оптимизации функции потерь.

Популярные solvers:

| Solver | Особенности |
|------|------------|
| `liblinear` | Малые датасеты, поддержка `l1` |
| `lbfgs` | Быстрый, только `l2` |
| `saga` | Большие данные, `l1` и `l2` |

### Понятно

Solver — это **как именно модель ищет лучшие веса**.

### Практика

- `liblinear` — бинарная классификация, `l1`
- `lbfgs` — стандарт по умолчанию
- `saga` — большие данные

---

## 4. `class_weight` — веса классов

### Формально

Позволяет изменить вклад объектов разных классов в функцию потерь.

- `None` — все классы равны
- `balanced` — веса обратно пропорциональны частотам классов

### Понятно

Если один класс встречается редко, модель может его игнорировать.  
`class_weight` говорит модели:

> **Ошибаться на редком классе — плохо**

### Практика

- Несбалансированные данные → `balanced`
- Сбалансированные → `None`

---

## 5. `max_iter` — максимальное число итераций

### Формально

Максимальное количество шагов оптимизации.

Если модель не сошлась — появится предупреждение.

### Понятно

Это **лимит времени обучения**, выраженный в шагах.

### Практика

- Обычно: `100–300`
- Если есть предупреждение — увеличить

---

## 6. `tol` — точность остановки

### Формально

Порог изменения функции потерь, при котором оптимизация считается завершённой.

### Понятно

Отвечает на вопрос:

> **Когда можно остановиться и сказать “достаточно точно”?**

### Практика

- Большой `tol` → быстрее, грубее
- Малый `tol` → медленнее, точнее

Типично:
1e-3 или 1e-4



---

## 7. `fit_intercept` — свободный член

### Формально

Определяет, добавляется ли константа (bias) в модель.

### Понятно

Почти всегда нужен.

### Практика

- Оставлять `True`
- Менять только в редких теоретических случаях

---

## Как выбирать гиперпараметры на практике

### Рекомендуемый порядок

1. Выбрать `penalty`
2. Подобрать `C`
3. Проверить `class_weight`
4. Убедиться, что `solver` совместим
5. Настроить `max_iter`, `tol`

### Главное правило

> **Гиперпараметры всегда подбираются по кросс-валидации**

Никогда:
- по тесту
- по одному разбиению

---

## Краткая таблица

| Параметр | Что делает |
|-------|-----------|
| `C` | Контролирует переобучение |
| `penalty` | Тип регуляризации |
| `solver` | Алгоритм оптимизации |
| `class_weight` | Баланс классов |
| `max_iter` | Лимит обучения |
| `tol` | Точность |
| `fit_intercept` | Свободный член |

---

## Итог

Логистическая регрессия — **простая, но гибкая модель**.  
Правильная настройка гиперпараметров:
- уменьшает переобучение,
- повышает качество,
- делает модель устойчивой.

Самые важные параметры — **`C`, `penalty`, `class_weight`**.  
Остальные — технические, но тоже важны.

