<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/NLP/NLP-2025/Lecture_3_%D0%9A%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D1%8F.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Раздел  1. Бинарная классификация: теоретические основы и практическая реализация

## I. Введение в Бинарную Классификацию:  

## 1.1. Постановка задачи бинарной классификации

Бинарная классификация представляет собой фундаментальную задачу машинного обучения, заключающуюся в отнесении наблюдений к одному из двух возможных классов. Формально, задача ставится следующим образом: дано множество объектов $X \subseteq \mathbb{R}^n$ и множество меток $Y = \{0, 1\}$, требуется построить функцию $f: X \rightarrow Y$, минимизирующую заданную функцию потерь на тестовом множестве.

Практическая значимость бинарной классификации обусловлена широким спектром приложений в различных областях:

- В банковской сфере: принятие решений по кредитным заявкам (одобрение/отклонение);
- В медицинской диагностике: выявление заболеваний (наличие/отсутствие патологии);
- В системах обработки электронной почты: фильтрация спама (спам/не спам);
- В анализе клиентских отзывов: оценка удовлетворенности (положительный/отрицательный отзыв).

Универсальность данной задачи, в сочетании с относительной простотой интерпретации результатов, делает бинарную классификацию естественной отправной точкой для изучения методов машинного обучения, особенно в контексте обработки естественного языка (Natural Language Processing, NLP).

В рамках настоящего курса мы начнем с рассмотрения практической задачи — анализа тональности текстов (sentiment analysis), представляющей собой классификацию текстовых отзывов на положительные и отрицательные.

---

## 1.2. Практическая реализация: анализ тональности на русском языке

### 1.2.1. Обучающий датасет

Для демонстрации принципов обработки текстовых данных рассмотрим учебный датасет, представленный в таблице 1.1.

**Таблица 1.1**  
Учебный датасет для анализа тональности

| Текст                                                                 | Метка |
|----------------------------------------------------------------------|-------|
| Отличный фильм! Восхитительная игра актёров и захватывающий сюжет.   | 1     |
| Ужасный сервис. Потерял деньги и время, больше не обращусь.           | 0     |
| Очень вкусно и быстро! Обязательно закажу снова.                     | 1     |
| Заказ не привезли, связь с поддержкой отсутствует.                   | 0     |
| Чисто, уютно, персонал вежливый — всё на высшем уровне.              | 1     |
| Товар пришёл сломанным, возврат невозможен.                          | 0     |

Метка `1` соответствует положительному отзыву, метка `0` — отрицательному. Данный датасет, несмотря на небольшой размер, демонстрирует ключевые аспекты обработки текстов для задач классификации.

### 1.2.2. Пошаговая реализация без использования Pipeline

Для глубокого понимания процесса обработки текстовых данных рассмотрим реализацию классификации без применения высокоуровневых инструментов. Код 1.1 демонстрирует последовательное выполнение всех этапов предобработки и обучения модели.

**Код 1.1**  
Пошаговая реализация бинарной классификации без Pipeline

```python
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
import numpy as np

# Обучающая выборка
texts = [
    "Отличный фильм! Восхитительная игра актёров и захватывающий сюжет.",
    "Ужасный сервис. Потерял деньги и время, больше не обращусь.",
    "Очень вкусно и быстро! Обязательно закажу снова.",
    "Заказ не привезли, связь с поддержкой отсутствует.",
    "Чисто, уютно, персонал вежливый — всё на высшем уровне.",
    "Товар пришёл сломанным, возврат невозможен."
]
labels = np.array([1, 0, 1, 0, 1, 0])

# Шаг 1: Векторизация текстов с помощью TF-IDF
vectorizer = TfidfVectorizer(max_features=50)
X_train_tfidf = vectorizer.fit_transform(texts)

# Шаг 2: Обучение классификатора
classifier = LogisticRegression()
classifier.fit(X_train_tfidf, labels)

# Шаг 3: Предобработка нового текста
new_text = ["Всё отлично, рекомендую!"]
X_new_tfidf = vectorizer.transform(new_text)

# Шаг 4: Предсказание метки
prediction = classifier.predict(X_new_tfidf)
print("Предсказание (пошагово):", prediction[0])
```

**Пояснение ключевых параметров:**

Параметр `max_features=50` в классе `TfidfVectorizer` определяет максимальное количество признаков (терминов), которые будут использоваться для представления текстовых данных. Данный параметр решает следующие задачи:
1. Ограничение размерности признакового пространства для снижения вычислительной сложности;
2. Исключение редких и малоинформативных терминов, которые могут вносить шум в модель;
3. Предотвращение переобучения при малом объеме обучающих данных.

Подбор оптимального значения `max_features` осуществляется следующим образом:
- Для учебных примеров и небольших датасетов рекомендуется использовать значения в диапазоне 10-100;
- Для реальных задач с большим объемом данных оптимальное значение определяется методом кросс-валидации при фиксированных других гиперпараметрах модели;
- В качестве начального приближения может использоваться правило: $max\_features = \min(1000, 0.1 \times N_{terms})$, где $N_{terms}$ — общее количество уникальных терминов в корпусе.

**Критически важное замечание:** при обработке новых данных необходимо использовать метод `transform()`, а не `fit_transform()`, поскольку последний приведет к перестроению словаря терминов и несовместимости признакового пространства с обучающей выборкой. Данная ошибка является типичной для начинающих специалистов и приводит к некорректной работе модели.

### 1.2.3. Реализация с использованием Pipeline

Для обеспечения воспроизводимости и исключения операционных ошибок рекомендуется использовать класс `Pipeline` из библиотеки scikit-learn. Код 1.2 демонстрирует реализацию с применением данного подхода.

**Код 1.2**  
Реализация бинарной классификации с использованием Pipeline

```python
from sklearn.pipeline import Pipeline

# Создание пайплайна обработки данных и обучения модели
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer(max_features=50)),
    ('clf', LogisticRegression())
])

# Обучение модели
pipeline.fit(texts, labels)

# Предсказание для нового текста
new = ["Всё отлично, рекомендую!"]
print("Предсказание (через Pipeline):", pipeline.predict(new)[0])
```

**Структура Pipeline:**
- Элемент `('tfidf', TfidfVectorizer(max_features=50))` определяет первый этап обработки — векторизацию текстов с ограничением количества признаков;
- Элемент `('clf', LogisticRegression())` задает второй этап — обучение классификатора. Идентификатор `'clf'` (сокращение от "classifier") является произвольной строкой, служащей для внутренней идентификации компонента в пайплайне и доступа к его параметрам.

Преимущества использования `Pipeline`:
1. Автоматическое применение одинаковых преобразований к обучающим и тестовым данным;
2. Исключение ошибок, связанных с несогласованностью признаковых пространств;
3. Упрощение процесса кросс-валидации и подбора гиперпараметров;
4. Повышение воспроизводимости результатов.

Данный подход соответствует стандартной парадигме обработки текстовых данных в NLP: последовательное преобразование "текст → числовые признаки → предсказание класса". Даже на ограниченном датасете модель способна выявлять значимые закономерности: термины "отличный", "восхитительная", "вкусно" коррелируют с положительными отзывами, в то время как "ужасный", "сломанным", "не привезли" — с отрицательными.

---

## 1.3. Теоретические основы бинарной классификации

### 1.3.1. Математическая модель логистической регрессии

Несмотря на название, логистическая регрессия является методом бинарной классификации, а не регрессионного анализа. Модель предсказывает вероятность принадлежности объекта к положительному классу, а не сам класс напрямую.

**Математическая формулировка:**

Пусть задан объект $\mathbf{x} \in \mathbb{R}^d$, где $d$ — размерность признакового пространства. Линейная комбинация признаков определяется как:
$$
z = \mathbf{w}^T \mathbf{x} + b
$$
где $\mathbf{w} \in \mathbb{R}^d$ — вектор весов, $b \in \mathbb{R}$ — смещение.

Прямое использование данной линейной функции для классификации невозможно, поскольку её значения не ограничены интервалом $[0, 1]$, необходимым для интерпретации в качестве вероятности. Для решения этой проблемы применяется сигмоидальная (логистическая) функция:
$$
P(y=1|\mathbf{x}) = \sigma(z) = \frac{1}{1 + e^{-z}} = \frac{1}{1 + e^{-(\mathbf{w}^T \mathbf{x} + b)}}
$$

Свойства сигмоидальной функции:
- $\lim_{z \to -\infty} \sigma(z) = 0$
- $\sigma(0) = 0.5$
- $\lim_{z \to +\infty} \sigma(z) = 1$
- Функция дифференцируема на всей области определения

Таким образом, логистическая регрессия сохраняет линейную структуру по параметрам, но применяется к логарифму шансов (log-odds):
$$
\log\left(\frac{P(y=1|\mathbf{x})}{1-P(y=1|\mathbf{x})}\right) = \mathbf{w}^T \mathbf{x} + b
$$

**Код 1.3**  
Реализация сигмоидальной функции на Python

```python
import numpy as np

def sigmoid(z):
    """Вычисление сигмоидальной функции"""
    return 1 / (1 + np.exp(-z))

# Проверка свойств функции
z_values = np.array([-5.0, 0.0, 5.0])
probabilities = sigmoid(z_values)

print(f"Входные значения Z (Log-Odds): {z_values}")
print(f"Выходные вероятности P: {probabilities}")
# Результат: [0.0067 0.5000 0.9933]
```

### 1.3.2. Функция потерь и обучение модели

Процесс обучения логистической регрессии заключается в нахождении оптимальных значений параметров $\mathbf{w}$ и $b$, минимизирующих функцию потерь на обучающей выборке.

**Некорректность использования MSE:**
Среднеквадратичная ошибка (Mean Squared Error, MSE) не подходит для обучения логистической регрессии, поскольку композиция MSE с сигмоидальной функцией создает невыпуклую функцию потерь с множеством локальных минимумов, что затрудняет нахождение глобального оптимума.

**Бинарная кросс-энтропия (Log Loss):**
Для обучения логистической регрессии используется функция потерь бинарной кросс-энтропии:
$$
\mathcal{L}(\mathbf{w}, b) = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log(p_i) + (1 - y_i) \log(1 - p_i) \right]
$$
где:
- $y_i \in \{0, 1\}$ — истинная метка $i$-го объекта,
- $p_i = P(y_i=1|\mathbf{x}_i)$ — предсказанная вероятность,
- $N$ — размер обучающей выборки.

Свойства функции бинарной кросс-энтропии:
1. Строгая выпуклость относительно параметров модели, гарантирующая единственность глобального минимума;
2. Линейное штрафование за ошибки при низкой уверенности и экспоненциальное — при высокой уверенности в неверном предсказании;
3. Эквивалентность максимизации логарифма функции правдоподобия в статистической интерпретации.

Минимизация данной функции потерь осуществляется с использованием методов градиентного спуска или его модификаций (L-BFGS, SGD), встроенных в реализацию `LogisticRegression` из scikit-learn.

---

## 1.4. Генерация синтетических данных для визуализации

Для интуитивного понимания работы алгоритмов классификации полезно рассмотреть двумерные данные, допускающие визуализацию. Это позволяет непосредственно наблюдать геометрические свойства разделяющих поверхностей.

### 1.4.1. Генерация синтетического датасета

Код 1.4 демонстрирует генерацию синтетического датасета с контролируемыми свойствами.

**Код 1.4**  
Генерация синтетического датасета для визуализации

```python
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
import numpy as np

# Генерация данных
X, y = make_classification(
    n_samples=500,          # Общее количество объектов
    n_features=2,           # Общее количество признаков
    n_informative=2,        # Количество информативных признаков
    n_redundant=0,          # Количество избыточных признаков
    n_clusters_per_class=1, # Количество кластеров на класс
    weights=[0.9, 0.1],     # Пропорции классов (90% класс 0, 10% класс 1)
    random_state=42         # Фиксация случайного состояния для воспроизводимости
)

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.3,          # 30% данных для тестирования
    random_state=42,        # Фиксация случайного состояния
    stratify=y              # Сохранение пропорций классов в выборках
)

print(f"Размер обучающей выборки: {X_train.shape}")
print(f"Распределение классов в y_train: {np.bincount(y_train)}")
```

**Пояснение параметров функции `make_classification`:**
- `n_samples`: общее количество генерируемых объектов;
- `n_features`: размерность признакового пространства;
- `n_informative`: количество признаков, которые действительно влияют на классовую принадлежность;
- `n_redundant`: количество признаков, являющихся линейными комбинациями информативных признаков;
- `n_clusters_per_class`: количество кластеров для каждого класса, что позволяет моделировать сложные распределения классов;
- `weights`: список пропорций для каждого класса, позволяющий моделировать дисбаланс классов;
- `random_state`: параметр для воспроизводимости результатов, фиксирующий случайное состояние генератора.

Параметр `stratify=y` в функции `train_test_split` обеспечивает сохранение исходных пропорций классов в обучающей и тестовой выборках. Это критически важно при наличии дисбаланса классов, поскольку гарантирует представительство редкого класса в обеих выборках.

### 1.4.2. Проблема дисбаланса классов

Дисбаланс классов представляет собой ситуацию, когда распределение меток в обучающей выборке существенно неравномерно. В рассмотренном примере 90% объектов принадлежат классу 0, а 10% — классу 1.

Основные проблемы, возникающие при дисбалансе классов:
1. **Смещенность метрики accuracy:** модель, всегда предсказывающая доминирующий класс, достигает accuracy = 90%, что создает иллюзию хорошего качества при полной бесполезности для задачи обнаружения редкого класса;
2. **Смещенность оптимизации:** функция потерь минимизируется преимущественно за счет улучшения качества предсказаний для доминирующего класса;
3. **Плохая обобщающая способность:** модель не обучается распознавать паттерны редкого класса из-за недостатка соответствующих примеров.

Данные проблемы делают недостаточным использование accuracy в качестве единственной метрики оценки качества и требуют применения специализированных подходов, которые будут рассмотрены в последующих главах.

### 1.4.3. Визуализация синтетического датасета

Визуализация данных (Код 1.5) позволяет оценить геометрические свойства распределения классов и предварительно судить о применимости линейных методов классификации.

**Код 1.5**  
Визуализация синтетического датасета

```python
import matplotlib.pyplot as plt

plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.RdYlBu, marker='o', alpha=0.7)
plt.title('Синтетический датасет с двумя признаками')
plt.xlabel('Признак 1')
plt.ylabel('Признак 2')
plt.legend(handles=[
    plt.Line2D([], [], marker='o', color='w', markerfacecolor=plt.cm.RdYlBu(0.0), markersize=10, label='Класс 0'),
    plt.Line2D([], [], marker='o', color='w', markerfacecolor=plt.cm.RdYlBu(1.0), markersize=10, label='Класс 1')
])
plt.grid(alpha=0.3)
plt.show()
```

На визуализации можно наблюдать:
- Преобладание объектов класса 0 (синие точки);
- Локальную концентрацию объектов класса 1 (красные точки);
- Частичное перекрытие классов, что указывает на отсутствие идеальной линейной разделимости.

Степень линейной разделимости классов является ключевым фактором при выборе алгоритма классификации. Для линейно разделимых данных логистическая регрессия демонстрирует оптимальные результаты как по качеству, так и по интерпретируемости. В случае нелинейной разделимости требуются более сложные модели или методы трансформации признакового пространства.

---

## 1.5. Заключение главы

В настоящей главе рассмотрены теоретические основы и практические аспекты бинарной классификации. Показано, как задача анализа тональности текстов решается с использованием классических методов машинного обучения. Подробно разобраны этапы преобразования текстовых данных в числовые признаки с помощью TF-IDF, обучение логистической регрессии и особенности работы с дисбалансом классов.

Особое внимание уделено корректной организации вычислительного процесса, включая критически важное различие между методами `fit_transform()` и `transform()`, а также преимуществам использования конвейерной обработки данных через класс `Pipeline`. Теоретические аспекты, такие как математическая модель логистической регрессии и функция потерь бинарной кросс-энтропии, изложены с необходимой строгостью.

Полученные знания и навыки создают основу для перехода к более сложным темам: оценке качества моделей с использованием специализированных метрик, методам работы с дисбалансом классов и современным подходам векторизации текстов, которые будут рассмотрены в последующих главах.

# Глава II. Тонкая настройка модели: гиперпараметры и регуляризация

## 2.1. Регуляризация: контроль сложности модели

Логистическая регрессия, как и многие другие линейные модели машинного обучения, подвержена риску переобучения (overfitting), особенно в условиях высокой размерности признакового пространства, наличия мультиколлинеарности или недостаточного объема обучающих данных. Регуляризация представляет собой фундаментальный метод предотвращения переобучения, заключающийся во введении штрафного члена в функцию потерь, который ограничивает величину весовых коэффициентов модели.

### 2.1.1. Математическая формулировка регуляризации

Пусть дана функция потерь для логистической регрессии без регуляризации:

$$\mathcal{L}_0(\mathbf{w}) = -\frac{1}{N}\sum_{i=1}^{N}\left[y_i\log(p_i) + (1-y_i)\log(1-p_i)\right]$$

где $p_i = \sigma(\mathbf{w}^T\mathbf{x}_i + b)$, $\sigma(\cdot)$ — сигмоидальная функция.

С учетом регуляризации функция потерь преобразуется в следующий вид:

$$\mathcal{L}(\mathbf{w}) = \mathcal{L}_0(\mathbf{w}) + \frac{\lambda}{N}\Omega(\mathbf{w})$$

где $\lambda > 0$ — параметр силы регуляризации, $\Omega(\mathbf{w})$ — штрафная функция.

### 2.1.2. Типы регуляризации

#### Штраф L2 (Ridge регуляризация)
Штраф L2 определяется как:

$$\Omega_{L2}(\mathbf{w}) = \frac{1}{2}\|\mathbf{w}\|_2^2 = \frac{1}{2}\sum_{j=1}^{d}w_j^2$$

Данный тип регуляризации (используется по умолчанию в scikit-learn с параметром `penalty='l2'`) обеспечивает сжатие весовых коэффициентов к нулю, сохраняя при этом все признаки в модели. Математически это соответствует добавлению априорного распределения Гаусса на веса в байесовской интерпретации. L2-регуляризация эффективно предотвращает доминирование отдельных признаков и повышает численную устойчивость решения.

#### Штраф L1 (Lasso регуляризация)
Штраф L1 определяется как:

$$\Omega_{L1}(\mathbf{w}) = \|\mathbf{w}\|_1 = \sum_{j=1}^{d}|w_j|$$

Данный тип регуляризации обладает уникальным свойством — способностью обнулять веса наименее информативных признаков, что делает его мощным инструментом автоматического отбора признаков. С геометрической точки зрения, L1-регуляризация создает ромбовидную область допустимых значений в пространстве весов, вершины которой лежат на координатных осях, что увеличивает вероятность получения разреженных решений.

#### Эластичная сеть (Elastic Net)
Комбинированный подход, объединяющий L1 и L2 штрафы:

$$\Omega_{elastic}(\mathbf{w}) = \alpha\|\mathbf{w}\|_1 + \frac{1-\alpha}{2}\|\mathbf{w}\|_2^2$$

где $\alpha \in [0,1]$ — параметр баланса между типами регуляризации. Данный метод сочетает преимущества обоих подходов: разреженность решения от L1 и стабильность от L2.

## 2.2. Гиперпараметр $C$: сила регуляризации

В реализации логистической регрессии библиотеки scikit-learn сила регуляризации контролируется гиперпараметром $C$, который является обратной величиной параметра $\lambda$ в математической формулировке:

$$C = \frac{1}{\lambda}$$

### 2.2.1. Интерпретация значений гиперпараметра $C$

- **Малые значения $C$ (например, $C = 0.01$)**: соответствуют сильной регуляризации ($\lambda$ велико). Модель становится более простой, весовые коэффициенты принимают малые значения. Это приводит к увеличению смещения (bias) и уменьшению дисперсии (variance), что эффективно борется с переобучением, но может привести к недообучению при чрезмерном упрощении.

- **Большие значения $C$ (например, $C = 100$)**: соответствуют слабой регуляризации ($\lambda$ мало). Модель имеет большую гибкость в подгонке под обучающие данные, что может привести к высокой дисперсии (переобучению) при недостаточном объеме данных.




### 2.2.2. Стратегия подбора оптимального значения $C$ с использованием кросс-валидации

Оптимальное значение гиперпараметра $C$ в логистической регрессии должно определяться эмпирически с использованием методов кросс-валидации для обеспечения несмещенной оценки обобщающей способности модели. Теоретическое обоснование данного подхода базируется на принципе структурного риска по Вапнику-Червоненкису, который утверждает, что минимизация эмпирического риска на обучающей выборке не гарантирует минимизации истинного риска на новых данных. Кросс-валидация предоставляет статистически обоснованную оценку качества модели при различных значениях гиперпараметров.

#### **Математическая формализация кросс-валидации**

Пусть обучающая выборка $\mathcal{D}_{\text{train}} = \{(\mathbf{x}_i, y_i)\}_{i=1}^N$ разбивается на $k$ непересекающихся подмножеств (фолдов) $\mathcal{D}_1, \mathcal{D}_2, \dots, \mathcal{D}_k$ таких, что:
$$\bigcup_{j=1}^k \mathcal{D}_j = \mathcal{D}_{\text{train}}, \quad \mathcal{D}_i \cap \mathcal{D}_j = \emptyset \quad \forall i \neq j$$

Для каждого значения гиперпараметра $C_j$ из заданной сетки $\mathcal{C} = \{C_1, C_2, \dots, C_m\}$ и для каждого фолда $i$:
1. Модель обучается на данных $\mathcal{D}_{\text{train}} \setminus \mathcal{D}_i$
2. Оценивается качество модели на валидационном фолде $\mathcal{D}_i$ с использованием выбранной метрики $M$

Среднее значение метрики качества для гиперпараметра $C_j$ вычисляется как:
$$\bar{M}(C_j) = \frac{1}{k}\sum_{i=1}^k M(\mathbf{y}_{\text{val}}^{(i)}, \hat{\mathbf{y}}_{\text{val}}^{(i)}(C_j))$$

где $\mathbf{y}_{\text{val}}^{(i)}$ — истинные метки валидационного фолда, $\hat{\mathbf{y}}_{\text{val}}^{(i)}(C_j)$ — предсказания модели с гиперпараметром $C_j$.

Дисперсия оценки качества определяется как:
$$\sigma^2_M(C_j) = \frac{1}{k-1}\sum_{i=1}^k \left(M_i(C_j) - \bar{M}(C_j)\right)^2$$

Оптимальное значение гиперпараметра выбирается по критерию:
$$C^* = \arg\max_{C_j \in \mathcal{C}} \bar{M}(C_j)$$

с учетом стабильности оценки:
$$C^* = \arg\max_{C_j \in \mathcal{C}} \left\{\bar{M}(C_j) - \alpha \cdot \sigma_M(C_j)\right\}$$
где $\alpha$ — параметр, контролирующий компромисс между средним значением и дисперсией (обычно $\alpha = 1$).

#### **Теоретические основы выбора диапазона значений**

В силу того, что гиперпараметр $C$ входит в функцию потерь как обратная величина к коэффициенту регуляризации ($\lambda = 1/C$), его влияние на модель является экспоненциальным. Поэтому оптимальная стратегия поиска заключается в использовании **логарифмической шкалы** значений. Теоретически обосновано, что оптимальное значение $C$ обычно лежит в диапазоне $[10^{-3}, 10^{3}]$, что соответствует коэффициентам регуляризации $\lambda \in [10^{-3}, 10^{3}]$.

Математически, сетка значений формируется как:
$$\mathcal{C} = \left\{10^{a + i \cdot \frac{b-a}{n-1}} \right\}_{i=0}^{n-1}$$
где $a = -3$, $b = 3$, $n$ — количество точек сетки (обычно $n = 7 \div 15$).

#### **Стратегия кросс-валидации для дисбалансированных данных**

При наличии дисбаланса классов стандартная $k$-кратная кросс-валидация может привести к несбалансированным фолдам, что искажает оценку качества. Для корректной оценки необходимо использовать **стратифицированную кросс-валидацию** (stratified $k$-fold cross-validation), которая сохраняет пропорции классов в каждом фолде.

Формально, для каждого класса $c \in \{0, 1\}$ доля объектов класса $c$ в каждом фолде $\mathcal{D}_i$ должна быть приблизительно равна доле в исходной выборке:
$$\frac{|\{(\mathbf{x}, y) \in \mathcal{D}_i : y = c\}|}{|\mathcal{D}_i|} \approx \frac{|\{(\mathbf{x}, y) \in \mathcal{D}_{\text{train}} : y = c\}|}{|\mathcal{D}_{\text{train}}|}$$

#### **Практическая реализация в scikit-learn**

В библиотеке scikit-learn реализованы два основных подхода к автоматизации подбора гиперпараметра $C$ с использованием кросс-валидации: класс `LogisticRegressionCV` и комбинация `GridSearchCV` с логистической регрессией.

##### **Метод 1: LogisticRegressionCV**

Класс `LogisticRegressionCV` предоставляет оптимизированную реализацию кросс-валидации специально для логистической регрессии. Его математическая основа заключается в одновременном решении задач оптимизации для всех значений $C$ с использованием warm-start стратегии, что значительно повышает вычислительную эффективность.

**Теоретические преимущества:**
- Использует эффективные алгоритмы оптимизации (L-BFGS, SAG), специализированные для логистической регрессии
- Обеспечивает численную стабильность при экстремальных значениях $C$
- Автоматически определяет количество итераций для сходимости

**Алгоритм работы:**
1. Для каждого фолда кросс-валидации и каждого значения $C_j$:
   - Инициализирует веса $\mathbf{w}$ на основе решения для ближайшего значения $C$
   - Выполняет оптимизацию функции потерь с регуляризацией
   - Оценивает качество на валидационном фолде
2. Находит оптимальное $C^*$ по критерию максимизации выбранной метрики
3. Обучает финальную модель на всем обучающем наборе с $C^*$

**Код 2.1. Реализация с использованием LogisticRegressionCV:**

```python
from sklearn.linear_model import LogisticRegressionCV
from sklearn.model_selection import StratifiedKFold
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.datasets import make_classification
import numpy as np

# Генерация синтетического датасета с контролируемым дисбалансом
X, y = make_classification(
    n_samples=1000,
    n_features=20,
    n_informative=15,
    n_redundant=5,
    class_sep=1.0,
    weights=[0.85, 0.15],  # 85% класса 0, 15% класса 1
    random_state=42
)

# Разделение на обучающую и тестовую выборки с сохранением дисбаланса
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# Создание пайплайна с предобработкой и классификацией
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # Стандартизация признаков
    ('classifier', LogisticRegressionCV(
        Cs=np.logspace(-3, 3, 15),  # Логарифмическая сетка из 15 значений
        cv=StratifiedKFold(n_splits=5, shuffle=True, random_state=42),
        penalty='l2',
        solver='lbfgs',  # Оптимизатор, поддерживающий L2-регуляризацию
        max_iter=1000,   # Максимальное количество итераций
        class_weight='balanced',  # Автоматическая балансировка классов
        scoring='f1',    # Метрика оптимизации
        refit=True,      # Обучение финальной модели на всем наборе
        random_state=42,
        n_jobs=-1,       # Использование всех ядер процессора
        verbose=0
    ))
])

# Обучение пайплайна
pipeline.fit(X_train, y_train)

# Извлечение оптимального гиперпараметра
optimal_C = pipeline.named_steps['classifier'].C_[0]
n_iterations = pipeline.named_steps['classifier'].n_iter_[0]

print(f"Оптимальное значение гиперпараметра C: {optimal_C:.6f}")
print(f"Количество итераций для сходимости: {n_iterations}")
```

##### **Метод 2: GridSearchCV с ручной настройкой**

Класс `GridSearchCV` предоставляет более гибкий, но менее оптимизированный подход к кросс-валидации. Он подходит для сравнения различных моделей и сложных пайплайнов.

**Теоретические особенности:**
- Поддерживает произвольные комбинации гиперпараметров
- Позволяет использовать пользовательские метрики качества
- Обеспечивает прозрачность процесса поиска

**Алгоритм работы:**
1. Формирует все возможные комбинации гиперпараметров из заданных сеток
2. Для каждой комбинации выполняет полную кросс-валидацию
3. Выбирает наилучшую комбинацию по среднему значению метрики
4. Обучает финальную модель с оптимальными параметрами

**Код 2.2. Реализация с использованием GridSearchCV:**

```python
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import make_scorer, f1_score
import matplotlib.pyplot as plt

# Определение сетки гиперпараметров
param_grid = {
    'classifier__C': np.logspace(-3, 3, 15)  # Логарифмическая сетка
}

# Настройка стратифицированной кросс-валидации
cv_strategy = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Определение метрик для оценки
scoring_metrics = {
    'f1': make_scorer(f1_score),
    'accuracy': 'accuracy',
    'precision': 'precision',
    'recall': 'recall'
}

# Инициализация GridSearchCV
grid_search = GridSearchCV(
    estimator=pipeline,  # Используем тот же пайплайн
    param_grid=param_grid,
    scoring=scoring_metrics,
    refit='f1',  # Оптимизация по F1-мере
    cv=cv_strategy,
    return_train_score=True,  # Сохранение результатов на обучающей выборке
    n_jobs=-1,   # Параллельное выполнение
    verbose=1    # Вывод прогресса
)

# Выполнение кросс-валидации
grid_search.fit(X_train, y_train)

# Анализ результатов
results = grid_search.cv_results_
best_C = grid_search.best_params_['classifier__C']
best_score = grid_search.best_score_

print(f"\nРезультаты кросс-валидации:")
print(f"Оптимальное значение C: {best_C:.6f}")
print(f"Лучшая F1-мера (средняя по фолдам): {best_score:.4f}")

# Визуализация результатов кросс-валидации
plt.figure(figsize=(12, 8))

# График F1-меры для обучающей и валидационной выборок
plt.subplot(2, 1, 1)
train_f1 = results['mean_train_f1']
val_f1 = results['mean_test_f1']
std_val_f1 = results['std_test_f1']

plt.semilogx(param_grid['classifier__C'], train_f1, 'b--o', label='F1 (обучение)')
plt.semilogx(param_grid['classifier__C'], val_f1, 'r-o', label='F1 (валидация)')
plt.fill_between(param_grid['classifier__C'],
                 val_f1 - std_val_f1,
                 val_f1 + std_val_f1,
                 alpha=0.2, color='red')
plt.axvline(x=best_C, color='k', linestyle='--', alpha=0.7,
            label=f'Оптимальное C = {best_C:.4f}')
plt.xscale('log')
plt.xlabel('Гиперпараметр C (логарифмическая шкала)')
plt.ylabel('F1-мера')
plt.title('Зависимость F1-меры от гиперпараметра C')
plt.legend()
plt.grid(alpha=0.3)

# График дисперсии оценки по фолдам
plt.subplot(2, 1, 2)
plt.semilogx(param_grid['classifier__C'], std_val_f1, 'g-o')
plt.axvline(x=best_C, color='k', linestyle='--', alpha=0.7)
plt.xscale('log')
plt.xlabel('Гиперпараметр C (логарифмическая шкала)')
plt.ylabel('Стандартное отклонение F1')
plt.title('Стабильность оценки качества по фолдам кросс-валидации')
plt.grid(alpha=0.3)

plt.tight_layout()
plt.savefig('cv_results_analysis.png', dpi=300)
plt.show()

# Анализ стабильности оптимального решения
optimal_idx = np.where(param_grid['classifier__C'] == best_C)[0][0]
stability_index = 1 - (std_val_f1[optimal_idx] / val_f1[optimal_idx])

print(f"\nАнализ стабильности оптимального решения:")
print(f"Стандартное отклонение F1 при C={best_C:.4f}: {std_val_f1[optimal_idx]:.4f}")
print(f"Коэффициент стабильности: {stability_index:.4f}")
if stability_index > 0.95:
    print("Решение высоко стабильно (коэффициент > 0.95)")
elif stability_index > 0.90:
    print("Решение стабильно (коэффициент > 0.90)")
else:
    print("Решение требует дополнительной проверки (коэффициент < 0.90)")
```

#### **Теоретический анализ эффективности кросс-валидации**

**Статистические свойства оценок:**
- **Несмещенность**: Среднее значение $\bar{M}(C_j)$ представляет собой несмещенную оценку истинного качества модели
- **Дисперсия**: Стандартная ошибка оценки $\sigma_M(C_j)/\sqrt{k}$ уменьшается с увеличением количества фолдов $k$
- **Консистентность**: При $N \to \infty$ и $k \to \infty$ оценка $\bar{M}(C_j)$ сходится к истинному качеству модели

**Оптимальное количество фолдов:**
Теоретические исследования показывают, что оптимальное количество фолдов $k$ зависит от размера выборки $N$:
- При $N < 100$: $k = N$ (leave-one-out кросс-валидация)
- При $100 \leq N < 1000$: $k = 10$
- При $N \geq 1000$: $k = 5$

**Вычислительная сложность:**
Вычислительная сложность кросс-валидации составляет $O(k \cdot m \cdot T)$, где:
- $k$ — количество фолдов
- $m$ — количество значений гиперпараметра $C$
- $T$ — время обучения одной модели

Для `LogisticRegressionCV` сложность снижается до $O(k \cdot (m + T))$ благодаря warm-start стратегии.

#### **Практические рекомендации по применению**

1. **Предварительная обработка данных:**
   - Обязательная стандартизация признаков перед кросс-валидацией
   - Обработка пропущенных значений в рамках каждого фолда
   - Применение методов снижения размерности (PCA) при высокой корреляции признаков

2. **Стратегия поиска гиперпараметров:**
   - **Первый этап**: грубый поиск на логарифмической сетке $C \in [10^{-3}, 10^{3}]$ с шагом 1.0
   - **Второй этап**: детальный поиск в окрестности найденного оптимума с шагом 0.2
   - **Критерий остановки**: улучшение метрики менее 0.5% при сужении диапазона

3. **Критерии выбора оптимального $C$:**
   - При умеренном дисбалансе ($1:5 \div 1:20$): оптимизация по F1-мере
   - При сильном дисбалансе ($> 1:20$): оптимизация по PR-AUC
   - При сбалансированных классах: оптимизация по ROC-AUC или accuracy

4. **Валидация результатов:**
   - Необходимо проверить сходимость алгоритма оптимизации для всех значений $C$
   - Анализ корреляции между метриками на разных фолдах
   - Проверка на переобучение путем сравнения метрик на обучающей и валидационной выборках

#### **Сравнительный анализ методов кросс-валидации**

**Таблица 2.1. Сравнительные характеристики методов кросс-валидации для подбора $C$**

| Критерий | LogisticRegressionCV | GridSearchCV |
|----------|----------------------|--------------|
| **Вычислительная сложность** | $O(k \cdot (m + T))$ | $O(k \cdot m \cdot T)$ |
| **Память** | $O(d + m)$ | $O(k \cdot m \cdot d)$ |
| **Гибкость** | Ограничена логистической регрессией | Поддержка любых моделей и метрик |
| **Стабильность сходимости** | Высокая (специализированные алгоритмы) | Зависит от конкретной реализации модели |
| **Поддержка стратификации** | Да (через параметр cv) | Да (через объект cv) |
| **Рекомендуемое применение** | Быстрый прототипинг и финальная настройка | Сравнение разных моделей и комплексных пайплайнов |

#### **Заключение раздела**

Кросс-валидация представляет собой теоретически обоснованный и практически эффективный метод подбора гиперпараметра $C$ в логистической регрессии. Стратифицированная $k$-кратная кросс-валидация обеспечивает несмещенную оценку качества модели при наличии дисбаланса классов, а логарифмическая шкала значений $C$ позволяет эффективно исследовать широкий диапазон регуляризации.

Реализация в scikit-learn через классы `LogisticRegressionCV` и `GridSearchCV` предоставляет как оптимизированные, так и гибкие инструменты для автоматизации этого процесса. Выбор конкретного метода зависит от задачи: `LogisticRegressionCV` предпочтителен для быстрой настройки логистической регрессии, тогда как `GridSearchCV` необходим при сравнении различных моделей или сложных стратегий обработки данных.

Теоретически обоснованный подход к кросс-валидации, включающий анализ дисперсии оценок и стабильности решений, обеспечивает надежность полученных результатов и предотвращает переобучение на этапе подбора гиперпараметров. Это создает основу для построения моделей с высокой обобщающей способностью и интерпретируемостью.


## 2.3. Выбор оптимизатора (solver) и совместимость с типами регуляризации

Оптимизатор (solver) определяет конкретный алгоритм минимизации функции потерь при обучении логистической регрессии. Выбор оптимизатора критически важен, поскольку разные алгоритмы имеют различные вычислительные характеристики, требования к памяти и ограничения по поддерживаемым типам регуляризации.

### 2.3.1. Математические основы оптимизаторов

#### L-BFGS (Limited-memory Broyden–Fletcher–Goldfarb–Shanno)
- **Принцип работы**: квазиньютоновский метод, аппроксимирующий обратную матрицу Гессе с использованием ограниченного объема памяти.
- **Преимущества**: высокая скорость сходимости, хорошая масштабируемость на средних наборах данных.
- **Ограничения**: поддерживает только L2-регуляризацию.

#### LIBLINEAR
- **Принцип работы**: основан на методе координатного спуска с использованием двойственной задачи оптимизации.
- **Преимущества**: эффективен для задач с высокой размерностью признакового пространства, поддерживает L1 и L2 регуляризацию.
- **Ограничения**: может быть медленным для очень больших наборов данных.

#### SAG/SAGA (Stochastic Average Gradient / SAG Accelerated)
- **Принцип работы**: стохастические методы, использующие средний градиент по всем объектам с экспоненциальным сглаживанием.
- **Преимущества**: высокая скорость сходимости на больших наборах данных, хорошая масштабируемость.
- **Особенности**: SAGA поддерживает все типы регуляризации (L1, L2, Elastic Net).

### 2.3.2. Таблица совместимости регуляризации и оптимизаторов

Таблица 2.1 демонстрирует совместимость различных типов регуляризации с оптимизаторами в реализации scikit-learn.

**Таблица 2.1**  
Совместимость штрафов и оптимизаторов в логистической регрессии

| Penalty (Штраф) | liblinear | lbfgs | newton-cg | sag  | saga |
|----------------|-----------|-------|-----------|------|------|
| L2 (Default)   | Да        | Да    | Да        | Да   | Да   |
| L1             | Да        | Нет   | Нет       | Нет  | Да   |
| Elastic Net    | Нет       | Нет   | Нет       | Нет  | Да   |
| None           | Нет       | Да    | Да        | Да   | Да   |

### 2.3.3. Рекомендации по выбору оптимизатора

1. **Для задач с L2-регуляризацией**:
   - Малые и средние наборы данных ($N < 10^4$): `lbfgs` (по умолчанию)
   - Очень большие наборы данных ($N > 10^5$): `sag` или `saga`

2. **Для задач с L1-регуляризацией**:
   - Средние наборы данных: `liblinear`
   - Большие наборы данных: `saga`

3. **Для задач с Elastic Net**: только `saga`

4. **Для разреженных данных**: `liblinear` или `saga`

## 2.4. Учет дисбаланса классов

Проблема дисбаланса классов, подробно рассмотренная в Главе II, требует специальных методов корректировки обучения модели для обеспечения адекватного распознавания миноритарного класса.

### 2.4.1. Встроенные методы балансировки

#### Балансировка весов классов (class_weight='balanced')
Данный метод реализует автоматическую настройку весов классов, обратно пропорциональных их частоте в обучающих данных. Формально, вес для класса $k$ вычисляется как:

$$w_k = \frac{N}{n_k \times K}$$

где:
- $N$ — общий размер обучающей выборки,
- $n_k$ — количество объектов класса $k$,
- $K$ — общее количество классов.

В контексте функции потерь для логистической регрессии это приводит к модификации:

$$\mathcal{L}(\mathbf{w}) = -\frac{1}{N}\sum_{i=1}^{N}w_{y_i}\left[y_i\log(p_i) + (1-y_i)\log(1-p_i)\right] + \frac{\lambda}{N}\Omega(\mathbf{w})$$

где $w_{y_i}$ — вес, соответствующий классу объекта $i$.

Такой подход эффективно увеличивает штраф за ошибки на объектах миноритарного класса, заставляя алгоритм уделять им большее внимание.

### 2.4.2. Внешние методы сэмплинга

#### Oversampling (SMOTE — Synthetic Minority Over-sampling Technique)
Метод синтетической генерации новых объектов для миноритарного класса путем интерполяции между существующими объектами. Алгоритм работает следующим образом:
1. Для каждого объекта миноритарного класса находятся $k$ ближайших соседей того же класса.
2. Синтетический объект создается путем линейной интерполяции между исходным объектом и одним из его соседей:

$$\mathbf{x}_{new} = \mathbf{x}_i + \lambda(\mathbf{x}_{nn} - \mathbf{x}_i)$$

где $\lambda \sim U(0,1)$, $\mathbf{x}_{nn}$ — один из $k$ ближайших соседей.

#### Undersampling
Метод уменьшения количества объектов мажоритарного класса путем их случайного удаления или использования более сложных стратегий (например, Tomek links, NearMiss). Основное преимущество — снижение вычислительной сложности обучения, основной недостаток — потеря потенциально полезной информации.

### 2.4.3. Практические рекомендации по работе с дисбалансом

1. **Предпочтение встроенных методов**: для большинства задач рекомендуется начинать с `class_weight='balanced'`, так как этот подход сохраняет все исходные данные и не вносит дополнительного шума.

2. **Комбинированный подход**: в случае сильного дисбаланса ($> 1:100$) эффективно сочетание undersampling мажоритарного класса с последующим применением `class_weight='balanced'`.

3. **Выбор метрик качества**: при наличии дисбаланса классов категорически не рекомендуется использовать accuracy как основную метрику оценки. Предпочтение следует отдавать:
   - F1-мере (гармоническое среднее precision и recall)
   - ROC-AUC (площадь под ROC-кривой)
   - Precision-Recall кривой

## 2.5. Практическая реализация: пример настройки модели

**Код 3.1**  
Инициализация и обучение модели логистической регрессии с учетом дисбаланса классов и регуляризации

```python
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

# Инициализация модели с оптимальными параметрами:
# 1. penalty='l2' — Ridge регуляризация для стабильности
# 2. C=1.0 — умеренная сила регуляризации (базовое значение)
# 3. solver='lbfgs' — эффективный оптимизатор для L2-регуляризации
# 4. class_weight='balanced' — автоматическая балансировка весов классов
# 5. random_state=42 — воспроизводимость результатов
# 6. max_iter=1000 — увеличенное количество итераций для сходимости
model = LogisticRegression(
    penalty='l2',
    C=1.0,
    solver='lbfgs',
    class_weight='balanced',
    random_state=42,
    max_iter=1000
)

# Обучение модели на тренировочной выборке
model.fit(X_train, y_train)

# Оценка качества на обучающей и тестовой выборках
train_accuracy = model.score(X_train, y_train)
test_accuracy = model.score(X_test, y_test)

print(f"Обучающая точность (Accuracy): {train_accuracy:.4f}")
print(f"Тестовая точность (Accuracy): {test_accuracy:.4f}")
print("\nДетальный отчет классификации на тестовой выборке:")
print(classification_report(y_test, model.predict(X_test)))

print("Модель Логистической Регрессии успешно обучена с учетом дисбаланса классов.")
```

**Ключевые аспекты реализации:**

1. **Выбор оптимизатора**: `solver='lbfgs'` выбран как оптимальный для задач с L2-регуляризацией среднего размера. Данный алгоритм обеспечивает хороший компромисс между скоростью сходимости и потреблением памяти.

2. **Сила регуляризации**: значение $C=1.0$ представляет собой разумное начальное приближение. Для окончательной настройки параметра рекомендуется использовать кросс-валидацию (например, `LogisticRegressionCV`).

3. **Обработка дисбаланса**: параметр `class_weight='balanced'` автоматически вычисляет веса классов, обеспечивая более сбалансированное обучение без изменения состава обучающих данных.

4. **Контроль сходимости**: параметр `max_iter=1000` гарантирует достаточное количество итераций для достижения сходимости оптимизатора, особенно важен для сложных или плохо масштабированных данных.

5. **Комплексная оценка качества**: помимо точности (accuracy), выводится детальный отчет `classification_report`, содержащий precision, recall и F1-меру для каждого класса, что критически важно при наличии дисбаланса.

## 2.6. Заключение главы

В настоящей главе рассмотрены фундаментальные аспекты тонкой настройки модели логистической регрессии. Показано, что эффективное управление сложностью модели достигается через комбинацию регуляризации (L1, L2, Elastic Net), правильного выбора оптимизатора и учета дисбаланса классов.

Особое внимание уделено математической интерпретации гиперпараметров и их влиянию на характеристики модели (смещение-дисперсия). Продемонстрирована критическая важность совместимости типов регуляризации и оптимизаторов, а также необходимость комплексного подхода к оценке качества в условиях дисбаланса классов.

Полученные знания создают основу для перехода к более сложным темам: ансамблевым методам, нейронным сетям и современным архитектурам глубокого обучения, которые будут рассмотрены в последующих главах. Понимание принципов настройки базовых моделей является необходимым условием для успешного применения и интерпретации результатов более сложных алгоритмов машинного обучения.

# Глава III. Комплексная оценка модели: исчерпывающие метрики качества

## 3.1. Порог принятия решений (Decision Threshold)

Логистическая регрессия, как и большинство вероятностных моделей бинарной классификации, предсказывает вероятность принадлежности объекта к положительному классу $p \in [0, 1]$. Для преобразования непрерывного прогноза вероятности в бинарное решение используется порог принятия решений (decision threshold) $\theta \in [0, 1]$.

Формально, правило классификации определяется как:

$$\hat{y} = \begin{cases}
1, & \text{если } p \geq \theta \\
0, & \text{если } p < \theta
\end{cases}$$

Стандартное значение порога $\theta = 0.5$ соответствует принципу максимального правдоподобия в условиях сбалансированных классов. Однако в реальных задачах часто возникает необходимость корректировки порога для оптимизации конкретных метрик качества.

### 3.1.1. Теоретические основы выбора порога

Выбор оптимального порога $\theta^*$ решает задачу многокритериальной оптимизации, где требуется достичь компромисса между различными типами ошибок. Математически это можно выразить как:

$$\theta^* = \arg\max_{\theta} \left[ \alpha \cdot \text{Recall}(\theta) + \beta \cdot \text{Precision}(\theta) \right]$$

где $\alpha$ и $\beta$ — весовые коэффициенты, отражающие бизнес-требования или медицинские последствия ошибок.

В условиях асимметричной стоимости ошибок I и II рода, оптимальный порог определяется из условия минимизации ожидаемого риска:

$$\theta^* = \arg\min_{\theta} \left[ C_{FP} \cdot \text{FPR}(\theta) + C_{FN} \cdot (1 - \text{Recall}(\theta)) \right]$$

где $C_{FP}$ и $C_{FN}$ — стоимостные коэффициенты ложных срабатываний и пропущенных случаев соответственно.

### 3.1.2. Практические стратегии настройки порога

**Стратегия 1: Максимизация F1-меры**  
Для задач, где требуется сбалансированная оптимизация precision и recall, оптимальный порог находится на максимуме F1-меры:

$$\theta^* = \arg\max_{\theta} F1(\theta)$$

**Стратегия 2: Оптимизация по ROC-кривой**  
При использовании ROC-кривой оптимальный порог часто выбирается в точке, ближайшей к левому верхнему углу (координаты (0, 1)):

$$\theta^* = \arg\min_{\theta} \sqrt{(1 - \text{TPR}(\theta))^2 + (\text{FPR}(\theta))^2}$$

**Стратегия 3: Оптимизация по PR-кривой**  
Для задач с сильным дисбалансом классов предпочтительнее использовать PR-кривую, где оптимальный порог максимизирует площадь под кривой или выбирается в точке с минимальной разницей между precision и recall.

## 3.2. Матрица ошибок (Confusion Matrix)

Матрица ошибок (confusion matrix) представляет собой основу для вычисления всех метрик качества в задачах бинарной классификации. Она визуализирует распределение ошибок классификации, сопоставляя истинные и предсказанные метки.

### 3.2.1. Структура матрицы ошибок

Для бинарной классификации матрица ошибок имеет размер $2 \times 2$ и содержит четыре ключевых элемента, как показано в Таблице 3.1.

**Таблица 3.1**  
Структура матрицы ошибок для бинарной классификации

| Фактический класс $\downarrow$ / Предсказанный класс $\rightarrow$ | Positive (1) | Negative (0) |
|--------------------------------------------|--------------|--------------|
| **Positive (1)**                           | TP           | FN           |
| **Negative (0)**                           | FP           | TN           |

где:
- **TP (True Positive)** — количество объектов, которые являются положительными и были корректно классифицированы как положительные;
- **TN (True Negative)** — количество объектов, которые являются отрицательными и были корректно классифицированы как отрицательные;
- **FP (False Positive)** — количество объектов, которые являются отрицательными, но были ошибочно классифицированы как положительные (ошибка I рода);
- **FN (False Negative)** — количество объектов, которые являются положительными, но были ошибочно классифицированы как отрицательные (ошибка II рода).

### 3.2.2. Статистическая интерпретация элементов

Элементы матрицы ошибок имеют прямую статистическую интерпретацию в контексте проверки гипотез:

- **Чувствительность (Sensitivity)** = $\frac{TP}{TP + FN}$ = Recall = TPR (True Positive Rate)
- **Специфичность (Specificity)** = $\frac{TN}{TN + FP}$ = 1 - FPR (False Positive Rate)
- **Точность (Precision)** = $\frac{TP}{TP + FP}$
- **Частота ложных отрицательных результатов (Miss Rate)** = $\frac{FN}{TP + FN}$ = 1 - Recall

Эти метрики формируют основу для комплексной оценки качества классификации в различных прикладных областях.

## 3.3. Метрики, зависящие от порога (Threshold-Dependent Metrics)

### 3.3.1. Основные метрики качества

#### Accuracy (Точность)
Accuracy измеряет общую долю правильно классифицированных объектов:

$$\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$$

Несмотря на интуитивную понятность, accuracy является ненадежной метрикой в условиях дисбаланса классов. Например, при дисбалансе 99:1 модель, всегда предсказывающая класс 0, достигнет accuracy = 0.99, но будет бесполезна для обнаружения редкого класса.

#### Precision (Точность положительного класса)
Precision оценивает долю верных положительных предсказаний среди всех предсказанных положительных:

$$\text{Precision} = \frac{TP}{TP + FP}$$

Эта метрика критически важна в сценариях, где стоимость ложных срабатываний высока:
- Финансовый сектор: ложное одобрение кредитной заявки может привести к финансовым потерям;
- Системы рекомендаций: ложные рекомендации снижают доверие пользователей;
- Юридические системы: ложные обвинения нарушают принцип презумпции невиновности.

#### Recall (Полнота, Sensitivity, True Positive Rate)
Recall измеряет способность модели находить все положительные объекты:

$$\text{Recall} = \frac{TP}{TP + FN}$$

Эта метрика приоритетна в сценариях, где критически важно минимизировать пропуски:
- Медицинская диагностика: пропуск заболевания может стоить жизни пациента;
- Обнаружение мошенничества: пропущенная мошенническая транзакция ведет к финансовым потерям;
- Системы безопасности: пропущенная угроза может иметь катастрофические последствия.

#### F1-Score (Гармоническое среднее)
F1-Score объединяет precision и recall в единую метрику как их гармоническое среднее:

$$F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$$

Гармоническое среднее предпочтительнее арифметического, так как оно более чувствительно к экстремальным значениям (когда одна из метрик близка к нулю, F1 также стремится к нулю).

Обобщенная версия F-меры с параметром $\beta$ позволяет задавать относительную важность recall по сравнению с precision:

$$F_\beta = (1 + \beta^2) \cdot \frac{\text{Precision} \cdot \text{Recall}}{(\beta^2 \cdot \text{Precision}) + \text{Recall}}$$

где $\beta > 1$ придает больший вес recall, а $\beta < 1$ — precision.

### 3.3.2. Расширенные метрики

#### Specificity (Специфичность, True Negative Rate)
Specificity измеряет долю правильно классифицированных отрицательных объектов:

$$\text{Specificity} = \frac{TN}{TN + FP} = 1 - \text{FPR}$$

Эта метрика особенно важна в медицинских тестах, где требуется минимизировать количество ложных положительных диагнозов.

#### False Positive Rate (FPR)
FPR измеряет долю отрицательных объектов, ошибочно классифицированных как положительные:

$$\text{FPR} = \frac{FP}{FP + TN} = 1 - \text{Specificity}$$

#### False Negative Rate (FNR)
FNR измеряет долю положительных объектов, ошибочно классифицированных как отрицательные:

$$\text{FNR} = \frac{FN}{FN + TP} = 1 - \text{Recall}$$

#### Matthews Correlation Coefficient (MCC)
MCC представляет собой сбалансированную метрику, учитывающую все элементы матрицы ошибок:

$$\text{MCC} = \frac{TP \cdot TN - FP \cdot FN}{\sqrt{(TP+FP)(TP+FN)(TN+FP)(TN+FN)}}$$

MCC принимает значения от -1 до +1, где +1 означает идеальную классификацию, 0 — случайное предсказание, а -1 — полную несогласованность. MCC особенно полезна при сильном дисбалансе классов.

## 3.4. Метрики, основанные на вероятностях (Probabilistic Metrics)

### 3.4.1. Log Loss (Бинарная кросс-энтропия)

Log Loss, или бинарная кросс-энтропия, оценивает качество вероятностных предсказаний модели. Для бинарной классификации она определяется как:

$$\text{Log Loss} = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log(p_i) + (1 - y_i) \log(1 - p_i) \right]$$

где $y_i$ — истинная метка, $p_i$ — предсказанная вероятность принадлежности к положительному классу.

Log Loss имеет несколько важных свойств:
- Штрафует модель экспоненциально за высокую уверенность в неверных предсказаниях;
- Минимизируется, когда предсказанные вероятности совпадают с истинными частотами классов;
- Обеспечивает корректную калибровку вероятностей.

Рассмотрим два сценария для объекта с истинным классом $y_i = 1$:
- Модель A предсказывает $p_i = 0.51$: $\text{Log Loss} \approx 0.67$
- Модель B предсказывает $p_i = 0.99$: $\text{Log Loss} \approx 0.01$

При пороге $\theta = 0.5$ обе модели дают правильный бинарный прогноз, но Log Loss модели B значительно ниже, что отражает ее лучшую калибровку и большую уверенность в правильном предсказании.

### 3.4.2. ROC AUC (Area Under ROC Curve)

ROC-кривая (Receiver Operating Characteristic) визуализирует зависимость True Positive Rate (TPR) от False Positive Rate (FPR) при различных значениях порога $\theta$.

$$\text{TPR}(\theta) = \frac{TP(\theta)}{TP(\theta) + FN(\theta)}$$
$$\text{FPR}(\theta) = \frac{FP(\theta)}{FP(\theta) + TN(\theta)}$$

ROC AUC (Area Under Curve) представляет собой площадь под ROC-кривой и интерпретируется как вероятность того, что случайно выбранный положительный объект будет оценен моделью выше случайно выбранного отрицательного объекта.

ROC AUC обладает следующими преимуществами:
- Инвариантна к дисбалансу классов;
- Не зависит от выбора конкретного порога классификации;
- Устойчива к монотонным преобразованиям предсказанных вероятностей.

Теоретические значения ROC AUC:
- 1.0: идеальная разделимость классов;
- 0.5: случайное предсказание (диагональ ROC-кривой);
- 0.0: полная обратная корреляция (модель работает в обратную сторону).

### 3.4.3. PR AUC (Area Under Precision-Recall Curve)

PR-кривая (Precision-Recall) отображает зависимость precision от recall при различных порогах $\theta$. PR AUC — площадь под этой кривой.

В отличие от ROC AUC, PR AUC фокусируется исключительно на производительности для положительного класса и особенно информативна при сильном дисбалансе классов (когда доля положительного класса $< 10\%$).

PR AUC имеет следующие особенности:
- Чувствительна к качеству предсказаний для редкого класса;
- Значение baseline зависит от доли положительного класса (для случайной модели $\text{PR AUC} \approx \frac{\text{количество позитивов}}{N}$);
- Более информативна чем ROC AUC в условиях экстремального дисбаланса.

### 3.4.4. Критерии выбора метрик

Выбор метрик качества должен основываться на конкретной задаче и бизнес-требованиях. Рекомендации по выбору представлены в Таблице 3.2.

**Таблица 3.2**  
Рекомендации по выбору метрик качества в зависимости от задачи

| Сценарий применения | Критичные ошибки | Рекомендуемые метрики | Примеры |
|-------------------|-----------------|----------------------|---------|
| **Медицинская диагностика** | False Negatives (пропуск заболевания) | Recall, F2-Score, Sensitivity | Ранняя диагностика рака |
| **Финансовый скоринг** | False Positives (ложное одобрение кредита) | Precision, Specificity | Кредитный скоринг |
| **Обнаружение мошенничества** | False Negatives (пропуск мошенничества) | Recall, F2-Score | Банковские транзакции |
| **Системы рекомендаций** | False Positives (релевантность) | Precision@k, NDCG | Рекомендация товаров |
| **Умеренный дисбаланс** | Баланс ошибок | F1-Score, ROC AUC | Анализ отзывов |
| **Экстремальный дисбаланс** ($>1:100$) | Обнаружение редкого класса | PR AUC, Recall@k | Обнаружение аномалий |
| **Вероятностная калибровка** | Качество вероятностей | Log Loss, Brier Score | Страховые модели |

## 3.5. Практическая реализация: комплексная оценка модели

**Код 3.1**  
Комплексная оценка модели логистической регрессии с визуализацией

```python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import (confusion_matrix, accuracy_score, precision_score,
                           recall_score, f1_score, roc_auc_score, log_loss,
                           precision_recall_curve, roc_curve, average_precision_score)

# Предсказание вероятностей и классов
y_prob = model.predict_proba(X_test)[:, 1]
y_pred = (y_prob >= 0.5).astype(int)  # Используем стандартный порог 0.5

# 1. Матрица ошибок
conf_matrix = confusion_matrix(y_test, y_pred)
print("Матрица ошибок:")
print(f"[[TN={conf_matrix[0,0]}, FP={conf_matrix[0,1]}]")
print(f" [FN={conf_matrix[1,0]}, TP={conf_matrix[1,1]}]]")

# 2. Порог-зависимые метрики
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
specificity = conf_matrix[0,0] / (conf_matrix[0,0] + conf_matrix[0,1])
mcc = (conf_matrix[0,0]*conf_matrix[1,1] - conf_matrix[0,1]*conf_matrix[1,0]) / \
      np.sqrt((conf_matrix[0,0]+conf_matrix[0,1])*(conf_matrix[0,0]+conf_matrix[1,0])*
              (conf_matrix[1,1]+conf_matrix[0,1])*(conf_matrix[1,1]+conf_matrix[1,0]))

print("\nПорог-зависимые метрики (θ=0.5):")
print(f"Accuracy: {accuracy:.4f}")
print(f"Precision: {precision:.4f}")
print(f"Recall (Sensitivity): {recall:.4f}")
print(f"Specificity: {specificity:.4f}")
print(f"F1-Score: {f1:.4f}")
print(f"Matthews Correlation Coefficient: {mcc:.4f}")

# 3. Вероятностные метрики
logloss = log_loss(y_test, y_prob)
roc_auc = roc_auc_score(y_test, y_prob)
pr_auc = average_precision_score(y_test, y_prob)

print("\nВероятностные метрики:")
print(f"Log Loss: {logloss:.4f}")
print(f"ROC AUC: {roc_auc:.4f}")
print(f"PR AUC: {pr_auc:.4f}")

# 4. Визуализация ROC и PR кривых
plt.figure(figsize=(12, 5))

# ROC кривая
plt.subplot(1, 2, 1)
fpr, tpr, _ = roc_curve(y_test, y_prob)
plt.plot(fpr, tpr, 'b-', label=f'ROC AUC = {roc_auc:.3f}')
plt.plot([0, 1], [0, 1], 'k--', label='Случайная модель')
plt.xlabel('False Positive Rate (1 - Specificity)')
plt.ylabel('True Positive Rate (Recall)')
plt.title('ROC кривая')
plt.legend(loc='lower right')
plt.grid(alpha=0.3)

# PR кривая
plt.subplot(1, 2, 2)
precision_curve, recall_curve, _ = precision_recall_curve(y_test, y_prob)
plt.plot(recall_curve, precision_curve, 'r-', label=f'PR AUC = {pr_auc:.3f}')
plt.hlines(y=np.mean(y_test), xmin=0, xmax=1, colors='k', linestyles='--',
           label=f'Baseline = {np.mean(y_test):.3f}')
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall кривая')
plt.legend(loc='lower left')
plt.grid(alpha=0.3)

plt.tight_layout()
plt.savefig('roc_pr_curves.png', dpi=300)
plt.show()

# 5. Оптимизация порога по F1-мере
thresholds = np.arange(0.1, 1.0, 0.01)
f1_scores = [f1_score(y_test, (y_prob >= t).astype(int)) for t in thresholds]
optimal_idx = np.argmax(f1_scores)
optimal_threshold = thresholds[optimal_idx]
optimal_f1 = f1_scores[optimal_idx]

print(f"\nОптимальный порог по F1-мере: θ = {optimal_threshold:.3f} (F1 = {optimal_f1:.4f})")
print(f"Метрики при оптимальном пороге:")
y_pred_opt = (y_prob >= optimal_threshold).astype(int)
print(f"Precision: {precision_score(y_test, y_pred_opt):.4f}")
print(f"Recall: {recall_score(y_test, y_pred_opt):.4f}")
```

**Ключевые аспекты реализации:**

1. **Комплексный подход к оценке**: код демонстрирует расчет как порог-зависимых метрик (accuracy, precision, recall), так и вероятностных (Log Loss, ROC AUC, PR AUC).

2. **Визуализация результатов**: ROC и PR кривые предоставляют интуитивно понятное представление о качестве модели. ROC кривая оценивает способность модели разделять классы, а PR кривая фокусируется на эффективности обнаружения положительного класса.

3. **Автоматическая оптимизация порога**: алгоритм находит оптимальное значение порога по максимуму F1-меры, что особенно полезно в условиях дисбаланса классов.

4. **Дополнительные метрики**: расчет Matthews Correlation Coefficient (MCC) и Specificity обеспечивает более полную картину качества модели.

5. **Базовые линии для сравнения**: визуализация случайной модели (диагональ ROC-кривой) и baseline для PR-кривой (доля положительного класса) позволяет объективно оценить качество модели.

## 3.6. Заключение главы

В настоящей главе рассмотрены фундаментальные аспекты комплексной оценки моделей бинарной классификации. Показано, что выбор метрик качества должен основываться на глубоком понимании бизнес-задачи, стоимости различных типов ошибок и характеристик данных (включая дисбаланс классов).

Особое внимание уделено критически важному понятию порога принятия решений и его влиянию на компромисс между precision и recall. Демонстрирована важность использования вероятностных метрик (Log Loss, ROC AUC, PR AUC), которые оценивают качество модели независимо от конкретного порога классификации.

Практическая реализация включает не только расчет метрик, но и их визуализацию, что способствует лучшему пониманию поведения модели. Автоматическая оптимизация порога принятия решений представляет собой мощный инструмент для повышения практической применимости моделей в реальных сценариях.

Полученные знания создают основу для перехода к более сложным темам: ансамблевым методам, глубокому обучению и современным подходам к обработке естественного языка. Понимание принципов комплексной оценки моделей является критически важным для разработки надежных и интерпретируемых решений в области машинного обучения.

# Глава IV. Интерпретация, визуализация и диагностика моделей бинарной классификации

## 4.1. Визуализация границы принятия решений

Визуализация границы принятия решений представляет собой мощный инструмент для понимания поведения классификатора и диагностики его способности разделять классы. Для логистической регрессии граница принятия решений определяется как множество точек, где вероятность принадлежности к положительному классу равна пороговому значению $\theta$, обычно $\theta = 0.5$:

$$P(y=1|\mathbf{x}) = \sigma(\mathbf{w}^T\mathbf{x} + b) = 0.5$$

Поскольку сигмоидальная функция $\sigma(z) = 0.5$ при $z = 0$, граница принятия решений описывается линейным уравнением:

$$\mathbf{w}^T\mathbf{x} + b = 0$$

Для двумерного признакового пространства ($\mathbf{x} = [x_1, x_2]^T$) это уравнение принимает вид:

$$w_1x_1 + w_2x_2 + b = 0$$

что соответствует прямой линии на плоскости. Нормальный вектор к этой прямой определяется весами модели $\mathbf{w} = [w_1, w_2]^T$.

### 4.1.1. Математическая интерпретация весов модели

Весовые коэффициенты логистической регрессии имеют четкую статистическую интерпретацию в терминах логарифма шансов (log-odds):

$$\log\left(\frac{P(y=1|\mathbf{x})}{1-P(y=1|\mathbf{x})}\right) = \mathbf{w}^T\mathbf{x} + b$$

Каждый коэффициент $w_j$ представляет собой изменение логарифма шансов при увеличении соответствующего признака $x_j$ на единицу, при условии, что все остальные признаки остаются постоянными. Таким образом:
- Если $w_j > 0$, увеличение $x_j$ увеличивает вероятность принадлежности к положительному классу;
- Если $w_j < 0$, увеличение $x_j$ уменьшает вероятность принадлежности к положительному классу;
- Если $w_j = 0$, признак $x_j$ не влияет на предсказание модели.

### 4.1.2. Практическая реализация визуализации

**Код 4.1**  
Визуализация границы принятия решений и интерпретация весов модели

```python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression

# Обучение модели на двумерных данных
model = LogisticRegression(penalty='l2', C=1.0, solver='lbfgs')
model.fit(X_train, y_train)

# Получение параметров модели
weights = model.coef_[0]  # Веса признаков
intercept = model.intercept_[0]  # Свободный член

print("Параметры обученной модели:")
print(f"Коэффициент признака 1 (w₁): {weights[0]:.4f}")
print(f"Коэффициент признака 2 (w₂): {weights[1]:.4f}")
print(f"Свободный член (b): {intercept:.4f}")

# Интерпретация:
# Уравнение границы: w₁x₁ + w₂x₂ + b = 0
# При x₂ = 0: x₁ = -b/w₁
# При x₁ = 0: x₂ = -b/w₂

# Создание сетки для визуализации
x1_min, x1_max = X_train[:, 0].min() - 1, X_train[:, 0].max() + 1
x2_min, x2_max = X_train[:, 1].min() - 1, X_train[:, 1].max() + 1
xx1, xx2 = np.meshgrid(np.linspace(x1_min, x1_max, 200),
                       np.linspace(x2_min, x2_max, 200))

# Предсказание вероятностей для каждой точки сетки
grid_points = np.c_[xx1.ravel(), xx2.ravel()]
probabilities = model.predict_proba(grid_points)[:, 1]
zz = probabilities.reshape(xx1.shape)

# Визуализация
plt.figure(figsize=(10, 8))
contour = plt.contourf(xx1, xx2, zz, alpha=0.2, levels=np.linspace(0, 1, 11),
                      cmap='RdYlBu', extend='both')
plt.colorbar(contour, label='P(y=1|x)')

# Граница принятия решений (P=0.5)
decision_boundary = plt.contour(xx1, xx2, zz, levels=[0.5], colors='k', linewidths=2)
plt.clabel(decision_boundary, fmt='Граница: P=0.5', fontsize=10)

# Обучающие данные
plt.scatter(X_train[y_train == 0, 0], X_train[y_train == 0, 1],
           c='blue', marker='o', label='Класс 0', alpha=0.7)
plt.scatter(X_train[y_train == 1, 0], X_train[y_train == 1, 1],
           c='red', marker='^', label='Класс 1', alpha=0.7)

plt.title('Визуализация границы принятия решений логистической регрессии')
plt.xlabel('Признак 1 (x₁)')
plt.ylabel('Признак 2 (x₂)')
plt.legend(loc='best')
plt.grid(alpha=0.3)
plt.savefig('decision_boundary.png', dpi=300)
plt.show()

# Анализ направления границы
slope = -weights[0] / weights[1]  # Наклон границы
intercept_point = -intercept / weights[1]  # Точка пересечения с осью x₂ при x₁=0

print(f"\nГеометрические характеристики границы:")
print(f"Наклон границы (slope): {slope:.4f}")
print(f"Точка пересечения с осью x₂: {intercept_point:.4f}")

# Пример расчета для конкретной точки
example_point = np.array([1.5, 0.8])
log_odds = weights[0]*example_point[0] + weights[1]*example_point[1] + intercept
probability = 1 / (1 + np.exp(-log_odds))

print(f"\nПример расчета для точки x = [{example_point[0]}, {example_point[1]}]:")
print(f"Логарифм шансов: {log_odds:.4f}")
print(f"Вероятность P(y=1|x): {probability:.4f}")
print(f"Класс при θ=0.5: {'1' if probability >= 0.5 else '0'}")
```

**Аналитические выводы из визуализации:**

1. **Линейность границы**: прямолинейная форма границы подтверждает линейную природу логистической регрессии. Если классы демонстрируют сложную, нелинейную структуру (например, концентрические окружности или спирали), логистическая регрессия будет демонстрировать низкое качество классификации.

2. **Направление нормали**: вектор весов $\mathbf{w}$ перпендикулярен границе принятия решений и указывает направление увеличения вероятности принадлежности к положительному классу.

3. **Положение границы**: свободный член $b$ определяет смещение границы относительно начала координат. Большое по модулю значение $b$ указывает на асимметричное распределение классов.

4. **Степень уверенности**: контурные линии вероятности показывают, как быстро изменяется уверенность модели при удалении от границы принятия решений. Резкий переход указывает на высокую уверенность, плавный — на неопределенность в области границы.

## 4.2. Диагностика остатков и согласия модели (Goodness-of-Fit)

В отличие от линейной регрессии, где анализ остатков является стандартной процедурой, для логистической регрессии требуется специальный подход к диагностике, поскольку целевая переменная принимает только дискретные значения (0 или 1), а предсказания модели являются вероятностями в интервале $[0, 1]$.

### 4.2.1. Проблемы классического анализа остатков

Традиционные остатки для логистической регрессии определяются как:

$$r_i = y_i - p_i$$

где $y_i \in \{0, 1\}$ — истинное значение, $p_i = P(y_i=1|\mathbf{x}_i)$ — предсказанная вероятность. Однако такие остатки обладают рядом недостатков:
- **Дискретность**: остатки принимают только два возможных значения для каждого класса: $1 - p_i$ для $y_i=1$ и $-p_i$ для $y_i=0$;
- **Гетероскедастичность**: дисперсия остатков зависит от предсказанных вероятностей;
- **Ненормальность**: распределение остатков существенно отличается от нормального.

Эти особенности делают классический анализ остатков малоинформативным для логистической регрессии.

### 4.2.2. Тест Хосмера-Лемешоу (Hosmer-Lemeshow Test)

Тест Хосмера-Лемешоу представляет собой статистический тест, разработанный специально для оценки качества калибровки вероятностей в логистической регрессии. Тест основан на сравнении наблюдаемых и ожидаемых частот классов в группах, сформированных по предсказанным вероятностям.

**Алгоритм проведения теста:**

1. **Группировка наблюдений**: все наблюдения сортируются по предсказанным вероятностям $p_i$ и разделяются на $G$ групп (обычно $G = 10$), содержащих приблизительно равное количество наблюдений.

2. **Расчет ожидаемых частот**: для каждой группы $g$ вычисляется сумма предсказанных вероятностей, которая представляет собой ожидаемое количество положительных исходов в группе:
   $$E_g = \sum_{i \in g} p_i$$

3. **Расчет наблюдаемых частот**: для каждой группы $g$ подсчитывается фактическое количество положительных исходов:
   $$O_g = \sum_{i \in g} y_i$$

4. **Вычисление статистики теста**: статистика Хосмера-Лемешоу рассчитывается как:
   $$\hat{C} = \sum_{g=1}^{G} \frac{(O_g - E_g)^2}{E_g(1 - \bar{p}_g)}$$
   где $\bar{p}_g = \frac{E_g}{n_g}$ — средняя предсказанная вероятность в группе $g$, $n_g$ — количество наблюдений в группе.

5. **Определение p-value**: статистика $\hat{C}$ асимптотически имеет $\chi^2$-распределение с $(G-2)$ степенями свободы. Вычисляется p-value для проверки нулевой гипотезы о хорошем согласии модели.

**Интерпретация результатов:**

- **$p > 0.05$**: нет оснований отвергать нулевую гипотезу о хорошем согласии модели с данными. Предсказанные вероятности статистически согласуются с наблюдаемыми частотами.
- **$p \leq 0.05$**: отвергаем нулевую гипотезу. Модель демонстрирует плохую калибровку вероятностей, что требует корректировки спецификации модели.

**Таблица 4.1**  
Рекомендации по интерпретации результатов теста Хосмера-Лемешоу

| p-value | Интерпретация согласия | Рекомендуемые действия |
|---------|------------------------|------------------------|
| $p > 0.05$ | Хорошее согласие модели с данными | Принять модель при условии удовлетворительных метрик производительности (AUC, F1) |
| $0.01 < p \leq 0.05$ | Умеренное несоответствие | Провести дополнительную диагностику, рассмотреть добавление нелинейных членов или взаимодействий признаков |
| $p \leq 0.01$ | Сильное несоответствие | Требуется существенная переработка модели: добавление полиномиальных признаков, трансформация переменных или переход к нелинейным моделям |

**Критические замечания по тесту Хосмера-Лемешоу:**
- Чувствительность к методу группировки и количеству групп $G$;
- Низкая мощность при малых размерах выборки;
- Неинформативность при очень больших выборках, где даже незначительные отклонения могут быть статистически значимыми;
- Требует дополнения визуальными методами диагностики.

### 4.2.3. Визуальная диагностика калибровки

Визуальная инспекция кривой калибровки (reliability curve) предоставляет более интуитивно понятный и информативный способ оценки калибровки вероятностей по сравнению с формальным тестом.

**Код 4.2**  
Визуальная диагностика калибровки модели

```python
from sklearn.calibration import calibration_curve
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# Расчет кривой калибровки
fraction_of_positives, mean_predicted_value = calibration_curve(
    y_test, y_prob, n_bins=10, strategy='uniform'
)

# Создание DataFrame для анализа
calibration_df = pd.DataFrame({
    'Номер бина': range(1, 11),
    'Средняя предсказанная вероятность': mean_predicted_value.round(3),
    'Фактическая доля положительных': fraction_of_positives.round(3),
    'Разница (Факт - Предсказано)': (fraction_of_positives - mean_predicted_value).round(3)
})

print("\nТаблица калибровки (10 бинов):")
print(calibration_df.to_string(index=False))

# Визуализация кривой калибровки
plt.figure(figsize=(10, 8))

# Идеальная калибровка (диагональ)
plt.plot([0, 1], [0, 1], "k:", label="Идеальная калибровка")

# Эмпирическая кривая калибровки
plt.plot(mean_predicted_value, fraction_of_positives, "s-", color='blue',
         label=f"Логистическая регрессия (Brier: {brier_score:.3f})")

# Заполнение области между кривыми для визуализации отклонений
plt.fill_between(mean_predicted_value, fraction_of_positives, mean_predicted_value,
                alpha=0.3, color='blue', label='Область отклонения')

# Гистограмма распределения предсказанных вероятностей
hist, bin_edges = np.histogram(y_prob, bins=10, range=(0, 1), density=True)
bin_centers = (bin_edges[:-1] + bin_edges[1:]) / 2
plt.bar(bin_centers, hist * 0.05, width=0.08, alpha=0.5, color='gray',
        label='Плотность предсказаний', align='center')

plt.xlabel('Средняя предсказанная вероятность', fontsize=12)
plt.ylabel('Фактическая доля положительных классов', fontsize=12)
plt.title('Кривая калибровки и распределение вероятностей', fontsize=14)
plt.legend(loc='upper left')
plt.grid(alpha=0.3)
plt.savefig('calibration_curve.png', dpi=300)

# Дополнительная визуализация: калибровочная карта (Calibration Map)
plt.figure(figsize=(12, 5))

# Левый график: отклонения по бинам
plt.subplot(1, 2, 1)
deviations = fraction_of_positives - mean_predicted_value
colors = ['red' if d < 0 else 'green' for d in deviations]
plt.bar(range(1, 11), deviations, color=colors, alpha=0.7)
plt.axhline(y=0, color='k', linestyle='-', alpha=0.3)
plt.xlabel('Номер бина (по возрастанию вероятности)')
plt.ylabel('Отклонение (Фактическая - Предсказанная)')
plt.title('Отклонения калибровки по бинам')
plt.grid(alpha=0.3)

# Правый график: детальный анализ бинов
plt.subplot(1, 2, 2)
bin_counts = [sum((y_prob >= bin_edges[i]) & (y_prob < bin_edges[i+1])) for i in range(10)]
plt.bar(range(1, 11), bin_counts, alpha=0.7, color='purple')
plt.xlabel('Номер бина')
plt.ylabel('Количество наблюдений')
plt.title('Распределение наблюдений по бинам')
plt.grid(alpha=0.3)

plt.tight_layout()
plt.savefig('calibration_analysis.png', dpi=300)
plt.show()

# Расчет Brier Score как количественной меры калибровки
brier_score = np.mean((y_prob - y_test) ** 2)
print(f"\nBrier Score (мера калибровки): {brier_score:.4f}")
print("Интерпретация Brier Score:")
print("- 0.0: идеальная калибровка")
print("- 0.0-0.1: отличная калибровка")
print("- 0.1-0.2: хорошая калибровка")
print("- 0.2-0.3: удовлетворительная калибровка")
print("- >0.3: плохая калибровка")
```

**Интерпретация кривой калибровки:**

1. **Идеальная калибровка**: точки лежат на диагональной линии $y = x$, что означает полное соответствие предсказанных вероятностей и фактических частот.

2. **S-образная кривая**: характерный признак переобучения — модель слишком уверена в своих предсказаниях (предсказывает вероятности близкие к 0 или 1), но фактические частоты более умеренные.

3. **Инвертированная S-образная кривая**: признак недообучения — модель недостаточно уверена в своих предсказаниях (вероятности скучены около 0.5), хотя фактические частоты показывают более четкое разделение.

4. **Локальные отклонения**: могут указывать на проблемы с конкретными подмножествами данных или на наличие неучтенных взаимодействий признаков.

**Brier Score** как количественная мера калибровки:
$$BS = \frac{1}{N}\sum_{i=1}^{N}(p_i - y_i)^2$$
где $p_i$ — предсказанная вероятность, $y_i$ — истинная метка. Brier Score является среднеквадратичной ошибкой для вероятностных предсказаний и принимает значения от 0 (идеальная калибровка) до 1 (максимальное несоответствие).

## 4.3. Комплексная оценка и интерпретация модели

### 4.3.1. Интегрированный подход к оценке

Эффективная оценка модели логистической регрессии требует комплексного подхода, объединяющего:

1. **Метрики производительности**:
   - ROC AUC для оценки способности ранжировать объекты
   - F1-Score для баланса между precision и recall
   - PR AUC для задач с дисбалансом классов

2. **Метрики калибровки**:
   - Тест Хосмера-Лемешоу для статистической оценки
   - Кривая калибровки для визуального анализа
   - Brier Score для количественной оценки

3. **Интерпретация коэффициентов**:
   - Статистическая значимость коэффициентов (p-value)
   - Доверительные интервалы
   - Шансы (odds ratio) для практических интерпретаций

### 4.3.2. Практическая интерпретация коэффициентов

Для интерпретации результатов логистической регрессии в прикладных задачах часто используют **отношение шансов** (odds ratio):

$$OR_j = e^{w_j}$$

Отношение шансов $OR_j$ интерпретируется как множитель, на который изменяются шансы принадлежности к положительному классу при увеличении признака $x_j$ на единицу при фиксированных значениях остальных признаков.

Например, если для признака "возраст" коэффициент $w_j = 0.2$, то $OR_j = e^{0.2} \approx 1.22$, что означает: увеличение возраста на 1 год увеличивает шансы принадлежности к положительному классу в 1.22 раза (или на 22%).

**Код 4.3**  
Расчет и визуализация отношения шансов с доверительными интервалами

```python
import statsmodels.api as sm
import numpy as np
import matplotlib.pyplot as plt

# Обучение модели с использованием statsmodels для получения статистик
X_train_sm = sm.add_constant(X_train)  # Добавление константы для intercept
logit_model = sm.Logit(y_train, X_train_sm)
result = logit_model.fit(disp=False)

# Получение коэффициентов и их доверительных интервалов
coefficients = result.params
conf_int = result.conf_int()
p_values = result.pvalues

# Расчет отношения шансов и доверительных интервалов
odds_ratios = np.exp(coefficients)
conf_int_odds = np.exp(conf_int)

# Создание DataFrame для отображения
results_df = pd.DataFrame({
    'Коэффициент': coefficients,
    'Отношение шансов (OR)': odds_ratios,
    'Нижняя граница 95% ДИ': conf_int_odds.iloc[:, 0],
    'Верхняя граница 95% ДИ': conf_int_odds.iloc[:, 1],
    'p-value': p_values
})

print("\nСтатистические результаты логистической регрессии:")
print(results_df.round(4))

# Визуализация отношения шансов с доверительными интервалами
plt.figure(figsize=(10, 6))
features = ['Константа', 'Признак 1', 'Признак 2']  # Названия признаков

# Фильтрация значимых коэффициентов (p < 0.05)
significant_mask = p_values < 0.05
significant_features = [features[i] for i, sig in enumerate(significant_mask) if sig]
significant_or = [odds_ratios[i] for i, sig in enumerate(significant_mask) if sig]
significant_ci_lower = [conf_int_odds.iloc[i, 0] for i, sig in enumerate(significant_mask) if sig]
significant_ci_upper = [conf_int_odds.iloc[i, 1] for i, sig in enumerate(significant_mask) if sig]

y_pos = range(len(significant_features))
plt.errorbar(significant_or, y_pos,
             xerr=[np.array(significant_or)-np.array(significant_ci_lower),
                   np.array(significant_ci_upper)-np.array(significant_or)],
             fmt='o', color='blue', capsize=5, elinewidth=2)

plt.axvline(x=1, color='red', linestyle='--', alpha=0.7, label='Нейтральная линия (OR=1)')
plt.yticks(y_pos, significant_features)
plt.xlabel('Отношение шансов (OR) с 95% доверительным интервалом')
plt.title('Значимые предикторы с доверительными интервалами')
plt.grid(axis='y', alpha=0.3)
plt.legend()
plt.tight_layout()
plt.savefig('odds_ratios.png', dpi=300)
plt.show()

# Интерпретация значимых коэффициентов
print("\nИнтерпретация значимых предикторов (p < 0.05):")
for i, feature in enumerate(features):
    if p_values[i] < 0.05:
        or_val = odds_ratios[i]
        direction = "увеличивает" if or_val > 1 else "уменьшает"
        percent_change = abs(or_val - 1) * 100
        print(f"- {feature}: отношение шансов = {or_val:.2f} (95% ДИ: [{conf_int_odds.iloc[i, 0]:.2f}, {conf_int_odds.iloc[i, 1]:.2f}])")
        print(f"  Увеличение {feature.lower()} на единицу {direction} шансы в {or_val:.2f} раза ({percent_change:.1f}%)\n")
```

## 4.4. Преимущества и ограничения логистической регрессии

### 4.4.1. Фундаментальные преимущества

1. **Статистическая обоснованность**: Логистическая регрессия имеет прочную теоретическую базу в математической статистике, включая метод максимального правдоподобия и асимптотическую теорию оценок.

2. **Интерпретируемость**: Коэффициенты модели имеют четкую статистическую интерпретацию в терминах логарифма шансов и отношения шансов, что критически важно в регулируемых отраслях (медицина, финансы, страхование).

3. **Вычислительная эффективность**: Алгоритмы обучения логистической регрессии (L-BFGS, координатный спуск) обладают высокой вычислительной эффективностью и масштабируемостью, особенно по сравнению с более сложными моделями.

4. **Гарантии сходимости**: При использовании подходящих оптимизаторов и регуляризации процесс обучения имеет гарантии сходимости к глобальному оптимуму благодаря выпуклости функции потерь.

5. **Робастность к шуму**: L2-регуляризация обеспечивает устойчивость модели к выбросам и шуму в данных.

### 4.4.2. Критические ограничения

1. **Линейная разделимость**: Фундаментальное ограничение логистической регрессии — предположение о линейной разделимости классов в признаковом пространстве. Для данных с нелинейными зависимостями качество модели будет ограничено.

2. **Зависимость от предобработки**: Эффективность модели существенно зависит от качества предобработки данных:
   - Требуется обработка пропущенных значений
   - Необходима нормализация/стандартизация признаков
   - Требуется преобразование категориальных переменных
   - Важна проверка на мультиколлинеарность

3. **Ограниченная способность к автоматическому отбору признаков**: Хотя L1-регуляризация обеспечивает некоторую селективность признаков, логистическая регрессия не обладает встроенной способностью к автоматическому созданию высокоуровневых признаков.

4. **Чувствительность к дисбалансу классов**: Без специальных методов корректировки (веса классов, сэмплинг) модель склонна к смещению в сторону доминирующего класса.

5. **Требования к размеру выборки**: Для получения статистически значимых оценок коэффициентов требуется достаточный размер выборки, особенно при большом количестве признаков.

## 4.5. Стратегии расширения возможностей логистической регрессии

### 4.5.1. Инженерия признаков для нелинейности

Для преодоления ограничения линейной разделимости применяются методы инженерии признаков:

1. **Полиномиальные признаки**: создание взаимодействий признаков и полиномиальных членов:
   $$\mathbf{x}_{\text{new}} = [x_1, x_2, x_1^2, x_2^2, x_1x_2]^T$$

2. **Сплайны**: использование кусочно-полиномиальных функций для гибкого моделирования нелинейных зависимостей.

3. **Дискретизация**: преобразование непрерывных признаков в категориальные бины.

4. **Ядерные методы**: применение ядерных преобразований для проецирования данных в пространство большей размерности.

### 4.5.2. Когда следует рассматривать альтернативные модели

Переход к более сложным моделям оправдан в следующих сценариях:

**Таблица 4.2**  
Критерии выбора альтернативных моделей вместо логистической регрессии

| Критерий | Признак необходимости смены модели | Рекомендуемые альтернативы |
|----------|-----------------------------------|--------------------------|
| **Нелинейная разделимость** | Визуализация показывает сложную границу; ROC AUC < 0.7 при хорошем HL-тесте | SVM с ядром, Random Forest, Gradient Boosting, Нейронные сети |
| **Высокая размерность** | Количество признаков >> количество наблюдений; высокая мультиколлинеарность | Lasso-регрессия, PCA + LR, Random Forest |
| **Сложные взаимодействия** | Значимые взаимодействия в спецификации; плохая калибровка после добавления полиномов | Gradient Boosting, Random Forest, Нейронные сети |
| **Автоматическая обработка признаков** | Требуется минимальная предобработка; много категориальных переменных | CatBoost, LightGBM, Random Forest |
| **Максимальная производительность** | Требуется достижение максимального ROC AUC/PR AUC; интерпретируемость вторична | Ensemble methods, Глубокое обучение |

### 4.5.3. Гибридные подходы

Современная практика часто использует гибридные подходы, сочетающие преимущества логистической регрессии и более сложных моделей:

1. **Использование эмбеддингов**: применение нейронных сетей для создания эмбеддингов признаков с последующим обучением логистической регрессии на этих представлениях.

2. **Каскадные модели**: использование мощных моделей (Gradient Boosting) для автоматической инженерии признаков с последующим применением логистической регрессии для финальной классификации и интерпретации.

3. **Оценка неопределенности**: применение байесовских методов для логистической регрессии, обеспечивающих не только точечные оценки, но и доверительные интервалы для предсказаний.

## 4.6. Заключение главы

Логистическая регрессия представляет собой фундаментальный инструмент в арсенале специалиста по данным, сочетающий статистическую строгость, вычислительную эффективность и интерпретируемость. Однако ее эффективное применение требует глубокого понимания как теоретических основ, так и практических аспектов диагностики и интерпретации.

Ключевые принципы успешного применения логистической регрессии включают:
- Систематическую диагностику калибровки вероятностей с использованием теста Хосмера-Лемешоу и визуальных методов;
- Комплексную оценку качества с использованием как метрик ранжирования (ROC AUC), так и метрик классификации (F1-Score);
- Статистически обоснованную интерпретацию коэффициентов с учетом доверительных интервалов и p-value;
- Понимание ограничений модели и критериев перехода к более сложным алгоритмам.

В условиях современных задач анализа данных логистическая регрессия часто служит не только самостоятельным инструментом, но и компонентом более сложных ансамблевых моделей или базой для разработки интерпретируемых гибридных подходов. Ее роль как "золотого стандарта" для бинарной классификации сохраняется благодаря уникальному сочетанию математической элегантности, вычислительной эффективности и практических свойств.

При переходе к следующим главам, посвященным ансамблевым методам и глубокому обучению, понимание принципов логистической регрессии будет служить основой для освоения более сложных концепций машинного обучения.

In [None]:
# -*- coding: utf-8 -*-
"""
Комплексная система бинарной классификации на основе логистической регрессии.
Реализует все теоретические концепции из лекции в объектно-ориентированном стиле.

Архитектура системы:
1. BinaryClassifier - основной класс классификатора
2. DataManager - управление данными и предобработка
3. ModelEvaluator - комплексная оценка модели
4. Visualizer - визуализация результатов
5. TextProcessor - обработка текстовых данных
"""

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.datasets import make_classification
from sklearn.metrics import (
    confusion_matrix, accuracy_score, precision_score, recall_score,
    f1_score, roc_auc_score, log_loss, precision_recall_curve,
    roc_curve, average_precision_score, classification_report
)
from sklearn.calibration import calibration_curve
from sklearn.preprocessing import StandardScaler
from sklearn.utils import resample
from scipy import sparse
import statsmodels.api as sm
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

class DataManager:
    """Класс для управления данными и предобработки"""

    def __init__(self, random_state=42):
        self.random_state = random_state
        self.scaler = StandardScaler()
        self.vectorizer = None
        self.is_fitted = False

    def create_synthetic_dataset(self, n_samples=1000, n_features=2, weights=[0.8, 0.2],
                               n_informative=2, flip_y=0.05, **kwargs):
        """
        Создание синтетического датасета для бинарной классификации
        """
        X, y = make_classification(
            n_samples=n_samples,
            n_features=n_features,
            n_informative=n_informative,
            n_redundant=n_features - n_informative,
            n_clusters_per_class=1,
            weights=weights,
            flip_y=flip_y,
            random_state=self.random_state,
            **kwargs
        )

        self.X = X
        self.y = y
        self.feature_names = [f'Feature_{i}' for i in range(n_features)]

        print(f"Создан синтетический датасет: {X.shape}")
        print(f"Распределение классов: {dict(zip(*np.unique(y, return_counts=True)))}")

        return X, y

    def create_text_dataset(self):
        """Создание учебного датасета для анализа тональности на русском"""
        data = {
            'text': [
                "Отличный фильм! Восхитительная игра актёров и захватывающий сюжет.",
                "Ужасный сервис. Потерял деньги и время, больше не обращусь.",
                "Очень вкусно и быстро! Обязательно закажу снова.",
                "Заказ не привезли, связь с поддержкой отсутствует.",
                "Чисто, уютно, персонал вежливый — всё на высшем уровне.",
                "Товар пришёл сломанным, возврат невозможен.",
                "Прекрасное качество, быстрая доставка, всем доволен!",
                "Никогда не сталкивался с таким плохим обслуживанием.",
                "Отличное соотношение цены и качества, рекомендую!",
                "Очень разочарован, не соответствует описанию.",
                "Быстро, качественно, профессионально!",
                "Ужасное качество, деньги на ветер.",
                "Восторг! Превзошло все ожидания.",
                "Не рекомендую, полный разочарование.",
                "Отличный сервис, приятно удивлен!"
            ],
            'sentiment': [1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1]
        }

        self.text_data = pd.DataFrame(data)
        self.X_text = self.text_data['text'].values
        self.y_text = self.text_data['sentiment'].values

        print("Создан текстовый датасет для анализа тональности")
        print(f"Размер: {len(self.X_text)} текстов")
        print(f"Распределение: {np.bincount(self.y_text)}")

        return self.X_text, self.y_text

    def prepare_numeric_data(self, X, y, test_size=0.3, scale=True):
        """Подготовка числовых данных"""
        X_train, X_test, y_train, y_test = train_test_split(
            X, y, test_size=test_size, random_state=self.random_state, stratify=y
        )

        if scale:
            X_train = self.scaler.fit_transform(X_train)
            X_test = self.scaler.transform(X_test)

        self.X_train = X_train
        self.X_test = X_test
        self.y_train = y_train
        self.y_test = y_test
        self.is_fitted = True

        print(f"Данные разделены: train {X_train.shape}, test {X_test.shape}")
        return X_train, X_test, y_train, y_test

    def prepare_text_data(self, X, y, test_size=0.3, max_features=100):
        """Подготовка текстовых данных"""
        X_train, X_test, y_train, y_test = train_test_split(
            X, y, test_size=test_size, random_state=self.random_state, stratify=y
        )

        self.vectorizer = TfidfVectorizer(
            max_features=max_features,
            ngram_range=(1, 2),
            stop_words=['и', 'в', 'на', 'с', 'по', 'для', 'к', 'не', 'что', 'это'],
            min_df=1,
            max_df=0.8
        )

        X_train_tfidf = self.vectorizer.fit_transform(X_train)
        X_test_tfidf = self.vectorizer.transform(X_test)

        self.X_train = X_train_tfidf
        self.X_test = X_test_tfidf
        self.y_train = y_train
        self.y_test = y_test
        self.is_fitted = True
        self.feature_names = self.vectorizer.get_feature_names_out()

        print(f"Текстовые данные преобразованы: train {X_train_tfidf.shape}, test {X_test_tfidf.shape}")
        return X_train_tfidf, X_test_tfidf, y_train, y_test

class ModelEvaluator:
    """Класс для комплексной оценки модели"""

    def __init__(self):
        self.metrics_history = []

    def calculate_all_metrics(self, y_true, y_pred, y_prob):
        """Расчет всех метрик качества"""
        # Базовые метрики
        accuracy = accuracy_score(y_true, y_pred)
        precision = precision_score(y_true, y_pred)
        recall = recall_score(y_true, y_pred)
        f1 = f1_score(y_true, y_pred)

        # Матрица ошибок
        cm = confusion_matrix(y_true, y_pred)
        tn, fp, fn, tp = cm.ravel()
        specificity = tn / (tn + fp) if (tn + fp) > 0 else 0

        # Вероятностные метрики
        logloss = log_loss(y_true, y_prob)
        roc_auc = roc_auc_score(y_true, y_prob)
        pr_auc = average_precision_score(y_true, y_prob)

        # MCC (Matthews Correlation Coefficient)
        mcc_numerator = (tp * tn) - (fp * fn)
        mcc_denominator = np.sqrt((tp + fp) * (tp + fn) * (tn + fp) * (tn + fn))
        mcc = mcc_numerator / mcc_denominator if mcc_denominator != 0 else 0

        metrics = {
            'accuracy': accuracy,
            'precision': precision,
            'recall': recall,
            'f1_score': f1,
            'specificity': specificity,
            'log_loss': logloss,
            'roc_auc': roc_auc,
            'pr_auc': pr_auc,
            'mcc': mcc,
            'confusion_matrix': cm,
            'tp': tp, 'fp': fp, 'fn': fn, 'tn': tn
        }

        self.metrics_history.append(metrics)
        return metrics

    def find_optimal_threshold(self, y_true, y_prob, metric='f1_score'):
        """Поиск оптимального порога по заданной метрике"""
        thresholds = np.linspace(0.1, 0.9, 50)
        metric_values = []

        for threshold in thresholds:
            y_pred = (y_prob >= threshold).astype(int)

            if metric == 'f1_score':
                score = f1_score(y_true, y_pred)
            elif metric == 'precision':
                score = precision_score(y_true, y_pred)
            elif metric == 'recall':
                score = recall_score(y_true, y_pred)
            elif metric == 'accuracy':
                score = accuracy_score(y_true, y_pred)
            else:
                raise ValueError("Метрика должна быть: 'f1_score', 'precision', 'recall', 'accuracy'")

            metric_values.append(score)

        optimal_idx = np.argmax(metric_values)
        optimal_threshold = thresholds[optimal_idx]
        optimal_score = metric_values[optimal_idx]

        return optimal_threshold, optimal_score, thresholds, metric_values

class Visualizer:
    """Класс для визуализации результатов"""

    def __init__(self, figsize=(10, 8)):
        self.figsize = figsize
        plt.style.use('default')
        sns.set_palette("husl")

    def plot_decision_boundary(self, model, X, y, title="Граница принятия решений"):
        """Визуализация границы принятия решений для 2D данных"""
        if X.shape[1] != 2:
            raise ValueError("Визуализация возможна только для 2 признаков")

        # Создание сетки
        x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
        y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
        xx, yy = np.meshgrid(np.linspace(x_min, x_max, 200),
                            np.linspace(y_min, y_max, 200))

        # Предсказание вероятностей
        grid_points = np.c_[xx.ravel(), yy.ravel()]
        if hasattr(model, 'scaler') and not sparse.issparse(grid_points):
            grid_points = model.scaler.transform(grid_points)
        Z = model.predict_proba(grid_points)[:, 1]
        Z = Z.reshape(xx.shape)

        # Построение графика
        fig, ax = plt.subplots(figsize=self.figsize)

        # Контур вероятностей
        contour = ax.contourf(xx, yy, Z, alpha=0.8, levels=50, cmap='RdYlBu')
        plt.colorbar(contour, ax=ax, label='P(y=1|x)')

        # Граница принятия решений
        decision_boundary = ax.contour(xx, yy, Z, levels=[model.threshold],
                                     colors='black', linewidths=2)
        ax.clabel(decision_boundary, fmt=f'P={model.threshold}', fontsize=12)

        # Данные
        scatter = ax.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k',
                           cmap='RdYlBu', alpha=0.8, s=60)

        ax.set_xlabel('Признак 1', fontsize=12)
        ax.set_ylabel('Признак 2', fontsize=12)
        ax.set_title(title, fontsize=14)
        ax.grid(alpha=0.3)
        ax.legend(*scatter.legend_elements(), title="Классы")

        plt.tight_layout()
        return fig

    def plot_metrics_comparison(self, metrics_dict, title="Сравнение метрик"):
        """Сравнение метрик разных моделей"""
        metrics_df = pd.DataFrame(metrics_dict).T

        fig, axes = plt.subplots(2, 2, figsize=(15, 10))
        axes = axes.ravel()

        metrics_to_plot = ['accuracy', 'precision', 'recall', 'f1_score']
        titles = ['Accuracy', 'Precision', 'Recall', 'F1-Score']

        for idx, (metric, title_ax) in enumerate(zip(metrics_to_plot, titles)):
            if metric in metrics_df.columns:
                axes[idx].bar(metrics_df.index, metrics_df[metric])
                axes[idx].set_title(title_ax)
                axes[idx].set_ylabel('Значение')
                axes[idx].tick_params(axis='x', rotation=45)

                # Добавление значений на столбцы
                for i, v in enumerate(metrics_df[metric]):
                    axes[idx].text(i, v + 0.01, f'{v:.3f}', ha='center', va='bottom')

        plt.suptitle(title, fontsize=16)
        plt.tight_layout()
        return fig

class BinaryClassifier:
    """
    Основной класс для бинарной классификации с использованием логистической регрессии.
    Реализует все теоретические концепции из лекции.
    """

    SOLVER_COMPATIBILITY = {
        'liblinear': ['l1', 'l2'],
        'lbfgs': ['l2', None],
        'newton-cg': ['l2', None],
        'sag': ['l2', None],
        'saga': ['l1', 'l2', 'elasticnet', None]
    }

    def __init__(self,
                 penalty='l2',
                 C=1.0,
                 solver='lbfgs',
                 class_weight=None,
                 max_iter=1000,
                 random_state=42,
                 threshold=0.5):
        """
        Инициализация классификатора
        """
        self.penalty = penalty
        self.C = C
        self.solver = solver
        self.class_weight = class_weight
        self.max_iter = max_iter
        self.random_state = random_state
        self.threshold = threshold

        self._validate_parameters()
        self.model = None
        self.scaler = StandardScaler()
        self.is_fitted = False

        # Инициализация компонентов системы
        self.data_manager = DataManager(random_state=random_state)
        self.evaluator = ModelEvaluator()
        self.visualizer = Visualizer()

    def _validate_parameters(self):
        """Валидация параметров модели"""
        if self.penalty not in [None, 'l1', 'l2', 'elasticnet']:
            raise ValueError(f"penalty должен быть None, 'l1', 'l2' или 'elasticnet', получен {self.penalty}")

        if self.solver not in self.SOLVER_COMPATIBILITY:
            raise ValueError(f"Неподдерживаемый solver: {self.solver}")

        if self.penalty not in self.SOLVER_COMPATIBILITY[self.solver]:
            compatible = self.SOLVER_COMPATIBILITY[self.solver]
            raise ValueError(f"Solver '{self.solver}' не поддерживает penalty '{self.penalty}'. "
                           f"Допустимые значения: {compatible}")

    def _create_model(self):
        """Создание модели логистической регрессии"""
        return LogisticRegression(
            penalty=self.penalty,
            C=self.C,
            solver=self.solver,
            class_weight=self.class_weight,
            max_iter=self.max_iter,
            random_state=self.random_state,
            n_jobs=-1
        )

    def fit(self, X, y, feature_names=None):
        """
        Обучение модели
        """
        # Валидация входных данных
        y = np.array(y)
        if not np.array_equal(np.unique(y), [0, 1]):
            raise ValueError("Целевые переменные должны быть 0 и 1")

        self.feature_names = feature_names
        self.classes_ = np.unique(y)

        # Стандартизация только для плотных числовых данных
        if not sparse.issparse(X) and hasattr(X, 'shape') and len(X.shape) == 2:
            X_scaled = self.scaler.fit_transform(X)
        else:
            X_scaled = X  # для текстовых данных или sparse матриц

        # Обучение модели
        self.model = self._create_model()
        self.model.fit(X_scaled, y)
        self.is_fitted = True

        print(f"Модель обучена. Коэффициенты: {self.model.coef_.shape}")
        return self

    def predict(self, X):
        """Предсказание классов"""
        if not self.is_fitted:
            raise RuntimeError("Модель не обучена. Сначала вызовите fit().")

        if not sparse.issparse(X) and hasattr(X, 'shape') and len(X.shape) == 2:
            X = self.scaler.transform(X)

        probabilities = self.model.predict_proba(X)[:, 1]
        return (probabilities >= self.threshold).astype(int)

    def predict_proba(self, X):
        """Предсказание вероятностей"""
        if not self.is_fitted:
            raise RuntimeError("Модель не обучена. Сначала вызовите fit().")

        if not sparse.issparse(X) and hasattr(X, 'shape') and len(X.shape) == 2:
            X = self.scaler.transform(X)

        return self.model.predict_proba(X)

    def set_threshold(self, threshold):
        """Установка порога классификации"""
        if not 0 <= threshold <= 1:
            raise ValueError("Порог должен быть в диапазоне [0, 1]")
        self.threshold = threshold
        print(f"Порог классификации установлен: {threshold}")

    def evaluate(self, X, y_true, verbose=True):
        """Комплексная оценка модели"""
        if not self.is_fitted:
            raise RuntimeError("Модель не обучена. Сначала вызовите fit().")

        y_pred = self.predict(X)
        y_prob = self.predict_proba(X)[:, 1]

        metrics = self.evaluator.calculate_all_metrics(y_true, y_pred, y_prob)

        if verbose:
            self._print_evaluation_report(metrics, y_true, y_pred, y_prob)

        return metrics

    def _print_evaluation_report(self, metrics, y_true, y_pred, y_prob):
        """Вывод отчета об оценке модели"""
        print("=" * 60)
        print("КОМПЛЕКСНАЯ ОЦЕНКА МОДЕЛИ")
        print("=" * 60)

        # Матрица ошибок
        cm = metrics['confusion_matrix']
        print(f"\nМатрица ошибок:")
        print(f"                Предсказано 0   Предсказано 1")
        print(f"Фактически 0     {cm[0,0]:<14} {cm[0,1]:<14}")
        print(f"Фактически 1     {cm[1,0]:<14} {cm[1,1]:<14}")

        # Основные метрики
        print(f"\nОсновные метрики:")
        print(f"Accuracy:    {metrics['accuracy']:.4f}")
        print(f"Precision:   {metrics['precision']:.4f}")
        print(f"Recall:      {metrics['recall']:.4f}")
        print(f"F1-Score:    {metrics['f1_score']:.4f}")
        print(f"Specificity: {metrics['specificity']:.4f}")
        print(f"MCC:         {metrics['mcc']:.4f}")

        # Вероятностные метрики
        print(f"\nВероятностные метрики:")
        print(f"ROC AUC:     {metrics['roc_auc']:.4f}")
        print(f"PR AUC:      {metrics['pr_auc']:.4f}")
        print(f"Log Loss:    {metrics['log_loss']:.4f}")

        # Анализ порога
        optimal_threshold, optimal_f1, _, _ = self.evaluator.find_optimal_threshold(y_true, y_prob)
        print(f"\nАнализ порога:")
        print(f"Текущий порог: {self.threshold:.3f} (F1 = {metrics['f1_score']:.4f})")
        print(f"Оптимальный порог: {optimal_threshold:.3f} (F1 = {optimal_f1:.4f})")

    def interpret_coefficients(self, top_n=10):
        """Интерпретация коэффициентов модели"""
        if not self.is_fitted:
            raise RuntimeError("Модель не обучена. Сначала вызовите fit().")

        if self.feature_names is None:
            if hasattr(self.model, 'coef_'):
                n_features = len(self.model.coef_[0])
                self.feature_names = [f'Feature_{i}' for i in range(n_features)]
            else:
                print("Модель не имеет коэффициентов для интерпретации")
                return None

        coef_df = pd.DataFrame({
            'feature': self.feature_names,
            'coefficient': self.model.coef_[0],
            'abs_coefficient': np.abs(self.model.coef_[0]),
            'odds_ratio': np.exp(self.model.coef_[0])
        }).sort_values('abs_coefficient', ascending=False)

        print("=" * 50)
        print("ИНТЕРПРЕТАЦИЯ КОЭФФИЦИЕНТОВ")
        print("=" * 50)

        print(f"\nТоп-{top_n} наиболее важных признаков:")
        print(coef_df.head(top_n).to_string(index=False))

        positive_coef = coef_df[coef_df['coefficient'] > 0].head()
        if len(positive_coef) > 0:
            print(f"\nТоп-{len(positive_coef)} признаков, увеличивающих вероятность класса 1:")
            for _, row in positive_coef.iterrows():
                print(f"  {row['feature']}: коэффициент = {row['coefficient']:.4f}, "
                      f"OR = {row['odds_ratio']:.4f}")

        negative_coef = coef_df[coef_df['coefficient'] < 0].head()
        if len(negative_coef) > 0:
            print(f"\nТоп-{len(negative_coef)} признаков, уменьшающих вероятность класса 1:")
            for _, row in negative_coef.iterrows():
                print(f"  {row['feature']}: коэффициент = {row['coefficient']:.4f}, "
                      f"OR = {row['odds_ratio']:.4f}")

        return coef_df

    def demonstrate_theory_concepts(self):
        """Демонстрация всех теоретических концепций из лекции"""
        print("ДЕМОНСТРАЦИЯ ТЕОРЕТИЧЕСКИХ КОНЦЕПЦИЙ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ")
        print("=" * 70)

        # 1. Сигмоидальная функция
        self._demonstrate_sigmoid_function()

        # 2. Генерация и анализ синтетических данных
        self._demonstrate_synthetic_data()

        # 3. Регуляризация
        self._demonstrate_regularization()

        # 4. Дисбаланс классов
        self._demonstrate_class_imbalance()

        # 5. Анализ тональности текстов
        self._demonstrate_text_analysis()

    def _demonstrate_sigmoid_function(self):
        """Демонстрация сигмоидальной функции"""
        print("\n1. СИГМОИДАЛЬНАЯ ФУНКЦИЯ И ЛОГАРИФМ ШАНСОВ")
        print("-" * 50)

        z_values = np.linspace(-6, 6, 100)
        probabilities = 1 / (1 + np.exp(-z_values))

        fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

        # Сигмоидальная функция
        ax1.plot(z_values, probabilities, 'b-', linewidth=3, label='σ(z) = 1/(1+e⁻ᶻ)')
        ax1.axhline(y=0.5, color='red', linestyle='--', alpha=0.7, label='P=0.5')
        ax1.axvline(x=0.0, color='red', linestyle='--', alpha=0.7)
        ax1.set_xlabel('z (логарифм шансов)')
        ax1.set_ylabel('P(y=1|z)')
        ax1.set_title('Сигмоидальная функция')
        ax1.legend()
        ax1.grid(alpha=0.3)

        # Логарифм шансов
        p_values = np.linspace(0.01, 0.99, 100)
        log_odds = np.log(p_values / (1 - p_values))
        ax2.plot(p_values, log_odds, 'r-', linewidth=3, label='log(p/(1-p))')
        ax2.set_xlabel('Вероятность P(y=1)')
        ax2.set_ylabel('Логарифм шансов log(odds)')
        ax2.set_title('Логарифм шансов')
        ax2.legend()
        ax2.grid(alpha=0.3)

        plt.tight_layout()
        plt.show()

        # Численные примеры
        examples = [-3, -1, 0, 1, 3]
        print("\nПримеры преобразования:")
        for z in examples:
            p = 1 / (1 + np.exp(-z))
            print(f"z = {z:4.1f} -> P = {p:.4f} -> log-odds = {np.log(p/(1-p)):.4f}")

    def _demonstrate_synthetic_data(self):
        """Демонстрация на синтетических данных"""
        print("\n2. АНАЛИЗ НА СИНТЕТИЧЕСКИХ ДАННЫХ")
        print("-" * 50)

        # Генерация данных
        X, y = self.data_manager.create_synthetic_dataset(
            n_samples=500, n_features=2, weights=[0.7, 0.3]
        )

        # Визуализация данных
        plt.figure(figsize=(10, 8))
        scatter = plt.scatter(X[:, 0], X[:, 1], c=y, cmap='RdYlBu',
                            edgecolors='k', alpha=0.8, s=60)
        plt.colorbar(scatter, label='Класс')
        plt.xlabel('Признак 1')
        plt.ylabel('Признак 2')
        plt.title('Синтетический датасет для бинарной классификации')
        plt.legend(*scatter.legend_elements(), title="Классы")
        plt.grid(alpha=0.3)
        plt.show()

        # Обучение и оценка модели
        X_train, X_test, y_train, y_test = self.data_manager.prepare_numeric_data(X, y)
        self.fit(X_train, y_train, feature_names=['Признак_1', 'Признак_2'])

        # Визуализация границы принятия решений
        self.visualizer.plot_decision_boundary(self, X_train, y_train)

        # Оценка модели
        metrics = self.evaluate(X_test, y_test)

        # Интерпретация коэффициентов
        self.interpret_coefficients()

    def _demonstrate_regularization(self):
        """Демонстрация эффекта регуляризации"""
        print("\n3. ЭФФЕКТ РЕГУЛЯРИЗАЦИИ")
        print("-" * 50)

        # Генерация данных с шумом
        X, y = self.data_manager.create_synthetic_dataset(
            n_samples=200, n_features=10, n_informative=2, flip_y=0.1
        )
        X_train, X_test, y_train, y_test = self.data_manager.prepare_numeric_data(X, y)

        # Модели с разной регуляризацией
        models_config = {
            'Сильная регуляризация (C=0.01)': {'C': 0.01, 'penalty': 'l2'},
            'Умеренная регуляризация (C=1.0)': {'C': 1.0, 'penalty': 'l2'},
            'Слабая регуляризация (C=100)': {'C': 100, 'penalty': 'l2'},
            'L1 регуляризация': {'C': 1.0, 'penalty': 'l1', 'solver': 'liblinear'}
        }

        results = {}
        for name, params in models_config.items():
            model = BinaryClassifier(**params, random_state=42)
            model.fit(X_train, y_train)
            metrics = model.evaluate(X_test, y_test, verbose=False)
            results[name] = metrics

            # Анализ весов
            weights_norm = np.linalg.norm(model.model.coef_)
            print(f"{name}: норма весов = {weights_norm:.4f}")

        # Визуализация сравнения
        comparison_data = {name: {k: v for k, v in metrics.items()
                                if k in ['accuracy', 'precision', 'recall', 'f1_score']}
                         for name, metrics in results.items()}

        self.visualizer.plot_metrics_comparison(comparison_data,
                                              "Сравнение моделей с разной регуляризацией")

    def _demonstrate_class_imbalance(self):
        """Демонстрация методов работы с дисбалансом классов"""
        print("\n4. МЕТОДЫ РАБОТЫ С ДИСБАЛАНСОМ КЛАССОВ")
        print("-" * 50)

        # Генерация данных с сильным дисбалансом
        X, y = self.data_manager.create_synthetic_dataset(
            n_samples=1000, weights=[0.95, 0.05]
        )

        print(f"Исходное распределение: {dict(zip(*np.unique(y, return_counts=True)))}")

        # Разные стратегии балансировки
        strategies = {
            'Без балансировки': None,
            'Автоматическая балансировка': 'balanced'
        }

        X_train, X_test, y_train, y_test = self.data_manager.prepare_numeric_data(X, y)

        results = {}
        for strategy_name, class_weight in strategies.items():
            model = BinaryClassifier(class_weight=class_weight, random_state=42)
            model.fit(X_train, y_train)
            metrics = model.evaluate(X_test, y_test, verbose=False)
            results[strategy_name] = metrics

        # Визуализация результатов
        comparison_data = {name: {k: v for k, v in metrics.items()
                                if k in ['accuracy', 'precision', 'recall', 'f1_score']}
                         for name, metrics in results.items()}

        self.visualizer.plot_metrics_comparison(comparison_data,
                                              "Сравнение стратегий балансировки")

    def _demonstrate_text_analysis(self):
        """Демонстрация анализа тональности текстов"""
        print("\n5. АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ")
        print("-" * 50)

        # Создание текстового датасета
        X_text, y_text = self.data_manager.create_text_dataset()

        # Подготовка текстовых данных
        X_train_tfidf, X_test_tfidf, y_train, y_test = self.data_manager.prepare_text_data(
            X_text, y_text, max_features=50
        )

        # Обучение модели на текстах (без стандартизации для sparse матриц)
        text_model = BinaryClassifier(class_weight='balanced', random_state=42)
        text_model.fit(X_train_tfidf, y_train,
                      feature_names=self.data_manager.feature_names.tolist())

        # Оценка модели
        metrics = text_model.evaluate(X_test_tfidf, y_test)

        # Демонстрация предсказаний
        test_texts = [
            "Отличный продукт, всем рекомендую!",
            "Ужасное качество, не стоит денег.",
            "Нормально, но есть недостатки.",
            "Восхитительно! Превзошло все ожидания.",
            "Разочарован, ожидал большего."
        ]

        print("\nДемонстрация предсказаний:")
        for text in test_texts:
            # Для демонстрации используем существующий vectorizer
            text_vectorized = self.data_manager.vectorizer.transform([text])
            proba = text_model.predict_proba(text_vectorized)[0][1]
            prediction = text_model.predict(text_vectorized)[0]
            sentiment = "ПОЛОЖИТЕЛЬНЫЙ" if prediction == 1 else "ОТРИЦАТЕЛЬНЫЙ"
            print(f"'{text}' -> {sentiment} (вероятность: {proba:.4f})")

        # Интерпретация важных слов
        print("\nИнтерпретация важных слов в модели:")
        text_model.interpret_coefficients(top_n=10)


# =============================================================================
# ДЕМОНСТРАЦИЯ РАБОТЫ СИСТЕМЫ
# =============================================================================

def main():
    """Основная функция демонстрации системы"""
    print("КОМПЛЕКСНАЯ СИСТЕМА БИНАРНОЙ КЛАССИФИКАЦИИ")
    print("Реализация всех теоретических концепций логистической регрессии")
    print("=" * 80)

    # Создание основного классификатора
    classifier = BinaryClassifier(
        penalty='l2',
        C=1.0,
        solver='lbfgs',
        class_weight='balanced',
        random_state=42
    )

    # Демонстрация всех теоретических концепций
    classifier.demonstrate_theory_concepts()

    print("\n" + "=" * 80)
    print("ДЕМОНСТРАЦИЯ ЗАВЕРШЕНА")
    print("=" * 80)
    print("\nКлючевые реализованные концепции:")
    print("✅ Сигмоидальная функция и логарифм шансов")
    print("✅ Регуляризация (L1, L2) и контроль сложности модели")
    print("✅ Методы работы с дисбалансом классов")
    print("✅ Комплексная оценка качества (ROC, PR, калибровка)")
    print("✅ Интерпретация коэффициентов и отношения шансов")
    print("✅ Анализ тональности текстов на русском языке")
    print("✅ Визуализация границы принятия решений")
    print("✅ Оптимизация порога классификации")

    return classifier


if __name__ == "__main__":
    # Запуск демонстрации
    final_classifier = main()

#Раздел 2 Многоклассовая Классификация: теоретические основы и практическая реализация


### I. Введение в Многоклассовую Классификацию: Расширение Логистической Регрессии

Логистическая регрессия (ЛР), изначально разработанная для бинарных задач, служит фундаментальной основой для классификации. В бинарном случае модель использует линейный предсказатель $z = W^T X + b$, где $W$ — веса, $X$ — признаки, а $b$ — смещение. Результат $z$ затем пропускается через сигмоидную функцию $\sigma(z) = \frac{1}{1 + e^{-z}}$, которая преобразует оценку в вероятность принадлежности к положительному классу $P \in [0, 1]$. Обучение модели происходит путём минимизации функции потерь, называемой бинарной кросс-энтропией.

Для решения задач, где целевая переменная может принимать более двух значений ($K > 2$), необходимо расширение этой базовой концепции. Существует два основных подхода к реализации многоклассовой ЛР.

#### 1. Стратегия "Один Против Всех" (One-vs-Rest, OvR)

Механизм OvR (или One-vs-All) предполагает построение $K$ независимых бинарных классификаторов, где $K$ — общее число классов. Каждый классификатор $k$ обучен отличать один класс ($C_k$) от всех остальных классов вместе взятых ($\text{Not } C_k$). Таким образом, каждый классификатор $k$ определяет вероятность $P(C_k | \text{Not } C_k)$.

При предсказании для нового объекта $X$ модель вычисляет $K$ оценок вероятности. Окончательное решение принимается путём выбора класса, получившего максимальную оценку: $\arg\max_k (P_k)$. Критический методологический недостаток OvR заключается в том, что, поскольку классификаторы работают независимо, предсказанные вероятности для одного объекта $P_1, P_2, \dots, P_K$ не обязаны суммироваться к 1. Это приводит к тому, что интерпретация выходных данных как истинных вероятностей затруднена. В scikit-learn решатель `'liblinear'` поддерживает многоклассовую классификацию исключительно через стратегию OvR.

> **Пример текстовой классификации с OvR**:  
> Представим задачу автоматической категоризации научных статей на три темы: «Физика», «Биология», «Компьютерные науки». При использовании OvR создаются три бинарных классификатора:
> - «Физика vs не-Физика»,
> - «Биология vs не-Биология»,
> - «Компьютерные науки vs не-Компьютерные науки».  
> На этапе предсказания каждая модель выдаёт оценку уверенности; например, для статьи о квантовых вычислениях: [0.85, 0.12, 0.78]. Хотя класс «Физика» получает максимальное значение, сумма не равна 1, и прямая вероятностная интерпретация невозможна.

#### 2. Мультиномиальная Логистическая Регрессия (Softmax Classification)

Мультиномиальная логистическая регрессия, также известная как Softmax-классификация, является истинным статистическим обобщением бинарной ЛР. Она моделирует вероятности принадлежности объекта $X$ ко всем $K$ классам одновременно, устраняя проблему ненормализованных вероятностей, присущую OvR. Softmax-регрессия гарантирует, что сумма предсказанных вероятностей по всем классам равна единице: $\sum_{i=1}^{K} P(C_i|x) = 1$.

Ключевым элементом является функция Softmax, которая преобразует вектор исходных оценок (логитов) $z = (z_1, z_2, \dots, z_K)$ в распределение вероятностей.

Формула Softmax-функции для класса $i$:

$$
P(C_i|x) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}
$$

Здесь экспоненциальная функция $e^z$ гарантирует, что все вероятности будут положительными, а знаменатель, представляющий сумму экспонент всех оценок, обеспечивает нормализацию, то есть $P \in [0, 1]$ и $\sum P = 1$.

Функцией потерь, используемой в Softmax-классификации, является **мультиномиальная кросс-энтропия** (Softmax Loss). Она стремится максимизировать логарифмическую вероятность истинного класса, то есть штрафует модель, если она присваивает низкую вероятность классу, к которому объект принадлежит на самом деле.

В контексте передовых методов диагностики, которые включают оценку калибровки вероятностей (Раздел VI), обязательным является использование модели, которая гарантирует нормализованные вероятности. Следовательно, Softmax-подход, активируемый в `sklearn.linear_model.LogisticRegression` при использовании параметра `multi_class='multinomial'` (или при выборе совместимых решателей, таких как `'lbfgs'` или `'saga'`), является предпочтительным выбором для всестороннего анализа.

> **Пример текстовой классификации с Softmax**:  
> В задаче определения тональности отзывов на три класса — «Негативный», «Нейтральный», «Позитивный» — Softmax-модель, обученная на TF-IDF признаках, для нового отзыва выдаёт:
> $$
> P = [0.05, 0.10, 0.85]
> $$
> Такая интерпретация корректна: модель с уверенностью 85% считает отзыв позитивным, и сумма всех вероятностей равна 1. Это критично при интеграции в системы рекомендаций или автоматической модерации, где требуется оценка надёжности решения.

---

### II. Подготовка Данных и Тонкая Настройка Модели (Python)

Для демонстрации многоклассовой классификации необходимо сгенерировать синтетический набор данных, который позволит контролировать количество классов, сложность и дисбаланс. В реальных NLP-задачах вместо синтетических данных используются корпусы текстов с разметкой.

> **Пример NLP-датасета для многоклассовой классификации**:  
> Корпус новостей `AG News` содержит 4 класса: «World», «Sports», «Business», «Sci/Tech». После токенизации и векторизации (например, с помощью `TfidfVectorizer` или `CountVectorizer`) текст преобразуется в признаковый вектор $X \in \mathbb{R}^d$, где $d$ — размер словаря. Целевая переменная $y \in \{0, 1, 2, 3\}$ — индекс тематики. Именно такую структуру можно смоделировать синтетически для обучения и визуализации.

#### 1. Генерация Синтетического Датасета

Используя функцию `make_classification` из библиотеки scikit-learn, можно создать контролируемый многоклассовый датасет. Для наглядности визуализации границ решений (Раздел V) целесообразно ограничить число информативных признаков до двух.

```python
import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# --- 2.1. Генерация Датасета ---

# Параметры для генерации 3-классового, дисбалансного датасета
N_CLASSES = 3
N_SAMPLES = 1500
RANDOM_STATE = 42

# Создание дисбалансного датасета: 60%, 25%, 15%
# Параметр weights позволяет задать пропорции классов
X, y = make_classification(
    n_samples=N_SAMPLES,
    n_features=5,            # Общее количество признаков
    n_informative=2,         # 2 признака будут информативными (полезно для визуализации)
    n_redundant=1,           # 1 признак будет линейной комбинацией информативных
    n_classes=N_CLASSES,
    n_clusters_per_class=1,  # Количество кластеров на класс
    weights=[0.60, 0.25, 0.15], # Явный дисбаланс
    random_state=RANDOM_STATE
)

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=RANDOM_STATE, stratify=y
)

print(f"Распределение классов в y_train: {np.unique(y_train, return_counts=True)}")
```

> **Аналогия с текстом**:  
> Хотя здесь $X$ — это числовые признаки, в NLP они бы соответствовали, например, TF-IDF весам топ-5 слов из корпуса. Например, для трёх классов «Политика», «Экономика», «Культура» информативными могут быть слова: *выборы*, *бюджет*, *выставка*. Таким образом, синтетический датасет имитирует поведение реального текстового входа.

#### 2. Предварительная Обработка: Масштабирование

Логистическая регрессия часто использует оптимизаторы, основанные на градиентном спуске (например, `'lbfgs'`, `'sag'`, `'saga'`). Эффективность и скорость сходимости этих методов зависят от масштаба признаков. Если признаки имеют сильно различающиеся диапазоны значений, это может замедлить процесс оптимизации.

В частности, для решателей `'sag'` и `'saga'` масштабирование данных (например, с помощью `StandardScaler`) является критически важным шагом, который гарантирует быструю сходимость.

```python
# --- 2.2. Масштабирование данных ---
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
```

> **Примечание для NLP**:  
> При использовании `CountVectorizer` или `TfidfVectorizer` признаки уже находятся в сопоставимом диапазоне (частоты или веса), и дополнительное масштабирование часто не требуется. Однако при объединении TF-IDF с числовыми мета-признаками (например, длина текста, количество восклицательных знаков) масштабирование становится обязательным.

#### 3. Гиперпараметры Регуляризации и Выбор Оптимизатора

Для многоклассовой логистической регрессии ключевыми гиперпараметрами являются сила регуляризации $C$ и тип штрафа (`penalty`).

- **$C$**: Это обратная величина силы регуляризации. Меньшее значение $C$ соответствует более сильной регуляризации, предотвращая переобучение. Значение по умолчанию — $C=1.0$.
- **`penalty`**: Определяет тип используемого штрафа: L1, L2 (по умолчанию), ElasticNet или None.

Выбор оптимизатора (`solver`) напрямую зависит от выбранного типа штрафа и того, используется ли Softmax-режим (`multi_class='multinomial'`). Необходимо строго соблюдать совместимость:

- Решатели `'newton-cg'`, `'sag'`, `'lbfgs'` поддерживают только регуляризацию L2 (или её отсутствие) в Softmax-режиме.
- Решатель `'saga'` является наиболее гибким, поскольку он единственный поддерживает штрафы L1 и ElasticNet в режиме мультиномиальной классификации (Softmax).

Для демонстрации наиболее гибкой конфигурации (ElasticNet с L1/L2) используется решатель `'saga'`.

**Таблица 1: Совместимость Решателей и Регуляризации в `LogisticRegression`**

| Solver (Решатель) | Поддерживаемые Penalty              | Поддержка Softmax (Multinomial) | Требование Масштабирования               |
|-------------------|--------------------------------------|----------------------------------|------------------------------------------|
| `'lbfgs'` (Default) | `'l2'`, `None`                       | Да                               | Нет (хорош по умолчанию)                |
| `'saga'`          | `'l1'`, `'l2'`, `'elasticnet'`, `None` | Да                               | Желательно (для быстрой сходимости)     |
| `'liblinear'`     | `'l1'`, `'l2'`                       | Нет (только OvR)                 | Нет                                     |
| `'newton-cg'`     | `'l2'`, `None`                       | Да                               | Нет                                     |

```python
from sklearn.linear_model import LogisticRegression

# Инициализация модели с Softmax и ElasticNet регуляризацией
# Softmax активируется, если multi_class='multinomial' и решатель поддерживает его
lr_model = LogisticRegression(
    solver='saga',
    penalty='elasticnet',
    l1_ratio=0.5, # 50% L1, 50% L2
    C=1.0,
    multi_class='multinomial',
    max_iter=500,
    random_state=RANDOM_STATE
)

lr_model.fit(X_train_scaled, y_train)
y_pred = lr_model.predict(X_test_scaled)
y_proba = lr_model.predict_proba(X_test_scaled)
```

> **Применение в NLP**:  
> ElasticNet-регуляризация особенно полезна при работе с разреженными текстовыми признаками (например, TF-IDF с большим словарём), так как L1-компонента способствует отбору наиболее значимых слов, а L2 — стабилизирует коэффициенты. Это позволяет создать интерпретируемую и устойчивую модель классификации документов.





## III. Работа с Дисбалансом и Методы Усиления

Работа с дисбалансом классов (когда один или несколько классов значительно преобладают или, наоборот, малочисленны) является ключевым моментом в многоклассовой классификации, особенно когда миноритарные классы представляют важные события (например, редкие заболевания или мошенничество).

#### 1. Стратегия Внутренних Классовых Весов

Наиболее прямолинейным способом устранения влияния дисбаланса является использование параметра `class_weight` в модели логистической регрессии. Если установить `class_weight='balanced'`, модель автоматически рассчитывает веса, обратно пропорциональные частоте класса (то есть веса миноритарных классов увеличиваются). Это приводит к тому, что ошибки, совершаемые на миноритарных классах, оказывают значительно большее влияние на функцию потерь во время обучения.  
Это позволяет модели уделять должное внимание даже редко встречающимся примерам, не требуя модификации самого набора данных.

> **Пример в NLP**:  
> В задаче классификации жалоб пользователей на три категории — «Техническая проблема» (60%), «Вопрос по тарифу» (25%) и «Жалоба на модератора» (15%) — последняя категория критически важна, но редка. Применение `class_weight='balanced'` заставляет модель не игнорировать такие жалобы, даже если их мало в обучающей выборке. Без балансировки модель может предсказывать только первые две категории и достигать высокой точности, но быть бесполезной на практике.

```python
# Модель с балансировкой весов
lr_model_balanced = LogisticRegression(
    solver='saga',
    penalty='elasticnet',
    l1_ratio=0.5,
    C=1.0,
    multi_class='multinomial',
    max_iter=500,
    class_weight='balanced', # Включение автоматической балансировки весов
    random_state=RANDOM_STATE
)
lr_model_balanced.fit(X_train_scaled, y_train)
y_pred_balanced = lr_model_balanced.predict(X_test_scaled)
```

#### 2. Стратегия Внешнего Сэмплирования (Аугментация)

Внешнее сэмплирование, по сути, является формой аугментации данных для табличных наборов.  
- **Oversampling (SMOTE)**: Синтетическое меньшинство (Synthetic Minority Over-sampling Technique) создаёт новые синтетические образцы миноритарного класса на основе существующих, тем самым искусственно увеличивая их представленность.  
- **Undersampling**: Уменьшение числа примеров мажоритарного класса до уровня, сопоставимого с миноритарными классами.  

Важно помнить, что любые методы сэмплирования должны применяться только к обучающей выборке (`X_train` и `y_train`). Применение их к тестовой выборке приведёт к утечке данных и нереалистично завышенной оценке качества модели.

> **Пример в NLP**:  
> При работе с корпусом медицинских документов на татарском языке, где 70% текстов относятся к «Общим симптомам», 20% — к «Хроническим заболеваниям», а лишь 10% — к «Онкологическим диагнозам», можно применить SMOTE к TF-IDF-векторам текстов из редкого класса. Хотя SMOTE изначально разработан для непрерывных признаков, он часто используется и с разреженными текстовыми векторами, создавая «средние» документы, которые помогают модели лучше выучить границы редкого класса.

#### 3. Выбор Метрики в Условиях Дисбаланса

При работе с дисбалансными данными и применении стратегий балансировки (например, `class_weight='balanced'`) оценка производительности не может опираться только на общую точность (Accuracy). Чтобы подтвердить, что балансировка действительно улучшила распознавание миноритарных классов, необходимо использовать методы усреднения метрик, которые дают равный вес всем классам. **Macro-F1 Score** идеально подходит для этой цели, поскольку он рассчитывает метрику для каждого класса, а затем берёт их простое (не взвешенное) среднее. Использование **Weighted-F1**, которое взвешивает результат по числу примеров в классе (support), скроет улучшения миноритарных классов, поскольку результаты будут доминированы показателями мажоритарного класса.

> **Пример в NLP**:  
> В системе модерации комментариев на новостном сайте на татарском языке три класса: «Допустимо» (80%), «Оскорбление» (15%), «Экстремизм» (5%). Даже при Accuracy = 82% модель может полностью пропускать экстремистские высказывания. Macro-F1, напротив, упадёт до нуля по классу «Экстремизм», если он не распознаётся, что сразу сигнализирует о проблеме.

---

## IV. Комплексная Оценка: Метрики Классификации

Для всесторонней оценки многоклассовой модели требуется набор метрик, выходящий за рамки простой точности.

#### 1. Матрица Ошибок (Confusion Matrix)

Матрица ошибок — это табличное представление результатов алгоритма классификации. Строки матрицы соответствуют истинным классам, а столбцы — предсказанным. Диагональные элементы показывают количество правильных предсказаний, а внедиагональные — ошибки (например, ложные срабатывания или пропуски).  
Анализ матрицы позволяет диагностировать специфические проблемы: например, если класс 0 часто ошибочно предсказывается как класс 2, это немедленно выявляется.

> **Пример в NLP**:  
> При классификации научных статей на татарском языке по темам «Физика», «Математика», «Информатика» матрица ошибок может показать, что статьи по «Математической физике» часто путаются с «Физикой». Это сигнал к тому, что следует уточнить категоризацию или добавить контекстные признаки.

#### 2. Precision, Recall и F1-Score

Эти метрики рассчитываются для каждого класса в отдельности, а затем агрегируются.  
- **Precision (Точность)**: Доля правильных положительных предсказаний среди всех предсказаний, отнесённых моделью к этому классу.  
- **Recall (Полнота)**: Доля истинных положительных примеров, которые были корректно идентифицированы моделью.  
- **F1-Score**: Гармоническое среднее Precision и Recall, обеспечивающее сбалансированную меру производительности.

##### Агрегация Метрик для Многоклассового Случая

Для обобщения этих метрик на многоклассовый случай используются три основных метода усреднения:

**Таблица 2: Методы Усреднения Метрик**

| Метод Усреднения | Расчетная Логика                                           | Цель                                                | Использование при Дисбалансе                             |
|------------------|------------------------------------------------------------|-----------------------------------------------------|----------------------------------------------------------|
| **Micro**        | Глобальный подсчёт TP, FP, FN по всем классам              | Общая производительность на уровне выборки          | Эквивалентен Accuracy. Доминируется мажоритарным классом |
| **Macro**        | Среднее арифметическое метрик по классам                   | Производительность на "среднем классе"              | Четко показывает качество на миноритарных классах. Идеален для оценки справедливости |
| **Weighted**     | Взвешенное среднее, где вес = Support (количество примеров) | Производительность, отражающая реальное распределение | Наиболее репрезентативен для "взвешенной" реальности     |

> **Пример в NLP**:  
> В задаче классификации отзывов на товары на татарском языке по трём тональностям («Негатив», «Нейтрально», «Позитив») с дисбалансом 10%/30%/60%:
> - **Micro-F1** будет близок к 0.85, отражая успех на большинстве позитивных отзывов.
> - **Macro-F1** может быть всего 0.60, если модель плохо справляется с «Негативом».
> Только Macro-F1 покажет реальные слабые места.

#### 3. ROC AUC для Многоклассовой Классификации

Площадь под кривой рабочих характеристик приёмника (ROC AUC) измеряет способность модели ранжировать вероятности. В многоклассовом контексте этот показатель рассчитывается с использованием стратегии OvR.  
Для расчёта необходимо бинаризовать истинные метки, преобразовав их в формат One-Hot Encoding (OHE) с помощью `LabelBinarizer`. ROC AUC затем рассчитывается для каждой бинарной задачи «класс против остальных», используя предсказанные вероятности (`y_proba`).  

Существует два основных способа усреднения многоклассового ROC AUC:  
1. **Macro-AUC**: Усреднение индивидуальных AUC для каждого класса. Это полезно, когда необходимо оценить способность модели различать каждый класс независимо от его размера.  
2. **Micro-AUC**: Получается путём объединения всех OvR-классификаций. По сути, он отражает общую производительность модели на уровне выборки.

> **Пример в NLP**:  
> При классификации документов на татарском языке по трём юридическим категориям («Гражданское право», «Уголовное право», «Административное право»), Macro-AUC покажет, насколько хорошо модель распознаёт редкие уголовные дела, даже если их всего 8% в корпусе. Micro-AUC, напротив, будет высоким даже при полном игнорировании этого класса.

```python
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score
from sklearn.preprocessing import LabelBinarizer

# --- 4. Отчет по классификации (Classification Report) ---
print("--- Отчет по классификации (Weighted Model) ---")
print(classification_report(y_test, y_pred_balanced, digits=3))

# --- 4. ROC AUC для многоклассовой классификации ---
# 1. Бинаризация истинных меток
label_binarizer = LabelBinarizer().fit(y_train)
y_test_onehot = label_binarizer.transform(y_test)

# 2. Получение предсказанных вероятностей
y_score_balanced = lr_model_balanced.predict_proba(X_test_scaled)

# 3. Расчет Macro и Micro AUC (используется multi_class='ovr')
macro_roc_auc_ovr = roc_auc_score(
    y_test_onehot, y_score_balanced, multi_class="ovr", average="macro"
)
micro_roc_auc_ovr = roc_auc_score(
    y_test_onehot, y_score_balanced, multi_class="ovr", average="micro"
)

print(f"\nMacro-Average ROC AUC (OvR): {macro_roc_auc_ovr:.4f}")
print(f"Micro-Average ROC AUC (OvR): {micro_roc_auc_ovr:.4f}")
```



## V. Визуализация: Интуитивное Понимание Модели

Визуализация помогает понять, какие решения принимает модель, как она обрабатывает ошибки и насколько хорошо она работает в сравнении со случайным угадыванием.

#### 1. Визуализация Границ Решений

Поскольку логистическая регрессия является линейным классификатором, её границы решений будут прямыми линиями (или гиперплоскостями в многомерном пространстве). Для наглядной демонстрации границ решений используются только два наиболее информативных признака или проекция данных (например, через PCA).  
Использование класса `DecisionBoundaryDisplay` из scikit-learn позволяет отобразить области пространства признаков, которые модель назначает каждому классу, наглядно демонстрируя линейность разделения.

> **Пример в NLP**:  
> Хотя текстовые признаки (например, TF-IDF) обычно многомерны, для визуализации можно взять два наиболее весомых слова (например, «бюджет» и «выборы») и построить график: по оси X — частота слова «бюджет», по оси Y — частота слова «выборы». Модель логистической регрессии проведёт прямые линии, разделяющие документы на «Экономику», «Политику» и «Культуру». Это особенно полезно на этапе отладки, чтобы убедиться, что границы соответствуют экспертным ожиданиям.

#### 2. Визуализация Многоклассовой Матрицы Ошибок

Представление матрицы ошибок в виде тепловой карты (Heatmap) позволяет быстро идентифицировать, какие классы путаются чаще всего.

```python
import matplotlib.pyplot as plt
from sklearn.metrics import ConfusionMatrixDisplay

# Визуализация матрицы ошибок
fig, ax = plt.subplots(figsize=(8, 6))
cm = confusion_matrix(y_test, y_pred_balanced)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=lr_model_balanced.classes_)
disp.plot(cmap=plt.cm.Blues, ax=ax)
ax.set_title("Матрица Ошибок (Multiclass LR)")
plt.show()
```

> **Пример в NLP**:  
> При классификации татарских новостей на категории «Спорт», «Культура» и «Наука» матрица ошибок может показать, что короткие тексты о «киберспорте» часто классифицируются как «Наука». Это позволяет добавить в систему обработку слов вроде *кибер*, *турнир*, *команда*, чтобы уточнить решение.

#### 3. Визуализация ROC-Кривых

Построение ROC-кривых для каждого класса и их усреднённых версий (Micro и Macro) является важным шагом. В многоклассовом случае ROC-кривая строится с использованием стратегии «Один против Остальных» для каждого класса.

```python
from sklearn.metrics import roc_curve, RocCurveDisplay

# 5.3. Визуализация ROC-кривых OvR
fig, ax = plt.subplots(figsize=(8, 8))

# Построение индивидуальных ROC-кривых для каждого класса
for i in range(N_CLASSES):
    fpr, tpr, _ = roc_curve(y_test_onehot[:, i], y_score_balanced[:, i])
    roc_auc = roc_auc_score(y_test_onehot[:, i], y_score_balanced[:, i])
    RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc,
                    estimator_name=f"Класс {i}").plot(ax=ax)

# Добавление Micro-средней ROC-кривой
RocCurveDisplay.from_predictions(
    y_test_onehot.ravel(), y_score_balanced.ravel(),
    name=f"Micro-average ROC (AUC = {micro_roc_auc_ovr:.2f})",
    color="deeppink", linestyle=":", linewidth=4, ax=ax
)

# Установка графика
ax.plot([0, 1], [0, 1], "k--", label="Уровень случайного шанса")
plt.axis("square")
plt.xlabel("False Positive Rate (FPR)")
plt.ylabel("True Positive Rate (TPR)")
plt.title("One-vs-Rest ROC кривые для Softmax LR")
plt.legend()
plt.show()
```

> **Пример в NLP**:  
> В задаче определения тональности татарских комментариев к новостям («Позитив», «Нейтрально», «Негатив») ROC-кривые позволяют оценить, насколько хорошо модель различает тонкие случаи, например, сарказм (часто ошибочно классифицируемый как «Позитив»). Высокий AUC для «Негатива» даже при малом количестве примеров свидетельствует о надёжности модели.

---

## VI. Глубокая Диагностика: Калибровка Вероятностей

В классификации, особенно пробабилистической (как Softmax LR), традиционный анализ остатков, применяемый в линейной регрессии, неприменим. Вместо этого диагностика должна фокусироваться на оценке калибровки вероятностей — насколько хорошо предсказанные вероятности $P(y|x)$ соответствуют истинной частоте событий.

#### 1. Почему не Хосмер-Лемешоу?

Тест Хосмера-Лемешоу (HL test), который часто используется для оценки качества подгонки (goodness of fit) в бинарной логистической регрессии, строго ограничен бинарными переменными отклика (alive or dead, yes or no). Этот тест не может быть применён напрямую к многоклассовым задачам. Таким образом, для многоклассового анализа требуются более универсальные методы оценки прогностических вероятностей.

> **Пример в NLP**:  
> При разработке системы раннего выявления «токсичных комментариев» на татарском языке с тремя уровнями токсичности («Безопасно», «Спорно», «Токсично»), бинарный HL-тест неприменим. Вместо него используются многоклассовые меры калибровки, чтобы убедиться, что вероятность 0.9 для «Токсично» действительно означает, что в 90% случаев модератор подтвердит токсичность.

#### 2. Количественная Оценка Калибровки: Brier Score Loss и Log Loss

Для количественной оценки качества вероятностей используются строго правильные оценочные функции.

**Brier Score Loss (BSL)**  
Brier Score Loss измеряет среднеквадратичную разницу между предсказанной вероятностью $p_t$ и фактическим результатом $o_t$ (который равен 1 для истинного класса и 0 для остальных).  

Формула BSL:

$$
BSL = \frac{1}{N} \sum_{t=1}^{N} (p_t - o_t)^2
$$

Меньшее значение BSL указывает на лучшую калибровку. Для многоклассовой задачи BSL рассчитывается путём усреднения оценок Brier Score, полученных для каждого класса в бинаризованном (OHE) формате.

**Log Loss (Логарифмическая Функция Потерь)**  
Log Loss (Мультиномиальная Кросс-Энтропия) также является ключевой метрикой для оценки качества вероятностей. Она сильно штрафует модель, если она присваивает высокую уверенность (вероятность, близкую к 1) неправильному классу. Log Loss часто используется как целевая функция при обучении Softmax-моделей.

#### 3. Визуальная Оценка Калибровки: Калибровочные Кривые

Калибровочные кривые (или Диаграммы Надёжности) визуально сравнивают предсказанную вероятность (ось X) с истинной частотой событий (ось Y).  

- **Идеальная калибровка**: Предсказания идеально откалиброваны, если они лежат на диагональной линии $y = x$. Например, если модель предсказала вероятность 0.7, то в 70% случаев объект должен принадлежать к этому классу.  
- **Интерпретация отклонений**: Если кривая лежит ниже диагонали, модель слишком уверена (перекалибрована). Если кривая лежит выше диагонали, модель недостаточно уверена (недокалибрована).  

Для многоклассовой логистической регрессии необходимо построить отдельную калибровочную кривую для каждого класса, сравнивая предсказанные вероятности $P(C_i)$ с соответствующими OHE-метками $y_i$.

**Таблица 3: Инструменты Диагностики Пробабилистической Классификации**

| Инструмент Диагностики      | Цель                                               | Тип Входных Данных               | Используется для Multiclass? |
|----------------------------|----------------------------------------------------|----------------------------------|------------------------------|
| Brier Score Loss           | Количественная оценка калибровки (MSD вероятностей) | Предсказанные вероятности (`y_proba`) | Да                           |
| Калибровочная Кривая       | Визуальная оценка соответствия вероятности и частоты | Предсказанные вероятности (`y_proba`) | Да (для каждого класса)        |
| Log Loss                   | Количественная оценка качества вероятностей (штраф за уверенные ошибки) | Предсказанные вероятности (`y_proba`) | Да                           |

```python
from sklearn.metrics import brier_score_loss, log_loss
from sklearn.calibration import calibration_curve
import matplotlib.pyplot as plt

# --- 6.2. Количественные метрики калибровки ---
logloss = log_loss(y_test, y_score_balanced)
print(f"\nLog Loss (Мультиномиальная Кросс-Энтропия): {logloss:.4f}")

# Расчет Brier Score Loss для каждого класса
brier_scores = []
for i in range(N_CLASSES):
    bsl = brier_score_loss(y_test_onehot[:, i], y_score_balanced[:, i])
    brier_scores.append(bsl)
print(f"Brier Score Loss (средний по классам): {np.mean(brier_scores):.4f}")

# --- 6.3. Визуализация калибровочных кривых ---
fig, ax = plt.subplots(figsize=(8, 8))
ax.plot([0, 1], [0, 1], "k--", label="Идеальная калибровка")

for i in range(N_CLASSES):
    prob_true, prob_pred = calibration_curve(y_test_onehot[:, i], y_score_balanced[:, i], n_bins=10)
    ax.plot(prob_pred, prob_true, marker='o', label=f'Класс {i}')

ax.set_title("Калибровочные Кривые (Softmax LR)")
ax.set_xlabel("Средняя предсказанная вероятность")
ax.set_ylabel("Доля истинных событий")
ax.legend()
plt.show()
```

> **Пример в NLP**:  
> В системе автоматической рубрикации татарских статей, где вероятности используются для ранжирования предполагаемых тем, хорошая калибровка критична. Если модель для статьи о башкирской культуре (не в нашем корпусе) выдаёт $P(\text{Культура}) = 0.85$, но при этом реальная точность таких предсказаний — лишь 60%, система будет давать ложную уверенность. Калибровочные кривые позволяют это обнаружить и, при необходимости, применить пост-калибровку.

На калибровочной кривой логистическая регрессия, как правило, демонстрирует хорошее поведение, поскольку по своей природе является пробабилистической моделью, оптимизирующей Кросс-Энтропию, что способствует внутренней калибровке.

---

## VII. Заключение Лекции

### 1. Синтез Ключевых Решений и Взаимосвязей

Проведение глубокого анализа многоклассовой классификации требует согласованного выбора методов на каждом этапе: от выбора модели до оценки её производительности.

1. **Выбор Модели**: Приоритет был отдан Мультиномиальной (Softmax) Логистической Регрессии перед OvR, поскольку Softmax гарантирует нормализацию вероятностей ($\sum P = 1$), что является обязательным условием для проведения продвинутой диагностики калибровки.  
2. **Настройка Оптимизатора**: Использование гибких методов регуляризации (например, ElasticNet) в Softmax-режиме требует применения специализированных решателей, таких как `'saga'`, а для обеспечения быстрой и надёжной сходимости при использовании `'saga'` необходимо предварительное масштабирование признаков.  
3. **Обработка Дисбаланса и Метрики**: В случае дисбаланса, балансировка весов (через `class_weight='balanced'`) позволяет модели уделять больше внимания миноритарным классам. Однако, чтобы честно измерить эффективность этой балансировки, необходимо использовать **Macro-F1 Score** и **Macro-AUC**, которые не взвешивают результат по количеству примеров и, таким образом, дают равный голос миноритарным классам.  
4. **Продвинутая Диагностика**: Классификационные модели требуют оценки качества вероятностей, а не традиционного анализа остатков. Вместо неприменимого для мультиклассовых задач теста Хосмера-Лемешоу, используются количественные метрики (**Brier Score Loss**, **Log Loss**) и визуальные инструменты (**Калибровочные Кривые**) для оценки надёжности прогностических вероятностей.

> **Связь с NLP**:  
> Все эти принципы напрямую применимы к задачам обработки текстов на малоресурсных языках, таких как татарский. Например, при построении системы определения тематики исторических документов, где классы дисбалансны, а вероятности используются для архивной сортировки, именно Softmax-модель с `class_weight='balanced'`, оценённая по Macro-F1 и визуализированная через калибровочные кривые, обеспечит как точность, так и доверие к результатам.

### 2. Ограничения и Дальнейшие Шаги

Важно понимать, что Логистическая Регрессия, даже в мультиномиальном режиме, остаётся линейной моделью. Если сгенерированные данные или реальные данные не могут быть линейно разделены в пространстве признаков, производительность ЛР будет ограничена. В таких случаях для достижения более высоких метрик потребуется переход к нелинейным классификаторам, таким как метод опорных векторов с ядром (Kernel SVM), ансамблевые методы (например, градиентный бустинг) или нейронные сети.  

Если в дальнейшем используются более сложные модели, которые, будучи мощными предсказателями класса, могут демонстрировать плохую калибровку вероятностей (например, излишнюю уверенность), их результаты могут быть улучшены с помощью методов пост-калибрации, таких как **Изотоническая Регрессия** или **Платт-скейлинг**. Это гарантирует, что даже нелинейные модели выдают прогностические вероятности, которые можно надёжно интерпретировать.

> **Перспектива для NLP**:  
> В будущем, при интеграции моделей вроде Tatar2Vec с последующим применением нейросетевых классификаторов, калибровка будет играть ещё более важную роль — эмбеддинги могут давать высокую точность, но их вероятности часто переувереныны. Тогда именно комбинация продвинутой векторизации и пост-калибрации создаст надёжную NLP-систему для татарского языка.


In [None]:
# -*- coding: utf-8 -*-
"""
Комплексная система многоклассовой классификации на основе мультиномиальной логистической регрессии.
Реализует все теоретические концепции из лекции в объектно-ориентированном стиле.

Архитектура системы:
1. MulticlassClassifier - основной класс классификатора
2. MulticlassDataManager - управление данными и предобработка
3. MulticlassEvaluator - комплексная оценка модели
4. MulticlassVisualizer - визуализация результатов
5. ProbabilityCalibrator - диагностика калибровки вероятностей
"""

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler, LabelBinarizer
from sklearn.metrics import (
    confusion_matrix, classification_report, accuracy_score,
    precision_score, recall_score, f1_score, roc_auc_score,
    roc_curve, RocCurveDisplay, log_loss, brier_score_loss
)
from sklearn.calibration import calibration_curve
from sklearn.utils import resample
import warnings
warnings.filterwarnings('ignore')

class MulticlassDataManager:
    """Класс для управления многоклассовыми данными и предобработки"""

    def __init__(self, random_state=42):
        self.random_state = random_state
        self.scaler = StandardScaler()
        self.label_binarizer = LabelBinarizer()
        self.is_fitted = False

    def create_synthetic_dataset(self, n_samples=1500, n_features=5, n_classes=3,
                               n_informative=2, n_redundant=1, weights=None,
                               flip_y=0.05, **kwargs):
        """
        Создание синтетического многоклассового датасета
        """
        if weights is None:
            weights = [0.6, 0.25, 0.15]  # Дисбаланс по умолчанию

        X, y = make_classification(
            n_samples=n_samples,
            n_features=n_features,
            n_informative=n_informative,
            n_redundant=n_redundant,
            n_classes=n_classes,
            n_clusters_per_class=1,
            weights=weights,
            flip_y=flip_y,
            random_state=self.random_state,
            **kwargs
        )

        self.X = X
        self.y = y
        self.n_classes = n_classes
        self.feature_names = [f'Feature_{i}' for i in range(n_features)]

        print(f"Создан синтетический датасет: {X.shape}")
        print(f"Количество классов: {n_classes}")
        print(f"Распределение классов: {dict(zip(*np.unique(y, return_counts=True)))}")

        return X, y

    def prepare_data(self, X, y, test_size=0.3, scale=True):
        """Подготовка данных для обучения"""
        X_train, X_test, y_train, y_test = train_test_split(
            X, y, test_size=test_size, random_state=self.random_state, stratify=y
        )

        if scale:
            X_train = self.scaler.fit_transform(X_train)
            X_test = self.scaler.transform(X_test)

        # Бинаризация меток для многоклассовых метрик
        y_train_onehot = self.label_binarizer.fit_transform(y_train)
        y_test_onehot = self.label_binarizer.transform(y_test)

        self.X_train = X_train
        self.X_test = X_test
        self.y_train = y_train
        self.y_test = y_test
        self.y_train_onehot = y_train_onehot
        self.y_test_onehot = y_test_onehot
        self.is_fitted = True

        print(f"Данные подготовлены: train {X_train.shape}, test {X_test.shape}")
        return X_train, X_test, y_train, y_test

    def balance_dataset(self, method='class_weight'):
        """Балансировка датасета"""
        if not self.is_fitted:
            raise ValueError("Данные не подготовлены")

        if method == 'class_weight':
            print("Используется стратегия class_weight='balanced'")
            return 'balanced'

        elif method == 'oversample':
            print("Применяется oversampling миноритарных классов...")
            X_resampled = [self.X_train]
            y_resampled = [self.y_train]

            # Oversampling для каждого миноритарного класса
            for class_label in np.unique(self.y_train):
                class_count = np.sum(self.y_train == class_label)
                max_count = max(np.bincount(self.y_train))

                if class_count < max_count:
                    X_class = self.X_train[self.y_train == class_label]
                    X_oversampled = resample(
                        X_class,
                        replace=True,
                        n_samples=max_count - class_count,
                        random_state=self.random_state
                    )
                    y_oversampled = np.full(len(X_oversampled), class_label)

                    X_resampled.append(X_oversampled)
                    y_resampled.append(y_oversampled)

            self.X_train = np.vstack(X_resampled)
            self.y_train = np.hstack(y_resampled)

            print(f"После oversampling: {dict(zip(*np.unique(self.y_train, return_counts=True)))}")
            return None

        else:
            raise ValueError("Метод должен быть 'class_weight' или 'oversample'")

class MulticlassEvaluator:
    """Класс для комплексной оценки многоклассовой модели"""

    def __init__(self):
        self.metrics_history = []

    def calculate_metrics(self, y_true, y_pred, y_proba, y_true_onehot=None, average_methods=None):
        """Расчет всех метрик качества для многоклассовой классификации"""
        if average_methods is None:
            average_methods = ['micro', 'macro', 'weighted']

        metrics = {}

        # Accuracy
        metrics['accuracy'] = accuracy_score(y_true, y_pred)

        # Precision, Recall, F1 для разных методов усреднения
        for avg in average_methods:
            metrics[f'precision_{avg}'] = precision_score(y_true, y_pred, average=avg, zero_division=0)
            metrics[f'recall_{avg}'] = recall_score(y_true, y_pred, average=avg, zero_division=0)
            metrics[f'f1_{avg}'] = f1_score(y_true, y_pred, average=avg, zero_division=0)

        # ROC AUC (требует onehot кодирование)
        if y_true_onehot is not None and y_proba is not None:
            try:
                metrics['roc_auc_micro'] = roc_auc_score(y_true_onehot, y_proba, multi_class='ovr', average='micro')
                metrics['roc_auc_macro'] = roc_auc_score(y_true_onehot, y_proba, multi_class='ovr', average='macro')
            except:
                metrics['roc_auc_micro'] = 0.5
                metrics['roc_auc_macro'] = 0.5

        # Log Loss
        if y_proba is not None:
            metrics['log_loss'] = log_loss(y_true, y_proba)

        # Brier Score Loss (для каждого класса)
        if y_true_onehot is not None and y_proba is not None:
            brier_scores = []
            for i in range(y_proba.shape[1]):
                try:
                    bsl = brier_score_loss(y_true_onehot[:, i], y_proba[:, i])
                    brier_scores.append(bsl)
                except:
                    brier_scores.append(1.0)
            metrics['brier_score_mean'] = np.mean(brier_scores)
            metrics['brier_scores'] = brier_scores

        # Матрица ошибок
        metrics['confusion_matrix'] = confusion_matrix(y_true, y_pred)

        self.metrics_history.append(metrics)
        return metrics

    def print_detailed_report(self, y_true, y_pred, y_proba=None):
        """Детальный отчет о качестве модели"""
        print("=" * 70)
        print("КОМПЛЕКСНАЯ ОЦЕНКА МНОГОКЛАССОВОЙ МОДЕЛИ")
        print("=" * 70)

        # Classification report
        print("\nДЕТАЛЬНЫЙ ОТЧЕТ ПО КЛАССАМ:")
        print(classification_report(y_true, y_pred, digits=3))

        # Основные метрики
        print("\nОБОБЩЕННЫЕ МЕТРИКИ:")
        print(f"Accuracy:           {accuracy_score(y_true, y_pred):.4f}")
        print(f"Precision (Macro):  {precision_score(y_true, y_pred, average='macro', zero_division=0):.4f}")
        print(f"Recall (Macro):     {recall_score(y_true, y_pred, average='macro', zero_division=0):.4f}")
        print(f"F1-Score (Macro):   {f1_score(y_true, y_pred, average='macro', zero_division=0):.4f}")

        if y_proba is not None:
            print(f"Log Loss:           {log_loss(y_true, y_proba):.4f}")

        # Сравнение методов усреднения
        print("\nСРАВНЕНИЕ МЕТОДОВ УСРЕДНЕНИЯ:")
        averages = ['micro', 'macro', 'weighted']
        for avg in averages:
            precision = precision_score(y_true, y_pred, average=avg, zero_division=0)
            recall = recall_score(y_true, y_pred, average=avg, zero_division=0)
            f1 = f1_score(y_true, y_pred, average=avg, zero_division=0)
            print(f"{avg:8}: Precision={precision:.3f}, Recall={recall:.3f}, F1={f1:.3f}")

class MulticlassVisualizer:
    """Класс для визуализации результатов многоклассовой классификации"""

    def __init__(self, figsize=(10, 8)):
        self.figsize = figsize
        plt.style.use('default')
        sns.set_palette("husl")

    def plot_confusion_matrix(self, cm, class_names, title="Матрица ошибок"):
        """Визуализация матрицы ошибок"""
        fig, ax = plt.subplots(figsize=self.figsize)

        sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
                   xticklabels=class_names, yticklabels=class_names,
                   ax=ax)

        ax.set_xlabel('Предсказанный класс')
        ax.set_ylabel('Истинный класс')
        ax.set_title(title)

        plt.tight_layout()
        return fig

    def plot_roc_curves(self, y_true_onehot, y_proba, class_names, title="ROC кривые"):
        """Визуализация ROC кривых для многоклассовой классификации"""
        fig, ax = plt.subplots(figsize=self.figsize)

        # ROC кривые для каждого класса
        for i in range(len(class_names)):
            fpr, tpr, _ = roc_curve(y_true_onehot[:, i], y_proba[:, i])
            roc_auc = roc_auc_score(y_true_onehot[:, i], y_proba[:, i])

            ax.plot(fpr, tpr, label=f'{class_names[i]} (AUC = {roc_auc:.3f})', linewidth=2)

        # Micro-average ROC curve
        fpr_micro, tpr_micro, _ = roc_curve(y_true_onehot.ravel(), y_proba.ravel())
        roc_auc_micro = roc_auc_score(y_true_onehot, y_proba, multi_class='ovr', average='micro')
        ax.plot(fpr_micro, tpr_micro,
               label=f'Micro-average (AUC = {roc_auc_micro:.3f})',
               color='deeppink', linestyle=':', linewidth=4)

        # Случайный классификатор
        ax.plot([0, 1], [0, 1], 'k--', alpha=0.5, label='Случайный классификатор')

        ax.set_xlabel('False Positive Rate')
        ax.set_ylabel('True Positive Rate')
        ax.set_title(title)
        ax.legend()
        ax.grid(alpha=0.3)

        plt.tight_layout()
        return fig

    def plot_calibration_curves(self, y_true_onehot, y_proba, class_names, title="Калибровочные кривые"):
        """Визуализация калибровочных кривых"""
        fig, ax = plt.subplots(figsize=self.figsize)

        # Идеальная калибровка
        ax.plot([0, 1], [0, 1], "k--", label="Идеальная калибровка")

        # Калибровочные кривые для каждого класса
        for i in range(len(class_names)):
            prob_true, prob_pred = calibration_curve(
                y_true_onehot[:, i], y_proba[:, i], n_bins=10, strategy='uniform'
            )
            ax.plot(prob_pred, prob_true, marker='o', label=f'Класс {class_names[i]}', linewidth=2)

        ax.set_xlabel('Средняя предсказанная вероятность')
        ax.set_ylabel('Доля истинных событий')
        ax.set_title(title)
        ax.legend()
        ax.grid(alpha=0.3)

        plt.tight_layout()
        return fig

    def plot_feature_importance(self, feature_names, coefficients, title="Важность признаков"):
        """Визуализация важности признаков"""
        n_classes = coefficients.shape[0]
        n_features = len(feature_names)

        fig, axes = plt.subplots(1, n_classes, figsize=(5*n_classes, 6))
        if n_classes == 1:
            axes = [axes]

        for i, ax in enumerate(axes):
            # Абсолютные значения коэффициентов для важности
            importance = np.abs(coefficients[i])
            indices = np.argsort(importance)[::-1]

            ax.bar(range(n_features), importance[indices])
            ax.set_xticks(range(n_features))
            ax.set_xticklabels([feature_names[j] for j in indices], rotation=45)
            ax.set_title(f'Класс {i}')
            ax.set_ylabel('Абсолютное значение коэффициента')
            ax.grid(alpha=0.3)

        plt.suptitle(title)
        plt.tight_layout()
        return fig

class ProbabilityCalibrator:
    """Класс для диагностики калибровки вероятностей"""

    def __init__(self):
        self.calibration_results = {}

    def evaluate_calibration(self, y_true_onehot, y_proba):
        """Комплексная оценка калибровки вероятностей"""
        results = {}

        # Log Loss
        results['log_loss'] = log_loss(y_true_onehot, y_proba)

        # Brier Score Loss для каждого класса
        brier_scores = []
        for i in range(y_proba.shape[1]):
            bsl = brier_score_loss(y_true_onehot[:, i], y_proba[:, i])
            brier_scores.append(bsl)

        results['brier_scores'] = brier_scores
        results['brier_score_mean'] = np.mean(brier_scores)
        results['brier_score_std'] = np.std(brier_scores)

        # Калибровочные кривые
        calibration_curves = {}
        for i in range(y_proba.shape[1]):
            prob_true, prob_pred = calibration_curve(
                y_true_onehot[:, i], y_proba[:, i], n_bins=10, strategy='uniform'
            )
            calibration_curves[f'class_{i}'] = {
                'prob_true': prob_true,
                'prob_pred': prob_pred
            }

        results['calibration_curves'] = calibration_curves

        self.calibration_results = results
        return results

    def print_calibration_report(self):
        """Отчет о калибровке вероятностей"""
        if not self.calibration_results:
            print("Сначала выполните evaluate_calibration()")
            return

        print("=" * 60)
        print("ДИАГНОСТИКА КАЛИБРОВКИ ВЕРОЯТНОСТЕЙ")
        print("=" * 60)

        results = self.calibration_results

        print(f"\nLog Loss (Кросс-Энтропия): {results['log_loss']:.4f}")
        print(f"Brier Score Loss (средний): {results['brier_score_mean']:.4f}")
        print(f"Brier Score Loss (std): {results['brier_score_std']:.4f}")

        print("\nBrier Score Loss по классам:")
        for i, score in enumerate(results['brier_scores']):
            print(f"  Класс {i}: {score:.4f}")

        # Интерпретация
        print("\nИНТЕРПРЕТАЦИЯ:")
        if results['brier_score_mean'] < 0.1:
            print("✅ Отличная калибровка вероятностей")
        elif results['brier_score_mean'] < 0.2:
            print("⚠️  Хорошая калибровка вероятностей")
        elif results['brier_score_mean'] < 0.3:
            print("🔶 Удовлетворительная калибровка")
        else:
            print("❌ Плохая калибровка вероятностей")

class MulticlassClassifier:
    """
    Основной класс для многоклассовой классификации с использованием
    мультиномиальной логистической регрессии.
    """

    SOLVER_COMPATIBILITY = {
        'lbfgs': ['l2', None],
        'newton-cg': ['l2', None],
        'sag': ['l2', None],
        'saga': ['l1', 'l2', 'elasticnet', None],
        'liblinear': ['l1', 'l2']  # Только OvR
    }

    def __init__(self,
                 multi_class='multinomial',
                 penalty='l2',
                 C=1.0,
                 solver='lbfgs',
                 class_weight=None,
                 max_iter=1000,
                 random_state=42,
                 l1_ratio=0.5):
        """
        Инициализация многоклассового классификатора
        """
        self.multi_class = multi_class
        self.penalty = penalty
        self.C = C
        self.solver = solver
        self.class_weight = class_weight
        self.max_iter = max_iter
        self.random_state = random_state
        self.l1_ratio = l1_ratio

        self._validate_parameters()
        self.model = None
        self.is_fitted = False

        # Инициализация компонентов системы
        self.data_manager = MulticlassDataManager(random_state=random_state)
        self.evaluator = MulticlassEvaluator()
        self.visualizer = MulticlassVisualizer()
        self.calibrator = ProbabilityCalibrator()

    def _validate_parameters(self):
        """Валидация параметров модели"""
        if self.multi_class not in ['multinomial', 'ovr']:
            raise ValueError("multi_class должен быть 'multinomial' или 'ovr'")

        if self.solver not in self.SOLVER_COMPATIBILITY:
            raise ValueError(f"Неподдерживаемый solver: {self.solver}")

        if self.penalty not in self.SOLVER_COMPATIBILITY[self.solver]:
            compatible = self.SOLVER_COMPATIBILITY[self.solver]
            raise ValueError(f"Solver '{self.solver}' не поддерживает penalty '{self.penalty}'. "
                           f"Допустимые значения: {compatible}")

        # Проверка совместимости multinomial режима
        if self.multi_class == 'multinomial' and self.solver == 'liblinear':
            raise ValueError("Solver 'liblinear' не поддерживает multi_class='multinomial'. "
                           "Используйте 'ovr' или выберите другой solver (lbfgs, saga, etc.)")

    def _create_model(self):
        """Создание модели логистической регрессии"""
        if self.penalty == 'elasticnet' and self.solver == 'saga':
            return LogisticRegression(
                multi_class=self.multi_class,
                penalty=self.penalty,
                C=self.C,
                solver=self.solver,
                class_weight=self.class_weight,
                max_iter=self.max_iter,
                random_state=self.random_state,
                l1_ratio=self.l1_ratio,
                n_jobs=-1
            )
        else:
            return LogisticRegression(
                multi_class=self.multi_class,
                penalty=self.penalty,
                C=self.C,
                solver=self.solver,
                class_weight=self.class_weight,
                max_iter=self.max_iter,
                random_state=self.random_state,
                n_jobs=-1
            )

    def fit(self, X, y, feature_names=None):
        """
        Обучение модели
        """
        self.feature_names = feature_names
        self.classes_ = np.unique(y)
        self.n_classes = len(self.classes_)

        # Обучение модели
        self.model = self._create_model()
        self.model.fit(X, y)
        self.is_fitted = True

        print(f"Модель обучена. Количество классов: {self.n_classes}")
        print(f"Коэффициенты: {self.model.coef_.shape}")

        return self

    def predict(self, X):
        """Предсказание классов"""
        if not self.is_fitted:
            raise RuntimeError("Модель не обучена. Сначала вызовите fit().")
        return self.model.predict(X)

    def predict_proba(self, X):
        """Предсказание вероятностей"""
        if not self.is_fitted:
            raise RuntimeError("Модель не обучена. Сначала вызовите fit().")
        return self.model.predict_proba(X)

    def evaluate(self, X, y_true, y_true_onehot=None, verbose=True):
        """Комплексная оценка модели"""
        if not self.is_fitted:
            raise RuntimeError("Модель не обучена. Сначала вызовите fit().")

        y_pred = self.predict(X)
        y_proba = self.predict_proba(X)

        metrics = self.evaluator.calculate_metrics(y_true, y_pred, y_proba, y_true_onehot)

        if verbose:
            self.evaluator.print_detailed_report(y_true, y_pred, y_proba)

        return metrics, y_pred, y_proba

    def interpret_coefficients(self, top_n=10):
        """Интерпретация коэффициентов модели"""
        if not self.is_fitted:
            raise RuntimeError("Модель не обучена. Сначала вызовите fit().")

        if self.feature_names is None:
            self.feature_names = [f'Feature_{i}' for i in range(self.model.coef_.shape[1])]

        print("=" * 60)
        print("ИНТЕРПРЕТАЦИЯ КОЭФФИЦИЕНТОВ МОДЕЛИ")
        print("=" * 60)

        for class_idx in range(self.n_classes):
            coef = self.model.coef_[class_idx]
            intercept = self.model.intercept_[class_idx]

            # Создание DataFrame с коэффициентами
            coef_df = pd.DataFrame({
                'feature': self.feature_names,
                'coefficient': coef,
                'abs_coefficient': np.abs(coef),
                'odds_ratio': np.exp(coef)
            }).sort_values('abs_coefficient', ascending=False)

            print(f"\n--- Класс {class_idx} (Intercept: {intercept:.4f}) ---")
            print(f"Топ-{top_n} наиболее важных признаков:")
            print(coef_df.head(top_n).round(4).to_string(index=False))

        return self.model.coef_, self.model.intercept_

    def demonstrate_softmax_function(self):
        """Демонстрация работы Softmax функции"""
        print("\n" + "="*50)
        print("ДЕМОНСТРАЦИЯ SOFTMAX ФУНКЦИИ")
        print("="*50)

        # Генерация примеров логитов
        np.random.seed(self.random_state)
        logits_examples = [
            np.array([1.0, 2.0, 0.5]),    # Один доминирующий класс
            np.array([0.1, 0.1, 0.1]),    # Все классы равновероятны
            np.array([3.0, 2.9, 0.1]),    # Два конкурирующих класса
            np.array([-1.0, 0.0, 1.0])    # Разброс значений
        ]

        print("\nПреобразование логитов в вероятности с помощью Softmax:")
        print("Логиты -> Вероятности -> Сумма вероятностей")
        print("-" * 50)

        for i, logits in enumerate(logits_examples):
            # Softmax вручную
            exp_logits = np.exp(logits - np.max(logits))  # Стабильная версия
            probabilities = exp_logits / np.sum(exp_logits)

            print(f"Пример {i+1}:")
            print(f"  Логиты:    {logits}")
            print(f"  Вероятности: {probabilities}")
            print(f"  Сумма: {np.sum(probabilities):.6f}")
            print()

    def compare_ovr_vs_multinomial(self, X_train, y_train, X_test, y_test, y_test_onehot):
        """Сравнение стратегий OvR и Multinomial"""
        print("\n" + "="*60)
        print("СРАВНЕНИЕ OVR VS MULTINOMIAL СТРАТЕГИЙ")
        print("="*60)

        # Multinomial модель
        model_multinomial = LogisticRegression(
            multi_class='multinomial',
            solver='lbfgs',
            max_iter=1000,
            random_state=self.random_state
        )
        model_multinomial.fit(X_train, y_train)

        # OvR модель
        model_ovr = LogisticRegression(
            multi_class='ovr',
            solver='liblinear',
            max_iter=1000,
            random_state=self.random_state
        )
        model_ovr.fit(X_train, y_train)

        # Предсказания
        y_pred_multi = model_multinomial.predict(X_test)
        y_proba_multi = model_multinomial.predict_proba(X_test)

        y_pred_ovr = model_ovr.predict(X_test)
        y_proba_ovr = model_ovr.predict_proba(X_test)

        # Сравнение метрик
        metrics_multi = self.evaluator.calculate_metrics(y_test, y_pred_multi, y_proba_multi, y_test_onehot)
        metrics_ovr = self.evaluator.calculate_metrics(y_test, y_pred_ovr, y_proba_ovr, y_test_onehot)

        print("\nСРАВНЕНИЕ МЕТРИК:")
        comparison_df = pd.DataFrame({
            'Multinomial': [
                metrics_multi['accuracy'],
                metrics_multi['f1_macro'],
                metrics_multi['roc_auc_macro'],
                metrics_multi['log_loss']
            ],
            'OvR': [
                metrics_ovr['accuracy'],
                metrics_ovr['f1_macro'],
                metrics_ovr['roc_auc_macro'],
                metrics_ovr['log_loss']
            ]
        }, index=['Accuracy', 'F1 Macro', 'ROC AUC Macro', 'Log Loss'])

        print(comparison_df.round(4))

        # Сравнение сумм вероятностей
        print(f"\nСуммы вероятностей (должны быть = 1.0):")
        print(f"Multinomial: min={np.min(y_proba_multi.sum(axis=1)):.6f}, "
              f"max={np.max(y_proba_multi.sum(axis=1)):.6f}")
        print(f"OvR:         min={np.min(y_proba_ovr.sum(axis=1)):.6f}, "
              f"max={np.max(y_proba_ovr.sum(axis=1)):.6f}")

        return model_multinomial, model_ovr

    def demonstrate_complete_workflow(self):
        """Полная демонстрация рабочего процесса многоклассовой классификации"""
        print("ПОЛНАЯ ДЕМОНСТРАЦИЯ МНОГОКЛАССОВОЙ КЛАССИФИКАЦИИ")
        print("=" * 80)

        # 1. Генерация данных
        print("\n1. ГЕНЕРАЦИЯ СИНТЕТИЧЕСКИХ ДАННЫХ")
        X, y = self.data_manager.create_synthetic_dataset(
            n_samples=1500, n_features=5, n_classes=3,
            n_informative=2, weights=[0.6, 0.25, 0.15]
        )

        # 2. Подготовка данных
        print("\n2. ПОДГОТОВКА ДАННЫХ")
        X_train, X_test, y_train, y_test = self.data_manager.prepare_data(X, y)

        # 3. Демонстрация Softmax
        self.demonstrate_softmax_function()

        # 4. Сравнение стратегий
        print("\n3. СРАВНЕНИЕ СТРАТЕГИЙ КЛАССИФИКАЦИИ")
        self.compare_ovr_vs_multinomial(X_train, y_train, X_test, y_test,
                                      self.data_manager.y_test_onehot)

        # 5. Обучение основной модели
        print("\n4. ОБУЧЕНИЕ ОСНОВНОЙ МОДЕЛИ (Multinomial + ElasticNet)")
        self.fit(X_train, y_train, self.data_manager.feature_names)

        # 6. Оценка модели
        print("\n5. КОМПЛЕКСНАЯ ОЦЕНКА МОДЕЛИ")
        metrics, y_pred, y_proba = self.evaluate(
            X_test, y_test, self.data_manager.y_test_onehot
        )

        # 7. Интерпретация коэффициентов
        print("\n6. ИНТЕРПРЕТАЦИЯ МОДЕЛИ")
        coefficients, intercepts = self.interpret_coefficients()

        # 8. Диагностика калибровки
        print("\n7. ДИАГНОСТИКА КАЛИБРОВКИ ВЕРОЯТНОСТЕЙ")
        calibration_results = self.calibrator.evaluate_calibration(
            self.data_manager.y_test_onehot, y_proba
        )
        self.calibrator.print_calibration_report()

        # 9. Визуализации
        print("\n8. ВИЗУАЛИЗАЦИЯ РЕЗУЛЬТАТОВ")

        # Матрица ошибок
        cm = confusion_matrix(y_test, y_pred)
        self.visualizer.plot_confusion_matrix(
            cm, self.classes_, "Матрица ошибок Multinomial LR"
        )

        # ROC кривые
        self.visualizer.plot_roc_curves(
            self.data_manager.y_test_onehot, y_proba,
            self.classes_, "ROC кривые для Multinomial LR"
        )

        # Калибровочные кривые
        self.visualizer.plot_calibration_curves(
            self.data_manager.y_test_onehot, y_proba,
            self.classes_, "Калибровочные кривые"
        )

        # Важность признаков
        if hasattr(self, 'feature_names'):
            self.visualizer.plot_feature_importance(
                self.feature_names, coefficients, "Важность признаков по классам"
            )

        plt.show()

        print("\n" + "=" * 80)
        print("ДЕМОНСТРАЦИЯ ЗАВЕРШЕНА")
        print("=" * 80)


# =============================================================================
# ДЕМОНСТРАЦИЯ РАБОТЫ СИСТЕМЫ
# =============================================================================

def main():
    """Основная функция демонстрации системы"""
    print("КОМПЛЕКСНАЯ СИСТЕМА МНОГОКЛАССОВОЙ КЛАССИФИКАЦИИ")
    print("На основе мультиномиальной логистической регрессии")
    print("=" * 80)

    # Создание классификатора с ElasticNet регуляризацией
    classifier = MulticlassClassifier(
        multi_class='multinomial',
        penalty='elasticnet',
        solver='saga',
        C=1.0,
        class_weight='balanced',
        l1_ratio=0.5,
        max_iter=1000,
        random_state=42
    )

    # Запуск полной демонстрации
    classifier.demonstrate_complete_workflow()

    print("\nРЕАЛИЗОВАННЫЕ КОНЦЕПЦИИ:")
    print("✅ Мультиномиальная логистическая регрессия (Softmax)")
    print("✅ Стратегия 'Один против всех' (OvR)")
    print("✅ Регуляризация L1, L2, ElasticNet")
    print("✅ Работа с дисбалансом классов")
    print("✅ Комплексные метрики оценки (Macro, Micro, Weighted)")
    print("✅ ROC AUC для многоклассовой классификации")
    print("✅ Диагностика калибровки вероятностей")
    print("✅ Brier Score Loss и Log Loss")
    print("✅ Визуализация матрицы ошибок и ROC кривых")
    print("✅ Интерпретация коэффициентов модели")

    return classifier


if __name__ == "__main__":
    # Запуск демонстрации
    final_classifier = main()

 # Раздел  3. Многометочная классификация: теоретические основы и практическая реализация


### I. Введение: Фундаментальные Концепции Многометочной Классификации

Многометочная классификация (Multi-label Classification) представляет собой обобщение традиционных задач классификации в машинном обучении. В то время как многоклассовая классификация (Multi-class Classification) требует от системы присвоения каждому экземпляру одной единственной, взаимоисключающей метки (например, изображение — это либо «яблоко», либо «груша»), многометочная классификация позволяет присвоить одному экземпляру множество неисключающих меток.  

Формально задача многометочного обучения заключается в поиске модели, которая отображает входной вектор признаков $X$ в бинарный вектор меток $Y = \{y_1, y_2, \dots, y_Q\}$, где $Q$ — общее количество возможных меток, а каждый элемент $y_i$ может принимать значение 0 или 1, указывая на отсутствие или присутствие соответствующей метки. Например, текстовый документ может быть одновременно помечен как «Политика» и «Финансы», поскольку эти темы не являются взаимоисключающими.

> **Пример в NLP (на татарском языке)**:  
> В корпусе татарских новостных статей одна и та же публикация может содержать признаки сразу нескольких тем: «Мәдәният» (культура), «Тарих» (история) и «Татар теле» (язык). Например, репортаж о фестивале татарской поэзии в Казани одновременно относится ко всем трём категориям. Многометочная классификация позволяет корректно отразить такую семантическую многогранность, в отличие от жёсткой многоклассовой схемы.

#### I.1. Принцип Бинарной Релевантности (Binary Relevance, BR)

Базовым и наиболее распространённым подходом к решению многометочной задачи является метод преобразования задачи (Problem Transformation) под названием **Бинарная Релевантность** (Binary Relevance, BR). Этот подход преобразует исходную сложную многомерную задачу в набор $Q$ независимых бинарных классификационных задач.

##### Принцип Работы BR

1. Для каждой из $Q$ меток создаётся отдельный бинарный классификатор $C_j$.  
2. Каждый классификатор $C_j$ обучается независимо, используя исходные признаки $X$, чтобы предсказать наличие ($y_j=1$) или отсутствие ($y_j=0$) только своей метки.  
3. При предсказании для нового образца $x$, модель BR агрегирует результаты всех $Q$ классификаторов. Если классификатор $C_j$ выдаёт положительный результат, метка $y_j$ присваивается образцу.  

В библиотеке Scikit-learn реализация BR осуществляется с помощью мета-классификатора `MultiOutputClassifier`. Он позволяет обернуть любой стандартный классификатор, например, `LogisticRegression`, и применить его независимо к каждому целевому столбцу.

> **Пример в NLP**:  
> При анализе отзывов на книги на татарском языке каждый отзыв может содержать метки: «Эмоционально окраслы» (эмоциональный), «Билгеләнгән автор» (известный автор), «Балалар өчен» (для детей). Использование BR позволяет обучить три независимых классификатора на TF-IDF-признаках, и, например, для отзыва «Бу китап балалар өчен дә, шулай ук билгеле язучы Әхмәтова турында» модель вернёт вектор `[0, 1, 1]` (если первый класс — «эмоциональный», который здесь отсутствует).

##### Сравнение с Многоклассовой Задачей

Хотя BR внешне напоминает метод «Один против всех» (One-vs.-Rest, OvR), используемый в многоклассовой классификации, он принципиально отличается. В OvR цель состоит в выборе одного лучшего класса из $K$ возможных, тогда как в BR могут быть предсказаны все, некоторые или ни одной метки, так как метки не являются взаимоисключающими.

**Таблица I: Сравнение Классификационных Задач**

| Характеристика             | Многоклассовая (Multi-Class)        | Многометочная (Multi-Label)        | BR (наша модель)                          |
|---------------------------|--------------------------------------|-------------------------------------|------------------------------------------|
| Выход                     | Одно значение из $K$                | Вектор $\{0, 1\}^Q$                | $Q$ независимых бинарных предсказаний   |
| Взаимоисключаемость меток | Да                                   | Нет                                 | Обрабатывается как $Q$ независимых задач |
| Учёт корреляции меток     | Присутствует (через softmax)        | Должен учитываться                 | Игнорируется (ключевое ограничение BR)   |

##### Ограничения Метода BR

Простота и высокая масштабируемость BR являются его главными преимуществами. Однако его ключевое ограничение заключается в том, что он полностью игнорирует корреляцию между метками. В реальных данных, особенно в задачах классификации документов или изображений, метки часто имеют сильную корреляцию (например, наличие метки «Зима» сильно коррелирует с меткой «Снег»). Поскольку BR обучает каждый классификатор $C_j$ независимо, он не использует информацию о том, что $P(Y_1|X)$ может зависеть от $Y_2$. Это приводит к субоптимальной производительности в задачах, где корреляция меток критически важна для точного предсказания.

> **Пример в NLP**:  
> В татарском корпусе юридических документов метки «Хокук» (право) и «Конституция» часто встречаются вместе. Модель BR может предсказать «Хокук» с высокой уверенностью, но не предсказать «Конституция», даже если контекст явно указывает на неё, потому что соответствующий бинарный классификатор не «знает» о присутствии первой метки.

---

### II. Практическая Реализация: Генерация Данных и Базовая Модель

Для демонстрации принципа BR-LR (Binary Relevance с использованием Логистической Регрессии) необходим синтетический набор многометочных данных.

#### II.1. Генерация Синтетического Многометочного Датасета (Python)

Генерация данных осуществляется с использованием функции `make_multilabel_classification` из библиотеки Scikit-learn, которая позволяет настроить ключевые параметры, такие как количество образцов, признаков, общее число меток и, что важно, среднее число меток на один образец.

```python
import numpy as np
from sklearn.datasets import make_multilabel_classification
from sklearn.multioutput import MultiOutputClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from collections import Counter
from sklearn.metrics import multilabel_confusion_matrix, f1_score, hamming_loss, jaccard_score
from sklearn.calibration import CalibratedClassifierCV
from sklearn.multiclass import OneVsRestClassifier
from sklearn.model_selection import StratifiedKFold, GridSearchCV
import pandas as pd
import matplotlib.pyplot as plt

# --- 1. Генерация Датасета ---
# n_classes = 5: Всего 5 возможных меток (столбцов в Y).
# n_labels = 2: Среднее число меток на образец (из распределения Пуассона).
X, y = make_multilabel_classification(
    n_samples=500,        # Количество образцов
    n_features=10,        # Количество признаков
    n_classes=5,          # Общее количество меток (Q)
    n_labels=2,           # Среднее количество меток на образец
    allow_unlabeled=True, # Разрешить образцы без меток
    random_state=42
)

# Вывод размерностей для проверки
print(f"Размерность признаков X: {X.shape}")
print(f"Размерность меток Y: {y.shape}")

# Демонстрация первых трех векторов меток
print("\nПервые три вектора меток Y:")
print(list(y[:3]))

# Разделение данных
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print(f"\nРазмер тренировочного набора: {X_train.shape}")
print(f"Размер тестового набора: {X_test.shape}")
```

> **Аналогия с текстом**:  
> Здесь `X` имитирует векторизованные тексты (например, с помощью TF-IDF), а `y` — многометочные разметки. Например, 5 меток могут означать: `[«Спорт», «Экономика», «Наука», «Культура», «Политика»]`, и один документ может иметь `[1, 0, 1, 0, 1]` — то есть относиться одновременно к спорту, науке и политике (например, статья о государственном финансировании спортивных исследований).

#### II.2. Построение Базовой Модели Логистической Регрессии (BR-LR)

В качестве базового классификатора выбирается Логистическая Регрессия (`LogisticRegression`). Логистическая Регрессия является линейным классификатором, который выдаёт вероятности, что делает её идеальной для задач, где важна не только бинарная классификация, но и оценка уверенности (калибровка).

```python
# --- 2. Построение Модели BR-LR ---
# Инициализация базового классификатора: LR с солвером 'liblinear' (подходит для небольших данных)
base_lr = LogisticRegression(solver='liblinear', random_state=42)

# Оборачивание в MultiOutputClassifier для многометочной классификации (реализация BR)
multi_target_lr = MultiOutputClassifier(base_lr)

# Обучение модели
multi_target_lr.fit(X_train, y_train)

# Получение бинарных предсказаний
y_pred = multi_target_lr.predict(X_test)

# Получение вероятностей предсказания (список из 5 массивов, по одному на метку)
y_proba_list = multi_target_lr.predict_proba(X_test)

print("\nПример предсказания (Бинарный вектор):")
print(y_pred[:2])
print("\nПример вероятностей (Вероятность класса 1 для каждой метки):")
# Для удобства преобразуем список массивов вероятностей в массив,
# взяв только вероятности положительного класса (индекс 1)
y_proba_aggregated = np.column_stack([p[:, 1] for p in y_proba_list])
print(y_proba_aggregated[:2])
```

> **Применение в NLP**:  
> Вероятности `y_proba_aggregated` позволяют не только делать жёсткие предсказания, но и ранжировать метки по релевантности. Например, для татарского документа модель может выдать:  
> `P(«Тарих») = 0.92`, `P(«Мәдәният») = 0.87`, `P(«Технология») = 0.15`.  
> Это особенно полезно в системах рекомендаций, модерации или автоматического теггирования, где важно понимать степень уверенности.




## III. Тонкая Настройка Гиперпараметров

Логистическая регрессия в Scikit-learn по умолчанию является регуляризованным классификатором. Правильная настройка её гиперпараметров критически важна для достижения оптимальной производительности и предотвращения переобучения, особенно когда мы обучаем $Q$ независимых моделей.

#### III.1. Ключевые Гиперпараметры Логистической Регрессии

1. **Регуляризация (`penalty`)**: Определяет тип штрафа, добавляемого к функции потерь для ограничения сложности модели.  
   - **L2 (default)**: Штраф по квадратам весов, способствует их уменьшению.  
   - **L1**: Штраф по абсолютным значениям весов, способствует разреженности (обнуляет некоторые веса, выполняя отбор признаков).  
   - **ElasticNet**: Комбинация L1 и L2 (требует солвера `saga`).  

2. **Сила Регуляризации (`C`)**: Этот параметр является обратным силе регуляризации. Меньшее значение $C$ соответствует более сильной регуляризации (большему штрафу) и используется для борьбы с переобучением. Значение по умолчанию — 1.0.

3. **Оптимизатор (`solver`)**: Алгоритм, используемый для минимизации функции потерь. Выбор солвера зависит от выбранного типа регуляризации.

**Таблица III: Совместимость Солверов Логистической Регрессии и Регуляризации**

| Solver (Оптимизатор) | L1 | L2 | ElasticNet | Рекомендации |
|----------------------|----|----|------------|--------------|
| `lbfgs`              | Нет | Да | Нет        | Хорош по умолчанию, но только L2. |
| `liblinear`          | Да | Да | Нет        | Быстр для малых данных. Поддерживает L1/L2. |
| `saga`               | Да | Да | Да         | Лучший выбор для ElasticNet и больших данных. |
| `newton-cg`          | Нет | Да | Нет        | Только L2. |

> **Пример в NLP**:  
> При классификации татарских научных статей по темам (`Q = 6`: «Физика», «Математика», «Лингвистика», «История», «Педагогика», «Информатика») применение L1-регуляризации помогает отобрать наиболее релевантные слова для каждой темы. Например, для «Лингвистики» могут остаться только такие признаки, как *татар теле*, *морфология*, *диалект*, в то время как общие слова (например, *документ*, *автор*) будут обнулены.

#### III.2. Стратегия Оптимизации BR-LR

При использовании `MultiOutputClassifier` мы обучаем $Q$ моделей. Необходимо найти единый набор гиперпараметров (например, оптимальное значение $C$), который даёт наилучший агрегированный результат.  
Критически важно понимать, что при BR-LR мы предполагаем, что оптимальный параметр $C$ одинаков для всех $Q$ классификаторов. Однако, из-за дисбаланса данных (что характерно для многометочных задач, см. Раздел IV), количество положительных примеров для каждой метки может сильно варьироваться. Оптимальная сила регуляризации для метки с высокой частотой может быть неадекватной для редкой метки, которая нуждается в более сильной регуляризации (меньше $C$), чтобы избежать переобучения на малом числе положительных примеров.  
Поэтому при настройке гиперпараметров с использованием `GridSearchCV` или `RandomizedSearchCV` необходимо использовать комплексную многометочную метрику (например, **F1-Macro**) в качестве целевой функции оценки. Такой подход гарантирует, что оптимизация найдёт компромиссное значение $C$, которое обеспечивает справедливую производительность для всех меток, а не только для тех, которые встречаются чаще всего.

> **Пример в NLP**:  
> В корпусе татарских новостей метка «Экология» встречается редко (5% документов), в то время как «Политика» — в 60%. Если оптимизировать по F1-Micro, модель будет слабо распознавать «Экологию». Оптимизация по **F1-Macro**, напротив, заставит алгоритм искать такие значения $C$, при которых обе метки получат сопоставимое качество.

---

## IV. Работа с Дисбалансом и Аугментация Данных (Imbalance Handling)

Дисбаланс является одной из самых серьёзных проблем в многометочной классификации.

#### IV.1. Типы Дисбаланса в Multi-label

1. **Дисбаланс Метки (Label Imbalance)**: Стандартный дисбаланс, где для каждой отдельной метки $y_j$, число положительных примеров значительно меньше, чем отрицательных.  
2. **Дисбаланс Набора Меток (Labelset Imbalance)**: Поскольку количество возможных комбинаций меток экспоненциально ($2^Q$), некоторые уникальные наборы меток могут встречаться крайне редко, в то время как простые или пустые наборы доминируют.

> **Пример в NLP**:  
> В архиве татарских газетных статей комбинация меток [`«Тарих»`, `«Татар теле»`, `«Мәдәният»`] может встречаться часто, тогда как [`«Космонавтика»`, `«Татар теле»`] — лишь единожды. Это — проявление **дисбаланса набора меток**.

#### IV.2. Стратегии Борьбы с Дисбалансом в BR-LR

**Метод 1: Взвешивание Классов (`Class Weight`)**  
Самый простой способ интеграции в BR-LR — использование параметра `class_weight='balanced'` в `LogisticRegression`. Этот параметр заставляет модель автоматически взвешивать ошибки, допущённые на миноритарном (положительном) классе, пропорционально обратной частоте его появления.  
- **Преимущество**: Легко реализуется в `MultiOutputClassifier` и не требует изменения размера датасета.  
- **Недостаток**: Учитывает только дисбаланс отдельных меток, но не помогает при дисбалансе наборов меток.

**Метод 2: Ресемплинг и Аугментация (Resampling)**  
Стандартные методы оверсемплинга, такие как SMOTE (Synthetic Minority Over-sampling Technique) или ADASYN, изначально разработаны для бинарных или многоклассовых задач.  
- **Риск стандартного SMOTE**: Если применить стандартный SMOTE к многомерному выходу $Y$, он будет генерировать синтетические векторы меток $Y_{\text{synth}}$ путём простой линейной интерполяции. Этот процесс может создавать нереалистичные или шумовые комбинации меток, которые никогда не встречаются в реальном мире, тем самым разрушая естественные корреляции между метками.  
- **Специализированные Методы (MLSMOTE)**: Для многометочной классификации существуют специализированные подходы, такие как **MLSMOTE** (Multi-label SMOTE). Вместо простой интерполяции, MLSMOTE генерирует новые синтетические наборы меток $Y_{\text{synth}}$ для аугментированного образца $X_{\text{synth}}$ на основе правила большинства, наблюдаемого среди $k$ ближайших соседей миноритарного образца. Это позволяет сохранить структуру и корреляцию между метками, что критически важно для многометочного обучения.

**Критическая Проблема: Утечка Данных (Data Leakage)**  
При использовании любого метода ресемплинга (включая SMOTE или его многометочные аналоги), аугментация должна производиться исключительно на тренировочном наборе данных. Применение оверсемплинга к тестовому набору приводит к утечке данных и завышенной, нереалистичной оценке производительности.  
Для предотвращения этой ошибки рекомендуется использовать `Pipeline` из библиотеки `imbalanced-learn` (`imblearn`), который гарантирует, что шаги ресемплинга выполняются строго внутри этапа обучения, изолированно от тестовых данных.

**Таблица IV: Сравнение Методов Борьбы с Дисбалансом в Multi-label**

| Метод | Тип Дисбаланса | Учёт Корреляции | Проблема Утечки | Реализация BR-LR |
|-------|----------------|------------------|------------------|------------------|
| `class_weight` (LR) | Дисбаланс метки | Нет | Нет | Простая (встроенный параметр LR) |
| Стандартный SMOTE | Дисбаланс метки | Низкий (может разрушать комбинации) | Да (требует Pipeline) | Требует адаптации для многометочного $Y$ |
| MLSMOTE | Дисбаланс набора меток | Да (учитывает соседей) | Да (требует Pipeline) | Кастомная реализация |

> **Пример в NLP**:  
> При создании системы теггирования татарских фольклорных текстов, где редкая метка `«Мифология»` встречается только в 3% документов, использование `class_weight='balanced'` позволяет избежать её полного игнорирования. Если же комбинация [`«Мифология»`, `«Эпос»`] уникальна, то MLSMOTE может создать синтетические примеры на основе близких по содержанию текстов, сохранив семантическую целостность.

---

## V. Комплексная Оценка Модели: Метрики

В многометочной классификации использование одной метрики (например, точности) недостаточно. Требуется комплексный набор метрик, которые оценивают производительность как на уровне отдельных меток, так и на уровне всего набора меток.

#### V.1. Порогово-Зависимые Метрики (Prediction-Based)

Эти метрики требуют бинаризации предсказанных вероятностей $P(y_j=1|x)$ путём выбора порогового значения (обычно 0.5).

1. **Hamming Loss (Потери Хэмминга)**: Измеряет долю пар (образец, метка), которые были классифицированы неверно. По сути, это среднее число неправильно присвоенных или пропущенных меток. Чем ближе к 0, тем лучше.  
2. **Jaccard Similarity Score (Индекс Жаккара)**: Измеряет сходство между истинным набором меток $Y_{\text{true}}$ и предсказанным набором $Y_{\text{pred}}$ как отношение их пересечения к объединению. Это отличная метрика для оценки качества всего предсказанного набора меток. Чем ближе к 1, тем лучше.  
3. **Precision, Recall, F1-Score**: В многометочной классификации эти метрики усредняются тремя основными способами:  
   - **Micro-усреднение**: Агрегирует истинно положительные (TP), ложно положительные (FP) и ложно отрицательные (FN) значения по всем меткам глобально. На результаты доминирующее влияние оказывают наиболее частые метки.  
   - **Macro-усреднение**: Рассчитывает метрику (например, F1) для каждой метки индивидуально, а затем берёт среднее арифметическое. Придаёт равный вес каждой метке, независимо от частоты. Это предпочтительный метод оценки при наличии дисбаланса, поскольку он более чувствителен к ошибкам на редких классах.  
   - **Weighted-усреднение**: Усредняет по метрике, взвешенной по частоте встречаемости каждой метки в данных.

#### V.2. Порогово-Независимые Метрики (Probability-Based)

- **ROC AUC (Area Under the Receiver Operating Characteristic Curve)**: Оценивает разделительную способность модели независимо от выбранного порога. Как и F1, может быть усреднён по Micro или Macro. **Macro-AUC** полезен для оценки способности модели ранжировать редкие метки.

При наличии сильного дисбаланса (что является нормой в многометочной классификации), Micro-метрики могут создавать ложное впечатление о высокой производительности, поскольку они доминируются частыми метками. Эксперты рекомендуют отдавать предпочтение **Macro-F1** или **Jaccard Score (с Macro-усреднением)** для объективной оценки качества предсказания редких классов.

**Таблица II: Основные Метрики Многометочной Классификации**

| Метрика | Тип Усреднения/Оценки | Интерпретация | Применение (Когда Использовать) |
|--------|------------------------|----------------|---------------------------------|
| Hamming Loss | Образец/Общий | Доля неверных предсказаний. | Оценка чистой ошибки. Требует бинарного предсказания. |
| Jaccard Score | Micro/Macro | Точность набора меток (пересечение/объединение). | Оценка релевантности предсказанного набора. |
| F1-Micro | Micro | Взвешивание по количеству примеров. | Оценка общей производительности. |
| F1-Macro | Macro | Равный вес всем меткам. | Оценка производительности на редких метках. Рекомендуется при дисбалансе. |
| ROC AUC | Macro | Качество ранжирования/разделительная способность, независимо от порога. | Оценка вероятностной силы модели. |

```python
# --- 3. Расчет Метрик ---

print("\n--- Оценка Метрик Многометочной Классификации ---")
# 1. Hamming Loss
h_loss = hamming_loss(y_test, y_pred)
print(f"Hamming Loss (Потери Хэмминга): {h_loss:.4f} (Чем меньше, тем лучше)")

# 2. Jaccard Score
j_micro = jaccard_score(y_test, y_pred, average='micro')
j_macro = jaccard_score(y_test, y_pred, average='macro')
print(f"Jaccard Score (Micro): {j_micro:.4f}")
print(f"Jaccard Score (Macro): {j_macro:.4f} (Предпочтительно при дисбалансе)")

# 3. F1 Score
f1_micro = f1_score(y_test, y_pred, average='micro')
f1_macro = f1_score(y_test, y_pred, average='macro')
print(f"F1 Score (Micro): {f1_micro:.4f}")
print(f"F1 Score (Macro): {f1_macro:.4f}")
```

> **Пример интерпретации в NLP**:  
> Предположим, для татарского корпуса новостей модель выдала:  
> - **Hamming Loss = 0.08** → в среднем 8% меток ошибочны на уровне (документ, метка).  
> - **Jaccard Macro = 0.62** → в среднем по всем темам предсказанный набор меток совпадает с истинным на 62%.  
> - **F1-Macro = 0.68**, но **F1-Micro = 0.89** → модель отлично справляется с частыми темами, но хуже — с редкими.  
> Это типичная картина для несбалансированного корпуса, и именно **Macro-метрики** указывают на необходимость улучшения балансировки.




## VI. Визуализация и Расширенная Диагностика

Расширенная диагностика включает анализ ошибок на уровне отдельных меток и оценку надёжности вероятностных предсказаний модели (калибровка).

#### VI.1. Матрица Ошибок (Confusion Matrix)

В многометочной классификации невозможно построить одну матрицу ошибок, как в многоклассовой задаче. Вместо этого, анализ выполняется независимо для каждой метки. Инструмент `multilabel_confusion_matrix` из Scikit-learn возвращает список из $Q$ матриц 2×2.  
Каждая матрица имеет вид:

$$
\begin{pmatrix}
\text{TN} & \text{FP} \\
\text{FN} & \text{TP}
\end{pmatrix}
$$

где **TN** — истинно отрицательные, **FP** — ложно положительные, **FN** — ложно отрицательные, и **TP** — истинно положительные предсказания для соответствующей метки.

```python
# --- 4. Матрица Ошибок ---
mcm = multilabel_confusion_matrix(y_test, y_pred)

print("\n--- Multilabel Confusion Matrix (для каждой из 5 меток) ---")
for i, matrix in enumerate(mcm):
    print(f"\nМатрица ошибок для Метки {i}:")
    df_cm = pd.DataFrame(matrix, index=['Actual Neg (0)', 'Actual Pos (1)'],
                         columns=['Pred Neg (0)', 'Pred Pos (1)'])
    print(df_cm)
```

Анализ этих матриц позволяет точно определить, какие метки чаще всего приводят к **ложно отрицательным (FN)** ошибкам (пропуск метки) или **ложно положительным (FP)** ошибкам (лишняя метка).

> **Пример в NLP**:  
> При автоматической разметке татарских новостей модель может часто допускать **FP** по метке «Политика» для текстов, где упоминается президент, но в контексте культурного события (например, «Президент Татарстана открыл фестиваль поэзии»). В то же время, **FN** по метке «Татар теле» могут возникать в статьях, где язык упоминается косвенно («уроки родного языка»), но без явного слова *татар*. Такой анализ помогает уточнить словари или добавить контекстные признаки.

#### VI.2. Диагностика Остатков: Оценка Калибровки Модели

Требование к «диагностике остатков» для вероятностного классификатора, такого как Логистическая Регрессия, сводится к оценке **Калибровки Модели** (Model Calibration). Калиброванная модель — это модель, чьи предсказанные вероятности точно отражают истинную частоту событий. Например, если модель предсказывает вероятность $P = 0.9$, то примерно в 90% случаев это предсказание должно быть верным.

**Brier Score Loss**  
Brier Score Loss — это ключевая метрика для оценки калибровки. Она измеряет среднюю квадратичную ошибку между предсказанной вероятностью и фактическим бинарным исходом. Меньшее значение Brier Score указывает на лучшую калибровку и более надёжные вероятностные предсказания.

$$
\text{Brier Score} = \frac{1}{N} \sum_{i=1}^{N} (p_i - o_i)^2
$$

где $N$ — число образцов, $p_i$ — предсказанная вероятность, $o_i$ — фактический бинарный исход (0 или 1).

**Калибровка Модели с Использованием `CalibratedClassifierCV`**  
Если модель плохо калибрована (что может быть выявлено высоким Brier Score), её можно откалибровать с помощью `CalibratedClassifierCV`. Однако, применение этого инструмента к многометочной задаче требует сложной архитектуры, поскольку `CalibratedClassifierCV` изначально принимает только одномерный вектор целевой переменной.  

Для решения этой инженерной задачи используется трёхуровневая обёртка, которая обеспечивает калибровку каждой независимой метки, сохраняя при этом многометочный вывод:

1. Базовый классификатор (LR) оборачивается в `OneVsRestClassifier` для корректной обработки маргинальных вероятностей.  
2. `CalibratedClassifierCV` применяется к этой обёртке `OneVsRestClassifier`.  
3. Окончательный откалиброванный классификатор оборачивается в `MultiOutputClassifier`, что позволяет ему принимать двумерный целевой вектор $Y$.

```python
from sklearn.calibration import CalibratedClassifierCV
from sklearn.multiclass import OneVsRestClassifier
from sklearn.multioutput import MultiOutputClassifier
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import brier_score_loss

# --- 5. Калибровка Модели ---

# 1. Определение CV стратегии для CalibratedClassifierCV
# StratifiedKFold используется для сохранения пропорций классов в кросс-валидации
cv_strategy = StratifiedKFold(n_splits=3, shuffle=True, random_state=42)

# 2. Инициализация базового классификатора LR
base_lr_uncalibrated = LogisticRegression(solver='liblinear', random_state=42)

# 3. Обертывание LR в OneVsRestClassifier (для получения маргинальных вероятностей, нужных калибровке)
ovr_clf = OneVsRestClassifier(base_lr_uncalibrated)

# 4. Калибровка (методы: 'isotonic' или 'sigmoid')
calibrated_ovr = CalibratedClassifierCV(
    base_estimator=ovr_clf,
    cv=cv_strategy,
    method='isotonic'
)

# 5. Окончательное оборачивание в MultiOutputClassifier и обучение
calibrated_multioutput_clf = MultiOutputClassifier(calibrated_ovr).fit(X_train, y_train)

# Получение вероятностей из калиброванной модели
y_proba_calibrated_list = calibrated_multioutput_clf.predict_proba(X_test)
y_proba_calibrated_agg = np.column_stack([p[:, 1] for p in y_proba_calibrated_list])

print("\n--- Диагностика Калибровки (Brier Score) ---")

# Расчет Brier Score для каждой метки
brier_scores = []
for i in range(y_test.shape[1]):
    # y_proba_calibrated_agg[:, i] - это вероятности положительного класса для метки i
    bs = brier_score_loss(y_test[:, i], y_proba_calibrated_agg[:, i])
    brier_scores.append(bs)
    print(f"Brier Score для Метки {i}: {bs:.4f}")

print(f"Средний Brier Score: {np.mean(brier_scores):.4f} (Чем меньше, тем лучше)")
```

Если средний Brier Score снижается после калибровки по сравнению с некалиброванной моделью, это свидетельствует о том, что вероятности, выдаваемые моделью, стали более точными и надёжными.

> **Пример в NLP**:  
> В системе ранжирования татарских научных статей по релевантности темам, калиброванная модель позволяет корректно интерпретировать вероятности: если для статьи $P(\text{«Лингвистика»}) = 0.75$, то в ~75% случаев эксперт подтвердит эту тему. Это критично для систем, где вероятности используются в рекомендациях или приоритезации.

---

## VII. Заключение и Дальнейшие Шаги

### VII.1. Резюме по BR-LR

Модель многометочной классификации на основе **Бинарной Релевантности с Логистической Регрессией (BR-LR)** является мощной и легко интерпретируемой базовой линией. Она обладает высокой масштабируемостью, так как обучение $Q$ независимых классификаторов может быть распараллелено.  

Однако её главное архитектурное ограничение — **полное игнорирование корреляции между метками** — может стать критическим фактором в задачах, где совместное появление меток является важным предиктором.

> **Пример ограничения в NLP**:  
> В корпусе татарских статей метки «Тарих» и «Татар теле» часто встречаются вместе (например, в публикациях о развитии письменности). BR-LR может предсказать «Тарих» с высокой уверенностью, но не предсказать «Татар теле», потому что соответствующий бинарный классификатор не «знает» о наличии первой метки.

### VII.2. Рекомендации по Дальнейшему Изучению

Для преодоления ограничений BR и улучшения производительности в коррелированных и сильно несбалансированных многометочных задачах рекомендуется рассмотреть следующие подходы:

1. **Цепи Классификаторов (Classifier Chains)**: Этот метод явно учитывает корреляцию меток. Классификаторы обучаются последовательно, и предсказания первых $j-1$ меток добавляются в качестве дополнительных признаков для обучения $j$-ой метки. Это позволяет модели использовать информацию о ранее предсказанных метках.  
   > *Пример*: При классификации татарских новостей, если первая метка «Политика» предсказана как 1, это повышает шансы на то, что следующая метка «Президент» также будет 1.

2. **Специализированные Ансамблевые Методы**: Использование ансамблевых подходов, таких как ансамблирование несбалансированных классификаторов (например, EasyEnsemble), или методы адаптации алгоритмов, реализованные в библиотеках, таких как `scikit-multilearn`.

3. **Использование Специфических Метрик Дисбаланса**: При оптимизации модели всегда следует отдавать приоритет **Macro-метрикам** (например, Macro-F1), чтобы гарантировать, что редкие метки не будут проигнорированы в процессе настройки гиперпараметров.

> **Перспектива для татарского языка**:  
> При построении системы семантической разметки для корпуса татарских текстов (в рамках проектов типа **Tatar2Vec**), комбинация **Classifier Chains** с **калиброванными вероятностями** и **Macro-F1 оптимизацией** может обеспечить как высокую точность, так и надёжную интерпретируемость, что особенно важно для академического и образовательного использования.


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import make_multilabel_classification
from sklearn.multioutput import MultiOutputClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, GridSearchCV, StratifiedKFold
from sklearn.metrics import (multilabel_confusion_matrix, f1_score, hamming_loss,
                           jaccard_score, classification_report, brier_score_loss)
from sklearn.calibration import CalibratedClassifierCV
from sklearn.multiclass import OneVsRestClassifier
from collections import Counter
import warnings
warnings.filterwarnings('ignore')

# =============================================================================
# I. Генерация и анализ данных
# =============================================================================

print("=" * 80)
print("I. ГЕНЕРАЦИЯ И АНАЛИЗ МНОГОМЕТОЧНЫХ ДАННЫХ")
print("=" * 80)

# Генерация синтетического многометочного датасета
X, y = make_multilabel_classification(
    n_samples=1000,
    n_features=15,
    n_classes=5,
    n_labels=2,
    allow_unlabeled=True,
    random_state=42
)

print(f"Размерность признаков X: {X.shape}")
print(f"Размерность меток Y: {y.shape}")

# Анализ распределения меток
label_counts = np.sum(y, axis=0)
label_combinations = [tuple(row) for row in y]
combination_counts = Counter(label_combinations)

print(f"\nКоличество меток на образец:")
print(f"Минимальное: {np.min(np.sum(y, axis=1))}")
print(f"Максимальное: {np.max(np.sum(y, axis=1))}")
print(f"Среднее: {np.mean(np.sum(y, axis=1)):.2f}")

print(f"\nРаспределение отдельных меток:")
for i, count in enumerate(label_counts):
    print(f"Метка {i}: {count} образцов ({count/len(y)*100:.1f}%)")

print(f"\nТоп-5 самых частых комбинаций меток:")
for combo, count in combination_counts.most_common(5):
    print(f"Комбинация {combo}: {count} образцов")

# Разделение данных
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

print(f"\nРазмер тренировочного набора: {X_train.shape}, {y_train.shape}")
print(f"Размер тестового набора: {X_test.shape}, {y_test.shape}")

# =============================================================================
# II. Базовая модель BR-LR
# =============================================================================

print("\n" + "=" * 80)
print("II. БАЗОВАЯ МОДЕЛЬ BR-LR (BINARY RELEVANCE)")
print("=" * 80)

# Базовая логистическая регрессия
base_lr = LogisticRegression(
    solver='liblinear',
    random_state=42,
    max_iter=1000
)

# Многометочная обертка
multi_target_lr = MultiOutputClassifier(base_lr)

# Обучение модели
multi_target_lr.fit(X_train, y_train)

# Предсказания
y_pred = multi_target_lr.predict(X_test)
y_proba_list = multi_target_lr.predict_proba(X_test)
y_proba_aggregated = np.column_stack([p[:, 1] for p in y_proba_list])

print("Примеры предсказаний:")
print("Фактические метки:")
print(y_test[:5])
print("Предсказанные метки:")
print(y_pred[:5])
print("\nВероятности (первые 5 образцов):")
print(y_proba_aggregated[:5].round(3))

# =============================================================================
# III. Настройка гиперпараметров
# =============================================================================

print("\n" + "=" * 80)
print("III. НАСТРОЙКА ГИПЕРПАРАМЕТРОВ")
print("=" * 80)

# Параметры для GridSearch
param_grid = {
    'estimator__C': [0.01, 0.1, 1.0, 10.0, 100.0],
    'estimator__penalty': ['l1', 'l2'],
    'estimator__solver': ['liblinear']
}

# Создание пайплайна для настройки
tuned_multi_lr = MultiOutputClassifier(
    LogisticRegression(random_state=42, max_iter=1000)
)

# GridSearch с кросс-валидацией
grid_search = GridSearchCV(
    tuned_multi_lr,
    param_grid,
    cv=3,
    scoring='f1_macro',
    n_jobs=-1,
    verbose=1
)

print("Запуск настройки гиперпараметров...")
grid_search.fit(X_train, y_train)

print(f"Лучшие параметры: {grid_search.best_params_}")
print(f"Лучший F1-score (macro): {grid_search.best_score_:.4f}")

# Модель с лучшими параметрами
best_multi_lr = grid_search.best_estimator_
y_pred_tuned = best_multi_lr.predict(X_test)

# =============================================================================
# IV. Борьба с дисбалансом
# =============================================================================

print("\n" + "=" * 80)
print("IV. БОРЬБА С ДИСБАЛАНСОМ МЕТОК")
print("=" * 80)

# Модель с взвешиванием классов
balanced_lr = LogisticRegression(
    solver='liblinear',
    class_weight='balanced',
    random_state=42,
    max_iter=1000
)

balanced_multi_lr = MultiOutputClassifier(balanced_lr)
balanced_multi_lr.fit(X_train, y_train)
y_pred_balanced = balanced_multi_lr.predict(X_test)

print("Модель с class_weight='balanced' обучена")

# =============================================================================
# V. Оценка моделей
# =============================================================================

print("\n" + "=" * 80)
print("V. КОМПЛЕКСНАЯ ОЦЕНКА МОДЕЛЕЙ")
print("=" * 80)

def evaluate_model(y_true, y_pred, model_name):
    """Комплексная оценка многометочной модели"""

    metrics = {}

    # Основные метрики
    metrics['hamming_loss'] = hamming_loss(y_true, y_pred)
    metrics['jaccard_micro'] = jaccard_score(y_true, y_pred, average='micro')
    metrics['jaccard_macro'] = jaccard_score(y_true, y_pred, average='macro')
    metrics['f1_micro'] = f1_score(y_true, y_pred, average='micro')
    metrics['f1_macro'] = f1_score(y_true, y_pred, average='macro')

    print(f"\n--- Результаты {model_name} ---")
    print(f"Hamming Loss: {metrics['hamming_loss']:.4f}")
    print(f"Jaccard Score (Micro): {metrics['jaccard_micro']:.4f}")
    print(f"Jaccard Score (Macro): {metrics['jaccard_macro']:.4f}")
    print(f"F1 Score (Micro): {metrics['f1_micro']:.4f}")
    print(f"F1 Score (Macro): {metrics['f1_macro']:.4f}")

    return metrics

# Оценка всех моделей
models = {
    'Базовая BR-LR': (y_test, y_pred),
    'Настроенная BR-LR': (y_test, y_pred_tuned),
    'Сбалансированная BR-LR': (y_test, y_pred_balanced)
}

results = {}
for name, (y_true, y_pred) in models.items():
    results[name] = evaluate_model(y_true, y_pred, name)

# =============================================================================
# VI. Детальный анализ ошибок
# =============================================================================

print("\n" + "=" * 80)
print("VI. ДЕТАЛЬНЫЙ АНАЛИЗ ОШИБОК")
print("=" * 80)

# Матрицы ошибок для лучшей модели
mcm = multilabel_confusion_matrix(y_test, y_pred_tuned)

print("\nМатрицы ошибок для настроенной модели:")
for i, matrix in enumerate(mcm):
    tn, fp, fn, tp = matrix.ravel()
    precision = tp / (tp + fp) if (tp + fp) > 0 else 0
    recall = tp / (tp + fn) if (tp + fn) > 0 else 0
    f1 = 2 * precision * recall / (precision + recall) if (precision + recall) > 0 else 0

    print(f"\nМетка {i}:")
    print(f"  TP: {tp}, FP: {fp}, FN: {fn}, TN: {tn}")
    print(f"  Precision: {precision:.3f}, Recall: {recall:.3f}, F1: {f1:.3f}")

# Визуализация матриц ошибок
fig, axes = plt.subplots(2, 3, figsize=(15, 10))
axes = axes.ravel()

for i, (matrix, ax) in enumerate(zip(mcm, axes)):
    if i < 5:  # У нас 5 меток
        sns.heatmap(matrix, annot=True, fmt='d', cmap='Blues', ax=ax,
                   xticklabels=['Pred 0', 'Pred 1'],
                   yticklabels=['True 0', 'True 1'])
        ax.set_title(f'Метка {i}')

# Скрываем лишние subplots
for i in range(len(mcm), len(axes)):
    axes[i].set_visible(False)

plt.tight_layout()
plt.suptitle('Матрицы ошибок для каждой метки', y=1.02)
plt.show()

# =============================================================================
# VII. Калибровка модели (ИСПРАВЛЕННАЯ ВЕРСИЯ)
# =============================================================================

print("\n" + "=" * 80)
print("VII. КАЛИБРОВКА МОДЕЛИ")
print("=" * 80)

def calibrate_multilabel_model(X_train, y_train, X_test, method='sigmoid'):
    """
    Калибровка многометочной модели для каждой метки отдельно
    """
    calibrated_predictions = []
    brier_scores = []

    print("Калибровка модели для каждой метки...")

    for label_idx in range(y_train.shape[1]):
        print(f"  Метка {label_idx+1}/{y_train.shape[1]}...")

        # Берем одну метку
        y_train_single = y_train[:, label_idx]
        y_test_single = y_test[:, label_idx]

        # Обучаем базовый классификатор
        base_clf = LogisticRegression(
            solver='liblinear',
            random_state=42,
            max_iter=1000
        )
        base_clf.fit(X_train, y_train_single)

        # Калибруем классификатор
        calibrated_clf = CalibratedClassifierCV(
            estimator=base_clf,
            cv=3,
            method=method
        )
        calibrated_clf.fit(X_train, y_train_single)

        # Получаем калиброванные вероятности
        y_proba_calibrated = calibrated_clf.predict_proba(X_test)[:, 1]
        calibrated_predictions.append(y_proba_calibrated)

        # Вычисляем Brier Score
        bs = brier_score_loss(y_test_single, y_proba_calibrated)
        brier_scores.append(bs)

    # Собираем все вероятности в одну матрицу
    y_proba_calibrated_agg = np.column_stack(calibrated_predictions)

    return y_proba_calibrated_agg, brier_scores

# Применяем калибровку
y_proba_calibrated_agg, brier_scores_calibrated = calibrate_multilabel_model(
    X_train, y_train, X_test, method='sigmoid'
)

# Получаем вероятности из некалиброванной модели для сравнения
y_proba_tuned_list = best_multi_lr.predict_proba(X_test)
y_proba_tuned_agg = np.column_stack([p[:, 1] for p in y_proba_tuned_list])

# Сравнение Brier Score
print("\n--- Сравнение калибровки ---")

brier_scores_tuned = []
for i in range(y_test.shape[1]):
    bs_tuned = brier_score_loss(y_test[:, i], y_proba_tuned_agg[:, i])
    bs_calibrated = brier_scores_calibrated[i]

    brier_scores_tuned.append(bs_tuned)

    improvement = ((bs_tuned - bs_calibrated) / bs_tuned * 100) if bs_tuned > 0 else 0
    print(f"Метка {i}: Brier Score {bs_tuned:.4f} -> {bs_calibrated:.4f} "
          f"({improvement:+.1f}%)")

print(f"\nСредний Brier Score (настроенная): {np.mean(brier_scores_tuned):.4f}")
print(f"Средний Brier Score (калиброванная): {np.mean(brier_scores_calibrated):.4f}")

# Создаем бинарные предсказания из калиброванных вероятностей (порог 0.5)
y_pred_calibrated = (y_proba_calibrated_agg > 0.5).astype(int)

# Оцениваем калиброванную модель
print("\n--- Результаты калиброванной модели ---")
results['Калиброванная BR-LR'] = evaluate_model(y_test, y_pred_calibrated, 'Калиброванная BR-LR')

# =============================================================================
# VIII. Сравнительный анализ
# =============================================================================

print("\n" + "=" * 80)
print("VIII. СРАВНИТЕЛЬНЫЙ АНАЛИЗ МОДЕЛЕЙ")
print("=" * 80)

# Создание сравнительной таблицы
comparison_data = []
for model_name, metrics in results.items():
    comparison_data.append({
        'Модель': model_name,
        'Hamming Loss': metrics['hamming_loss'],
        'Jaccard Macro': metrics['jaccard_macro'],
        'F1 Macro': metrics['f1_macro']
    })

comparison_df = pd.DataFrame(comparison_data)
print("\nСравнительная таблица моделей:")
print(comparison_df.to_string(index=False, float_format='%.4f'))

# Визуализация сравнения моделей
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

metrics_to_plot = ['Hamming Loss', 'Jaccard Macro', 'F1 Macro']
titles = ['Hamming Loss (меньше → лучше)', 'Jaccard Score (больше → лучше)',
          'F1 Macro (больше → лучше)']

colors = ['skyblue', 'lightgreen', 'lightcoral', 'gold']

for i, (metric, title) in enumerate(zip(metrics_to_plot, titles)):
    axes[i].bar(range(len(comparison_df)), comparison_df[metric], color=colors[:len(comparison_df)])
    axes[i].set_title(title)
    axes[i].set_xticks(range(len(comparison_df)))
    axes[i].set_xticklabels(comparison_df['Модель'], rotation=45, ha='right')

    # Добавление значений на столбцы
    for j, v in enumerate(comparison_df[metric]):
        axes[i].text(j, v + 0.01, f'{v:.3f}', ha='center', va='bottom')

plt.tight_layout()
plt.show()

# =============================================================================
# IX. Анализ порогов для редких меток
# =============================================================================

print("\n" + "=" * 80)
print("IX. АНАЛИЗ ПОРОГОВ ДЛЯ РЕДКИХ МЕТОК")
print("=" * 80)

# Особый анализ для редкой метки 4 (только 16.1% образцов)
rare_label_idx = 4
y_test_rare = y_test[:, rare_label_idx]
y_proba_rare = y_proba_calibrated_agg[:, rare_label_idx]

# Пробуем разные пороги для редкой метки
thresholds = [0.1, 0.2, 0.3, 0.4, 0.5]
print(f"\nАнализ разных порогов для редкой метки {rare_label_idx}:")
print("Порог | Precision | Recall  | F1-Score")

best_f1 = 0
best_threshold = 0.5

for threshold in thresholds:
    y_pred_rare = (y_proba_rare > threshold).astype(int)

    tp = np.sum((y_pred_rare == 1) & (y_test_rare == 1))
    fp = np.sum((y_pred_rare == 1) & (y_test_rare == 0))
    fn = np.sum((y_pred_rare == 0) & (y_test_rare == 1))

    precision = tp / (tp + fp) if (tp + fp) > 0 else 0
    recall = tp / (tp + fn) if (tp + fn) > 0 else 0
    f1 = 2 * precision * recall / (precision + recall) if (precision + recall) > 0 else 0

    print(f"{threshold:5.1f} | {precision:8.3f} | {recall:7.3f} | {f1:8.3f}")

    if f1 > best_f1:
        best_f1 = f1
        best_threshold = threshold

print(f"\nЛучший порог для метки {rare_label_idx}: {best_threshold:.2f} (F1 = {best_f1:.3f})")

# =============================================================================
# X. Заключение и рекомендации
# =============================================================================

print("\n" + "=" * 80)
print("X. ЗАКЛЮЧЕНИЕ И РЕКОМЕНДАЦИИ")
print("=" * 80)

# Определение лучшей модели по разным метрикам
best_hamming = min(results.keys(), key=lambda x: results[x]['hamming_loss'])
best_f1_macro = max(results.keys(), key=lambda x: results[x]['f1_macro'])

print(f"Лучшая модель по Hamming Loss: {best_hamming}")
print(f"Лучшая модель по F1 Macro: {best_f1_macro}")

# Анализ важности признаков (для первой метки)
if hasattr(best_multi_lr.estimators_[0], 'coef_'):
    feature_importance = np.abs(best_multi_lr.estimators_[0].coef_[0])
    top_features = np.argsort(feature_importance)[-5:][::-1]

    print(f"\nТоп-5 самых важных признаков для Метки 0:")
    for i, feature_idx in enumerate(top_features):
        print(f"  {i+1}. Признак {feature_idx}: важность {feature_importance[feature_idx]:.3f}")

print("\n" + "=" * 80)
print("КЛЮЧЕВЫЕ ВЫВОДЫ:")
print("=" * 80)

print("1. Все модели показали схожую производительность")
print("2. Сбалансированная модель улучшила F1-Macro за счет увеличения Hamming Loss")
print("3. Метка 4 (самая редкая) имеет самую низкую производительность")
print("4. Калибровка улучшила надежность вероятностных предсказаний")
print("5. Для редких меток рекомендуется использовать пониженный порог классификации")

print("\nРЕКОМЕНДАЦИИ ДЛЯ УЛУЧШЕНИЯ:")
print("1. Для учета корреляции между метками рассмотреть Classifier Chains")
print("2. При сильном дисбалансе использовать специализированные методы (MLSMOTE)")
print("3. Для сложных данных рассмотреть нейросетевые архитектуры")
print("4. Использовать индивидуальные пороги для каждой метки")
print("5. Рассмотреть ансамблирование для повышения стабильности")

print("\n" + "=" * 80)
print("ЛЕКЦИЯ ЗАВЕРШЕНА. МОДЕЛЬ УСПЕШНО РЕАЛИЗОВАНА И ПРОАНАЛИЗИРОВАНА!")
print("=" * 80)