# Разведочный анализ данных и разметка

### Шаг 0: Подготовка
1. Поскольку коммерческие данные получить быстро не удалось, было принято решение использовать публичные данные, доступные на [госзакупках](https://zakupki.gov.ru/epz/main/public/home.html).
2. В связи с таким изменением подхода появилась необходимость переформулирования задачи, теперь она сформулирована так: "Классификация договора в зависимости от предмета по второму уровню ОКПД2". Классификатор ОКПД2 можно получить, например, [здесь](https://www.consultant.ru/document/cons_doc_LAW_163703/). Таким образом, цель изменилась до: по разделу предмета договора вернуть второй уровень кода ОКПД2.
Важное замечание: поскольку предметов договора в данном случае может быть много, то мы имеем дело с многоклассовой классификацией.
3. Датасет состоит из 200057 записей в формате JSON, содержащие три поля "regNum" - реестровый номер контракта, "contractSubjectFull" - полный текст предмета договора, "OKPD2_codes" - набор ОКПД2 кодов из договора. Датасет расположени по [адресу](https://www.kaggle.com/datasets/aldarovalexander/contract). Сам датасет был получен путем парсинга части исполненных договоров за 2022 год, которые бы имели формат верный DOCX и разбора формализованной части договоров. Часть процесса получения, например, из графического представления договора верного текста предмета в данном исследовании опущена, поскольку для целей самого исследования не представляет интереса.
4. Блокнот доступен в [колабе](https://colab.research.google.com/github/aldarovav/YearProject/blob/main/analysis.ipynb)


### Шаг 1: Импорт библиотек и настройка

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import random
import os
import io
import requests
import json
import kagglehub
import pymorphy2
import nltk
from io import StringIO
from collections import Counter

# Настройка отображения
pd.set_option('display.max_colwidth', None)
pd.set_option('display.width', None)
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print("Библиотеки загружены")
print("Текущая рабочая директория:", os.getcwd())

Библиотеки загружены
Текущая рабочая директория: /content


### Шаг 2: Загрузка и первичный анализ данных

In [5]:
from kagglehub import KaggleDatasetAdapter
import pandas as pd

# Указываем конкретный файл для загрузки
file_path = "contracts_dataset_unique.json"

# Сначала получим путь к файлу
dataset_path = kagglehub.dataset_download("aldarovalexander/contract")
full_file_path = f"{dataset_path}/{file_path}"

# Загрузим JSON с указанием dtype
df = pd.read_json(full_file_path, dtype={'regNum': str})

print("First 5 records:", df.head())
print("Data types:", df.dtypes)

Using Colab cache for faster access to the 'contract' dataset.
First 5 records:                 regNum  \
0  0166300031414000004   
1  0324300007314000014   
2  0366300032914000027   
3  1010501417722000033   
4  1010501746721000017   

                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           

In [8]:
df.iloc[0]

Unnamed: 0,0
regNum,0166300031414000004
contractSubjectFull,"1.1. Подрядчик обязуется выполнить работы по ремонту кровли и утеплению труб жилого дома №6, расположенного по адресу: Тульская область, Ленинский район, п. Молодежный, ул. Центральная (далее - объект) в соответствии с условиями настоящего контракта и локальной сметой (приложение №1), являющейся неотъемлемой частью настоящего контракта. 1.2. Подрядчик обязуется выполнить работы, указанные в пункте 1.1. контракта, своими силами или с привлечением субподрядных организаций. 2."
OKPD2_codes,[43]


In [7]:
# Используем новый метод dataset_load()

print("=== ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ ===")
print(f"Размер датасета: {df.shape}")
print(f"Колонки: {list(df.columns)}")
print("\nТипы данных:")
print(df.dtypes)

# Преобразуем regNum в строковый тип
df['regNum'] = df['regNum'].astype(str)

# Более детальный анализ
print("\n=== ДЕТАЛЬНЫЙ АНАЛИЗ ===")
print(f"Общее количество записей: {len(df)}")
print(f"Количество уникальных номеров контрактов: {df['regNum'].nunique()}")
print(f"Неуникальные номера контрактов: {df[df.duplicated('regNum', keep=False)]}")

# Правильный анализ OKPD2 кодов (списков)
print("\n=== АНАЛИЗ OKPD2 КОДОВ ===")
# Развернем списки OKPD2 кодов для анализа
all_okpd2_codes = df['OKPD2_codes'].explode()
print(f"Всего OKPD2 кодов (с повторениями): {len(all_okpd2_codes)}")
print(f"Уникальных OKPD2 кодов: {all_okpd2_codes.nunique()}")
print("\nТоп-10 самых частых OKPD2 кодов:")
print(all_okpd2_codes.value_counts().head(10))

# Анализ структуры списков OKPD2
print("\n=== СТРУКТУРА OKPD2 КОДОВ ===")
okpd2_counts = df['OKPD2_codes'].str.len()
print(f"Количество контрактов с одним OKPD2 кодом: {(okpd2_counts == 1).sum()}")
print(f"Количество контрактов с несколькими OKPD2 кодами: {(okpd2_counts > 1).sum()}")
print(f"Максимальное количество OKPD2 кодов в одном контракте: {okpd2_counts.max()}")

# Анализ пропущенных значений
print("\n=== ПРОПУЩЕННЫЕ ЗНАЧЕНИЯ ===")
print(df.isnull().sum())

# Анализ текстовых данных
print("\n=== АНАЛИЗ ТЕКСТОВЫХ ДАННЫХ ===")
print(f"Средняя длина contractSubjectFull: {df['contractSubjectFull'].str.len().mean():.0f} символов")
print(f"Максимальная длина contractSubjectFull: {df['contractSubjectFull'].str.len().max()} символов")
print(f"Минимальная длина contractSubjectFull: {df['contractSubjectFull'].str.len().min()} символов")

# Дополнительная информация о структуре данных
print("\n=== СТАТИСТИКА ПО КОЛОНКАМ ===")
print("Длина regNum:")
print(f"  Минимальная: {df['regNum'].str.len().min()}")
print(f"  Максимальная: {df['regNum'].str.len().max()}")
print(f"  Уникальные длины: {sorted(df['regNum'].str.len().unique())}")

# Примеры данных для лучшего понимания
print("\n=== ПРИМЕРЫ ДАННЫХ ===")
print("Первые 3 записи:")
for i in range(3):
    print(f"\nЗапись {i+1}:")
    print(f"  regNum: {df.iloc[i]['regNum']}")
    print(f"  OKPD2_codes: {df.iloc[i]['OKPD2_codes']}")
    print(f"  contractSubjectFull (первые 200 символов): {df.iloc[i]['contractSubjectFull'][:200]}...")

# Дополнительный анализ: самые частые комбинации OKPD2 кодов
print("\n=== АНАЛИЗ КОМБИНАЦИЙ OKPD2 КОДОВ ===")
# Преобразуем списки в кортежи для анализа уникальных комбинаций
okpd2_combinations = df['OKPD2_codes'].apply(tuple)
print(f"Уникальных комбинаций OKPD2 кодов: {okpd2_combinations.nunique()}")
print("Топ-5 самых частых комбинаций OKPD2 кодов:")
top_combinations = okpd2_combinations.value_counts().head(5)
for combo, count in top_combinations.items():
    print(f"  {list(combo)}: {count} контрактов")

# Анализ распределения количества кодов на контракт
print("\n=== РАСПРЕДЕЛЕНИЕ КОЛИЧЕСТВА OKPD2 КОДОВ ===")
count_distribution = okpd2_counts.value_counts().sort_index()
for count, freq in count_distribution.items():
    print(f"  {count} код(ов): {freq} контрактов ({freq/len(df)*100:.1f}%)")

=== ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ ===
Размер датасета: (199913, 3)
Колонки: ['regNum', 'contractSubjectFull', 'OKPD2_codes']

Типы данных:
regNum                 object
contractSubjectFull    object
OKPD2_codes            object
dtype: object

=== ДЕТАЛЬНЫЙ АНАЛИЗ ===
Общее количество записей: 199913
Количество уникальных номеров контрактов: 199913
Неуникальные номера контрактов: Empty DataFrame
Columns: [regNum, contractSubjectFull, OKPD2_codes]
Index: []

=== АНАЛИЗ OKPD2 КОДОВ ===
Всего OKPD2 кодов (с повторениями): 211887
Уникальных OKPD2 кодов: 84

Топ-10 самых частых OKPD2 кодов:
OKPD2_codes
21    36805
10    28412
32    21144
26    10968
20     7493
01     7327
43     6795
17     6455
22     6036
68     4521
Name: count, dtype: int64

=== СТРУКТУРА OKPD2 КОДОВ ===
Количество контрактов с одним OKPD2 кодом: 191144
Количество контрактов с несколькими OKPD2 кодами: 8769
Максимальное количество OKPD2 кодов в одном контракте: 11

=== ПРОПУЩЕННЫЕ ЗНАЧЕНИЯ ===
regNum                 0
contra

### Шаг 3: Предобработка текста

In [11]:
# Объединение текстовых полей
df['full_text'] = df['contractSubjectFull'].fillna('')

print("Длина текстов после объединения:")
print(df['full_text'].str.len().describe())

Длина текстов после объединения:
count    199913.000000
mean        872.184080
std         652.309824
min           1.000000
25%         472.000000
50%         687.000000
75%        1048.000000
max        9398.000000
Name: full_text, dtype: float64


In [12]:
# Базовая очистка текста
def clean_text(text):
    if pd.isna(text) or text == '':
        return ""
    # Приведение к нижнему регистру
    text = text.lower()
    # Удаление специальных символов
    text = re.sub(r'[^a-zA-Zа-яА-Я0-9\s\.]', ' ', text)
    # Удаление лишних пробелов
    text = re.sub(r'\s+', ' ', text)
    # Удаление множественных точек
    text = re.sub(r'\.{2,}', '.', text)
    return text.strip()

df['text_clean'] = df['full_text'].apply(clean_text)

print("Пример очистки текста:")
print("ДО:", df['full_text'].iloc[0][:200])
print("ПОСЛЕ:", df['text_clean'].iloc[0][:200])

Пример очистки текста:
ДО: 1.1. Подрядчик обязуется выполнить работы по ремонту кровли и утеплению труб жилого дома №6, расположенного по адресу: Тульская область, Ленинский район, п. Молодежный, ул. Центральная (далее - объект
ПОСЛЕ: 1.1. подрядчик обязуется выполнить работы по ремонту кровли и утеплению труб жилого дома 6 расположенного по адресу тульская область ленинский район п. молодежный ул. центральная далее объект в соотве


In [None]:
# Установка библиотек для продвинутой обработки (выполнить в терминале)
# !pip install pymorphy2 nltk

In [16]:
!pip install pymorphy2
!pip install nltk
import pymorphy2
import nltk
from nltk.corpus import stopwords

# Скачивание стоп-слов
nltk.download('stopwords')
russian_stopwords = stopwords.words('russian')

# Доменные стоп-слова
domain_stopwords = ['контракт', 'договор', 'приложение', 'пункт', 'статья', 
                   'далее', 'согласно', 'также', 'например', 'иной', 'другой',
                   'обязан', 'обязана', 'обязаны', 'обязано', 'условие', 'следующий']
custom_stopwords = set(russian_stopwords + domain_stopwords)

def advanced_text_processing(text):
    if not text:
        return ""
    
    # Токенизация
    tokens = text.split()
    
    # Удаление стоп-слов
    tokens = [token for token in tokens if token not in custom_stopwords]
    
    # Лемматизация
    morph = pymorphy2.MorphAnalyzer()
    lemmatized_tokens = []
    for token in tokens:
        try:
            lemma = morph.parse(token)[0].normal_form
            lemmatized_tokens.append(lemma)
        except:
            lemmatized_tokens.append(token)
    
    return ' '.join(lemmatized_tokens)

# Применяем к данным
print("Начата продвинутая обработка текста...")
df['text_processed'] = df['text_clean'].apply(advanced_text_processing)
print("Обработка завершена!")

print("\nПример продвинутой обработки:")
print("ДО:", df['text_clean'].iloc[0][:150])
print("ПОСЛЕ:", df['text_processed'].iloc[0][:150])

Начата продвинутая обработка текста...


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


AttributeError: module 'inspect' has no attribute 'getargspec'

### Шаг 4: РАЗМЕТКА ДАННЫХ

In [None]:
print("=== АНАЛИЗ СУЩЕСТВУЮЩЕЙ РАЗМЕТКИ ===")
print(f"Всего записей: {len(df)}")
print(f"Записей с OKPD2: {df['OKPD2_codes'].notna().sum()}")
print(f"Процент размеченных данных: {df['OKPD2_codes'].notna().mean():.2%}")

# Анализ структуры OKPD2 кодов
df['okpd_count'] = df['OKPD2_codes'].apply(lambda x: len(x) if x else 0)
print("\nРаспределение количества кодов OKPD2 на запись:")
print(df['okpd_count'].value_counts().sort_index())

In [None]:
# Извлечение и нормализация целевых меток
def extract_okpd_label(okpd_codes):
    """Извлекает основной код OKPD2 для классификации"""
    if not okpd_codes or len(okpd_codes) == 0:
        return None
    
    # Берем первый код из списка
    primary_code = okpd_codes[0]
    
    # Определяем уровень детализации (начинаем с 2-значного кода)
    if len(primary_code) >= 2:
        return primary_code[:2]  # Первые 2 цифры - раздел
    else:
        return primary_code

# Создаем целевую переменную
df['target'] = df['OKPD2_codes'].apply(extract_okpd_label)

print("Уровень детализации меток:")
print(df['target'].str.len().value_counts().sort_index())

In [None]:
# Анализ качества разметки
print("=== АНАЛИЗ КАЧЕСТВА РАЗМЕТКИ ===")

# Смотрим примеры текстов для разных классов
sample_classes = df['target'].value_counts().head(3).index

for class_label in sample_classes:
    class_texts = df[df['target'] == class_label]['text_clean'].head(2)
    print(f"\n--- Класс {class_label} ({len(df[df['target'] == class_label])} примеров) ---")
    for i, text in enumerate(class_texts):
        print(f"{i+1}. {text[:150]}...")

In [None]:
# Обработка проблем разметки
missing_target = df['target'].isna().sum()
print(f"Записей без меток: {missing_target}")

# Анализ малочисленных классов
class_counts = df['target'].value_counts()
small_classes = class_counts[class_counts < 5]
print(f"Малочисленные классы (менее 5 примеров): {len(small_classes)}")

# Решение: удаляем записи без меток и малочисленные классы
df_labeled = df[df['target'].notna()].copy()
df_labeled = df_labeled[~df_labeled['target'].isin(small_classes.index)]

print(f"Итоговый размер размеченного датасета: {len(df_labeled)}")
print(f"Количество классов после фильтрации: {df_labeled['target'].nunique()}")

In [None]:
# Валидация разметки
print("\n=== ВАЛИДАЦИЯ РАЗМЕТКИ (случайные примеры) ===")
sample_indices = random.sample(range(len(df_labeled)), 5)

for idx in sample_indices:
    row = df_labeled.iloc[idx]
    print(f"\nМетка: {row['target']}")
    print(f"Текст: {row['text_clean'][:200]}...")
    print("-" * 50)

### Шаг 5: Анализ размеченных данных

In [None]:
# Статистика по классам
plt.figure(figsize=(15, 6))

# Топ-20 классов
top_classes = df_labeled['target'].value_counts().head(20)

plt.subplot(1, 2, 1)
sns.barplot(x=top_classes.values, y=top_classes.index)
plt.title('Топ-20 самых частых классов ОКПД2')
plt.xlabel('Количество примеров')

plt.subplot(1, 2, 2)
# Распределение размеров классов
class_sizes = df_labeled['target'].value_counts()
sns.histplot(class_sizes, bins=30)
plt.title('Распределение размеров классов')
plt.xlabel('Примеров в классе')

plt.tight_layout()
plt.show()

print("Статистика по классам:")
print(f"Всего классов: {len(class_sizes)}")
print(f"Медианный размер класса: {class_sizes.median()}")
print(f"Минимальный размер: {class_sizes.min()}")
print(f"Максимальный размер: {class_sizes.max()}")

In [None]:
# Анализ длины текстов
df_labeled['text_length'] = df_labeled['text_processed'].str.split().str.len()

plt.figure(figsize=(15, 6))

plt.subplot(1, 2, 1)
sns.histplot(data=df_labeled, x='text_length', bins=50)
plt.title('Общее распределение длины текстов')
plt.xlabel('Длина текста (слов)')

plt.subplot(1, 2, 2)
# Длина текста по топ-10 классам
top_10_classes = class_sizes.head(10).index
df_top_classes = df_labeled[df_labeled['target'].isin(top_10_classes)]
sns.boxplot(data=df_top_classes, x='target', y='text_length')
plt.title('Длина текста по классам (топ-10)')
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

print("Статистика длины текстов:")
print(df_labeled['text_length'].describe())

### Шаг 6: Разделение на выборки

In [None]:
from sklearn.model_selection import train_test_split

# Стратифицированное разделение
X = df_labeled['text_processed']
y = df_labeled['target']

# 70% train, 15% validation, 15% test
X_temp, X_test, y_temp, y_test = train_test_split(
    X, y, test_size=0.15, random_state=42, stratify=y
)

X_train, X_val, y_train, y_val = train_test_split(
    X_temp, y_temp, test_size=0.176, random_state=42, stratify=y_temp  # 0.176 * 0.85 ≈ 0.15
)

print("=== РАЗДЕЛЕНИЕ НА ВЫБОРКИ ===")
print(f"Обучающая выборка: {len(X_train)} записей ({len(X_train)/len(X):.1%})")
print(f"Валидационная выборка: {len(X_val)} записей ({len(X_val)/len(X):.1%})")
print(f"Тестовая выборка: {len(X_test)} записей ({len(X_test)/len(X):.1%})")

# Проверяем распределение классов в выборках
print("\nРаспределение классов по выборкам:")
for name, split in [('Train', y_train), ('Val', y_val), ('Test', y_test)]:
    print(f"{name}: {split.nunique()} классов")

### Шаг 7: Векторизация текста

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

# TF-IDF с разными настройками
tfidf_vectorizer = TfidfVectorizer(
    max_features=10000,
    ngram_range=(1, 2),  # Учитываем отдельные слова и пары
    min_df=2,           # Игнорируем очень редкие слова
    max_df=0.9,         # Игнорируем очень частые слова
    stop_words=list(custom_stopwords)
)

# Bag-of-Words для сравнения
bow_vectorizer = CountVectorizer(
    max_features=8000,
    ngram_range=(1, 2),
    min_df=2,
    max_df=0.9,
    stop_words=list(custom_stopwords)
)

print("Векторизаторы созданы")

In [None]:
# TF-IDF
print("Векторизация TF-IDF...")
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_val_tfidf = tfidf_vectorizer.transform(X_val)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

# Bag-of-Words
print("Векторизация Bag-of-Words...")
X_train_bow = bow_vectorizer.fit_transform(X_train)
X_val_bow = bow_vectorizer.transform(X_val)
X_test_bow = bow_vectorizer.transform(X_test)

print(f"\nРазмерности матриц признаков:")
print(f"TF-IDF: {X_train_tfidf.shape}")
print(f"BOW: {X_train_bow.shape}")

# Сохранение processed данных
df_processed = pd.DataFrame({
    'text_processed': X,
    'target': y
})
df_processed.to_csv('processed_contracts_data.csv', index=False)
print("\nОбработанные данные сохранены в 'processed_contracts_data.csv'")

---
# Чекпойнт №3: Применение простых моделей

### Шаг 1: Определение метрик качества

In [None]:
from sklearn.metrics import f1_score, precision_score, recall_score, accuracy_score, classification_report

# Для многоклассовой классификации с дисбалансом
key_metric = 'f1_macro'  # F1-score (macro average)

def evaluate_model(y_true, y_pred, model_name):
    """Полная оценка модели"""
    metrics = {
        'accuracy': accuracy_score(y_true, y_pred),
        'precision_macro': precision_score(y_true, y_pred, average='macro', zero_division=0),
        'recall_macro': recall_score(y_true, y_pred, average='macro', zero_division=0),
        'f1_macro': f1_score(y_true, y_pred, average='macro', zero_division=0),
        'f1_weighted': f1_score(y_true, y_pred, average='weighted', zero_division=0)
    }
    
    print(f"=== {model_name} ===")
    for metric, value in metrics.items():
        print(f"{metric}: {value:.4f}")
    
    return metrics

### Шаг 2: Baseline-модели

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB

print("=== BASELINE МОДЕЛИ ===")

# KNN
print("\nОбучение KNN...")
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train_tfidf, y_train)
y_pred_knn = knn.predict(X_val_tfidf)
knn_metrics = evaluate_model(y_val, y_pred_knn, "KNN")

# Logistic Regression
print("\nОбучение Logistic Regression...")
lr = LogisticRegression(random_state=42, max_iter=1000, multi_class='multinomial')
lr.fit(X_train_tfidf, y_train)
y_pred_lr = lr.predict(X_val_tfidf)
lr_metrics = evaluate_model(y_val, y_pred_lr, "Logistic Regression")

# Naive Bayes
print("\nОбучение Naive Bayes...")
nb = MultinomialNB()
nb.fit(X_train_bow, y_train)
y_pred_nb = nb.predict(X_val_bow)
nb_metrics = evaluate_model(y_val, y_pred_nb, "Naive Bayes")

### Шаг 3: Подбор гиперпараметров

In [None]:
from sklearn.model_selection import GridSearchCV

print("=== ПОДБОР ГИПЕРПАРАМЕТРОВ ===")

# Оптимизация логистической регрессии
param_grid = {
    'C': [0.1, 1, 10, 100],
    'penalty': ['l2', 'none'],
    'class_weight': [None, 'balanced']
}

lr_grid = GridSearchCV(
    LogisticRegression(random_state=42, max_iter=1000, multi_class='multinomial'),
    param_grid,
    cv=3,
    scoring='f1_macro',
    n_jobs=-1
)

print("Запуск GridSearch...")
lr_grid.fit(X_train_tfidf, y_train)

print(f"Лучшие параметры: {lr_grid.best_params_}")
print(f"Лучший F1-score на кросс-валидации: {lr_grid.best_score_:.4f}")

### Шаг 4: Анализ результатов

In [None]:
# Тестирование лучшей модели
best_model = lr_grid.best_estimator_
y_pred_best = best_model.predict(X_val_tfidf)
best_metrics = evaluate_model(y_val, y_pred_best, "Best Logistic Regression")

# Сравнение всех моделей
print("\n=== СРАВНЕНИЕ МОДЕЛЕЙ ===")
models_comparison = pd.DataFrame({
    'KNN': knn_metrics,
    'LogisticRegression': lr_metrics,
    'NaiveBayes': nb_metrics,
    'BestModel': best_metrics
})

models_comparison

In [None]:
# Визуализация сравнения моделей
plt.figure(figsize=(12, 6))

metrics_to_plot = ['accuracy', 'f1_macro', 'precision_macro', 'recall_macro']
models_comparison.T[metrics_to_plot].plot(kind='bar', figsize=(12, 6))
plt.title('Сравнение метрик моделей')
plt.ylabel('Score')
plt.xticks(rotation=45)
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.show()

In [None]:
# Матрица ошибок лучшей модели
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

plt.figure(figsize=(12, 10))
cm = confusion_matrix(y_val, y_pred_best, labels=best_model.classes_)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=best_model.classes_)
disp.plot(cmap='Blues', xticks_rotation=45, ax=plt.gca())
plt.title('Матрица ошибок - Best Logistic Regression')
plt.tight_layout()
plt.show()

In [None]:
# Анализ самых частых ошибок
error_analysis = pd.DataFrame({
    'true': y_val,
    'predicted': y_pred_best,
    'text': X_val
})

errors = error_analysis[y_val != y_pred_best]
error_counts = errors.groupby(['true', 'predicted']).size().reset_index(name='count')
error_counts = error_counts.sort_values('count', ascending=False)

print("Самые частые ошибки классификации:")
print(error_counts.head(10))

print("\nПримеры ошибок:")
for i in range(min(3, len(errors))):
    row = errors.iloc[i]
    print(f"\nОшибка {i+1}:")
    print(f"Истинный класс: {row['true']}")
    print(f"Предсказанный класс: {row['predicted']}")
    print(f"Текст: {row['text'][:200]}...")

### Шаг 5: Финальные выводы

In [None]:
print("=== ФИНАЛЬНЫЕ ВЫВОДЫ ===")

print(f"1. РАЗМЕТКА ДАННЫХ:")
print(f"   - Исходный датасет: {len(df)} записей")
print(f"   - После очистки и разметки: {len(df_labeled)} записей")
print(f"   - Количество классов: {df_labeled['target'].nunique()}")
print(f"   - Сбалансированность: медианный размер класса {class_sizes.median()}")

print(f"\n2. КАЧЕСТВО МОДЕЛЕЙ (F1-macro):")
print(f"   - KNN: {knn_metrics['f1_macro']:.4f}")
print(f"   - Naive Bayes: {nb_metrics['f1_macro']:.4f}")
print(f"   - Logistic Regression: {lr_metrics['f1_macro']:.4f}")
print(f"   - Best Model: {best_metrics['f1_macro']:.4f}")

print(f"\n3. РЕКОМЕНДАЦИИ:")
print(f"   - Лучшая модель: {type(best_model).__name__}")
print(f"   - Ключевая метрика: {key_metric}")
print(f"   - Основные проблемы: дисбаланс классов, семантически близкие классы")

# Сохранение лучшей модели
import joblib

model_artifacts = {
    'model': best_model,
    'vectorizer': tfidf_vectorizer,
    'metrics': best_metrics
}

joblib.dump(model_artifacts, 'best_model_artifacts.pkl')
print(f"\nЛучшая модель сохранена в 'best_model_artifacts.pkl'")