# Лабораторная работа 2. Классификация текстов на основе вхождения в документ словарных слов

**Задание 1.** Загрузите в датафрейм новостной датасет `lenta_ru_news_filtered.csv`, собранный на базе корпуса `lenta.ru v1.0`. В датасете каждая новость описывается следующими полями:
* **url** - адрес новости на сайте `lenta.ru`,
* **topic** - тема новости,
* **title** - заголовок новости,
* **text** - текст новости.

Ответьте на следуюшие вопросы:
1. Сколько всего новостных текстов?
2. На какие темы встречаются новости?
3. Сколько новостных текстов в каждой теме?

In [None]:
import pandas as pd

df = pd.read_csv('../../labs/lenta_ru_news_filtered.csv')

total_news = len(df)
print(f"1. Всего новостных текстов: {total_news}")

topics = df['topic'].unique()
print(f"\n2. Темы новостей:\n{topics}")

news_per_topic = df['topic'].value_counts()
print(f"\n3. Количество новостей по темам:\n{news_per_topic}")

**Задание 2.** Выполните предобработку новостных текстов в виде:
- приведение к нижнему регистру,
- удаление знаков пунктуации.

**(!) Далее в лабораторной работе задания выполняются с полученными обработанными текстами**.

Разделите датасет на обучающую и тестовую части в соотношении 80% к 20%. Выведите диаграммы, отражающие количество текстов по каждой теме в каждой из частей.

In [None]:
import pandas as pd
import string
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

def preprocess_text(text):
    text = text.lower()
    text = text.translate(str.maketrans('', '', string.punctuation))
    return text

df['processed_text'] = df['text'].apply(preprocess_text)

print("Пример исходного текста:")
print(df['text'].iloc[0][:200])
print("\nПример обработанного текста:")
print(df['processed_text'].iloc[0][:200])

train_df, test_df = train_test_split(df, test_size=0.2, random_state=42, stratify=df['topic'])

print(f"\nРазмер обучающей выборки: {len(train_df)}")
print(f"Размер тестовой выборки: {len(test_df)}")

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

train_topic_counts = train_df['topic'].value_counts()
ax1.bar(train_topic_counts.index, train_topic_counts.values)
ax1.set_title('Распределение тем в обучающей выборке')
ax1.set_xlabel('Темы')
ax1.set_ylabel('Количество новостей')
ax1.tick_params(axis='x', rotation=45)

test_topic_counts = test_df['topic'].value_counts()
ax2.bar(test_topic_counts.index, test_topic_counts.values)
ax2.set_title('Распределение тем в тестовой выборке')
ax2.set_xlabel('Темы')
ax2.set_ylabel('Количество новостей')
ax2.tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

# Детальная статистика по распределению
print("\nРаспределение по темам в обучающей выборке:")
print(train_df['topic'].value_counts())
print("\nРаспределение по темам в тестовой выборке:")
print(test_df['topic'].value_counts())

In [None]:
train_df

**Задание 3.** Подсчитайте частоту встречаемости слов предобработанных новостных текстов `обучающей` части датафрейма. Какие слова употребляются наиболее часто вцелом в этих новостных текстах, а какие слова употребляются в этих же новостных текстах относительно тем (выведите топ-`50` слов для каждого случая)?

Нахождение частот слов в новостных текстах датафрейма можно выполнять посредством инструмента `FreqDist` библиотеки `NLTK`.

Например:
```
df['text'].apply(lambda x: nltk.FreqDist(nltk.word_tokenize(x)))
```

In [None]:
import nltk
from nltk import FreqDist
from nltk.tokenize import word_tokenize
import matplotlib.pyplot as plt
import pandas as pd

# Скачиваем необходимые ресурсы NLTK (если еще не скачаны)
nltk.download('punkt')

# Используем обучающую выборку из задания 2
print("Подсчет частоты слов в обучающей выборке...")

# 1. Частота слов во всей обучающей выборке
all_words = []
for text in train_df['processed_text']:
    tokens = word_tokenize(text)
    all_words.extend(tokens)

# Создаем объект FreqDist для всех слов
freq_dist_all = FreqDist(all_words)

# Выводим топ-50 самых частых слов
print("Топ-50 самых частых слов во всей обучающей выборке:")
top_50_all = freq_dist_all.most_common(50)
for i, (word, freq) in enumerate(top_50_all, 1):
    print(f"{i:2d}. {word}: {freq}")

# Визуализация топ-50 слов всей выборки
plt.figure(figsize=(12, 8))
words, frequencies = zip(*top_50_all)
plt.bar(range(len(words)), frequencies)
plt.xticks(range(len(words)), words, rotation=45, ha='right')
plt.title('Топ-50 самых частых слов в обучающей выборке')
plt.xlabel('Слова')
plt.ylabel('Частота')
plt.tight_layout()
plt.show()

# 2. Частота слов по темам
print("\n" + "="*60)
print("Частота слов по темам:")

# Получаем уникальные темы
topics = train_df['topic'].unique()

# Создаем словарь для хранения FreqDist по каждой теме
freq_dist_by_topic = {}

for topic in topics:
    print(f"\nТема: {topic}")

    # Фильтруем тексты по теме
    topic_texts = train_df[train_df['topic'] == topic]['processed_text']

    # Собираем все слова для данной темы
    topic_words = []
    for text in topic_texts:
        tokens = word_tokenize(text)
        topic_words.extend(tokens)

    # Создаем FreqDist для текущей темы
    freq_dist_topic = FreqDist(topic_words)
    freq_dist_by_topic[topic] = freq_dist_topic

    # Выводим топ-50 слов для темы
    top_50_topic = freq_dist_topic.most_common(50)
    print(f"Топ-50 слов в теме '{topic}':")
    for i, (word, freq) in enumerate(top_50_topic, 1):
        print(f"{i:2d}. {word}: {freq}")

    # Визуализация для каждой темы
    plt.figure(figsize=(12, 6))
    words_topic, freqs_topic = zip(*top_50_topic)
    plt.bar(range(len(words_topic)), freqs_topic)
    plt.xticks(range(len(words_topic)), words_topic, rotation=45, ha='right')
    plt.title(f'Топ-50 слов в теме: {topic}')
    plt.xlabel('Слова')
    plt.ylabel('Частота')
    plt.tight_layout()
    plt.show()

# Дополнительная информация
print("\n" + "="*60)
print("Дополнительная статистика:")
print(f"Всего уникальных слов во всей обучающей выборке: {len(freq_dist_all)}")

for topic in topics:
    freq_dist = freq_dist_by_topic[topic]
    print(f"Уникальных слов в теме '{topic}': {len(freq_dist)}")
    print(f"Общее количество слов в теме '{topic}': {freq_dist.N()}")

# Сохраняем результаты для использования в следующих заданиях
topic_word_freq = {}
for topic in topics:
    topic_word_freq[topic] = dict(freq_dist_by_topic[topic].most_common())

# Выводим несколько примеров самых характерных слов для каждой темы
print("\n" + "="*60)
print("Самые характерные слова по темам (первые 10 из топ-50):")
for topic in topics:
    top_words = list(topic_word_freq[topic].keys())[:10]
    print(f"{topic}: {', '.join(top_words)}")

**Задание 4.** Составьте словари из текстов `обучающей` части датасетов наболее часто встречающихся слов, которые встречаются **только в одной из каждых тем**. Постройте диаграмму для топ-`50` этих слов для каждой темы (ось X - слова, ось Y - частоты встречаемости слов в новостных текстах).

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
from collections import defaultdict

# Создаем словари уникальных слов для каждой темы
print("Создание словарей слов, встречающихся только в одной теме...")

# Собираем все слова из всех тем
all_topic_words = defaultdict(set)
for topic in topics:
    # Берем топ-500 слов из каждой темы для анализа
    top_words = [word for word, freq in freq_dist_by_topic[topic].most_common(500)]
    all_topic_words[topic] = set(top_words)

# Находим слова, уникальные для каждой темы
unique_words_per_topic = {}

for topic in topics:
    # Слова текущей темы
    current_topic_words = all_topic_words[topic]

    # Слова всех других тем
    other_topics_words = set()
    for other_topic in topics:
        if other_topic != topic:
            other_topics_words.update(all_topic_words[other_topic])

    # Находим слова, которые есть только в текущей теме
    unique_words = current_topic_words - other_topics_words

    # Создаем словарь {слово: частота} для уникальных слов
    unique_words_freq = {}
    for word in unique_words:
        unique_words_freq[word] = freq_dist_by_topic[topic][word]

    # Сортируем по частоте и берем топ-50
    sorted_unique_words = sorted(unique_words_freq.items(), key=lambda x: x[1], reverse=True)[:50]
    unique_words_per_topic[topic] = sorted_unique_words

    print(f"\nТема: {topic}")
    print(f"Количество уникальных слов: {len(unique_words)}")
    print(f"Топ-10 уникальных слов: {[word for word, freq in sorted_unique_words[:10]]}")

# Визуализация топ-50 уникальных слов для каждой темы
for topic in topics:
    if unique_words_per_topic[topic]:
        plt.figure(figsize=(15, 8))

        words = [item[0] for item in unique_words_per_topic[topic]]
        frequencies = [item[1] for item in unique_words_per_topic[topic]]

        # Создаем столбчатую диаграмму
        bars = plt.bar(range(len(words)), frequencies, color='skyblue')

        # Настройки графика
        plt.title(f'Топ-50 уникальных слов для темы: {topic}', fontsize=16)
        plt.xlabel('Слова', fontsize=12)
        plt.ylabel('Частота встречаемости', fontsize=12)
        plt.xticks(range(len(words)), words, rotation=45, ha='right', fontsize=10)

        # Добавляем значения на столбцы
        for bar, freq in zip(bars, frequencies):
            height = bar.get_height()
            plt.text(bar.get_x() + bar.get_width()/2., height,
                    f'{freq}', ha='center', va='bottom', fontsize=8)

        plt.tight_layout()
        plt.show()

        # Выводим таблицу с данными
        print(f"\nТоп-50 уникальных слов для темы '{topic}':")
        df_unique = pd.DataFrame(unique_words_per_topic[topic], columns=['Слово', 'Частота'])
        print(df_unique.to_string(index=False))
    else:
        print(f"\nДля темы '{topic}' не найдено уникальных слов среди топ-500 слов")

# Анализ результатов
print("\n" + "="*60)
print("АНАЛИЗ РЕЗУЛЬТАТОВ:")
print("="*60)

for topic in topics:
    unique_count = len(unique_words_per_topic[topic])
    total_unique_words = sum([len(unique_words_per_topic[t]) for t in topics])
    print(f"Тема '{topic}': {unique_count} уникальных слов ({unique_count/total_unique_words*100:.1f}% от общего числа уникальных слов)")

# Сохраняем словари для использования в следующем задании
print("\nСохранение словарей уникальных слов...")

# Создаем отдельные словари для каждой темы
topic_vocabularies = {}
for topic in topics:
    topic_vocabularies[topic] = [word for word, freq in unique_words_per_topic[topic]]

# Выводим примеры самых характерных уникальных слов для каждой темы
print("\n" + "="*60)
print("САМЫЕ ХАРАКТЕРНЫЕ УНИКАЛЬНЫЕ СЛОВА ПО ТЕМАМ:")
print("="*60)

for topic in topics:
    if unique_words_per_topic[topic]:
        top_10_unique = [word for word, freq in unique_words_per_topic[topic][:10]]
        print(f"{topic}: {', '.join(top_10_unique)}")
    else:
        print(f"{topic}: не найдено уникальных слов")

**Задание 5.** Выполните классификацию новостных текстов из `тестовой` части датасета на основе `top-k слов` (`k` - как входной параметр) из словарей, построенных в задании `4` на основе `обучающей` части датасета. Оцените показатели `полнота` и `точность` классификации (относительно значения параметра `k`) при указании количества документов, для которых не получилось определить тему.

Общий алгоритм классификации:

- Для документа `x` считаем сколько встречается слов, из словаря каждой из тем.
- Выбираем тему для документа `x` с максимальным количеством слов
- Отдельно обрабатываем случаи, когда количество слов одинаковое или равно 0. Это случаи, когда не получилось определить тему документа.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import precision_score, recall_score, classification_report
from collections import Counter

def classify_documents(test_df, topic_vocabularies, k):
    """
    Классификация документов на основе top-k уникальных слов для каждой темы
    """
    results = []

    for idx, row in test_df.iterrows():
        text = row['processed_text']
        true_topic = row['topic']

        # Считаем вхождения слов из каждого словаря
        topic_scores = {}

        for topic, vocab in topic_vocabularies.items():
            # Берем top-k слов из словаря темы
            top_k_words = vocab[:k]

            # Подсчитываем, сколько из этих слов встречается в тексте
            word_count = 0
            for word in top_k_words:
                if word in text:
                    word_count += 1

            topic_scores[topic] = word_count

        # Находим тему с максимальным количеством совпадений
        max_score = max(topic_scores.values())

        if max_score == 0:
            # Не удалось определить тему
            predicted_topic = 'unknown'
        else:
            # Находим все темы с максимальным счетом
            best_topics = [topic for topic, score in topic_scores.items() if score == max_score]

            if len(best_topics) == 1:
                predicted_topic = best_topics[0]
            else:
                # Несколько тем с одинаковым максимальным счетом
                predicted_topic = 'unknown'

        results.append({
            'true_topic': true_topic,
            'predicted_topic': predicted_topic,
            'text_id': idx
        })

    return pd.DataFrame(results)

def evaluate_classification(results_df, k_values):
    """
    Оценка качества классификации для разных значений k
    """
    evaluation_results = []

    for k in k_values:
        print(f"\nОценка классификации для k = {k}")
        print("=" * 50)

        # Фильтруем результаты для текущего k
        current_results = results_df[results_df['k'] == k].copy()

        # Разделяем на определенные и неопределенные темы
        known_results = current_results[current_results['predicted_topic'] != 'unknown']
        unknown_results = current_results[current_results['predicted_topic'] == 'unknown']

        # Статистика
        total_docs = len(current_results)
        known_docs = len(known_results)
        unknown_docs = len(unknown_results)
        unknown_ratio = unknown_docs / total_docs

        print(f"Всего документов: {total_docs}")
        print(f"Документов с определенной темой: {known_docs}")
        print(f"Документов с неопределенной темой: {unknown_docs}")
        print(f"Доля неопределенных: {unknown_ratio:.3f}")

        if known_docs > 0:
            # Вычисляем точность и полноту только для определенных документов
            y_true = known_results['true_topic']
            y_pred = known_results['predicted_topic']

            # Общая точность
            accuracy = (y_true == y_pred).mean()

            # Precision и recall по классам
            precision = precision_score(y_true, y_pred, average='weighted', zero_division=0)
            recall = recall_score(y_true, y_pred, average='weighted', zero_division=0)

            print(f"Точность (accuracy) на определенных документах: {accuracy:.3f}")
            print(f"Precision (взвешенное): {precision:.3f}")
            print(f"Recall (взвешенное): {recall:.3f}")

            # Детальный отчет по классам
            print("\nДетальный отчет по классам:")
            print(classification_report(y_true, y_pred, zero_division=0))
        else:
            accuracy = precision = recall = 0
            print("Нет документов с определенной темой для оценки метрик")

        evaluation_results.append({
            'k': k,
            'total_docs': total_docs,
            'known_docs': known_docs,
            'unknown_docs': unknown_docs,
            'unknown_ratio': unknown_ratio,
            'accuracy': accuracy,
            'precision': precision,
            'recall': recall
        })

    return pd.DataFrame(evaluation_results)

k_values = [5, 10, 15, 20, 25, 30, 35, 40, 45, 50]
all_results = []

for k in k_values:
    print(f"\nКлассификация для k = {k}")
    classification_results = classify_documents(test_df, topic_vocabularies, k)
    classification_results['k'] = k

    all_results.append(classification_results)

all_results_df = pd.concat(all_results, ignore_index=True)
evaluation_df = evaluate_classification(all_results_df, k_values)

plt.figure(figsize=(15, 10))

plt.subplot(2, 2, 1)
plt.plot(evaluation_df['k'], evaluation_df['accuracy'], marker='o', label='Accuracy', linewidth=2)
plt.plot(evaluation_df['k'], evaluation_df['precision'], marker='s', label='Precision', linewidth=2)
plt.plot(evaluation_df['k'], evaluation_df['recall'], marker='^', label='Recall', linewidth=2)
plt.xlabel('k (количество слов из словаря)')
plt.ylabel('Метрика')
plt.title('Метрики качества классификации')
plt.legend()
plt.grid(True, alpha=0.3)

plt.subplot(2, 2, 2)
plt.plot(evaluation_df['k'], evaluation_df['unknown_ratio'], marker='o', color='red', linewidth=2)
plt.xlabel('k (количество слов из словаря)')
plt.ylabel('Доля неопределенных')
plt.title('Доля документов с неопределенной темой')
plt.grid(True, alpha=0.3)

plt.subplot(2, 2, 3)
plt.plot(evaluation_df['k'], evaluation_df['total_docs'], marker='o', label='Всего', linewidth=2)
plt.plot(evaluation_df['k'], evaluation_df['known_docs'], marker='s', label='Определенные', linewidth=2)
plt.plot(evaluation_df['k'], evaluation_df['unknown_docs'], marker='^', label='Неопределенные', linewidth=2)
plt.xlabel('k (количество слов из словаря)')
plt.ylabel('Количество документов')
plt.title('Распределение документов по категориям')
plt.legend()
plt.grid(True, alpha=0.3)

plt.subplot(2, 2, 4)
f1_scores = 2 * (evaluation_df['precision'] * evaluation_df['recall']) / (evaluation_df['precision'] + evaluation_df['recall'] + 1e-10)
plt.plot(evaluation_df['k'], f1_scores, marker='o', color='purple', linewidth=2)
plt.xlabel('k (количество слов из словаря)')
plt.ylabel('F1-мера')
plt.title('F1-мера (взвешенная)')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

best_idx = evaluation_df['accuracy'].idxmax()
best_k = evaluation_df.loc[best_idx, 'k']
best_accuracy = evaluation_df.loc[best_idx, 'accuracy']

print(f"\nbest_k: {best_k}")
print(f"best_accuracy: {best_accuracy:.3f}")

print(f"\nДЕТАЛЬНЫЙ АНАЛИЗ ДЛЯ k = {best_k}:")

best_k_results = all_results_df[all_results_df['k'] == best_k]
confusion_data = []

for true_topic in best_k_results['true_topic'].unique():
    for pred_topic in best_k_results['predicted_topic'].unique():
        count = len(best_k_results[
            (best_k_results['true_topic'] == true_topic) &
            (best_k_results['predicted_topic'] == pred_topic)
        ])
        if count > 0:
            confusion_data.append({
                'true_topic': true_topic,
                'predicted_topic': pred_topic,
                'count': count
            })

confusion_df = pd.DataFrame(confusion_data)
pivot_df = confusion_df.pivot(index='true_topic', columns='predicted_topic', values='count').fillna(0)

print("Матрица confusion:")
print(pivot_df)

print(f"\nЭФФЕКТИВНОСТЬ ПО ТЕМАМ ДЛЯ k = {best_k}:")
print("=" * 50)

topic_analysis = []
for topic in best_k_results['true_topic'].unique():
    topic_data = best_k_results[best_k_results['true_topic'] == topic]
    total = len(topic_data)
    correct = len(topic_data[topic_data['predicted_topic'] == topic])
    unknown = len(topic_data[topic_data['predicted_topic'] == 'unknown'])
    wrong = total - correct - unknown

    accuracy = correct / total if total > 0 else 0

    topic_analysis.append({
        'topic': topic,
        'total': total,
        'correct': correct,
        'wrong': wrong,
        'unknown': unknown,
        'accuracy': accuracy
    })

topic_analysis_df = pd.DataFrame(topic_analysis)
print(topic_analysis_df.to_string(index=False))

# Сохранение результатов
print(f"\nСохранение результатов...")
all_results_df.to_csv('classification_results.csv', index=False)
evaluation_df.to_csv('evaluation_metrics.csv', index=False)

print("ЗАДАНИЕ 5 ВЫПОЛНЕНО!")

**Задание 6.** Познакомьтесь с библиотекой Natasha для обработки текстов на русском языке, прочитав <a href="https://habr.com/ru/articles/516098/">статью</a>.

#### Импорт библиотек и создание объекта для работы с текстом
Импортируйте библиотеки для сегментации на предложения, морфологического и синтаксического анализа.

```python
from natasha import(
    Segmenter,
    MorphVocab,
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    Doc,
)
```

Создайте объект из обрабатываемого текста `text`:

```python
text_doc = Doc(text)
```

#### Сегментация на предложения
Создайте объект, который будет выполнять сегментацию текста на предложения:

```python
segmenter = Segmenter()
```

С помощью сегментатора можно разбить текст на предложения и токены:

```python
text_doc.segment(segmenter)
print(text_doc.tokens)
print(text_doc.sents)
```

#### Морфологический анализ

Инициализируйте словарь и морфологический анализатор:
```python
morph_vocab = MorphVocab()
morph_tagger = NewsMorphTagger(emb)
```

Чтобы получить морфологическую разметку слова `word` воспользуйтесь:

```python
morph_vocab.parse(word)
```

Добавить морфологическую разметку к объекту обрабатываемого текста (Doc) можно как

```python
text_doc.tag_morph(morph_tagger)
print(text_doc.tokens)
text_doc.sents[0].morph.print()
```

Получить леммы текста можно через метод `lemmatize`:

```python
for token in text_doc.tokens:
    token.lemmatize(morph_vocab)
{_.text: _.lemma for _ in text_doc.tokens}
```

**Задание 7.** Добавьте столбец в обучающую и тестовую часть датасета с обработанными текстами после лемматизации.

**Задание 8.** Составьте словари на основе текстов `обучающей` части датасета по аналогии с **заданием 4.**, но с текстами, полученными после лемматзации.

**Задание 9.** Сделайте классификацию новостных текстов `тестовой` части датасета по аналогии с **заданием 5.**, но с текстами, полученными **после лемматзации**.