# Задача 7. «Война и мир»
_ _ _

Для решения задачи подсчета статистики символов и поиска предложений с упоминанием имени "Андрей" в тексте романа Льва Толстого "Война и мир", можно использовать несколько различных подходов на Python. Рассмотрим три варианта реализации.

## Вариант 1: Простой подсчет и разбиение на предложения

### Описание алгоритма:
Этот вариант основан на использовании встроенных методов Python. Мы будем читать весь текст файла, затем использовать цикл для подсчета количества каждого символа. Для поиска предложений с именем "Андрей" используем метод `split()`, который разбивает текст на предложения.

### Код:


In [None]:
def calculate_char_frequency(text):
    char_count = {}
    total_chars = 0

    for char in text:
        if char in char_count:
            char_count[char] += 1
        else:
            char_count[char] = 1
        total_chars += 1

    char_frequency = {char: count / total_chars for char, count in char_count.items()}
    return char_frequency

def find_sentences_with_name(text, name, limit=10):
    sentences = text.split('. ')
    result = []
    
    for sentence in sentences:
        if any(name_form in sentence for name_form in ["Андрей", "Андрея", "Андрею", "Андреем", "Андрее"]):
            result.append(sentence.strip() + '.')
        if len(result) == limit:
            break
            
    return result

def main():
    with open('war_and_peace.txt', 'r', encoding='utf-8') as file:
        text = file.read()

    # Статистика символов
    char_frequency = calculate_char_frequency(text)
    print("Статистика:")
    for char, freq in sorted(char_frequency.items(), key=lambda x: -x[1])[:5]:
        print(f"{char} : {freq:.2f}")
    
    # Поиск предложений
    sentences = find_sentences_with_name(text, "Андрей")
    print("\nПредложения со словом «Андрей»:")
    for sentence in sentences:
        print(sentence)

if __name__ == "__main__":
    main()

### Скорость:
- **Время работы:** \(O(n)\), где \( n \) — количество символов в тексте.
- **Преимущества:** Простота реализации, использование базовых методов Python.
- **Недостатки:** Ограниченные возможности оптимизации и управения данными.


_ _ _
## Вариант 2: Использование библиотеки `collections`

### Описание алгоритма:
Здесь мы используем библиотеку `collections`, в частности `Counter`, для более эффективного подсчета символов. Разбиение на предложения и поиск имени выполняются аналогично первому варианту.

### Код:

In [None]:
from collections import Counter

def calculate_char_frequency(text):
    char_count = Counter(text)
    total_chars = sum(char_count.values())
    char_frequency = {char: count / total_chars for char, count in char_count.items()}
    return char_frequency

def find_sentences_with_name(text, name, limit=10):
    sentences = text.split('. ')
    result = []
    
    for sentence in sentences:
        if any(name_form in sentence for name_form in ["Андрей", "Андрея", "Андрею", "Андреем", "Андрее"]):
            result.append(sentence.strip() + '.')
        if len(result) == limit:
            break
            
    return result

def main():
    with open('war_and_peace.txt', 'r', encoding='utf-8') as file:
        text = file.read()

    # Статистика символов
    char_frequency = calculate_char_frequency(text)
    print("Статистика:")
    for char, freq in sorted(char_frequency.items(), key=lambda x: -x[1])[:5]:
        print(f"{char} : {freq:.2f}")
    
    # Поиск предложений
    sentences = find_sentences_with_name(text, "Андрей")
    print("\nПредложения со словом «Андрей»:")
    for sentence in sentences:
        print(sentence)

if __name__ == "__main__":
    main()

### Скорость:
- **Время работы:** \(O(n)\), где \( n \) — количество символов в тексте.
- **Преимущества:** Более эффективный подсчет символов за счет использования `Counter`, простота кода.
- **Недостатки:** Малая разница в производительности по сравнению с первым вариантом, хотя код становится более лаконичным.

_ _ _
## Вариант 3: Использование регулярных выражений для поиска предложений

### Описание алгоритма:
В этом варианте мы используем регулярные выражения для поиска предложений с именем "Андрей". Регулярные выражения позволяют более гибко управлять поиском текста и работать с более сложными шаблонами.

### Код:

In [None]:
import re
from collections import Counter

def calculate_char_frequency(text):
    char_count = Counter(text)
    total_chars = sum(char_count.values())
    char_frequency = {char: count / total_chars for char, count in char_count.items()}
    return char_frequency

def find_sentences_with_name(text, name, limit=10):
    pattern = r"[^.]*\b(?:Андрей|Андрея|Андрею|Андреем|Андрее)\b[^.]*\."
    sentences = re.findall(pattern, text)
    return sentences[:limit]

def main():
    with open('war_and_peace.txt', 'r', encoding='utf-8') as file:
        text = file.read()

    # Статистика символов
    char_frequency = calculate_char_frequency(text)
    print("Статистика:")
    for char, freq in sorted(char_frequency.items(), key=lambda x: -x[1])[:5]:
        print(f"{char} : {freq:.2f}")
    
    # Поиск предложений
    sentences = find_sentences_with_name(text, "Андрей")
    print("\nПредложения со словом «Андрей»:")
    for sentence in sentences:
        print(sentence)

if __name__ == "__main__":
    main()

### Скорость:
- **Время работы:** \(O(n)\) для подсчета символов, \(O(m)\) для поиска предложений, где \( m \) — количество предложений в тексте.
- **Преимущества:** Регулярные выражения позволяют точно находить предложения с нужными словами, гибкость и мощность поиска.
- **Недостатки:** Более сложный синтаксис регулярных выражений может усложнять код.


_ _ _
## Заключение:

1. **Простой подсчет и разбиение на предложения**:
   - **Плюсы:** Очень простой и понятный код.
   - **Минусы:** Потенциально менее эффективный, чем использование специальных инструментов.

2. **Использование `collections.Counter`**:
   - **Плюсы:** Более эффективный подсчет символов, чем в первом варианте.
   - **Минусы:** Производительность сопоставима с первым вариантом.

3. **Использование регулярных выражений**:
   - **Плюсы:** Точный и мощный поиск предложений с определенными условиями.
   - **Минусы:** Код становится более сложным из-за использования регулярных выражений.

Выбор подходящего варианта зависит от конкретных требований к проекту и предпочтений разработчика.

_ _ _
Для решения задачи анализа текста и поиска предложений с упоминанием имени "Андрей", помимо уже рассмотренных методов, можно использовать и другие подходы и алгоритмы. Вот некоторые из них:

## 1. **Алгоритмы поиска подстроки (например, KMP или Бойера-Мура)**

**Описание:**  
Вместо того чтобы искать предложения с именем "Андрей" с использованием регулярных выражений или простого поиска, можно использовать алгоритмы поиска подстроки, такие как алгоритм Кнута-Морриса-Пратта (KMP) или алгоритм Бойера-Мура. Эти алгоритмы оптимизированы для поиска подстрок и могут быть эффективнее при обработке больших текстов.

**Как использовать:**
- Разбиваем текст на предложения.
- Применяем алгоритм KMP или Бойера-Мура для поиска имени "Андрей" и его форм в каждом предложении.
- Если найдено совпадение, добавляем предложение в результаты.

**Преимущества:**
- Эффективный поиск подстрок с линейной сложностью \(O(n + m)\), где \(n\) — длина строки, а \(m\) — длина подстроки.
- Позволяет быстро находить все вхождения заданного слова или фразы в больших текстах.

**Недостатки:**
- Сложность реализации по сравнению с встроенными методами Python.
- Требует разбора текста на предложения перед применением алгоритма.

## 2. **Использование `nltk` для обработки текста**

**Описание:**  
Библиотека Natural Language Toolkit (nltk) предоставляет мощные инструменты для обработки естественного языка. Можно использовать её для точного разбиения текста на предложения и анализа частоты символов.

**Как использовать:**
- Используем `nltk.sent_tokenize` для разбиения текста на предложения, что дает более точный результат, особенно в сложных текстах с аббревиатурами и сокращениями.
- Используем `nltk.FreqDist` для подсчета частоты символов или слов в тексте.

**Преимущества:**
- Более точное разбиение на предложения, особенно в текстах со сложными структурами.
- Возможность использовать дополнительные функции `nltk` для расширенного анализа текста.

**Недостатки:**
- Требуется установка и настройка библиотеки `nltk`.
- Может быть медленнее по сравнению с базовыми методами, особенно на больших объемах данных.

## 3. **Использование `pandas` для обработки и анализа текста**

**Описание:**  
Хотя `pandas` обычно используется для работы с табличными данными, его можно использовать и для анализа текста. Можно представить текст как серию строк и применить мощные функции `pandas` для поиска и фильтрации предложений.

**Как использовать:**
- Читаем текст в DataFrame, где каждая строка — это предложение.
- Применяем функции `str.contains()` для поиска предложений, содержащих имя "Андрей".
- Используем методы агрегирования и фильтрации для получения частотности символов.

**Преимущества:**
- Легкость обработки и фильтрации данных, особенно для больших объемов текста.
- Возможность использовать весь арсенал функций `pandas` для анализа и визуализации данных.

**Недостатки:**
- Требуется понимание работы с DataFrame.
- Более высокая потребность в памяти по сравнению с чистым Python.

## 4. **Алгоритмы на основе структур данных: Trie и Suffix Tree**

**Описание:**  
Структуры данных, такие как Trie или суффиксное дерево (Suffix Tree), могут быть использованы для эффективного поиска подстрок в тексте.

**Как использовать:**
- Построение Trie или суффиксного дерева для всего текста или предложений.
- Поиск всех предложений, содержащих нужные формы имени "Андрей", путем навигации по дереву.

**Преимущества:**
- Очень быстрый поиск подстрок после построения структуры данных.
- Подходит для задач с многократным поиском подстрок в одном и том же тексте.

**Недостатки:**
- Сложность реализации и понимания.
- Высокие требования к памяти, особенно для больших текстов.

## 5. **Использование языковой модели (например, BERT или GPT) для контекстного поиска**

**Описание:**  
Можно использовать предварительно обученные языковые модели, такие как BERT или GPT, для поиска контекста, в котором упоминается имя "Андрей". Это позволит находить предложения с учетом контекста и тонких нюансов языка.

**Как использовать:**
- Загружаем предобученную модель.
- Применяем модель для поиска предложений, содержащих имя "Андрей" в заданном контексте.
- Анализируем найденные предложения на предмет соответствия заданным критериям.

**Преимущества:**
- Высокая точность поиска с учетом контекста.
- Способность учитывать сложные формы и варианты использования слова в предложении.

**Недостатки:**
- Высокие вычислительные затраты.
- Требуется понимание работы с языковыми моделями и библиотеками, такими как `transformers`.



_ _ _
## Заключение

В зависимости от конкретной задачи и требований, можно выбрать подходящий алгоритм или метод:

1. **Для простоты и быстроты разработки:** Подходы с использованием встроенных методов Python или `collections`.
2. **Для сложного текста и точности:** Использование `nltk` или алгоритмов поиска подстрок (KMP, Бойера-Мура).
3. **Для масштабируемости и гибкости анализа:** Использование `pandas` или структур данных, таких как Trie.
4. **Для контекстного поиска:** Применение языковых моделей.

Выбор зависит от конкретных требований к задаче, объема текста и уровня требуемой точности и эффективности.