# Домашнее задание №1. Инструмент для анализа текста

**Основная задача**: Создайте инструмент для анализа текста, который обрабатывает текстовые записи (например, отзывы пользователей, статьи или отрывки из книг) и предоставляет некоторые выводы, статистику и преобразования. После этого примените инструмент для анализа текста в соответствии с вашим вариантом и сделайте выводы о характере текста.

## Определение анализируемого текста

In [25]:
import textwrap

surname = "Каракешишян"  # Ваша фамилия

if not surname:
    raise Exception('Необходимо указать фамилию!')

alp = "абвгдеёжзийклмнопрстуфхцчшщъыьэюя"
w = [1, 4, 21, 25, 34,  6, 44, 26, 13, 44, 38, 26, 4, 43,  4, 49, 46,
        17, 42, 29,  4,  9, 36, 34, 31, 22,  15, 30,  4, 19, 28, 28, 33]

d = dict(zip(alp, w))
variant =  sum([d[el] for el in surname.lower()]) % 4 + 1

print("Вариант: ", variant)

# Construct the file name based on the variant number
file_name = f"data/{variant}.txt"

# Read the contents of the file
with open(file_name, "r", encoding="utf-8") as file:
    TEXT = file.read()

wrapped = textwrap.fill(TEXT[:500], width=80)
print(f"Анализируемый текст: \n{wrapped}...")

Вариант:  3
Анализируемый текст: 
Stories about the power of words are often an intoxicating prospect. Examples
such as _Pontypool_, the zombie movie inspired by the notorious _War_ of the
_Worlds_ radio broadcast, have proved extremely successful over the years, as
the audience asks questions about exactly where our power of language comes from
and exactly how far it goes. Enter **_Dustborn_**, from Red Thread Games and
Quantic Dream, to **explore these themes through a comic strip rock and roll
road trip.**  _Dustborn_ is set...


## Задача 1: Сбор и предварительная обработка данных

Напишите функцию `preprocess_text`, которая принимает на вход текст и очищает его. Функция должна:
   - Преобразовывать текст в строчные буквы.
   - Удалять ненужные знаки препинания и специальные символы, но сохранять знаки препинания в конце предложения (`.` `!` `?`).
   - Удалить лишние пробелы между словами.
   - Вернуть очищенный текст.

In [26]:
import re

def preprocess_text(text):
    # Избавляюсь от нескольких пробелов
    new_text = " ".join(text.split())
    # Избавляюсь от лишних знаков препинания, оставляя их по 1 штуке
    new_text = re.sub(r'(\.|\?|\!)\1+', r'\1', new_text)
    # Избавляюсь от различных символов
    new_text = re.sub(r'[#\n,"%\$@*\|/:;_]', '', new_text)
    # Возвращаю текст в нижнем регистре
    return new_text.lower()
preprocess_text(TEXT)

"stories about the power of words are often an intoxicating prospect. examples such as pontypool the zombie movie inspired by the notorious war of the worlds radio broadcast have proved extremely successful over the years as the audience asks questions about exactly where our power of language comes from and exactly how far it goes. enter dustborn from red thread games and quantic dream to explore these themes through a comic strip rock and roll road trip. dustborn is set in an alternative-history version of america where the usa is instead the american republic which cracks down hard on a group of people called the anomals - those who were gifted with powers of the voice thanks to a mysterious event. the player is cast as pax an anomal who has been given the job of moving a package from across the american republic to nova scotia being chased along the way. pax's cover is that she is part of a band called the dustborn and adventures occur as this ragtag group of misfits works their wa

Функция удаляет лишние пробелы, повторяющиеся знаки препинания, ненужные символы (#, @, и т.д.), и переводит текст в нижний регистр.

## Задание 2: Анализ частоты слов

Напишите функцию `word_frequency`, которая принимает текст и возвращает словарь, где ключами являются слова, а значениями - их частота в тексте. Функция должна:
   - Подсчитать, как часто каждое слово встречается в тексте.
   - Игнорировать любые общие стоп-слова. Вы можете использовать предопределенный список, приведенный ниже, или использовать свой собственный. Подумайте о том, чтобы сделать его настраиваемым.

In [27]:
import re
def word_frequency(input_text, stop_words = None):
    
    # Если нет своих стоп-слов, то задаем свои по умолчанию
    if stop_words == None:
        stop_words = ["i", "and", "the", "is", "in", "it", "you", "that", "to", "of", "a", "with", "for", "on", "this", "at", "by", "an", "should", "be"]
    
    # Испульзуется функция из 1-го задания (очистка текста)
    input_text = preprocess_text(input_text)
    dict_words = {}

    # Разбиваю исходный текст на слова, дополнительно очищаю и ищу слова, которых нет в стоп-словах и суммирую их
    for word in input_text.split():
        word = re.sub(r'[.?!,]', '', word)
        if word not in stop_words:
            if word in dict_words:
                dict_words[word] += 1
            else:
                dict_words[word] = 1
    return dict_words
    
word_frequency(TEXT)

{'stories': 1,
 'about': 2,
 'power': 4,
 'words': 2,
 'are': 10,
 'often': 1,
 'intoxicating': 1,
 'prospect': 1,
 'examples': 1,
 'such': 5,
 'as': 18,
 'pontypool': 1,
 'zombie': 1,
 'movie': 1,
 'inspired': 1,
 'notorious': 1,
 'war': 1,
 'worlds': 1,
 'radio': 1,
 'broadcast': 1,
 'have': 3,
 'proved': 1,
 'extremely': 2,
 'successful': 1,
 'over': 1,
 'years': 1,
 'audience': 1,
 'asks': 1,
 'questions': 2,
 'exactly': 3,
 'where': 3,
 'our': 3,
 'language': 1,
 'comes': 1,
 'from': 4,
 'how': 5,
 'far': 5,
 'goes': 2,
 'enter': 1,
 'dustborn': 13,
 'red': 2,
 'thread': 2,
 'games': 2,
 'quantic': 1,
 'dream': 1,
 'explore': 2,
 'these': 2,
 'themes': 1,
 'through': 3,
 'comic': 1,
 'strip': 1,
 'rock': 1,
 'roll': 1,
 'road': 3,
 'trip': 1,
 'set': 1,
 'alternative-history': 2,
 'version': 2,
 'america': 2,
 'usa': 1,
 'instead': 2,
 'american': 2,
 'republic': 2,
 'which': 5,
 'cracks': 1,
 'down': 1,
 'hard': 1,
 'group': 2,
 'people': 1,
 'called': 2,
 'anomals': 2,
 '-': 11,

Функция вычисляет частоту слов в тексте, предварительно очищая его и игнорируя стоп-слова. Текст разбивается на слова, очищается от знаков препинания, и подсчитывается количество каждого слова, исключая стоп-слова. Функция выдала такой результат на основе слов, не вошедших в список stop_words.

## Задача 3: Извлечение информации

**Задача**: Напишите функцию `extract_information`, которая берет неочищенный текст (**не из задания 1**) и извлекает определенные типы информации на основе настраиваемых шаблонов regex, предоставленных в качестве keyword-аргументов. Функция должна возвращать словарь, в котором ключи - это типы совпадений, а значения - списки найденных совпадений.

In [28]:
import re
def extract_information(input_text, *, 
                        email_pattern=r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', 
                        phone_pattern=r'(\+?\(?\d{3}\)?[\s-]?\d{3}[\s-]?\d{4})', 
                        date_pattern=r'\b\d{1,2}[-/]\d{1,2}[-/]\d{2,4}\b', 
                        time_pattern=r'\b\d{1,2}:\d{2}\s*[APap][mM]?\b', 
                        price_pattern=r'\$\d+(?:\.\d{2})?', 
                        **extra_patterns):
    
    results = {
        "emails": re.findall(email_pattern, input_text),
        "phone_numbers": re.findall(phone_pattern, input_text),
        "dates": re.findall(date_pattern, input_text),
        "times": re.findall(time_pattern, input_text),
        "prices": re.findall(price_pattern, input_text)
    }
    
    # Тут выполняется поиск всех совпадений для каждого регулярного выражения
    for key, pattern in extra_patterns.items():
        results[key] = re.findall(pattern, input_text)
    
    return results
custom_patterns = {
        "capitalized_word": r'\b[A-Z][a-z]*\b'
    }
extract_information(TEXT, **custom_patterns)

{'emails': [],
 'phone_numbers': [],
 'dates': [],
 'times': [],
 'prices': [],
 'capitalized_word': ['Stories',
  'Examples',
  'Enter',
  'Red',
  'Thread',
  'Games',
  'Quantic',
  'Dream',
  'America',
  'American',
  'Republic',
  'Anomals',
  'The',
  'Pax',
  'Anomal',
  'American',
  'Republic',
  'Nova',
  'Scotia',
  'Pax',
  'The',
  'Dustborn',
  'Dustborn',
  'Pros',
  'The',
  'America',
  'Lots',
  'Cons',
  'Clumsy',
  'Fails',
  'A',
  'Fantastic',
  'Game',
  'World',
  'Plenty',
  'Of',
  'Thematic',
  'Openings',
  'But',
  'Is',
  'There',
  'Depth',
  'Red',
  'Thread',
  'Games',
  'There',
  'Anomals',
  'It',
  'Echoes',
  'The',
  'However',
  'C',
  'T',
  'Players',
  'Echoes',
  'Pax',
  'All',
  'That',
  'It',
  'Words',
  'Without',
  'Meaning',
  'Dialogue',
  'Leaves',
  'A',
  'Lot',
  'To',
  'Be',
  'Desired',
  'Although',
  'The',
  'Qanon',
  'Pizzagate',
  'Karens',
  'There',
  'Characters',
  'Indeed',
  'It',
  'Mixed',
  'This',
  'Characte

Функция извлекает из текста данные, такие как электронные почты, номера телефонов, даты, время, цены, используя регулярные выражения. Она также позволяет добавлять и искать дополнительные паттерны через аргументы `**extra_patterns`. Функция не нашла в исходном тексте все стандартные паттерны, но смогла найти слова через `custom_patterns`.

## Задача 4: Анализ настроения

Напишите функцию `analyze_sentiment`, которая берет текст и анализирует его настроение на основе заранее определенных положительных и отрицательных слов. Функция должна возвращать оценку настроения текста.

In [29]:
import re

def analyze_sentiment(example_text, positive_words = None, negative_words = None):
    # Если нет других позитивных/негативных слов, то вводим свои по умолчанию
    if positive_words == None:
        positive_words = ["good", "fun", "great", "happy", "joy", "excellent", "fantastic", "love", "best", "amazing", "perfect"]
    if negative_words == None:
        negative_words = ["bad", "sad", "hate", "terrible", "awful", "poor", "worst"]
    
    count_sentiment = 0

    example_text = preprocess_text(example_text)

    # Разбиваю исходный текст на слова, удаляю лишние знаки препинания, затем проверяю наличие слова в списках и суммируюб
    for word in example_text.split():
        word = re.sub(r'[.?!,]', "", word)
        if word in positive_words:
            count_sentiment += 1
        elif word in negative_words:
            count_sentiment -= 1
    return count_sentiment

analyze_sentiment(TEXT)

2

Функция анализирует тональность текста, подсчитывая количество позитивных и негативных слов. Если не имеются своих списков позитивных/негативных слов, используются списки по умолчанию. Функция возвращает общее значение тональности: положительное, если больше позитивных слов, и отрицательное — если больше негативных. Данный текст, на основе заранее заданных списков позитивных/негативных слов, имеет положительную тональность, а именно 2.

## Задача 5: Обобщение текста

Напишите функцию `summarize_text`, которая берет текст и обобщает его, извлекая наиболее важные предложения на основе их релевантности. Функция должна позволять пользователю указывать в качестве параметра желаемый коэффициент сжатия.

In [30]:
import re
import math

def summarize_text(input_text, compression_ratio, min_threshold = 2, i = 0, sentiment_scores=None, summary_sentences=None, sentences=None):
        
    # Проверяю на пустой текст
    if not input_text:
        return ""
    
    # Разбиваю исходный текст по знакам препинаниям и создаю список
    # Благодаря передаче этого списка внутри функции, у меня не теряется исходный текст.
    if sentences is None:
        # input_text = preprocess_text(input_text) - убрал, так как с ним не проходит тесты
        sentences = re.split(r'(?<=[.!?])\s+', input_text)

    # Создается словарь, в котором будут записаны количество положительных/отрицательных слов. 
    # Передается в параметры функции для того, чтобы охранить уже проанализированные предложения, добавляя к ним оценки для каждого предложения.
    # Без передачи этого словаря между вызовами, его содержимое обнулялось бы при каждом новом вызове функции.
    if sentiment_scores is None:
        sentiment_scores = {}

    # Инициализирую список для итогового текста. Он также передается между рекурсивными вызовами, чтобы итоговый список предложений формировался постепенно.
    if summary_sentences is None:
        summary_sentences = []
    if i == len(sentences):
        return

    # Присваиваю значения тональности предложения и заношу в словарь, где ключом словаря являються предложения
    sentiment_scores[sentences[i]] = analyze_sentiment(sentences[i])

    # Рекурсия
    summarize_text(sentences, compression_ratio, min_threshold, i + 1, sentiment_scores, summary_sentences, sentences)

    # Сортирую словарь от большего к меньшему по количеству положительных слов в предложении
    sorted_dict = dict(sorted(sentiment_scores.items(), key = lambda item: item[1], reverse = True))

    # Смотрю на то, количество предложений с условием сжатия compression_ratio больше, чем минимально возможное количество предложений 
    if min_threshold < math.floor(compression_ratio * len(sentiment_scores)):
        
        # Делаю срез списка до максимально возможного количества предложений с условием сжатия compression_ratio
        sorted_dict = dict(list(sorted_dict.items())[:math.floor(compression_ratio * len(sentiment_scores))])
    
    # По аналогии наоборот
    elif min_threshold >= math.floor(compression_ratio * len(sentiment_scores)):
        
        # Только здесь делаю срез до минимально возможного количетсва предложений
        sorted_dict = dict(list(sorted_dict.items())[:(min_threshold)])

    # Проверяю на наличие в списке предложений предложение в сортированном словаре
    if sentences[i] in sorted_dict:
        summary_sentences.append(sentences[i])
    return " ".join(reversed(summary_sentences))

summarize_text(TEXT, 0.5)

'Stories about the power of words are often an intoxicating prospect. Examples such as _Pontypool_, the zombie movie inspired by the notorious _War_ of the _Worlds_ radio broadcast, have proved extremely successful over the years, as the audience asks questions about exactly where our power of language comes from and exactly how far it goes. Enter **_Dustborn_**, from Red Thread Games and Quantic Dream, to **explore these themes through a comic strip rock and roll road trip.**\n\n_Dustborn_ is set in an alternative-history version of America, where the USA is instead the American Republic, which cracks down hard on a group of people called the Anomals - those who were gifted with powers of the voice thanks to a mysterious event. **The player is cast as Pax, an Anomal who has been given the job of moving a package from across the American Republic to Nova Scotia**, being chased along the way. Pax\'s cover is that she is part of a band called The Dustborn, and adventures occur as this ra

Функция сжимает исходный текст, анализируя тональность предложений. Она разбивает текст на предложения, оценивает каждое предложение по количеству позитивных и негативных слов, затем отбирает наиболее значимые предложения на основе заданного коэффициента сжатия и минимального порога. Возвращает итоговый текст, состоящий из отобранных предложений. Эта функция *сортирует* словарь по *убыванию* тональности, отбирая *самые положительные*, и отбрасывает самые отрицательные, то из-за нейтральной тональности, или малого количества позитивных/негативных слов в списках, текст почти не имеет тональности, из-за чего функция возвращает *первую половину текста*, включая самых положительных предложений. Если бы самые положительные предложения были *в конце* текста, то функция таже бы вернула *первую часть* текста, включая самых положительных предложений обязательно, учитывая значение сокращения `compression_ratio`.

## Задание 6: Визуализация частоты слов

Напишите функцию `visualize_word_frequency`, которая берет словарь частот слов (полученный в задании 2) и визуализирует частоты в текстовом формате.

In [31]:
def visualize_word_frequency(dstuff, max_threshold = 50):
    new_dstuff = {}
    # Умножаем значения на * и вставляем результат как значение
    for key, value in dstuff.items():
        new_dstuff[key] = "*" * value
    # Сортируем по убыванию и ограничиваю количество строк в выводе
    sorted_dict = dict(sorted(new_dstuff.items(), key = lambda item: item[1], reverse=True)[:max_threshold])
    return print("\n".join(f"{key}: {value}" for key, value in sorted_dict.items()))
visualize_word_frequency(word_frequency(TEXT))


as: ******************
game: ****************
dustborn: *************
-: ***********
are: **********
but: **********
its: **********
way: *********
it's: *********
game's: *********
some: ********
feels: ********
dialogue: ********
all: *******
being: ******
gameplay: ******
moments: ******
will: ******
much: ******
characters: ******
such: *****
how: *****
far: *****
which: *****
player: *****
character: *****
world: *****
there: *****
very: *****
little: *****
too: *****
players: *****
power: ****
from: ****
has: ****
job: ****
elements: ****
into: ****
time: ****
story: ****
does: ****
also: ****
player's: ****
quite: ****
when: ****
not: ****
have: ***
exactly: ***
where: ***
our: ***


Функция визуализирует частоту слов в виде *. Она принимает словарь с частотами слов, сортирует его по убыванию, ограничивает количество отображаемых строк до значения `max_threshold` и выводит результат в виде текста.

## Задание 7: Функции высшего порядка для анализа текста

Напишите функцию `apply_analysis`, которая принимает список функций анализа и одну текстовую запись. Функция должна применять каждую функцию анализа к текстовой записи и возвращать словарь результатов.

In [32]:
# Здесь функция принимает список функций анализа и одну текстовую запись, нормализуя текст
def apply_analysis(text, analysis_functions):
    func = {}
    for analys_function in analysis_functions:
        res = analys_function(text)
        func[analys_function.__name__] = res
    return func

apply_analysis(TEXT, [word_frequency, analyze_sentiment])

{'word_frequency': {'stories': 1,
  'about': 2,
  'power': 4,
  'words': 2,
  'are': 10,
  'often': 1,
  'intoxicating': 1,
  'prospect': 1,
  'examples': 1,
  'such': 5,
  'as': 18,
  'pontypool': 1,
  'zombie': 1,
  'movie': 1,
  'inspired': 1,
  'notorious': 1,
  'war': 1,
  'worlds': 1,
  'radio': 1,
  'broadcast': 1,
  'have': 3,
  'proved': 1,
  'extremely': 2,
  'successful': 1,
  'over': 1,
  'years': 1,
  'audience': 1,
  'asks': 1,
  'questions': 2,
  'exactly': 3,
  'where': 3,
  'our': 3,
  'language': 1,
  'comes': 1,
  'from': 4,
  'how': 5,
  'far': 5,
  'goes': 2,
  'enter': 1,
  'dustborn': 13,
  'red': 2,
  'thread': 2,
  'games': 2,
  'quantic': 1,
  'dream': 1,
  'explore': 2,
  'these': 2,
  'themes': 1,
  'through': 3,
  'comic': 1,
  'strip': 1,
  'rock': 1,
  'roll': 1,
  'road': 3,
  'trip': 1,
  'set': 1,
  'alternative-history': 2,
  'version': 2,
  'america': 2,
  'usa': 1,
  'instead': 2,
  'american': 2,
  'republic': 2,
  'which': 5,
  'cracks': 1,
  'dow

Функция принимает текст и список функций анализа, нормализуя текст перед их применением. Она создает словарь, в котором ключами являются имена функций, а значениями — результаты их работы с текстом. Возвращает словарь с результатами анализа, что позволяет легко отслеживать и использовать результаты различных функций.

## Задача 8: Обернуть всё в класс

Создайте класс `TextAnalyzer`, который инкапсулирует всю функциональность из предыдущих задач. Класс должен включать методы для каждого из следующих действий:

In [33]:
import re
import math

# Все функции были ранее

class TextAnalyzer:
    def __init__(self, text: str):
        self.original_text = text
        self.cleaned_text = self.preprocess_text()

    def preprocess_text(self):
        new_text = " ".join(self.original_text.split())
        new_text = re.sub(r'(\.|\?|\!)\1+', r'\1', new_text)
        new_text = re.sub(r'[#\n,"%\$@*\|/:;_]', '', new_text)
        return new_text.lower()

    def word_frequency(self, stop_words = None) -> dict:
        if stop_words == None:
            stop_words = ["i", "and", "the", "is", "in", "it", "you", "that", "to", "of", "a", "with", "for", "on", "this", "at", "by", "an", "should", "be"]
    
        dict_words = {}

        # Разбиваю исходный текст на слова, дополнительно очищаю и ищу слова, которых нет в стоп-словах и суммирую их
        for word in self.cleaned_text.split():
            word = re.sub(r'[.?!,]', '', word)
            if word not in stop_words:
                if word in dict_words:
                    dict_words[word] += 1
                else:
                    dict_words[word] = 1
        return dict_words

    def extract_information(self, *, 
                        email_pattern=r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', 
                        phone_pattern=r'(\+?\(?\d{3}\)?[\s-]?\d{3}[\s-]?\d{4})', 
                        date_pattern=r'\b\d{1,2}[-/]\d{1,2}[-/]\d{2,4}\b', 
                        time_pattern=r'\b\d{1,2}:\d{2}\s*[APap][mM]?\b', 
                        price_pattern=r'\$\d+(?:\.\d{2})?', 
                        **extra_patterns) -> dict:
        results = {
        "emails": re.findall(email_pattern, self.original_text),
        "phone_numbers": re.findall(phone_pattern, self.original_text),
        "dates": re.findall(date_pattern, self.original_text),
        "times": re.findall(time_pattern, self.original_text),
        "prices": re.findall(price_pattern, self.original_text)
    }
    
        for key, pattern in extra_patterns.items():
            results[key] = re.findall(pattern, self.original_text)
        return results

    def analyze_sentiment(self, positive_words = None, negative_words = None) -> int:
        if positive_words == None:
            positive_words = ["good", "fun", "great", "happy", "joy", "excellent", "fantastic", "love", "best", "amazing", "perfect"] 
        if negative_words == None:
            negative_words = ["bad", "sad", "hate", "terrible", "awful", "poor", "worst"]
        
        count_sentiment = 0

        for word in self.cleaned_text.split():
            word = re.sub(r'[.?!,]', "", word)
            if word in positive_words:
                count_sentiment += 1
            elif word in negative_words:
                count_sentiment -= 1
        return count_sentiment

    def summarize_text(self, compression_ratio: float, min_threshold = 2, i = 0, sentiment_scores=None, summary_sentences=None, sentences=None) -> str:

        if not self.cleaned_text:
            return ""
        if sentences is None:
            sentences = re.split(r'(?<=[.!?])\s+', self.cleaned_text)
        if sentiment_scores is None:
            sentiment_scores = {}

        if summary_sentences is None:
            summary_sentences = []
        if i == len(sentences):
            return

        sentiment_scores[sentences[i]] = self.analyze_sentiment(sentences[i])
        self.summarize_text( compression_ratio, min_threshold, i + 1, sentiment_scores, summary_sentences, sentences)

        sorted_dict = dict(sorted(sentiment_scores.items(), key = lambda item: item[1], reverse = True))

        if min_threshold < math.floor(compression_ratio * len(sentiment_scores)):
            sorted_dict = dict(list(sorted_dict.items())[:math.floor(compression_ratio * len(sentiment_scores))])
        
        elif min_threshold >= math.floor(compression_ratio * len(sentiment_scores)):
            sorted_dict = dict(list(sorted_dict.items())[:(min_threshold)])

        if sentences[i] in sorted_dict:
            summary_sentences.append(sentences[i])
        return " ".join(reversed(summary_sentences))

    def visualize_word_frequency(self, stop_words = None, max_threshold = 10) -> None:
        dstuff = {}
        if stop_words == None:
            stop_words = ["i", "and", "the", "is", "in", "it", "you", "that", "to", "of", "a", "with", "for", "on", "this", "at", "by", "an", "should", "be"]

        for word in self.cleaned_text.split():
            word = re.sub(r'[.?!,]', '', word)
            if word not in stop_words:
                if word in dstuff:
                    dstuff[word] += "*"
                else:
                    dstuff[word] = "*"
        sorted_dict = dict(sorted(dstuff.items(), key = lambda item: item[1], reverse=True)[:max_threshold])
        return print("\n".join(f"{key}: {value}" for key, value in sorted_dict.items()))
    
    def apply_analysis(self, analysis_functions: list) -> dict:
        func = {}
        for analys_function in analysis_functions:
            res = analys_function(self.cleaned_text)
            func[analys_function.__name__] = res
        return func


Класс `TextAnalyzer` выполняет анализ текста, включая предобработку, подсчет частоты слов, анализ тональности, извлечение информации и создание саммари. Он предоставляет методы для визуализации частоты слов и применения различных функций анализа к тексту.

## Задача 9: Анализ текста

Проведите анализ предложенного вам в соответствии с вариантом текста. Воспользуйтесь разработанными инструментами, чтобы:

- Нормализовать текст
- Узнать наиболее часто встречающиеся слова
- Оценить настроение текста
- Определить основную информацию текста

Представьте результаты ваших оценок и сделайте вывод о содержании текста.

In [34]:
print("===== Обработанный текст =====")

TEXT = preprocess_text(TEXT)
for sentence in re.findall(r'.+?[.!?]', TEXT):
    print(sentence)
print("\n===== Частота слов =====")
for key, value in word_frequency(TEXT).items():
    print(f"{key}: {value}")
print("\n===== Анализ тональности =====")
print(analyze_sentiment(TEXT))
print("\n===== Сокращение текста =====")
summ_text = summarize_text(TEXT, 0.5)
for sentence in re.findall(r'.+?[.!?]', summ_text):
    print(sentence)


===== Обработанный текст =====
stories about the power of words are often an intoxicating prospect.
 examples such as pontypool the zombie movie inspired by the notorious war of the worlds radio broadcast have proved extremely successful over the years as the audience asks questions about exactly where our power of language comes from and exactly how far it goes.
 enter dustborn from red thread games and quantic dream to explore these themes through a comic strip rock and roll road trip.
 dustborn is set in an alternative-history version of america where the usa is instead the american republic which cracks down hard on a group of people called the anomals - those who were gifted with powers of the voice thanks to a mysterious event.
 the player is cast as pax an anomal who has been given the job of moving a package from across the american republic to nova scotia being chased along the way.
 pax's cover is that she is part of a band called the dustborn and adventures occur as this rag

- Нормализация

Функция отработала корректно, удалив лишние пробелы, знаки препинания и другие символы, убрав также верхний регистр из текста.



- Наиболее часто встречающиеся слова

Функция отработала корректно, убрав лишние слова, указанные в теле функции, создала словарь слов из текста, где ключами являются слова, а значения - количество повторений. Из краткого анализа работы этой функции, можно сделать вывод, что слова are, as, dustborn встречаются чаще 10 раз



- Оценка настроения текста

Функция отработала корректно, на основе предусмотренных положительных и отрицательных списков слов, получили результат в 2, что говорит, что в тексте почти нет 
каких либо положительных/отрицательных слов.



- Основная информация из текста

Учитывая, что функция ориентируется на тональность предложений во время сокращения, а также, что текст в целом нейтральный, можно считать, что функция отработала
корректно. Поскольку эта функция *сортирует* словарь по *убыванию* тональности, отбирая *самые положительные*, и отбрасывает самые отрицательные, то из-за нейтральной тональности, или малого количества позитивных/негативных слов в списках, текст почти не имеет тональности, из-за чего функция возвращает *первую половину текста*, включая самых положительных предложений. Если бы самые положительные предложения были *в конце* текста, то функция таже бы вернула *первую часть* текста, включая самых положительных предложений обязательно, учитывая значение сокращения `compression_ratio`. Если принимать условие сокращение текста на основе отбора тональности предложения, то функция отработала корретно, но для этого текста надо рассмотреть другие способы сокращения текста.

Вывод: Создайл инструменты для анализа текста, которые обрабатывают текстовые записи и предоставляет некоторые выводы, статистику и преобразования. Применил инструменты для анализа текста в соответствии с вариантом и сделал выводы о характере текста.