# Домашнее задание №1. Инструмент для анализа текста

**Основная задача**: Создайте инструмент для анализа текста, который обрабатывает текстовые записи (например, отзывы пользователей, статьи или отрывки из книг) и предоставляет некоторые выводы, статистику и преобразования. После этого примените инструмент для анализа текста в соответствии с вашим вариантом и сделайте выводы о характере текста.

## Определение анализируемого текста

In [47]:
import pytest
import re

In [48]:
import textwrap

surname = "Вохрамеев"  # Ваша фамилия

if not surname:
    raise Exception('Необходимо указать фамилию!')

alp = "абвгдеёжзийклмнопрстуфхцчшщъыьэюя"
w = [1, 4, 21, 25, 34,  6, 44, 26, 13, 44, 38, 26, 4, 43,  4, 49, 46,
        17, 42, 29,  4,  9, 36, 34, 31, 22,  15, 30,  4, 19, 28, 28, 33]

d = dict(zip(alp, w))
variant =  sum([d[el] for el in surname.lower()]) % 4 + 1

print("Вариант: ", variant)

# Construct the file name based on the variant number
file_name = f"data/{variant}.txt"

# Read the contents of the file
with open(file_name, "r", encoding="utf-8") as file:
    TEXT = file.read()

wrapped = textwrap.fill(TEXT[:500], width=80)
print(f"Анализируемый текст: \n{wrapped}...")

Вариант:  1
Анализируемый текст: 
**_Stellar Blade_** is the latest exclusive to hit the PlayStation 5 that excels
at delivering a highly riveting action RPG. Shift Up Corporation has crafted an
impressive linear title that takes influences from some of the most renowned
games in recent times. **Even though the parallels are quite apparent, _Stellar
Blade_ doesn’t try to reinvent the wheel but rather refines what players are
already familiar with.**  _Stellar Blade_ is centered around EVE, a member of
the 7th Airborne Division w...


# Задача 1: Сбор и предварительная обработка данных

**Задача:**
Написать функцию preprocess_text, которая принимает на вход текст и очищает его. 
Функция должна:
Преобразовывать текст в строчные буквы.
Удалять ненужные знаки препинания и специальные символы, но сохранять знаки препинания в конце предложения (. ! ?).
Удалить лишние пробелы между словами.
Вернуть очищенный текст.

In [49]:
def preprocess_text(text):
    text = text.lower() # Перевод в нижний регистр
    text = re.sub(r"[^\w\s.!?']", '', text) # Удаление всех символы, кроме букв, цифр, пробелов, " ' ", '.', '!', '?'
    text = re.sub(r'\s+', ' ', text).strip() # Удаление лишних пробелов и замена нескольких пробелов одним пробелом
    text = re.sub(r'([.!?])\1+', r'\1', text) # Если встречается несколько подряд идущих знаков пунктуации, то оставляем один
    text = text.replace("_", "") # Убираем нижние подчеркивания
    return text

In [50]:
preprocess_text(TEXT)

"stellar blade is the latest exclusive to hit the playstation 5 that excels at delivering a highly riveting action rpg. shift up corporation has crafted an impressive linear title that takes influences from some of the most renowned games in recent times. even though the parallels are quite apparent stellar blade doesnt try to reinvent the wheel but rather refines what players are already familiar with. stellar blade is centered around eve a member of the 7th airborne division who has come back to a ravaged earth from an offworld colony. she along with other warriors has been sent to investigate the origins of the naytibas and reclaim the planet for humanity. during the course of her mission eve discovers that the history between the naytibas and humans is far more complicated than anticipated. stellar blade stellar blade is an immediate mustplay for ps5. pros spectacular combat mechanics solid performance cool abilities evocative soundtrack cons inconsistent narrative pacing minor vis

# Задание 2: Анализ частоты слов

**Задача:**
Написать функцию word_frequency, которая берет неочищенный текст и возвращает словарь, где ключами являются слова, а значениями - их частота в тексте. 
Функция должна:
Подсчитать, как часто каждое слово встречается в тексте.
Игнорировать любые общие стоп-слова.

In [51]:
def word_frequency(text,
    stop_words = ["i", "and", "the", "is", "in", "it", "you", "that", "to", "of", "a", "with", "for", "on", "this", "at", "by", "an"]):
    freq_dict = {} # Словарь, в котором ключи - слова, значения - их частота.
    clear_text = preprocess_text(text) # Очистка текста
    split_text = re.split(r'[ .!?]', clear_text) # Разбиение текста на слова
    for word in split_text:
        if word and word not in stop_words: # Занесение данных в словарь
            if word not in freq_dict.keys():
                freq_dict[word] = 1
            else:
                freq_dict[word] += 1

    return freq_dict

In [52]:
freq_result = word_frequency(TEXT)
print(freq_result)

{'stellar': 32, 'blade': 21, 'latest': 1, 'exclusive': 2, 'hit': 2, 'playstation': 1, '5': 1, 'excels': 1, 'delivering': 1, 'highly': 1, 'riveting': 2, 'action': 6, 'rpg': 5, 'shift': 3, 'up': 5, 'corporation': 1, 'has': 6, 'crafted': 2, 'impressive': 1, 'linear': 2, 'title': 1, 'takes': 1, 'influences': 1, 'from': 12, 'some': 8, 'most': 8, 'renowned': 1, 'games': 2, 'recent': 1, 'times': 1, 'even': 4, 'though': 2, 'parallels': 1, 'are': 4, 'quite': 5, 'apparent': 1, 'doesnt': 3, 'try': 1, 'reinvent': 1, 'wheel': 1, 'but': 6, 'rather': 1, 'refines': 1, 'what': 3, 'players': 13, 'already': 1, 'familiar': 5, 'centered': 1, 'around': 3, 'eve': 7, 'member': 1, '7th': 1, 'airborne': 1, 'division': 1, 'who': 2, 'come': 1, 'back': 2, 'ravaged': 1, 'earth': 1, 'offworld': 1, 'colony': 1, 'she': 1, 'along': 1, 'other': 3, 'warriors': 1, 'been': 2, 'sent': 1, 'investigate': 1, 'origins': 1, 'naytibas': 3, 'reclaim': 1, 'planet': 1, 'humanity': 1, 'during': 4, 'course': 1, 'her': 1, 'mission': 2,

**Задача:**
Написать функцию extract_information, которая берет неочищенный текст и извлекает определенные типы информации на основе настраиваемых шаблонов regex, предоставленных в качестве keyword-аргументов. Функция должна возвращать словарь, в котором ключи - это типы совпадений, а значения - списки найденных совпадений.

# Задача 3: Извлечение информации

In [53]:
import re

def extract_information(
    text, *,  # * делает все последующие аргументы keyword-only
    email_pattern=r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}',
    phone_pattern=r'\+?(?:\d{1,3}[-.\s]?)?\(?\d{3}\)?[-.\s]?\d{3}[-.\s]?\d{4}',
    date_pattern=r'\b\d{1,2}[-/]\d{1,2}[-/]\d{2,4}\b',
    time_pattern=r'\b\d{1,2}:\d{2}\s*[APap][mM]?\b',
    price_pattern=r'\$\d+(?:\.\d{2})?',
    **extra_patterns
):
    result = {
        "emails": [],
        "phone_numbers": [],
        "dates": [],
        "times": [],
        "prices": []
    }  # Инициализация словаря с пустыми списками
    
    patterns = {
        'emails': email_pattern,
        'phone_numbers': phone_pattern,
        'dates': date_pattern,
        'times': time_pattern,
        'prices': price_pattern
    } # Словарь паттернов
    
    for key, pattern in patterns.items():
        matches = re.findall(pattern, text)
        if matches:
            result[key] = matches # Поиск совпадений по паттернам
    
    for label, pattern in extra_patterns.items(): # Поиск совпадений по пользовательским паттернам
        matches = re.findall(pattern, text)
        result[label] = matches if matches else []
    
    return result


In [54]:
text = "Email me at john.doe@example.com. Call me at +123 456 7890."
print(extract_information(text))

{'emails': ['john.doe@example.com'], 'phone_numbers': ['+123 456 7890'], 'dates': [], 'times': [], 'prices': []}


# Задача 4: Анализ настроения

**Задача:**
Написать функцию analyze_sentiment, которая берет неочищенный текст и анализирует его настроение на основе заранее определенных положительных и отрицательных слов. Функция должна возвращать оценку настроения текста.

In [55]:
import re

def analyze_sentiment(text, *,
    positive_words=["good", "great", "happy", "joy", "excellent", "fantastic", "love", "best", "amazing", "fun"],
    negative_words=["bad", "sad", "hate", "terrible", "awful", "poor", "worst"]):
    
    result = 0
    clear_text = preprocess_text(text)  # Очистка текста
    text_low = clear_text.lower()
    words = re.sub(r'[^\w\s]', ' ', text_low).split()  # Разбиение предложений на слова
    
    for word in words:  # Перебор слов
        if word in positive_words:
            result += 1  # Увеличение счётчика для положительного слова
        elif word in negative_words:
            result -= 1  # Уменьшение счётчика для отрицательного слова

    return result


In [56]:
input_text = "I love this product! It's fantastic and makes me very happy."
print(analyze_sentiment(input_text))

3


# Задача 5: Обобщение текста

**Задача:**
Написать функцию summarize_text, которая берет неочищенный текст и обобщает его, извлекая наиболее важные предложения на основе их релевантности. Функция должна позволять пользователю указывать в качестве параметра желаемый коэффициент сжатия.


In [57]:
import re

def summarize_text(text, compression_ratio=0.5, min_threshold=2):
    
    def importance(sentence):
        return analyze_sentiment(sentence) + len(sentence.split())  # Учет значение sentimеnt и длину предложения

    clear_text = preprocess_text(text)  # Очистка текста
    sentences = re.split(r'(?<=[.!?])\s+', clear_text)  # Разделение текста на предложения с сохранением пунктуации

    target_length = max(int(len(sentences) * compression_ratio), min_threshold) # Опредение количества предложений, которые нужно оставить
    
    if len(sentences) <= target_length:
        return clear_text.capitalize()

    importances = [[sentence, importance(sentence)] for sentence in sentences] # Вычисление важности для каждого предложения
    
    sorted_importances = sorted(importances, key=lambda x: x[1], reverse=True) # Сортировка предложений по важности
    
    summary_sentences = [item[0] for item in sorted_importances[:target_length]] # Отбор предложений, соответствующих целевому количеству
    
    return ' '.join(summary_sentences).capitalize()


In [58]:
summarize_text(TEXT, 0.8)

"Pros spectacular combat mechanics solid performance cool abilities evocative soundtrack cons inconsistent narrative pacing minor visual issues combat gameplay is the star of the show fun exhilarating encounters set in a semiopen world stellar blade is akin to the cult hit nier automata while borrowing gameplay elements from soulslite titles like jedi fallen order. much like nier automatas lore stellar blades universe could benefit from more worldbuilding it still has enough twists entertaining action sequences and hits all the right notes that will resonate with most action rpg players. that's because when performing a perfect parry or a perfect dodge players can counter a naytiba with devastating damage and recharge beta energy abilities that can quickly turn the tide of a battle. this dance of juggling abilities dodging and parrying in stellar blade makes every boss fight a riveting encounter and there are other tools at your disposal that will also help overcome challenging opponen

# Задание 6: Визуализация частоты слов

**Задача:**
Написать функцию visualize_word_frequency, которая берет словарь частот слов (полученный в задании 2) и визуализирует частоты в текстовом формате.

In [59]:
def visualize_word_frequency(freq_result, max_threshold = 20):
    star_freq = {} # Cловарь для хранения визуализированных результатов частот
    freq_result_sorted = dict(sorted(freq_result.items(), key = lambda item: item[1], reverse = True)) # Сортировка частот слов по убыванию значений
    limited_freq_result = dict(list(freq_result_sorted.items())[:max_threshold]) # Ограничение кол-ва слов в результате (до max_threshold)
    for key, value in limited_freq_result.items(): # Преобразования каждого слова в строку звездочек
        star_freq[key] = '*' * value
    for key, value in star_freq.items(): # Вывод
        print (f"{key}: {value}")

In [60]:
print(visualize_word_frequency(freq_result))

stellar: ********************************
blade: *********************
its: ****************
players: *************
be: *************
from: ************
while: ************
world: ***********
can: ***********
some: ********
most: ********
mechanics: ********
or: ********
also: ********
blades: ********
eve: *******
combat: *******
like: *******
will: *******
action: ******
None


# Задание 7: Функции высшего порядка для анализа текста

**Задача:**
Написать функцию apply_analysis, которая принимает список функций анализа и одну текстовую запись. Функция должна применять каждую функцию анализа к текстовой записи и возвращать словарь результатов.

In [61]:
def apply_analysis(text, analysis_functions):
        result = {}
        for func in analysis_functions:
            result[func.__name__] = func(text)
        return result

In [62]:
input_text = "I love this product! It's fantastic and 234 makes me very happy 5435."
apply_analysis(input_text, [analyze_sentiment, word_frequency])

{'analyze_sentiment': 3,
 'word_frequency': {'love': 1,
  'product': 1,
  "it's": 1,
  'fantastic': 1,
  '234': 1,
  'makes': 1,
  'me': 1,
  'very': 1,
  'happy': 1,
  '5435': 1}}

# Задача 8: Обернуть всё в класс

**Задача:**
Создать класс TextAnalyzer, который инкапсулирует всю функциональность из предыдущих задач. Класс должен включать методы для каждого из следующих действий:

Инициализация:

Класс должен принимать один текст при инициализации, хранить исходный текст и автоматически создавать его предобработанную версию.
Методы:

word_frequency: Анализирует частоту слов из предварительно обработанного текста.
extract_information: Извлекает электронные письма, номера телефонов, даты, время и цены из предварительно обработанного текста.
analyze_sentiment: Выполняет анализ настроения предварительно обработанного текста.
summarize_text: Обобщает предварительно обработанный текст на основе коэффициента сжатия.
visualize_word_frequency: Визуализирует данные о частоте слов в тексте.
apply_analysis: Применяет список функций анализа к предварительно обработанному тексту.

In [63]:
class TextAnalyzer:
    def __init__(self, text: str):
        self.original_text = text
        self.cleaned_text = self.preprocess_text(text)

    def preprocess_text(self, text: str) -> str:
        text = text.lower()
        text = re.sub(r"[^\w\s.!?']", '', text)
        text = re.sub(r'\s+', ' ', text).strip()
        text = re.sub(r'([.!?])\1+', r'\1', text)
        text = text.replace("_", "")
        return text
    
    def word_frequency(self,
        stop_words=["i", "and", "the", "is", "in", "it", "you", "that", "to", "of", "a", "with", "for", "on", "this", "at", "by", "an"]) -> dict:
        freq_dict = {}
        split_text = re.split(r'[ .!?]', self.cleaned_text)
        for word in split_text:
            if word and word not in stop_words:
                if word not in freq_dict.keys():
                    freq_dict[word] = 1
                else:
                    freq_dict[word] += 1

        return freq_dict

    def extract_information(self, *,
        email_pattern=r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}',
        phone_pattern=r'\+?(?:\d{1,3}[-.\s]?)?\(?\d{3}\)?[-.\s]?\d{3}[-.\s]?\d{4}',
        date_pattern=r'\b\d{1,2}[-/]\d{1,2}[-/]\d{2,4}\b',
        time_pattern=r'\b\d{1,2}:\d{2}\s*[APap][mM]?\b',
        price_pattern=r'\$\d+(?:\.\d{2})?',
        **extra_patterns) -> dict:
        
        text = self.original_text
        
        result = {
            "emails": [],
            "phone_numbers": [],
            "dates": [],
            "times": [],
            "prices": []
        }
        
        patterns = {
            'emails': email_pattern,
            'phone_numbers': phone_pattern,
            'dates': date_pattern,
            'times': time_pattern,
            'prices': price_pattern
        }
        
        for key, pattern in patterns.items():
            matches = re.findall(pattern, text)
            if matches:
                result[key] = matches
        
        for label, pattern in extra_patterns.items():
            matches = re.findall(pattern, text)
            result[label] = matches if matches else []
        
        return result

    def analyze_sentiment(self, *,
        positive_words = ["good", "great", "happy", "joy", "excellent", "fantastic", "love", "best", "amazing", "fun"],
        negative_words = ["bad", "sad", "hate", "terrible", "awful", "poor", "worst"]) -> int:
        result = 0
        text_low = self.cleaned_text.lower()
        words = re.sub(r'[^\w\s]', ' ', text_low).split()
        
        for word in words:  # Перебор слов
            if word in positive_words:
                result += 1  # Увеличение счётчика для положительного слова
            elif word in negative_words:
                result -= 1  # Уменьшение счётчика для отрицательного слова

        return result

    
    def summarize_text(self, compression_ratio = 0.5, min_threshold=2) ->str:
        def importance(sentence):
            return analyze_sentiment(sentence) + len(sentence.split())  # Учет значение sentimеnt и длину предложения

        self.cleaned_text = preprocess_text(text)  # Очистка текста
        sentences = re.split(r'(?<=[.!?])\s+', self.cleaned_text)  # Разделение текста на предложения с сохранением пунктуации

        target_length = max(int(len(sentences) * compression_ratio), min_threshold) # Опредение количества предложений, которые нужно оставить
        
        if len(sentences) <= target_length:
            return self.cleaned_text.capitalize()

        importances = [[sentence, importance(sentence)] for sentence in sentences] # Вычисление важности для каждого предложения
        
        sorted_importances = sorted(importances, key=lambda x: x[1], reverse=True) # Сортировка предложений по важности
        
        summary_sentences = [item[0] for item in sorted_importances[:target_length]] # Отбор предложений, соответствующих целевому количеству
        
        return ' '.join(summary_sentences).capitalize()



    def visualize_word_frequency(self, max_threshold=20):
        star_freq = {}
        freq_result = self.word_frequency()
        freq_result_sorted = dict(sorted(freq_result.items(), key=lambda item: item[1], reverse=True))
        max_threshold = int(max_threshold)
        limited_freq_result = dict(list(freq_result_sorted.items())[:max_threshold])
        for key, value in limited_freq_result.items():
            star_freq[key] = '*' * value
        
        for key, value in star_freq.items():
            print(f"{key}: {value}")

    def apply_analysis(self, analysis_functions: list) -> dict:
        result = {}
        for func in analysis_functions:
            func_name = func.__name__
            result[func_name] = func(self.original_text)
        return result


# Задача 9: Анализ текста

**Задача:**
Провести анализ предложенного текста. Необходимо воспользоваться разработанными инструментами, чтобы:

Нормализовать текс; 
Узнать наиболее часто встречающиеся слова; 
Оценить настроение текста; 
Определить основную информацию текста; 
Представить результаты оценок и сделать вывод о содержании текста.

In [64]:
import pprint
my_analysis = TextAnalyzer(TEXT) # Создаем объект класса
#Список функций, по которым происходит анализ:
analysis_list = [preprocess_text, word_frequency, extract_information, analyze_sentiment, summarize_text]
result = my_analysis.apply_analysis(analysis_list) # Результат анализа

pprint.pprint(result) # pprint для красивого вывода

{'analyze_sentiment': 7,
 'extract_information': {'dates': [],
                         'emails': [],
                         'phone_numbers': [],
                         'prices': [],
                         'times': []},
 'preprocess_text': 'stellar blade is the latest exclusive to hit the '
                    'playstation 5 that excels at delivering a highly riveting '
                    'action rpg. shift up corporation has crafted an '
                    'impressive linear title that takes influences from some '
                    'of the most renowned games in recent times. even though '
                    'the parallels are quite apparent stellar blade doesnt try '
                    'to reinvent the wheel but rather refines what players are '
                    'already familiar with. stellar blade is centered around '
                    'eve a member of the 7th airborne division who has come '
                    'back to a ravaged earth from an offworld colony. she

**Вывод:**
Текст посвящен игре Stellar Blade. Игра впечатляет увлекательной боевой механикой и разнообразными способностями. Опыт игры похож на „NieR: Automata“, »Jedi: Fallen Order». Сражения с боссами продуманы до мелочей, что позволяет игрокам экспериментировать с различными стратегиями. Графика выглядит красиво, а общая производительность стабильная.

Из минусов - несколько непоследовательное повествование и ограниченное построение мира, а также незначительные визуальные проблемы в сценах. Общий балл рецензии - 4,55, это значит, что Stellar Blade достойная игра для поклонников экшен рпг, сочетающее в себе сложные боевые действия и доступный геймплей.