<h1>Группа DS_07_P_online

<h2>Cтудента ГГТУ им. П.О. Сухого, Романюка Е.И. гр. ИП-31.

<h3>Домашнее задание номер 1-2</h3>

<p><b>Цель</b>: приобретение базовых навыков работы с синтаксисом, регулярными выражениями, контейнерами и критериями схожести слов.

<b>Задание</b>:

1.    Загрузить файл длиной не менее 2000 символов.
2.    Составить программу, которая считает число уникальных слов в тексте (без критерия схожести)
3.    Составить программу, которая считает число гласных и согласных букв.
4.    Составить программу, которая считает число предложений, их длину и число (количество) раз использования каждого слова в тексте (с критерием схожести, критерий схожести слов выбрать самостоятельно, например, spacy (en_core_web_sm) или расстояние Левенштейна).
5.    Вывести 10 наиболее часто встречаемых слов. 

<b>Описание используемых методов</b>:

<p><i>read_file(filename)</i> - метод для считывания данных из файла
<p><i>get_unique_words(text)</i> - метод для получения уникальных слов, используем set(множество), который будет содержать только уникальные значения из words(списка отобранного при помоши регулярного выражения для поиска слов)
<p><i>count_vowels_and_consonants(text)</i> - метод для подсчета гласных и согласных в латинском алфавите, проверяет что символ латинского алфавита и считает куда его отнести к гласным или согласным
<p><i>get_sentences_info(text)</i> - метод для подсчета предложений и их длины в словах, разбивает текст при помощи регулярного выражения, при помощи len() получает количество предложений, общее число слов находим как сумму всех слов в предложениях
<p><i>are_words_similar(word1, word2, threshold=2)</i> - метод - критерий схожести использует стандартную функцию библиотеки Levenshtein, distance, которая находит неообходимое число замен для того, чтобы слова стали идентичны, сравниваем с ожидаемым расстоянием treshold
<p><i>get_word_frequency_with_similarity(text, threshold=2)</i> - метод для подсчета частоты появления слова в тексте, использующий критерий схожести
<p><i>get_top_10_words(word_frequency)</i> - метод позволяющий получить 10 наиболее часто встречамых слов, использует метод most_common(10), контейнера Counter(расширенный dict), который вернет список из 10 элементов

<p>С Расстоянием Левенштейна разбирался при помощи данной статьи <i>https://habr.com/ru/articles/676858/</i>

<p><b>Листинг программного кода<b>:

In [5]:
import re
import string
from collections import Counter
from Levenshtein import distance


# Функция чтения файла
def read_file(filename):
    try:
        with open(filename, 'r', encoding='utf-8') as f:
            text = f.read()
        return text
    except FileNotFoundError:
        print(f"Файл {filename} не найден.")
        return ""


# Функция получения уникальных слов
def get_unique_words(text):
    words = re.findall(r'\b\w+\b', text.lower())
    unique_words = set(words)
    return unique_words


# Функция подсчета гласных и согласных
def count_vowels_and_consonants(text):
    vowels = 0
    consonants = 0
    for char in text.lower():
        if char in string.ascii_letters:                     
            if char in 'aeiouy':
                vowels += 1
            else:
                consonants += 1
    return vowels, consonants


# Функция подсчета предложений и их длины
def get_sentences_info(text):
    sentences = re.split(r'[.!?]', text)    
    sentences = [sentence.strip() for sentence in sentences if sentence.strip()]
    number_of_sentences = len(sentences)
    total_length_of_sentences = sum(len(re.findall(r'\b\w+\b', sentence)) for sentence in sentences)
    return number_of_sentences, total_length_of_sentences


# Функция проверки схожести слов (по расстоянию Левенштейна)
def are_words_similar(word1, word2, threshold=2):
    return distance(word1, word2) <= threshold


# Функция подсчета частоты слов с учетом схожести
def get_word_frequency_with_similarity(text, threshold=2):
    word_frequency = Counter()
    processed_words = set()
    for word in re.findall(r'\b\w+\b', text.lower()):
        word = word.strip()
        found_similar = False
        for processed_word in processed_words:
            if are_words_similar(word, processed_word, threshold):
                word_frequency[processed_word] += 1
                found_similar = True
                break
        if not found_similar:
            word_frequency[word] += 1
            processed_words.add(word)
    return word_frequency


# Функция получения 10 самых часто встречающихся слов
def get_top_10_words(word_frequency):
    top_10_words = word_frequency.most_common(10)
    return top_10_words


# Функция основного кода
def main():
    # Загрузка текста
    text = read_file('text.txt')

    if text:
        # Подсчет уникальных слов
        unique_words = get_unique_words(text)
        print(f"Количество уникальных слов: {len(unique_words)}")

        # Подсчет гласных и согласных
        vowels, consonants = count_vowels_and_consonants(text)
        print(f"Гласные: {vowels}")
        print(f"Согласные: {consonants}")

        # Подсчет количества и длины предложений
        number_of_sentences, total_length_of_sentences = get_sentences_info(text)
        print(f"Количество предложений: {number_of_sentences}")
        print(f"Общая длина предложений: {total_length_of_sentences}")

        # Подсчет частоты слов с учетом схожести
        word_frequency_with_similarity = get_word_frequency_with_similarity(text)
        print("Частота слов с учетом схожести:")
        for word, count in word_frequency_with_similarity.most_common():
            print(f"{word}: {count}")

        # Получение 10 самых часто встречающихся слов
        top_10_words = get_top_10_words(word_frequency_with_similarity)
        print("10 самых часто встречающихся слов:")
        for word, count in top_10_words:
            print(f"{word}: {count}")


if __name__ == "__main__":
    main()


Количество уникальных слов: 180
Гласные: 4867
Согласные: 6283
Количество предложений: 265
Общая длина предложений: 2000
Частота слов с учетом схожести:
nec: 281
sit: 139
lectus: 54
velit: 47
cras: 46
amet: 44
nisl: 42
ante: 38
a: 37
etiam: 36
orci: 35
aliquam: 35
vitae: 34
duis: 33
mauris: 29
tellus: 27
quam: 27
nulla: 26
pellentesque: 23
ultrices: 21
massa: 21
faucibus: 17
pulvinar: 17
semper: 16
cursus: 16
sodales: 16
tincidunt: 16
lorem: 15
ipsum: 15
molestie: 15
mollis: 15
vestibulum: 15
dolor: 13
venenatis: 13
sollicitudin: 13
augue: 13
consectetur: 12
quisque: 12
risus: 12
odio: 12
eleifend: 12
neque: 12
integer: 12
turpis: 12
lobortis: 12
varius: 12
convallis: 12
vulputate: 12
scelerisque: 12
maximus: 11
laoreet: 11
placerat: 11
euismod: 11
urna: 11
dignissim: 11
condimentum: 11
posuere: 11
suspendisse: 10
congue: 10
dictumst: 10
porta: 10
malesuada: 10
feugiat: 10
justo: 10
rhoncus: 10
tortor: 10
phasellus: 10
praesent: 9
consequat: 9
rutrum: 9
ullamcorper: 9
tristique: 9
liber

<b>Вывод</b>: в ходе выполнения работы были приобретены навыки работы с синтаксисом, регулярными выражениями, контейнерами и критериями схожести слов, в частности Расстояниями Левенштейна.