### Задание

1. Загрузить файл длиной не менее 2000 символов. 
2. Составить программу, которая считает число уникальных слов в тексте (без критерия схожести)
3. Составить программу, которая считает число гласных и согласных букв. 
4. Составить программу, которая считает число предложений, их длину и число (количество) раз использования каждого слова в тексте (с критерием схожести, критерий схожести слов выбрать самостоятельно, например, spacy (en_core_web_sm) или расстояние Левенштейна). 
5. Вывести 10 наиболее часто встречаемых слов. 

p.s. Рекомендую перед решением задания проанализировать задачу и обосновать алгоритм ее решения в текстовом виде. В процессе написания кода использовать комментарии.

### Анализ задания

Для решения задачи требуется разделить задачу на несколько.
* Токенизация. Для не структурированных текстов разделение текста на предложения может быть не тривиальной задачей т.к. предложение может заканчиваться на различные знаки (.!?), однако точка может встречаться в предложении, но не завершать его (например различные сокращения неапример Mr. Smith). Разделение предложения на слова так же не простая задача. Например некоторые слова могут писаться через дефисы и правило разделения на токены по небуквенным символам уже не подходит.
* Лемматизация Это задача приведения слова в нормальную форму (единственное число, настоящее время и тд)
* Убрать из статистики стоп слова которые не несут информации
* Некоторые буквы в английском языке могут быть в некоторых случаях гластными а в некоторых согластными. Например Y: yes, yet, но many, only. Для упрощения задачи определим их однозначно в 1 из классов

Для решения обеих задач я решил использовать библиотеку spacy. В качестве текста была выбрана речь Уинстона Черчилля

### Выводы:
* Топ самых встречаемых слов не несут полезной информации и обычно отбрасываются (так называемые стоп слова)
* Число гласных букв почти в 2 раза меньше согласных
* Около 10% слов в тексте потребовалось привести к нормальной форме

Установка пакета Spacy:

In [12]:
!pip install spacy

Defaulting to user installation because normal site-packages is not writeable


In [4]:
import spacy
from collections import Counter

nlp = spacy.load('en_core_web_sm')

def process_text(file_path):
    # Чтение текста из файла с автоматическим зыкрытием файла
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()

    doc = nlp(text)

    # Подсчет уникальных слов без лемматизации
    num_unique_words_no_lemma = len({token.text.lower() for token in doc if token.is_alpha})

    # Подсчет гласных и согласных
    vowels = "aeiou"
    consonants = "bcdfghjklmnpqrstvwxyz"
    num_vowels = len([char for char in text.lower() if char in vowels])
    num_consonants = len([char for char in text.lower() if char in consonants])

    # Подсчет предложений и их длины
    sentences = list(doc.sents)
    num_sentences = len(sentences)
    sentence_lengths = [len(sentence) for sentence in sentences]

    # Подсчет частоты использования каждого слова без стоп слов
    word_freq = Counter(token.lemma_.lower() for token in doc if token.is_alpha and not token.is_stop)
    sorted_word_freq = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)

   # Подсчет уникальных слов с лемматизацией
    num_unique_words_with_lemma = len(word_freq)

    # 10 наиболее часто встречаемых слов
    most_common_words = sorted_word_freq[:10]

    # Вывод результатов
    print(f"Число уникальных слов (без лемматизации): {num_unique_words_no_lemma}")
    print(f"Число уникальных слов (с лемматизацией): {num_unique_words_with_lemma}")
    print(f"Число гласных: {num_vowels}")
    print(f"Число согласных: {num_consonants}")
    print(f"Число предложений: {num_sentences}")
    print(f"Длины предложений: {sentence_lengths}")
    print("\n10 наиболее часто встречаемых слов:")
    for word, freq in most_common_words:
        print(f"{word}: {freq}")
    print("\nЧастота использования каждого слова:")
    for word, freq in sorted_word_freq:
        print(f"{word}: {freq}")


process_text("./text.txt")

Число уникальных слов (без лемматизации): 1378
Число уникальных слов (с лемматизацией): 1065
Число гласных: 8628
Число согласных: 13627
Число предложений: 181
Длины предложений: [9, 22, 11, 9, 30, 24, 29, 60, 39, 37, 28, 10, 67, 14, 10, 17, 31, 13, 24, 38, 18, 30, 14, 15, 32, 57, 22, 34, 24, 36, 16, 33, 16, 23, 8, 33, 7, 43, 69, 36, 58, 15, 17, 16, 18, 28, 24, 14, 25, 15, 23, 45, 19, 35, 34, 27, 65, 40, 28, 36, 20, 27, 30, 68, 90, 15, 13, 16, 20, 18, 64, 65, 28, 7, 32, 11, 28, 32, 16, 15, 62, 36, 14, 29, 25, 27, 18, 13, 37, 41, 11, 25, 26, 32, 16, 29, 10, 24, 25, 11, 47, 9, 9, 77, 16, 63, 37, 10, 19, 60, 7, 7, 15, 34, 21, 38, 22, 15, 8, 26, 39, 20, 17, 68, 26, 38, 38, 23, 29, 37, 64, 58, 27, 13, 21, 30, 62, 39, 28, 15, 16, 31, 10, 13, 26, 7, 42, 33, 49, 14, 71, 35, 24, 32, 40, 28, 24, 22, 47, 10, 18, 35, 15, 24, 29, 47, 14, 25, 36, 31, 28, 37, 28, 47, 9, 63, 42, 120, 68, 13, 89]

10 наиболее часто встречаемых слов:
world: 31
war: 30
united: 21
time: 19
states: 17
country: 16
british: 1