## Задание:

* Загрузить файл длиной не менее 2000 символов.
* Составить программу, которая считает число уникальных слов в тексте (без критерия схожести)
* Составить программу, которая считает число гласных и согласных букв.
* Составить программу, которая считает число предложений, их длину и число (количество) раз использования
    каждого слова в тексте (с критерием схожести, критерий схожести слов выбрать самостоятельно,
    например, spacy (en_core_web_sm) или расстояние Левенштейна).
* Вывести 10 наиболее часто встречаемых слов.

### _Для решения поставленной задачи будем использовать готовую библиотеку ***spacy***. Данная библиотека предоставляет мощный готовый инструмент для обработки текстовых данных._

### 1. Подключаем необходимые библиотеки и импортируем необходимые методы и функции:
Для решения задачи необходимо:
- библиотека `spacy`;
- функция чтения данных из файла `read_data` (описана в модуле `hw_03.py`);
- список гласных и согласных букв алфавита (находятся в словаре `alphabet` модуля `settings`);
- класс `Counter` модуля `collections` для удобства подсчета количества появлений элементов в последовательностях.

In [1]:
import spacy
from hw_03 import read_data
from settings import alphabet
from collections import Counter

### 2. Считываем анализируемый текст из файла:

In [2]:
f = "../data/test_data_01.txt"
text = read_data(f)

print(f"Исходный текст файла '{f}:'\n")
print(text)

Исходный текст файла '../data/test_data_01.txt:'

International cooperation in the sphere of science and technology.

Belarusian science aims at resourcesaving, energy-efficient technologies, industrial biotechnologies, nanomaterials, environmental protection and information solutions. Different research and development centres contribute to the innovation infrastructure of the Republic of Belarus. The two biggest scientific centres in our country are the National Academy of Sciences of Belarus (NASB) and the High-Tech Park (HTP). Our scientists can be proud of their achievements as they contribute a lot to the development of the world's science.
Belarusian scientists of the National Centre of Particle and Hi-Energy Physics of the Belarusian State University took part in experiments at the Large Hadron Collider in the European Organization for Nuclear Research (CERN) which is located at the France-Switzerland border. Our scientists controlled the operation of the Compact Muon Solenoid 

### 3. Загружаем языковую модель библиотеки _**spacy**_:


In [3]:
nlp = spacy.load("en_core_web_sm")

### 4. Применяем токенизацию (разбиение текста на слова, пунктуацию, спец. символы):

In [4]:
doc = nlp(text)

### 5. Выполняем поиск слов в тексте (отбрасываем пунктуацию, символы переноса строки и др., стоп-слова):

In [5]:
unique_words = set(word.text.lower() for word in doc if (word.is_alpha and not word.is_stop))

print(f"Список 'уникальных' слов (без учета критерия схожести) - всего {len(unique_words)} слов:\n")
print(*unique_words)

Список 'уникальных' слов (без учета критерия схожести) - всего 445 слов:

semiconductor determine invention graduated presentations media source cypriot science august visible sensing liquid work grid radioactive igor products demand zhores social basis small polytechnic politechnic presented experts minute mobile wheat industries game ivanovich debuted new brand dual finished typing present company winner centre features family classes phones ordinary required fg aims place recognizable smaller infrastructure america projects march nanomaterials sergei artificial price bodies mitsubishi created level cds israeli core resident supports jack services ukraine b satellites design participants character valley nobel solenoid era periodicals find major electrotechnical information persons sector images produced magazinnik contribute cms flash time venezuela htp coca launch asia quality organizing satellite eyes production analogues vehicles academy site forest model latvia ip forestfire pla

### 6. Выполняем подсчет количества гласных и согласных букв в исходном тексте:

In [6]:
vowels, consonants = 0, 0
for letter in text:
    if letter.lower() in alphabet.get("EN").get("vowels"):
        vowels += 1
    elif letter.lower() in alphabet.get("EN").get("consonants"):
        consonants +=1
        
print(f"Количество гласных букв: {vowels}; согласных букв: {consonants}.")


Количество гласных букв: 2457; согласных букв: 3789.


### 7. Выполняем подсчет количества предложений в тексте и выводим информацию о их длине:

In [7]:
sentences = [str(sent).strip() for sent in doc.sents]
print(f"Количество предложений в тексте: {len(sentences)}.")

for ind, sent in enumerate(sentences):
    print(f"\tПредложение №{ind}: length: {len(sent)}; data: {sent}")

Количество предложений в тексте: 69.
	Предложение №0: length: 66; data: International cooperation in the sphere of science and technology.
	Предложение №1: length: 168; data: Belarusian science aims at resourcesaving, energy-efficient technologies, industrial biotechnologies, nanomaterials, environmental protection and information solutions.
	Предложение №2: length: 114; data: Different research and development centres contribute to the innovation infrastructure of the Republic of Belarus.
	Предложение №3: length: 134; data: The two biggest scientific centres in our country are the National Academy of Sciences of Belarus (NASB) and the High-Tech Park (HTP).
	Предложение №4: length: 117; data: Our scientists can be proud of their achievements as they contribute a lot to the development of the world's science.
	Предложение №5: length: 275; data: Belarusian scientists of the National Centre of Particle and Hi-Energy Physics of the Belarusian State University took part in experiments at th

### 8. Выполняем подсчет числа повторений каждого слова в тексте (с учетом критерия схожести):
Используется параметр `lemma_` слова (норм. форма) и `_Counter_` из модуля `_collections_`.

In [8]:
words_stat = Counter(word.lemma_.lower() for word in doc if (word.is_alpha and not word.is_stop))
print(f"Информация о частоте использования каждого слова в тексте:")

for word, cnt in words_stat.items():
    print(f"\tWord: '{word}': number of entries: {cnt}.")
    

Информация о частоте использования каждого слова в тексте:
	Word: 'international': number of entries: 5.
	Word: 'cooperation': number of entries: 2.
	Word: 'sphere': number of entries: 2.
	Word: 'science': number of entries: 5.
	Word: 'technology': number of entries: 7.
	Word: 'belarusian': number of entries: 19.
	Word: 'aim': number of entries: 1.
	Word: 'resourcesaving': number of entries: 1.
	Word: 'energy': number of entries: 2.
	Word: 'efficient': number of entries: 1.
	Word: 'industrial': number of entries: 1.
	Word: 'biotechnology': number of entries: 1.
	Word: 'nanomaterial': number of entries: 1.
	Word: 'environmental': number of entries: 1.
	Word: 'protection': number of entries: 1.
	Word: 'information': number of entries: 6.
	Word: 'solution': number of entries: 2.
	Word: 'different': number of entries: 3.
	Word: 'research': number of entries: 2.
	Word: 'development': number of entries: 5.
	Word: 'centre': number of entries: 6.
	Word: 'contribute': number of entries: 2.
	Wor

### 9. Выводим _N_ наиболее часто встречаемых слов в тексте:

In [9]:
N = 10
popular_words = sorted(words_stat.items(), key=lambda item: item[1], reverse=True)[:N]

print(f"{N} наиболее часто встречаемых слов в тексте:")
for word, cnt in popular_words:
    print(f"\tWord: '{word}': number of entries: {cnt}.")

10 наиболее часто встречаемых слов в тексте:
	Word: 'belarusian': number of entries: 19.
	Word: 'belarus': number of entries: 14.
	Word: 'company': number of entries: 10.
	Word: 'scientist': number of entries: 8.
	Word: 'world': number of entries: 8.
	Word: 'satellite': number of entries: 8.
	Word: 'game': number of entries: 8.
	Word: 'technology': number of entries: 7.
	Word: 'viber': number of entries: 7.
	Word: 'information': number of entries: 6.
