In [135]:
import re
import requests
from http import HTTPStatus
from bs4 import BeautifulSoup
import re
from functools import reduce

In [136]:
def get_page(url: str) -> str:
    """
    Загружает HTML-страницу по URL и возвращает её текстовое содержимое.

    Args:
        url (str): Ссылка на веб-страницу.

    Returns:
        str: Текстовое содержимое страницы.
    """
    response = requests.get(url)
    if response.status_code != HTTPStatus.OK:
        raise Exception(f'Invalid http status. got {response.status_code}')
    soup = BeautifulSoup(response.text, 'html.parser')
    return soup.text

In [137]:
def file_w(filename: str, content: str) -> None:
    """
    Записывает строку в файл с кодировкой UTF-8.

    Args:
        filename (str): Имя файла.
        content (str): Содержимое для записи.
    """
    with open(filename, 'w', encoding='utf-8') as f:
        f.write(content)

In [138]:
page_url = 'https://www.ultralytics.com/ru/glossary/convolutional-neural-network-cnn'
file_w('file_text.txt', get_page(page_url))

In [139]:
def seek_of_names(text_of_file: str) -> str:
    """
    Извлекает из текста все слова, начинающиеся с заглавной буквы.
    Возвращает строку слов, разделённых '; '.

    Args:
        text_of_file (str): Текст для обработки.

    Returns:
        str: Слова, начинающиеся с заглавной буквы, через '; '.
    """
    if not isinstance(text_of_file, str):
        raise ValueError('file must be a string')
    text_of_file = re.sub(r"<.*?>", " ", text_of_file)
    text_of_file = re.sub(r"\s+", " ", text_of_file)
    words = re.findall(r'\b[A-ZА-ЯЁ][a-zа-яёA-ZА-ЯЁ]+\b', text_of_file)
    result = "; ".join(words)
    return result
    

In [140]:
with open ('file_text.txt', encoding = 'utf-8') as f:
    text_of_file = f.read()
print(seek_of_names(text_of_file))

file_w('file_test_of_names.txt', seek_of_names(text_of_file))

CNN; Ultralytics; Theia; Scientific; Ultralytics; YOLO; Docs; GitHub; YOLO; Vision; Ultralytics; Insights; Ultralytics; Ultralytics; Ultralytics; GitHub; GitHub; YOLO; Vision; Ultralytics; CNN; CNN; Ultralytics; YOLO; Ultralytics; CNN; CNN; CNN; ReLU; Pooling; Downsampling; ImageNet; Classification; Deep; Convolutional; Neural; Networks; Cnn; CNN; NN; CNN; ViTs; CNN; ViTs; ViT; RT; CNN; Ultralytics; YOLO; CNN; CNN; NIH; Ultralytics; CNN; Net; CNN; PyTorch; PyTorch; TensorFlow; API; CNN; API; Keras; Ultralytics; HUB; OpenVINO; TensorRT; Ultralytics; YOLO; Vision; Vision; Judicial; MD; Cra; Centro; Madrid; CR; Land; Tower; Kefa; Road; Ultralytics; WeChat; YOLOUltralytics; YOLO; Ultralytics; Ultralytics; Inc


In [141]:
def recursion_search(filename: str) -> str:
    """
    Рекурсивно ищет самое длинное слово в файле.

    Args:
        filename (str): Имя файла.

    Returns:
        str: Самое длинное слово в файле.
    """
    def helper(words, i=0, longest=""):
        if i == len(words):
            return longest

        if len(words[i]) > len(longest):
            longest = words[i]

        return helper(words, i + 1, longest)

    with open(filename, encoding="utf-8") as f:
        text = f.read()

    words = text.replace(';', '').split()

    return helper(words)


In [142]:
recursion_search('file_test_of_names.txt')

'YOLOUltralytics'

In [143]:
def ununique_names(filename: str) -> dict:
    """
    Подсчитывает количество повторений каждого слова, начинающегося с заглавной буквы.

    Args:
        text_of_file (str): Текст для анализа.

    Returns:
        dict: Словарь {слово: количество}.
    """
    if not isinstance(filename, str):
        raise ValueError('file must be a string')
    with open (filename, encoding = 'utf-8') as f:
        text_of_file = f.read()
    text_of_file = re.sub(r"<.*?>", " ", text_of_file)
    text_of_file = re.sub(r"\s+", " ", text_of_file)
    words = re.findall(r'\b[A-ZА-ЯЁ][a-zа-яёA-ZА-ЯЁ]*\b', text_of_file)
    counts = reduce(lambda acc, w: {**acc, w: acc.get(w, 0)+1}, words, {})

    return counts

In [144]:
ununique_names('file_test_of_names.txt')


{'CNN': 15,
 'Ultralytics': 16,
 'Theia': 1,
 'Scientific': 1,
 'YOLO': 7,
 'Docs': 1,
 'GitHub': 3,
 'Vision': 4,
 'Insights': 1,
 'ReLU': 1,
 'Pooling': 1,
 'Downsampling': 1,
 'ImageNet': 1,
 'Classification': 1,
 'Deep': 1,
 'Convolutional': 1,
 'Neural': 1,
 'Networks': 1,
 'Cnn': 1,
 'NN': 1,
 'ViTs': 2,
 'ViT': 1,
 'RT': 1,
 'NIH': 1,
 'Net': 1,
 'PyTorch': 2,
 'TensorFlow': 1,
 'API': 2,
 'Keras': 1,
 'HUB': 1,
 'OpenVINO': 1,
 'TensorRT': 1,
 'Judicial': 1,
 'MD': 1,
 'Cra': 1,
 'Centro': 1,
 'Madrid': 1,
 'CR': 1,
 'Land': 1,
 'Tower': 1,
 'Kefa': 1,
 'Road': 1,
 'WeChat': 1,
 'YOLOUltralytics': 1,
 'Inc': 1}

In [145]:
def count_names(dictionary: dict, N: int) -> None:
    """
    Выводит N самых часто встречающихся слов.

    Args:
        dictionary (dict): Словарь {слово: количество}.
        N (int): Сколько топ-слов выводить.
    """
    dictionary = sorted(dictionary.items(), reverse = True, key = lambda item: item[1])[:N]
    for key, value in dictionary:
        print(f'{key} = {value}')
        

In [146]:
count_names(ununique_names('file_test_of_names.txt'), 1)

Ultralytics = 16
