In [None]:
import string
from collections import Counter
from typing import List

def get_longest_diverse_words(file_path: str) -> List[str]:
    """
    1) Найти 10 самых длинных слов, состоящих из наибольшего количества уникальных символов.
    """
    words = set()
    with open(file_path, encoding="utf-8") as file:
        for line in file:
            for word in line.split():
                words.add(word.strip(string.punctuation))

    words = sorted(words, key=lambda w: (-len(set(w)), -len(w)))  # Уникальные символы, затем длина
    return words[:10]

def get_rarest_char(file_path: str) -> str:
    """
    2) Найти самый редкий символ в документе.
    """
    with open(file_path, encoding="utf-8") as file:
        text = file.read()

    counter = Counter(text)
    return min(counter, key=counter.get)

def count_punctuation_chars(file_path: str) -> int:
    """
    3) Подсчитать количество знаков пунктуации в тексте.
    """
    with open(file_path, encoding="utf-8") as file:
        text = file.read()

    return sum(1 for char in text if char in string.punctuation)

def count_non_ascii_chars(file_path: str) -> int:
    """
    4) Подсчитать количество не-ASCII символов.
    """
    with open(file_path, encoding="utf-8") as file:
        text = file.read()

    return sum(1 for char in text if ord(char) > 127)

def get_most_common_non_ascii_char(file_path: str) -> str:
    """
    5) Найти самый часто встречающийся не-ASCII символ.
    """
    with open(file_path, encoding="utf-8") as file:
        text = file.read()

    non_ascii_chars = [char for char in text if ord(char) > 127]
    counter = Counter(non_ascii_chars)

    return max(counter, key=counter.get) if counter else ""

# Тест
file_path = "/content/data.txt"

print("10 самых длинных слов с уникальными символами:")
print(get_longest_diverse_words(file_path))

print("\nСамый редкий символ в документе:")
print(get_rarest_char(file_path))

print("\nКоличество знаков пунктуации:")
print(count_punctuation_chars(file_path))

print("\nКоличество не-ASCII символов:")
print(count_non_ascii_chars(file_path))

print("\nСамый частый не-ASCII символ:")
print(get_most_common_non_ascii_char(file_path))


10 самых длинных слов с уникальными символами:
['Bev\\u00f6lkerungsabschub', 'unmi\\u00dfverst\\u00e4ndliche', 'Werkst\\u00e4ttenlandschaft', 'Selbstverst\\u00e4ndlich', 'r\\u00e9sistance-Bewegungen', 'Millionenbev\\u00f6lkerung', 'Gemeinpl\\u00e4tze.\\u00ab', 'u00fcberw\\u00e4ltigende', 'u00fcberw\\u00e4ltigend', 'Machtbewu\\u00dftsein']

Самый редкий символ в документе:
Y

Количество знаков пунктуации:
8277

Количество не-ASCII символов:
0

Самый частый не-ASCII символ:

