
* Given a file containing text. Complete using only default collections:
- 1) Find 10 longest words consisting from largest amount of unique symbols
- 2) Find rarest symbol for document
- 3) Count every punctuation char
- 4) Count every non ascii char
- 5) Find most common non ascii char for document


In [10]:
from typing import List
from collections import Counter
import string

def open_file(file_path: str) -> str:
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()
        
    #декодируем Unicode-эскейпы
    decoded_text = text.encode().decode('unicode_escape')
    return decoded_text

def get_longest_diverse_words(decoded_text: str) -> List[str]:
    words = decoded_text.split()
    #сортируем слова по длине и количеству уникальных символов
    unique_words = sorted(words, key=lambda w: (-len(w), -len(set(w))))
    return unique_words[:10]  #возвращаем 10 самых длинных слов

def get_rarest_char(decoded_text: str) -> str:
    char_count = Counter(decoded_text)
    #находим символ с минимальным количеством вхождений
    rarest_char = min(char_count, key=char_count.get)
    return rarest_char

def count_punctuation_chars(decoded_text: str) -> tuple:
    punctuation_count = sum(1 for char in decoded_text if char in string.punctuation)
    return punctuation_count

def count_non_ascii_chars(decoded_text: str) -> int:
    non_ascii_count = sum(1 for char in decoded_text if ord(char) > 127)
    return non_ascii_count

def get_most_common_non_ascii_char(decoded_text: str) -> str:
    non_ascii_chars = [char for char in decoded_text if ord(char) > 127]
    if not non_ascii_chars:
        return ''  #если нет не ASCII символов, возвращаем пустую строку
    
    char_count = Counter(non_ascii_chars)
    most_common_char = char_count.most_common(1)[0][0]
    return most_common_char

def main(file_path: str):
    decoded_text = open_file(file_path)
    
    # 1. Найти 10 самых длинных слов с наибольшим количеством уникальных символов
    longest_words = get_longest_diverse_words(decoded_text)
    print("10 самых длинных слов с наибольшим количеством уникальных символов:")
    print(longest_words)

    # 2. Найти самый редкий символ в документе
    rarest_char = get_rarest_char(decoded_text)
    print("\nСамый редкий символ в документе:")
    print(rarest_char)

    # 3. Подсчитать каждый знак препинания
    punctuation_count = count_punctuation_chars(decoded_text)
    print("\nКоличество знаков препинания:")
    print(punctuation_count)

    # 4. Подсчитать каждый не ASCII символ
    non_ascii_count = count_non_ascii_chars(decoded_text)
    print("\nКоличество не ASCII символов:")
    print(non_ascii_count)

    # 5. Найти самый распространенный не ASCII символ
    most_common_non_ascii_char = get_most_common_non_ascii_char(decoded_text)
    print("\nСамый распространенный не ASCII символ:")
    print(most_common_non_ascii_char)

#путь к файлу
file_path = '/Users/MAC/DE/data.txt'

if __name__ == "__main__":
    main(file_path)

10 самых длинных слов с наибольшим количеством уникальных символов:
['politisch-strategischen', 'Verfassungsverletzungen', 'résistance-Bewegungen,', 'Entscheidungsschlacht.', 'zoologisch-politischen', 'Wiederbelebungsübungen', 'Geschichtsphilosophie.', 'Werkstättenlandschaft', 'Gewissenserforschung,', 'Werkstättenlandschaft']

Самый редкий символ в документе:
›

Количество знаков препинания:
5305

Количество не ASCII символов:
2972

Самый распространенный не ASCII символ:
ä
