In [69]:
from collections import Counter
import unicodedata

In [70]:
#1. Откройте файл text.txt. Определите, что в нём записано.
with open('text.txt', 'r', encoding='utf-8') as file:
    text = file.read()

In [71]:
# 2.1. 5 самых употребляемых слов в тексте;
# 2.2. 5 наименее употребляемых русских слов;

words = text.lower().split()
word_counts = Counter(words)
top_5_common_words = word_counts.most_common(5)
print("5 most used words in the text:", top_5_common_words)


russian_words = [w for w in words if all('а' <= l <= 'я' for l in w)]
russian_word_counts = Counter(russian_words)
bottom_5_russian_words = russian_word_counts.most_common()[:-6:-1]
print("5 least used Russian words:", bottom_5_russian_words)

5 most used words in the text: [('и', 10243), ('–', 8749), ('в', 5365), ('не', 4541), ('что', 3513)]
5 least used Russian words: [('сладость', 1), ('уединения', 1), ('примечания', 1), ('ободренной', 1), ('расцветшей', 1)]


In [72]:
from collections import Counter
import unicodedata

french_l = 'abcdefghijklmnopqrstuvwxyzàâçéèêëîïôûùüÿœæ'

# 2.3. 5 самых употребляемых французских слов (все символы в кодировке
# HTML должны быть переведены в Unicode и выводиться корректно);
# 2.4. 5 наименее употребляемых французских слов (все символы в кодировке
# HTML должны быть переведены в Unicode и выводиться корректно).


def is_french_word(word_req: str) -> bool:
    """
    This function checks if a word is French
    :param word_req:
    :return:
    """
    for char in word_req:
        if not char.isalpha():
            return False
        if char.lower() not in french_l:
            return False
    return True


def get_french_words(text_req: str):
    """
    This function searches for most frequently occurring French words
    :param text_req: (str) our requested text
    :return list[tuple[str, int]]: the top french words
    """

    words = text_req.split()
    french_words = [
        unicodedata.normalize('NFKD', w).encode('ASCII', 'ignore').decode(
            'utf-8') for w in words if is_french_word(w)]

    word_counts = Counter(french_words)

    top_french_words = word_counts.most_common(5)
    bottom_french_words = word_counts.most_common()[:-6:-1]
    return [top_french_words, bottom_french_words]

file = open("text.txt", "r", encoding="utf-8")
text = file.read()
top_words, bottom_words = get_french_words(text)
print("5 most common French words:")
for word, count in top_words:
    print(f"{word}: {count}")
print("5 least used French words:")
for word, count in bottom_words:
    print(f"{word}: {count}")
file.close()


5 most common French words:
de: 331
que: 168
et: 165
le: 160
vous: 156
5 least used French words:
Comoneno: 1
Joseph: 1
absence: 1
alliez: 1
raison: 1


In [73]:
from collections import namedtuple, OrderedDict, defaultdict, UserDict

# 3. Создаём именованные кортежи для русских и французских слов
# Именованные кортежи позволяют 
# создавать типизированные структуры данных,
# где каждый элемент имеет своё имя.
# Они удобны для хранения записей с фиксированным набором полей.
RussianWord = namedtuple('RussianWord', ['word', 'count'])
FrenchWord = namedtuple('FrenchWord', ['word', 'count'])

# Пример использования именованного кортежа:
print("Пример использования именованного кортежа для русских слов:")
for word, count in bottom_5_russian_words:
    russian_word = RussianWord(word=word, count=count)
    print(russian_word)

print("Пример использования именованного кортежа для французских слов:")
for word, count in top_words:
    french_word = FrenchWord(word=word, count=count)
    print(french_word)


# 4. Сравнение типов данных словарей
# Обычный словарь
normal_dict = {'a': 1, 'b': 2, 'c': 3}

# OrderedDict - сохраняет порядок элементов в том порядке, 
# в котором они были добавлены.
ordered_dict = OrderedDict([('a', 1), ('b', 2), ('c', 3)])

# defaultdict - автоматически создаёт 
# новое значение, если ключ отсутствует.
default_dict = defaultdict(int)
default_dict['a'] = 1
default_dict['b'] += 1

# UserDict - обёртка над обычным 
# словарём для удобного доступа к элементам.
user_dict = UserDict({'a': 1, 'b': 2, 'c': 3})

# Демонстрация различий между типами словарей
print("Обычный словарь:", normal_dict)
print("OrderedDict:", ordered_dict)
print("defaultdict:", default_dict)
print("UserDict:", user_dict)


Пример использования именованного кортежа для русских слов:
RussianWord(word='сладость', count=1)
RussianWord(word='уединения', count=1)
RussianWord(word='примечания', count=1)
RussianWord(word='ободренной', count=1)
RussianWord(word='расцветшей', count=1)
Пример использования именованного кортежа для французских слов:
FrenchWord(word='de', count=331)
FrenchWord(word='que', count=168)
FrenchWord(word='et', count=165)
FrenchWord(word='le', count=160)
FrenchWord(word='vous', count=156)
Обычный словарь: {'a': 1, 'b': 2, 'c': 3}
OrderedDict: OrderedDict([('a', 1), ('b', 2), ('c', 3)])
defaultdict: defaultdict(<class 'int'>, {'a': 1, 'b': 1})
UserDict: {'a': 1, 'b': 2, 'c': 3}
