### Множества (`set`)

Множество &mdash; это неупорядоченный набор уникальных элементов. Требование уникальности влечёт требование неизменяемости входящих в множество элементов. Неизменяемые объекты (*immutable*: `str`, `int`, `float`, ...) создаются один раз в памяти при инициализации и дальше никак не меняются.

NB: Если точнее, элементы, входящие в множество, должны быть хешируемы (*hashable*).

#### Неизменяемость

Списки &mdash; изменяемые объекты:

In [6]:
a = [1, 2, 3]
print(a)
a.append(4)
print(a)

[1, 2, 3]
[1, 2, 3, 4]


Между строками 2 и 4 список изменился, хотя мы не присваивали в переменную `a` новых значений. 

Строки &mdash; неизменяемые объекты:

In [7]:
a = "hello world"
print(a)
a = a.replace("o", "0")
print(a)

hello world
hell0 w0rld


Чтобы между строками 2 и 4 строка изменилась, нам пришлось присвоить в переменную `a` новое значение (старое при этом исчезло). 

#### Множества

Пустое множество задаётся с помощью `set()`:

In [9]:
a = set()

Чтобы задать непустое множество, можно перечислить элементы через запятую внутри фигурных скобок.

In [10]:
b = {1, 2, 3}

Также можно передать в функцию `set()` любой другой итерируемый объект (при условии, что он состоит только из неизменяемых объектов). Обратите внимание, что повторяющиеся элементы при этом исчезают:

In [None]:
c = set([1, 2, 3])
d = set([1, 2, 3, 3])

print(c, d)

{1, 2, 3} {1, 2, 3}


In [19]:
e = set("hello world")
print(e)

{'l', ' ', 'h', 'w', 'e', 'd', 'r', 'o'}


Если мы попробуем добавить изменяемый объект, возникнет ошибка `TypeError`:

In [12]:
a = {[1]}

TypeError: unhashable type: 'list'

In [13]:
x = [[1, 2], [3, 4]]
a = set(x)

TypeError: unhashable type: 'list'

#### Неупорядоченность множеств

Множества, как и списки или строки, являются итерируемыми объектами: мы можем перебрать в них все элементы.

In [16]:
a = {1, 4, 3}

for el in a:
    print(el)

1
3
4


Можем проверить, входит ли элемент в множество:

In [43]:
el = int(input())
if el in a:
    print("exists")
else:
    print("doesn't exist")

exists


Также у множества есть длина:

In [35]:
print(len(a))

3


Однако обратите внимание, что, поскольку множество определяется только набором элементов, а не их порядком, порядок элементов не задан!

In [18]:
{1, 3, 4} == {1, 4, 3}

True

Поэтому к элементам множества нельзя обращаться по индексам. При попытке это сделать возникает ошибка `TypeError` (`object is not subscriptable` значит, что нельзя обращаться по индексам).

In [17]:
print(a[1])  # ошибка!

TypeError: 'set' object is not subscriptable

**Контрольный вопрос**: определите количество уникальных символов в тексте:

In [None]:
text = "Был тихий серый вечер. Дул ветер, слабый и тёплый."

<details>
<summary>Ответ:</summary>
<pre>
uniq_chars = set(text)
print(len(uniq_chars))
</pre>
</details>

#### Манипуляция множествами

Сами множества являются изменяемыми объектами и обладают методами для их изменения. Добавить элемент:

In [47]:
a = {1, 2, 3}
a.add(4)  # не append!
print(a)

{1, 2, 3, 4}


Добавить элементы из итерируемого объекта (например, из списка):

In [48]:
a.update([4, 5, 6])
print(a)

{1, 2, 3, 4, 5, 6}


Убрать элемент, если знаем, что он там есть (если нет, возникнет ошибка `KeyError`):

In [25]:
a.remove(2)
print(a)

{1, 3, 4}


In [26]:
a.remove(8)
print(a)

KeyError: 8

Убрать (или пропустить, если такого элемента нет):

In [None]:
a.discard(8)
print(a)

{1, 3, 4}


Очистить множество (убрать все элементы):

In [28]:
a.clear()
print(a)

set()


#### Операции со множествами

![image](https://texample.net/files/set-operations-illustrated-with-venn-diagrams.png)

In [29]:
a = {1, 2, 3}
b = {3, 4, 5}

Вычитание:

In [34]:
print(a - b)
print(b - a)

{1, 2}
{4, 5}


Пересечение (ср. логическое И):

In [31]:
print(a & b)

{3}


Объединение (ср. логическое ИЛИ):

In [32]:
print(a | b)

{1, 2, 3, 4, 5}


Симметрическая разность (ср. логическое исключающее ИЛИ):

In [33]:
print(a ^ b)

{1, 2, 4, 5}


По аналогии с *list comprehension* существует и *set comprehension*:

In [None]:
nums = [1, 3, 2, 4, 3, 2, 3, 6, 3, 4, 5, 9, 3, 2]
a = {i for i in nums if i % 3 == 0}
print(a)

**Контрольный вопрос**: определите количество уникальных символов, которые встречаются в обоих текстах:

In [42]:
text_1 = "Был тихий серый вечер. Дул ветер, слабый и тёплый."
text_2 = "Однажды северный ветер и солнце поспорили, кто из них сильнее."

<details>
<summary>Ответ:</summary>
<pre>
uniq_chars_1 = set(text_1)
uniq_chars_2 = set(text_2)
uniq_chars = uniq_chars_1 & uniq_chars_2
print(len(uniq_chars))
</pre>
</details>

### Словари (`dict`)

Словарь &mdash; это набор пар ключ &ndash; значение (key &ndash; value). Словари являются изменяемыми объектами (mutable). Значениями могут быть объекты любых типов (в том числе списки и словари), ключами &mdash; **только неизменяемых**. Каждый ключ будет встречаться в словаре только один раз, значения могут повторяться.

Задать пустой словарь можно с помощью функции `dict()` или фигурных скобок.

In [None]:
d = {}
d = dict()

Чтобы задать непустой словарь, нужно перечислить пары ключ &ndash; значение через запятую, разделив каждую двоеточием.

In [2]:
d = {"1": 5, "2": 7}

Если каждое значение задаётся длинным выражением, можно каждое записать на своей строчке:

In [None]:
addresses = {
    "Jack Smith": "Sometown, Example St, 101",
    "John Doe": "Othertown, Default St, 202",
    "Mary Jones": "Thirdtown, Whatever St, 303",  # запятые нужны везде, кроме 
    # последнего пункта, где она опциональна
}

Доступ к значению по ключу:

In [2]:
print(d["1"])

5


А если ключа не существует?

In [3]:
print(d["42"])  # Ошибка!

KeyError: '42'

Можно использовать метод `.get()`.

In [3]:
print(d.get("2", "Not found"))
print(d.get("33", "Not found"))
# второй параметр - то, что вернётся, если такого ключа нет

7
Not found


Часто в таких случаях используют специальное значение `None`. Обратите внимание, что для проверки того, является ли значение `None`, нужно использовать не проверку на равенство (`==`), а ключевое слово `is`.

In [4]:
val = d.get("33", None)

if val is None:
    print("Something went wrong")

Something went wrong


Этот метод удобно использовать, если мы хотим отсортировать ключи словаря по их значениям:

In [44]:
word_counts = {"word1": 42, "word2": 413, "word3": 7}

print(sorted(word_counts, key=word_counts.get))

['word3', 'word1', 'word2']


Убрать значение по ключу:

In [5]:
d.pop("1")
print(d)

{'2': 7}


Добавить ключ или перезаписать значение по существующему ключу:

In [6]:
d["2"] = 8
d["3"] = 10
print(d)

{'2': 8, '3': 10}


In [7]:
d["2"] += 1
print(d)

{'2': 9, '3': 10}


*Dictionary comprehension*: очень похоже на *list comprehension*. Тоже есть цикл `for`, но в самом начале нам нужно указать и ключ, и значение. Например: составим словарь, ключи которого &mdash; строковые представления чисел от 0 до 9, а значения &mdash; квадраты этих чисел (как целые числа).

In [8]:
d1 = {str(a): a ** 2 for a in range(10)}
print(d1)

{'0': 0, '1': 1, '2': 4, '3': 9, '4': 16, '5': 25, '6': 36, '7': 49, '8': 64, '9': 81}


Создание словаря из пар (ключ, значение)

In [12]:
d2 = dict([("1", 2), ("3", 4), ("5", 6)])
print(d2)

{'1': 2, '3': 4, '5': 6}


In [11]:
d3 = dict(a=1, b=2, c=3)
print(d3)
# в этом случае ключами становятся строки a, b, c
# то есть так можно создать только словарь, ключи которого - строки,
# подходящие под правила названия переменных

{'a': 1, 'b': 2, 'c': 3}


Если у нас есть два списка сопоставленных друг другу значений, можно быстро свернуть их в словарь с помощью `zip()`.

In [10]:
keys = ["1", "2", "3"]
values = [3, 2, 1]
d4 = dict(zip(keys, values))
print(d4)

{'1': 3, '2': 2, '3': 1}


Например:

In [9]:
names = ["John", "Jane", "Jill"]
grades = [5, 4, 5]
grades_dict = dict(zip(names, grades))
print(grades_dict)

{'John': 5, 'Jane': 4, 'Jill': 5}


Проверка на вхождения **ключа** в словарь:

In [13]:
print("1" in d2)
print(2 in d2)

True
False


Если мы хотим, чтобы у каждого ключа было много значений, то мы можем сделать значениями списки, которые мы сможем пополнять по мере надобности.

In [None]:
data = {}
key = "some_key"
value = "some_value"
if key not in data:
    # если такой ключ ещё не встретился,
    # добавляем его и назначаем по нему пустой список
    data[key] = []
# добавляем значение в список, который лежит в словаре по ключу
data[key].append(value)

**Контрольный вопрос**: дан список пар (имя, оценка). Имена могут повторяться. Создайте словарь, в котором ключами будут имена, а значениями &ndash; списки оценок учеников. Используйте цикл `for` и проверку на вхождение ключа.

In [5]:
grades = [
    ["John", 5],
    ["John", 4],
    ["Jill", 4],
    ["Jack", 3],
    ["Jill", 5], 
    ["John", 5], 
    ["Jack", 4],
]

<details>
<summary>Ответ:</summary>
<pre>
grades_dict = {}
for name, grade in grades:
    if name not in grades_dict:
        grades_dict[name] = []
    grades_dict[name].append(grade)
print(grades_dict)
</pre>
</details>

Итерация по словарю:

1. Перебираем ключи; тогда значение можно получить через квадратные скобки.

In [21]:
for key in d2:
    print(key, d2[key])

1 2
3 4
5 6


In [22]:
for key in d2.keys():
    print(key, d2[key])

1 2
3 4
5 6


2. Перебираем пары (ключ, значение):

In [23]:
for key, value in d2.items():
    print(key, value)

1 2
3 4
5 6


3. Перебираем только значения:

In [24]:
for value in d2.values():
    print(value)

2
4
6


**Контрольный вопрос**: как перебрать все пары ключ-значение в порядке возрастания:

а) ключей?

б) значений?

In [46]:
word_counts = {"word1": 42, "word2": 413, "word3": 7}

<details>
<summary>Ответ:</summary>
<pre>
# a
for word in sorted(word_counts):
    print(word, word_counts[word])
# б
for word in sorted(word_counts, key=word_counts.get):
    print(word, word_counts[word])
</pre>
</details>

Сделать из словаря списки:
1. Список ключей:

In [None]:
print(list(d2))
print(list(d2.keys()))  # одно и то же

['1', '3', '5']
['1', '3', '5']


2. Список значений:

In [17]:
print(list(d2.values()))

[2, 4, 6]


3. Список пар (ключ, значение):

In [18]:
print(list(d2.items()))

[('1', 2), ('3', 4), ('5', 6)]


Объединение словарей:

In [19]:
d4 = {"1": 2, "3": 4}
d5 = {"3": 5, "6": 7}
d4.update(d5)
print(d4)

{'1': 2, '3': 5, '6': 7}


In [20]:
d4 = {"1": 2, "3": 4}
d5 = {"3": 5, "6": 7}
d6 = d4 | d5  # Python 3.9 и выше
print(d6)

{'1': 2, '3': 5, '6': 7}


**Контрольный вопрос**: дан список слов. Создать словарь, где каждому слову будет сопоставлена его длина. Необходимо уложиться в одну строчку.

In [None]:
words = ["apple", "banana", "orange", "pear", "pineapple"]

{'apple': 5, 'banana': 6, 'orange': 6, 'pear': 4, 'pineapple': 9}


<details>
<summary>Ответ:</summary>
<pre>
words_dict = {w: len(w) for w in words}
print(words_dict)
</pre>
</details>


NB: время поиска в словаре или множестве гораздо ниже, чем в списке. Поэтому, если у вас есть набор из 10&nbsp;000 слов и вы хотите проверять, есть ли в нём введённое слово, задайте этот набор как множество.

### Практические задания

#### Задание 1

а) Напишите программу, которая пять раз запрашивает у пользователя имя ученика и оценку и добавляет полученную информацию в словарь списков.

б) измените программу так, чтобы она создавала такой словарь бесконечно, пока пользователь не введёт вместо имени слово "stop".

в) Дополните программу так, чтобы она после конца ввода также вычисляла среднюю оценку каждого ученика.

#### Задание 2

Скачайте текстовый файл `chatlog.txt` и поместите его в свою рабочую директорию.

На каждой строчке содержатся имя пользователя и его сообщение, разделённые знаком табуляции (`\t`).

1. Создайте словарь, где ключами будут имена пользователей, значениями &mdash; списки строк, каждая из которых содержит одно сообщение пользователя.
2. С помощью словаря для каждого пользователя вычислите максимальное, минимальное и среднее количество символов в сообщении.

#### Задание 3
Используя данные из задания 2, составьте словарь, в котором ключами будут буквы русского алфавита, а значениями &ndash; сколько раз они встретились в сообщениях.

Вариант выполнения:
1. Составьте словарь, в котором ключи &ndash; все буквы алфавита, а значения &ndash; число 0.
2. Переберите циклом все сообщения.
3. Для каждого сообщения переберите циклом все буквы.
4. В словарь по соответствующему ключу добавьте число, которое вернёт метод `.count()`:

```python
letter_counts[letter] += message.count(letter)
```

5. Выведите полученный словарь на экран.

#### Задание 4

Используя данные из задания 2, определите:

а) слова, уникальные для каждого пользователя

б) слова, встретившиеся в сообщениях всех трёх пользователей

Для этого:

1. Составьте словарь, где ключами будут имена пользователей, а значениями &mdash; пустые множества
2. Пройдите циклом по словарю из задания 2
3. Уберите из каждого сообщения знаки препинания и приведите к нижнему регистру.
4. Разбейте сообщение на слова.
5. Добавьте слова в множество соответствующего пользователя.
6. Определите пересечение множеств.

Возможный алгоритм:

Задайте множество A, равное множеству сообщений первого пользователя. Переберите всех остальных пользователей и для каждого из них пересеките его множество сообщений с множеством A и присвойте результат в A.

7. Определите попарные разности.

Возможный алгоритм:

Используйте вложенные циклы. Переберите всех пользователей, для каждого из них задайте множество A, равное множеству его сообщений. Переберите всех остальных пользователей (т.е. всех, кроме текущего), для каждого вычтите из A множество их сообщений и присвойте результат A. После конца внутреннего цикла выведите имя текущего пользователя и множество A. 

### Домашнее задание

#### Задание 1

1. Скачайте текстовый файл fpt.txt.
2. Составьте список всех возможных двухбуквенных сочетаний русского языка, используя вложенные циклы.
3. Прочитайте файл в память компьютера. Кодировка &mdash; utf-8.
4. Для каждого буквосочетания определите, сколько раз оно встретилось в тексте (нужно, чтобы считались и заглавные буквы, и строчные), и постройте соответствующий словарь.
5. Найдите 10 самых часто встречающихся сочетаний, используя сортировку.

#### Задание 2

Напишите программу, которая читает текстовый файл и создаёт алфавитный словарь на его основе. Она должна в порядке алфавита записать в новый файл все первые буквы, которые встретились, и для каждой буквы &mdash; список слов на эту букву. Для этого:

0. Проведите предобработку текста
1. Заведите пустой словарь
2. Переберите все слова в тексте
3. У каждого слова возьмите первую букву и запишите её в отдельную переменную
4. Проверьте, есть ли эта буква в словаре (с помощью оператора вхождения `in`)
5. Если нет, сделайте её новым ключом, а значением &mdash; пустое множество
6. Добавьте слово в множество, которое лежит в словаре по этой букве
7. После конца цикла откройте файл на запись и заведите другой цикл, который перебирает все буквы в словаре в алфавитном порядке
8. Запишите в файл букву в верхнем регистре (`.upper()`)
9. В алфавитном порядке запишите в файл все слова, которые лежат в множестве, доступном по этой букве в словаре &mdash; каждое на своей строчке.