# Структуры данных в python

Структуры данных в python просты, но эффективны. Чтобы стать хорошим программистом на python, необходимо овладеть ими в совершенстве.

## 1. Список 

Список — это такая структура данных, которая содержит в себе сразу много элементов. Удобно представлять себе список как чулан с барахлом. Списки можно изменять. В них можно добавлять элементы. 

In [1]:
# вот эта штука в квадратных скобках — это и есть список
a_list = [2, 3, 7, None,7, 'aaa', [1,2,3]]
type(a_list)

list

Вызвать конкретный элемент из списка можно с помощью квадратных скобок.

In [2]:
a_list[1]

3

Узнать длину списка можно командой `len`.

In [3]:
len(a_list)

7

Заметим, что это не индекс последнего элемента, а именно число элементов. Если вам нужно получить последний элемент, то его индексом будет `len(numbers)-1`. Но в Python можно обращаться к элементам списка, считая их «с конца», гораздо проще:

In [4]:
a_list[-1]

[1, 2, 3]

Элементы списка можно изменять.

In [5]:
a_list[2] = 42 
a_list

[2, 3, 42, None, 7, 'aaa', [1, 2, 3]]

В список можно добавить новый элемент.

In [6]:
# В списках можно хранить не только числа, а что угодно. Добавим в список слово

a_list.append('dwarf')
a_list

[2, 3, 42, None, 7, 'aaa', [1, 2, 3], 'dwarf']

Можно вставить его на конкретную позицию.

In [7]:
a_list.insert(1, 'red')
a_list

[2, 'red', 3, 42, None, 7, 'aaa', [1, 2, 3], 'dwarf']

Метод `insert` вычислительно сложнее, чем `append`, так как чтобы освободить место для нового элемента, приходится сдвигать ссылки на элементы, следующие за ним.

Можно удалить элемент из списка по его названию.

In [8]:
a_list.remove('dwarf')
a_list

[2, 'red', 3, 42, None, 7, 'aaa', [1, 2, 3]]

Или по номеру позиции, на которой он должен быть расположен.

In [9]:
a_list.pop(2)
a_list

[2, 'red', 42, None, 7, 'aaa', [1, 2, 3]]

Чтобы проверить сожержит ли список какое-то значение, используют ключевое слово `in`.

In [10]:
'red' in a_list

True

In [11]:
# можно узнать позицию элемента
a_list.index('red')

1

Операция сложения объединяет списки.

In [12]:
[4, None, 'foo'] + [7, 8, [2, 3]]

[4, None, 'foo', 7, 8, [2, 3]]

Опирация умножения дублирует много раз.

In [13]:
[1,2]*4

[1, 2, 1, 2, 1, 2, 1, 2]

Если уже имеется список, то добавить в его конец несколько элементов позволяет метод `extend`.

In [14]:
x = [4, None, 'foo' ]
x.extend( [7, 8, [2, 3]])
x

[4, None, 'foo', 7, 8, [2, 3]]

Сложение списков - дорогая операция. Для неё нужно создать новый список и скопировать в него все объекты. Обычно предпочтительнее использовать `extend`. 

Например, если сравнивать ситуации ниже, вторая конструкция будет стабильно отрабатывать быстрее.

In [15]:
%%timeit
a = [ ]
for b in [list(range(100))]*500:
    a = a + b

53.6 ms ± 1.05 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [16]:
%%timeit
a = [ ]
for b in [list(range(100))]*500:
    a.extend(b)

614 µs ± 37.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Список можно отсортировать на месте методом `sort`.

In [17]:
a = [7,2,5,1,3]
a.sort()
a

[1, 2, 3, 5, 7]

У метода `sort` есть несколько удобных возможностей. Одна из них - возможность передать  ключ сортировки, т.е. функцию, порождающую значение, по которому должны сортироваться объекты. Например, вот как можно отсортировать коллекцию строк по длине:

In [18]:
b = ['saw', 'small', 'hse' ,'He', 'foxes', 'Six']
b.sort(key=len)
b

['He', 'saw', 'hse', 'Six', 'small', 'foxes']

In [19]:
# Какие-то странные преобразования 
a = 'small'
a.replace('l', '')
aa = list(a)
aa.pop(3)
print(aa)
''.join(aa)

['s', 'm', 'a', 'l']


'smal'

In [20]:
# лучше так
a[:3] + a[4:]

'smal'

Без указания функции, список отсортируется по алфавиту.

In [21]:
b.sort( )
b

['He', 'Six', 'foxes', 'hse', 'saw', 'small']

Из списков можно вырезать подсписки. При этом верхний элемент не будет включаться в срез.

In [22]:
seq = [7, 2, 3, 7, 5, 6, 0, 1]
seq[2:5]

[3, 7, 5]

Также можно сразу заменять целый кусок на новый. 

In [23]:
seq[2:5] = ['a','b','c']
seq

[7, 2, 'a', 'b', 'c', 6, 0, 1]

Если индекс в срезе отрицательный, то он отчитывается с конца списка.

In [24]:
seq[-4:]

['c', 6, 0, 1]

## Присвоение и копирование списков

Списки могут быть коварными. Пока вы не разберётесь с содержанием этого раздела, ваши программы будут вести себя непредсказуемым образом и вы потратите много времени на их отладку. Так что сейчас самое время сосредоточиться.

In [25]:
first_list = [5, 8, 9, 'Hello']
second_list = first_list

In [26]:
first_list

[5, 8, 9, 'Hello']

In [27]:
second_list

[5, 8, 9, 'Hello']

Так мы создали два одинаковым списка. Изменим теперь один из них:

In [28]:
second_list[0] = 777
second_list

[777, 8, 9, 'Hello']

Что вы ожидаете увидеть в `first_list`?

In [29]:
first_list

[777, 8, 9, 'Hello']

**Ой!** Когда мы изменили список `second_list`, магическим образом изменился и исходный список `first_list`! Почему так произошло? Дело в том, что списки живут в своём собственном мире платоновских идеальных списков. Когда мы присваиваем список переменной, то есть пишем что-нибудь вроде 

    first_list = [5, 8, 9, 'Hello']
    
мы делаем две вещи: во-первых, создаём список (с помощью операции «квадратные скобки»), а потом говорим, что теперь переменная `first_list` будет указывать на этот список (с помощью операции «равно»). Можно сказать, что мы создали список и дали ему *имя* `first_list`. 

> Отныне предлагаю читать знак «=» как «наречём».

После этого в `first_list` хранится не сам список, а указатель (ссылка) на него. Когда мы присваиваем значение `first_list` новой переменной `second_list`, мы не производим копирование списка, мы копируем только указатель. То есть `second_list` просто стала другим именем для того же самого списка, что и `firt_list`. Поэтому изменение элементов `second_list` приведет к изменению `first_list`, и наоборот.

Правильно будет скопировать список.

In [30]:
first_list = [6, 9, 2, 5]
third_list = first_list.copy()
print(third_list)
third_list[0] = 100
print(third_list)
print(first_list)

[6, 9, 2, 5]
[100, 9, 2, 5]
[6, 9, 2, 5]


Вы также можете встретиться с таким синтаксисом для копирования списков:

In [31]:
first_list = [6, 9, 2, 5]
other_list = first_list[:]

Он тоже сработает (по крайней мере, для обычных списков). Здесь `[:]` — это не смайлик, а срез, начало которого совпадает с началом исходного списка, а конец — с концом. Такой код вы часто можете встретить в программах, написанных на Python 2, потому что там не было метода `copy()`.

## 2. Кортеж

Кортеж (`tuple`) — это почти то же самое, что и список, только его элементы неизменяемы. Обозначается он круглыми скобками.Проще всего создать кортеж, записав последовательность значений через запятую:

In [32]:
tup = (4,5,6)
tup

(4, 5, 6)

In [33]:
type(tup)

tuple

Когда кортеж определяется в более сложном выражении, часто бывает необходимо заключать значения в скобки, как в следующем примере, где создается кортеж кортежей:

In [34]:
nested_tup = ((4, 4, 5, 6), (7, 8))
nested_tup

((4, 4, 5, 6), (7, 8))

К элементам кортежа можно обращаться с помощью квадратных скобок. 

In [35]:
tup[2]

6

Уже записанные в кортеж элементы нельзя поменять на другие. 

In [36]:
tup[2] = 4

TypeError: 'tuple' object does not support item assignment

__Ещё раз, ещё раз!__ Кортеж неизменяем.

In [37]:
tup.append(4)

AttributeError: 'tuple' object has no attribute 'append'

Можно думать о списке как о меловой доске, расчерченной на отдельные ячейки, в которые можно записывать разные значения. Тогда кортеж — это глинянная (или каменная) дощечка, на которой выбиты какие-то значения. Вы не можете изменить значения, которые на ней выбиты, но вы можете разбить старую дощечку и изготовить новую.

Можно также конвертировать списки в кортежи и наоборот.

In [38]:
print( list( (1, 2, 3) ) )
print( tuple( [1, 2, 3] ) )

[1, 2, 3]
(1, 2, 3)


В `tuple` можно преобразовать любую последовательность. Даже какое-нибудь слово. 

In [39]:
tup = tuple('Hello')
tup

('H', 'e', 'l', 'l', 'o')

Кортежи можно складывать в более длинные кортежи. Умножение приведёт к повторению. Отметим, что копируются не сами объекты, а только ссылки на них.

In [40]:
(4, None, 'foo') + (6, 0) + ('bar',)

(4, None, 'foo', 6, 0, 'bar')

In [41]:
('foo', 'bar') * 4

('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

Кортеж можно распаковать по переменным.

In [42]:
tup = (4, 5, 6)
a,b,c = tup 
print(a)

4


Можно подсчитать число вхождений объекта в кортеж.

In [43]:
a = (1, 2, 2, 2, 3, 4, 2)
a.count(2) 

4

Можно распаковать кортеж в лист.

In [44]:
list(a)

[1, 2, 2, 2, 3, 4, 2]

Кортежи и списки довольно похожи. 

## 3. Встроенные функции последовательностей 

У последовательностей в python есть несколько полезных функций. Иногда при обходе списка хочется следить за порядковым номером текущего элемента.  Ручками это можно сделать следующим образом:

In [45]:
seq = [7, 2, 3, 7, 5, 6, 0, 1]

i = 0
for value in seq:
    print(i, value)
    i+=1

0 7
1 2
2 3
3 7
4 5
5 6
6 0
7 1


Но поскольку эта задача встречается довольно часто, в python есть встроенная команда `enumerate`, которая возвращает список кортежей `(i, value)`.

In [46]:
list(enumerate(seq))

[(0, 7), (1, 2), (2, 3), (3, 7), (4, 5), (5, 6), (6, 0), (7, 1)]

In [47]:
for i, value in enumerate(seq):
    print(i, value)

0 7
1 2
2 3
3 7
4 5
5 6
6 0
7 1


Функция `sorted` возвращает новый отсортированный список. Старый список остается неотсортированным.

In [48]:
sorted(seq)

[0, 1, 2, 3, 5, 6, 7, 7]

In [49]:
seq

[7, 2, 3, 7, 5, 6, 0, 1]

Для получения отсортированного списка уникальных элементов нередко используют `sorted` совместно с `set`.

In [50]:
sorted(set(seq))

[0, 1, 2, 3, 5, 6, 7]

Функция `zip` сшивает элементы двух списков или кортежей, создавай список из пар. 

In [51]:
seq_1 = [1, 2, 3, 4, 5, 6]
seq_2 = ['один', 'два', 'три', 'четыре', 'пять']
seq = [3,4,5]

zip(seq_1, seq_2, seq)

<zip at 0x10dd29548>

In [52]:
seq_zip = list(zip(seq_1, seq_2))
seq_zip

[(1, 'один'), (2, 'два'), (3, 'три'), (4, 'четыре'), (5, 'пять')]

Очень распространённое применение функции `zip` - одновременный обход нескольких последовательностей. Возможно, в сочетании с `enumerate`. 

In [53]:
for i, (a,b) in enumerate(zip(seq_1, seq_2)):
    print("%d : %d, %s" % (i, a, b))

0 : 1, один
1 : 2, два
2 : 3, три
3 : 4, четыре
4 : 5, пять


Если имеется сшитая последовательность, то `zip` можно использовать и для того, чтобы её распороть. Синтаксис для этого выглядит слегка причудливо. 

In [54]:
a1, a2 = zip(*seq_zip)
print(a1)
print(a2)

(1, 2, 3, 4, 5)
('один', 'два', 'три', 'четыре', 'пять')


На пока что последняя функция, `reversed` перебирает элеменеты в обратном порядке. 

In [55]:
seq

[3, 4, 5]

In [56]:
reversed(seq)

<list_reverseiterator at 0x10dd4a128>

In [57]:
list(reversed(seq))

[5, 4, 3]

## 4. Словари

Рассмотрим такую задачу: у нас есть информация об оценках студентов по некоторому предмету и мы хотим иметь возможность с этой информацией работать — например, по имени студента определить, какую оценку он получил. Мы могли бы пытаться решить эту задачу, создав два списка — один с именами студентов, а другой с оценками:

In [58]:
students = ["Вася", "Коля", "Петя", "Аня"]
grades = [5, 4, 2, 3]
# Вася получил 5, Коля 4 и т.д.

В принципе, мы могли бы теперь, зная имя студента, найти его номер в первом списке и потом обратиться к элементу второго списка с тем же номером. Однако, этот подход довольно неэффективен: если бы у нас была тысяча студентов, нам пришлось бы сначала долго-долго просматривать их список в поисках нужного имени. Время, необходимое на поиск нужной информации, росло бы вместе с ростом длины списка. Это плохо.

Было бы здорово, если бы у нас была возможность иметь тип данных, в котором элементы нумеруются не натуральными числами, а произвольными объектами. Оказывается, такой тип данных существует: в Python он называется *словарём* (*dictionary*).
> Более общий термин для такого типа данных: *ассоциированный массив*; в других языках программирования используются также другие термины — например, в Perl похожий объект называется *hash* — сокращение от *hash table*.

Вот так можно создать словарь в Python:

In [59]:
gradebook = {"Вася": 5, "Коля": 4, "Петя":2, "Аня": 3}

Это похоже на создание списка, но есть ряд отличий. Во-первых, мы использовали фигурные скобки вместо квадратных, чтобы показать, что создаём именно словарь. Во-вторых, словарь состоит из *записей*, каждая запись состоит из двух частей: *ключа* (*key*) и *значения* (*value*). Ключ и значение разделяются двоеточием. Например, у нас есть запись `"Аня": 3` с ключом `"Аня"` и значением `3`. Всего наш словарь `gradebook` сейчас содержит четыре записи, ключами которых являются имена студентов, а значениями — их оценки.

In [60]:
gradebook

{'Аня': 3, 'Вася': 5, 'Коля': 4, 'Петя': 2}

Заметим, что при печати Python переупорядочил записи в словаре. На самом деле, порядок вывода записей в словаре является произвольным: внутри словаря записи не имеют никакого порядка. Поэтому нельзя обратиться, например, к «первой записи», но зато можно обратиться к записи с данным ключом:

In [61]:
gradebook['Аня']

3

In [62]:
gradebook['Вася']

5

Можно изменить значение записи, точно так же, как изменить элемент списка.

In [63]:
gradebook['Аня'] = 5 # Аня переписала контрольную!
gradebook

{'Аня': 5, 'Вася': 5, 'Коля': 4, 'Петя': 2}

Можно добавить новую запись.

In [64]:
gradebook['Иннокентий'] = 4 # О, новенький!
gradebook

{'Аня': 5, 'Вася': 5, 'Иннокентий': 4, 'Коля': 4, 'Петя': 2}

При попытке обратиться к записи, которой нет, мы получим сообщение об ошибке:

In [65]:
gradebook['Alice']

KeyError: 'Alice'

Проверить есть ли у нас в словаре какой-то ключ можно следующим образом:

In [66]:
'Иннокентий' in gradebook

True

In [67]:
'Alice' in gradebook

False

Часто нам хочется иметь возможность запросить запись, а в случае, если её нет, получить какое-нибудь «значение по умолчанию», а не ошибку. Для этого нужно использовать метод `get()` вместо квадратных скобок.

In [68]:
gradebook.get('Иннокентий')

4

Здесь вернулось `None`:

In [69]:
print(gradebook.get('Alice'))

None


Можно было бы передать `get()` второй аргумент, и тогда в случае, если такого ключа в словаре нет, то будет возвращен он.

In [70]:
gradebook.get('Alice', 'No such student')

'No such student'

In [71]:
gradebook.get('Вася',  'No such student')

5

Можно вернуть список из всех ключей и всех значений словаря. Несмотря на то, что для словарей порядок не определён, они возвращают их в одинаковой последовательности. На выход идут итераторы, из которых можно сделать списки.

In [72]:
gradebook.keys()

dict_keys(['Вася', 'Коля', 'Петя', 'Аня', 'Иннокентий'])

In [73]:
gradebook.values()

dict_values([5, 4, 2, 5, 4])

Можно вернуть пары из ключей и значений.

In [74]:
gradebook.items()

dict_items([('Вася', 5), ('Коля', 4), ('Петя', 2), ('Аня', 5), ('Иннокентий', 4)])

### Перебор записей в словаре
Как обрабатывать информацию в словаре? Для перебора всех элементов списка можно было использовать цикл `for`. А что будет, если ему скормить словарь вместо списка? Попробуем:

In [75]:
gradebook

{'Аня': 5, 'Вася': 5, 'Иннокентий': 4, 'Коля': 4, 'Петя': 2}

In [76]:
for k in gradebook:
    print(k)

Вася
Коля
Петя
Аня
Иннокентий


Понятно! Цикл `for` в этом случае перебирает все *ключи* нашего словаря. А зная ключ, можно получить и значение:

In [77]:
for k in gradebook:
    print("Студент", k, "имеет оценку", gradebook[k])

Студент Вася имеет оценку 5
Студент Коля имеет оценку 4
Студент Петя имеет оценку 2
Студент Аня имеет оценку 5
Студент Иннокентий имеет оценку 4


Однако, есть более изящный способ получить сразу ключ и значение очередной записи: использовать `items()`.

In [78]:
for k, v in gradebook.items():
    print("Студент",k,"имеет оценку", v)

Студент Вася имеет оценку 5
Студент Коля имеет оценку 4
Студент Петя имеет оценку 2
Студент Аня имеет оценку 5
Студент Иннокентий имеет оценку 4


Оператор `for` в этом случае понимает, что нужно при каждом проходе цикла выбрать очередной кортеж и присвоить его первый элемент (то есть ключ) переменной `k`, а второй элемент (то есть значение) переменной `v` (конечно, эти переменные могли бы называться иначе).

Вот так можно найти все записи с заданным значением — например, всех студентов, получивших оценку 4:

In [79]:
for k, v in gradebook.items():
    if v==4:
        print(k)

Коля
Иннокентий


Заметим, что такой «поиск по значению» требует перебора всех записей в словаре и если словарь большой, то он будет занимать много времени — хотя «поиск по ключу» будет по-прежнему выполняться быстро.

### Создание словарей, удаление элементов, слияние словарей

Ключами словарей могут быть не только строчки, а значениями не только цифры.

In [80]:
dictionary = {7: 'new_el', 'a': 'some value', 'b': 12, 'l': [33,1,15]}
dictionary

{7: 'new_el', 'a': 'some value', 'b': 12, 'l': [33, 1, 15]}

Можно удалить запись из словаря командой `del`. 

In [81]:
del dictionary[7]

dictionary

{'a': 'some value', 'b': 12, 'l': [33, 1, 15]}

Можно сделать это методом `pop`. Он не только удалит пару, но и выдаст значение для удаляемого ключа, которое можно сохранить в новую переменную.

In [82]:
val = dictionary.pop('b')
print(val)
dictionary

12


{'a': 'some value', 'l': [33, 1, 15]}

В переменной `val` оказалось значение `12`, которое соответствует удалённому ключу `b`.

Два словаря можно объединить в один методом `update`.

In [83]:
dictionary.update({'l' : 'foo', 'b' : 12})
dictionary

{'a': 'some value', 'b': 12, 'l': 'foo'}

Есть разные способы создавать словари. Например, можно создать пустой словарь и постепенно заполнять его элементами:

In [84]:
my_dict = { }

my_dict[1] = 1
my_dict['hello'] = 'world'

my_dict

{1: 1, 'hello': 'world'}

Ещё раз заметим, что в одном и том же словаре прекрасно уживаются элементы разных типов (в данном случае — строки и целые числа).

Можно создать словарь иначе, передав функции `dict()` список, состоящий из пар ключ-значение (в некоторо смысл, это обратная операция методу `items()`):

In [85]:
dict([('hello','world'), ('one', 'two')])

{'hello': 'world', 'one': 'two'}

Вернёмся к началу лекции. Допустим, у нас есть два списка, в одном находятся имена студентов, а в другом их оценки. Как можно из этих списков создать словарь, для которого имена были бы ключами, а оценки значениями?

А вот так:

In [86]:
students = ["Вася", "Коля", "Петя", "Аня"]
grades = [5, 4, 2, 3]
new_gradebook = list(zip(students,grades))
new_gradebook

[('Вася', 5), ('Коля', 4), ('Петя', 2), ('Аня', 3)]

Здесь используется удобная функция `zip()`, применение которой не ограничивается созданием словарей. Подобно застёжки-молнии, она «состёгивает» (отсюда и название) несколько списков. Например, `zip()` делает из пары списков список пар (утверждение звучит как скороговорка, но если вы подумаете нам ним как следует, то заметите, что оно в точности описывает то, что делает эта команда). 

Заменим `list` на `dict` и получим сшитый словарь.

In [87]:
dict(zip(students,grades))

{'Аня': 3, 'Вася': 5, 'Коля': 4, 'Петя': 2}

### Какие объекты могут быть ключами словарей

До сих пор мы рассматривали словари, ключами которых являются строки и числа. На самом деле, ключами могут быть и более сложно устроенные объекты. Например, представим себе такую реализацию фрагмента таблицы сложения в виде словаря:


In [88]:
sums = {(2,3): 5, (4, 1): 5, (5, 7): 12}
sums

{(2, 3): 5, (4, 1): 5, (5, 7): 12}

Здесь ключами являются кортежи, состоящие из двух чисел, а значениями — суммы этих чисел.

In [89]:
sums[(2,3)]

5

В этом месте проявляется важное отличие кортежей от списков: последние не могут быть ключами словарей, поскольку могут изменяться.

In [90]:
sums = { [1,2]: 3}

TypeError: unhashable type: 'list'

### Расширенные приколы (необязательный кусочек)

Когда словарь только-только заполняется, в нём есть не все возможные ключи. Поэтому на каждой итерации приходится проверять наличие ключа. 

In [91]:
words = ['apple', 'bat', 'bar', 'atom', 'book']

by_letter = { }
for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word]
    else:
        by_letter[letter].append(word)
        
by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

In [92]:
by_letter = {}
for word in words:
    letter = word[0]
    by_letter.setdefault(letter, []).append(word)
    
by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

В стандартном модуле `collections` есть класс `defaultdict`. Его конструктору передается тип, который надо использовать по дефолту. 

In [93]:
from collections import defaultdict

by_letter = defaultdict(list)
for word in words:
    by_letter[word[0]].append(word)

by_letter

defaultdict(list, {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']})

Единственное, что требуется от инициализатора defaultdict, - быть объектом, допускающим вызов (например, функцией). Следовательно, чтобы значение по умолчанию было равно 4, мы можем передать функцию, возвращающую 4:

In [94]:
def f(x):
    return x**2

f(4)

16

In [95]:
g = lambda x: x**2
g(4)

16

In [96]:
by_letter = defaultdict(lambda: [4])

for word in words:
    by_letter[word[0]].append(word)

by_letter

defaultdict(<function __main__.<lambda>>,
            {'a': [4, 'apple', 'atom'], 'b': [4, 'bat', 'bar', 'book']})

## 5. Множества 

Множество - это неупорядоченная колекция уникальных элементов. Можно считать, что это словарь без значений. Только с ключами. 

In [97]:
set_a  = set([2, 2, 2, 1, 3, 3])
set_a 

{1, 2, 3}

In [98]:
set_b = {2,5,6,7,8}
set_b

{2, 5, 6, 7, 8}

In [99]:
set_c =  set( ) # пустое множество
set_c

set()

Добавить элемент в множество.

In [100]:
set_b.add(42)
set_b

{2, 5, 6, 7, 8, 42}

Удалить элемент из множества. 

In [101]:
set_b.remove(42)
set_b

{2, 5, 6, 7, 8}

Над множествами можно совершать разные теоретико-множественные операции. 

In [102]:
set_a | set_b

{1, 2, 3, 5, 6, 7, 8}

In [103]:
set_a & set_b

{2}

In [104]:
set_a - set_b

{1, 3}

In [105]:
set_a ^ set_b  # XOR симметрическая разность 

{1, 3, 5, 6, 7, 8}

Можно проверить является ли a подмножеством b и наоборот является ли b подмножеством a.

In [106]:
a_set = {1, 2, 3, 4, 5}
{1, 2, 3}.issubset(a_set)

True

In [107]:
a_set.issuperset({1, 2, 3, 7})

False

Можно проверить нет ли ни одного общего элемента.

In [108]:
a_set.isdisjoint({6,7,8})

True

In [109]:
a_set.isdisjoint({2,7,8})

False

Отметим, что проверка вхождения значения в случае списка занимает гораздо больше времени, чем в случае словаря или множества, потому что Python должен просматривать список от начала до конца, а это требует линейного времени, тогда как поиск в других структурах занимает постоянное время. 

In [110]:
from random import random
from math import sqrt
N = 10000

a = [random() for i in range(N)]
b = {random() for i in range(N)}

In [111]:
%%timeit
222 in a

357 µs ± 8.65 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [112]:
%%timeit
222 in b

44.6 ns ± 0.729 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


Как видно из этих данных (магическое слово `%timeit` позволяет измерить, сколько времени уходит на какую-то операцию). Проверка того есть ли какой-то элемент в множестве (хэш-таблице) работает на порядок быстрее, чем в списке.

## 6. Сложные структуры данных 

Списки позволяет сохранить некоторый ряд значений, но зачастую нужно уметь работать с более сложные структурами — например, с таблицами. В некоторых языках программирования есть *двумерные массивы*. Аналогом двумерного массива в Python является «список списков», то есть такой список, элементами которого являются другие списки. С чем-то подобным мы уже встречались.

Рассмотрим пример: таблица, в которой записаны результаты по нескольким домашним работам у нескольких студентов. (Допустим, мы присвоили студентам некоторые номера и поэтому нам не нужно знать, кого как зовут.) Её можно записать в виде списка списков, например, по строчкам:

In [113]:
table = [["HW1", "HW2", "HW3", "HW4"], [4, 3, 4, 4], [3, 4, 3, 4], [4, 5, 5, 4]]

Здесь каждый элемент списка `table` — это строчка нашей таблицы, то есть тоже список. Например, вот так можно узнать, что записано в третьей строке и четвертом столбце нашей таблицы:

In [114]:
table[2][3]

4

Что здесь произошло? Мы сначала вызвали третью строку таблицы с помощью

In [115]:
table[2]

[3, 4, 3, 4]

А потом из этой третьей строки выбрали четвертый элемент с помощью `[3]`. Можно было бы записать это более подробно:

In [116]:
row = table[2]
print(row[3])
# row[3] это то же самое, что table[2][3]

4


Вот так можно напечатать все элементы таблицы по строчкам:

In [117]:
for row in table:
    print(*row)

HW1 HW2 HW3 HW4
4 3 4 4
3 4 3 4
4 5 5 4


Допустим теперь, что нам всё же хочется знать, какой студент какую оценку получил. Тогда мы могли бы вместо списка списков использовать словарь, у которого списки были бы значениями:

In [118]:
gradebook = {'Bill': [4, 3, 2], 'Alice': [3, 4, 5], 'Bob': [5, 5, 4]}

Вот так можно посмотреть, какую оценку получил Боб по второй домашке:

In [119]:
gradebook['Bob'][1]

5

На этом остановимся, а то как-то многовато.

## Соблюдение авторских прав

В этой тетрадке мной были использованы: 

1. Моя фантазия.

2. [Материалы для вышкинского курса](http://math-info.hse.ru/s15/m) по сбору и анализу данных в Python, подготовленные Щуровым И.В. для НИУ ВШЭ. 