<a href="https://colab.research.google.com/github/pythonkvs/seminars/blob/main/%D0%A1%D0%B5%D0%BC%D0%B8%D0%BD%D0%B0%D1%80_%D0%BA%D0%BE%D0%BB%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B8_16_09.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Структуры данных

In [1]:
# built-in структуры данных
list, tuple, dict, set, frozenset

(list, tuple, dict, set, frozenset)

## Список: list

Позволяет хранить последовательность элементов одного или разных типов с сохранением порядка добавления элементов в список.

In [2]:
lst = [1, None, 'qwerty']
list([1, None, 'qwerty']) == lst  # list() gets any iterable object as input

True

In [3]:
lst[0] = [10, 20]
lst

[[10, 20], None, 'qwerty']

- элементы могут быть произвольного типа
- сам список является изменяемым типом


### `Операции над списками`

In [4]:
len(lst)

3

In [5]:
type(lst)

list

In [6]:
lst[-1]

'qwerty'

In [7]:
lst[: 100]  # slice bounds can be exceed real ones

[[10, 20], None, 'qwerty']

In [8]:
lst[5]

IndexError: ignored

In [9]:
lst = [1, 2, 3]
lst.append(4)
lst

[1, 2, 3, 4]

In [10]:
print(lst.pop(), lst)

4 [1, 2, 3]


In [11]:
lst.sort(reverse=True)  # equals to lst.reverse()
lst

[3, 2, 1]

In [12]:
lst * 2

[3, 2, 1, 3, 2, 1]

In [13]:
lst + list('abc')

[3, 2, 1, 'a', 'b', 'c']

### `Списковые включения и генераторы списков`

In [14]:
[x ** 2 for x in [1, 2, 3] if x > 1]  # list comprehension

[4, 9]

In [15]:
lst = [x ** 2 for x in [1, 2, 3] if x > 1]
print(type(lst))

for _ in [1, 2]:  # _ means value we really don't need
    for e in lst:
        print(e)

<class 'list'>
4
9
4
9


In [16]:
lst = (x ** 2 for x in [1, 2, 3] if x > 1)  # list generator
print(type(lst))

for _ in [1, 2]:
    for e in lst:
        print(e)

<class 'generator'>
4
9


### `Снова про объекты и переменные`

---



In [17]:
a = [2]
b = a
a += [1]
print(b)

[2, 1]


- список - изменяемый объект, создание новой ссылки не приводит к появлению нового объекта
- есть две переменные, указывающие на один и тот же список

In [18]:
del a
print(b)

[2, 1]


- удаление `a` не приводит у удалению списка, поскольку на него ещё ссылается `b`

### `Копирование изменяемых объектов`

In [19]:
a = [1, 2, 3]
b = a[:]
b.append(4)
print(a)

[1, 2, 3]


In [20]:
a = [1, 2, 3]
b = a.copy()
b.append(4)
print(a)

[1, 2, 3]


### `Копирование вложенных изменяемых объектов`

In [21]:
a = [['a', 'b', 'c'], 2, 3]
b = a.copy()
b[0].append('d')
print(a)
print(b)

[['a', 'b', 'c', 'd'], 2, 3]
[['a', 'b', 'c', 'd'], 2, 3]


In [22]:
import copy

a = [['a', 'b', 'c'], 2, 3]
b = copy.deepcopy(a)
b[0].append('d')
print(a)
print(b)

[['a', 'b', 'c'], 2, 3]
[['a', 'b', 'c', 'd'], 2, 3]


### `Временная сложность`

In [23]:
example_list = []
# добавляем элемент в конец списка O(1)
example_list.append("foo")
print(example_list)

# добавляем элемент в начало O(n)
example_list.insert(0, "bar")
print(example_list)

example_list.extend(["foo", 1])
print(example_list)

['foo']
['bar', 'foo']
['bar', 'foo', 'foo', 1]


In [24]:
benchmark_list = []
%timeit -n10000 benchmark_list.append("foo")

The slowest run took 9.96 times longer than the fastest. This could mean that an intermediate result is being cached.
10000 loops, best of 5: 173 ns per loop


In [25]:
benchmark_list = []
%timeit -n10000 benchmark_list.insert(0, "bar")

The slowest run took 4.47 times longer than the fastest. This could mean that an intermediate result is being cached.
10000 loops, best of 5: 5.26 µs per loop


In [26]:
example_list = [0, 1, 2, 3, 4, 5, 6]

# доступ к элементу O(1)
print(example_list[0])
print(example_list[-1])

# Изменение по индексу O(1)
example_list[6] = 10

0
6


In [27]:
# Удаление элемента O(n)
print(example_list)
del example_list[-1]
print(example_list)

[0, 1, 2, 3, 4, 5, 10]
[0, 1, 2, 3, 4, 5]


In [28]:
example_list.remove(4)
print(example_list)

[0, 1, 2, 3, 5]


### Немного о сортировке

In [29]:
# Сортировка списка
unsorted_list = [2, 1, 5, 4, 3]
unsorted_list.sort()
print(unsorted_list)

[1, 2, 3, 4, 5]


In [30]:
unsorted_list = [2, 1, 5, 4, 3]
print(sorted(unsorted_list))
print(unsorted_list)

[1, 2, 3, 4, 5]
[2, 1, 5, 4, 3]


## Кортеж: tuple

Так же как и список позволяет хранить последовательность элементов одного или разного типа

* Неизменяемые (Immutable) => защищают данные
* Быстрее списка

In [31]:
type(()), type(tuple())

(tuple, tuple)

In [32]:
(1, 2, 'str', 4.0, None)

(1, 2, 'str', 4.0, None)

In [33]:
(1, 2) + (3.0, 6, None)

(1, 2, 3.0, 6, None)

In [34]:
tpl = tuple([1, 2, 3])
tpl[2]

3

In [35]:
a = (123)
a
print(type(a))
a = (123,  )# в кортеже с одним элементом запятая обязательна!
print(type(a))
a = 1,2,3
print (type(a))

<class 'int'>
<class 'tuple'>
<class 'tuple'>


Важно понимать, что **неизменяемым является сам tuple, но не объекты, которые он содержит!**. Например:

In [36]:
first_list = [1, 2]
second_list = [3, 4]
example_tuple = (first_list, second_list)
print(example_tuple)
first_list.append(5)
print(example_tuple)

([1, 2], [3, 4])
([1, 2, 5], [3, 4])


## Словарь: dict

- словарь (`dict`) - это ассоциативный массив (отображение), т.е. набор пар "ключ-значение"<br><br>
- словарь поддерживает возможность быстро искать значение по ключу<br><br>
- в Python словари реализованы на основе хэш-таблиц (сложность поиска O(1))<br><br>
- словари также являются изменяемым типом данных<br><br>
- значения могут иметь произвольный тип<br><br>
- ключи - произвольный неизменяемый тип

In [37]:
type(dict()), type({})

(dict, dict)

In [38]:
# simple creation of nested structures!
d = {'1': 1, 's': 2, None: [1, {None: True}]}
d

{'1': 1, None: [1, {None: True}], 's': 2}

In [39]:
d['s'] = 'two'
d

{'1': 1, None: [1, {None: True}], 's': 'two'}

In [40]:
del d['1']  # remove object
print(d)

{'s': 'two', None: [1, {None: True}]}


In [41]:
d2 = {'s': 3, 'a': 'b'}

### `Операции над словарями`

In [42]:
d = dict.fromkeys(list('abcccc'))
d

{'a': None, 'b': None, 'c': None}

In [43]:
for k in d.keys():  # view object
    d[k] = ord(k)
d

{'a': 97, 'b': 98, 'c': 99}

In [44]:
for k, v in d.items():  # view object
    print(k, v)

a 97
b 98
c 99


In [45]:
D = dict(a=ord('a'), b=ord('b'), c=ord('c'))
d == D

True

In [46]:
d.update(d2)
d

{'a': 'b', 'b': 98, 'c': 99, 's': 3}

In [47]:
d3 = {'w': 73}
{**d, **d3}

{'a': 'b', 'b': 98, 'c': 99, 's': 3, 'w': 73}

### `Сравнение словаря со списком`

In [48]:
search_list = list(range(100000))
search_dict = dict.fromkeys(list(range(100000)))

In [49]:
%timeit -n10000 0 in search_list

10000 loops, best of 5: 50.2 ns per loop


In [50]:
%timeit -n10000 0 in search_dict

10000 loops, best of 5: 58.9 ns per loop


In [51]:
%timeit -n1000 99999 in search_list

1000 loops, best of 5: 1.38 ms per loop


In [52]:
%timeit -n10000 99999 in search_dict

10000 loops, best of 5: 64.5 ns per loop


### `В python3.6 dict сохраняет порядок добавления элементов`

In [53]:
example = dict()
for item in range(0, 10):
    example[item - 1] = item
print(example)
for key, value in example.items():
    print(key, value)

{-1: 0, 0: 1, 1: 2, 2: 3, 3: 4, 4: 5, 5: 6, 6: 7, 7: 8, 8: 9}
-1 0
0 1
1 2
2 3
3 4
4 5
5 6
6 7
7 8
8 9


## Равенство и идентичность

In [54]:
"a" in ["a", "b"]

True

In [55]:
first_list = [1,2,3]
from copy import deepcopy
second_list = deepcopy(first_list)
print(first_list == second_list)
print(first_list is second_list)

True
False


In [56]:
apple_count = "one"
orange_count = "one"
print(apple_count == orange_count)
print(apple_count is orange_count)

True
True


In [57]:
apple_count = "more than one"
orange_count = "more than one"
print(apple_count == orange_count)
print(apple_count is orange_count)

True
False


## Множество: set

Неупорядоченная коллекция, содержащая только уникальные хешируемые элементы.




In [58]:
type(set()), type({1}), type({})  # Empty '{}' is a dict, not a set!

(set, set, dict)

In [59]:
{1, 2, 3, 3, 2, 1, 'set', 'a'}

{1, 2, 3, 'a', 'set'}

In [60]:
s = {1, 2, 3}
s.add(4)
s

{1, 2, 3, 4}

In [61]:
s1, s2 = {1, 2, 3}, set([3, 4, 5])

print('{}\t{}\t{}\t{}'.format(s1 - s2, s1 | s2, s1 & s2, s1 < s2))

{1, 2}	{1, 2, 3, 4, 5}	{3}	False


### `Операции над множествами`

In [62]:
A, B = set('abc'), {'a', 'c', 'd'}

In [63]:
A - B  # minus: in A and not in B (== A.difference(B))

{'b'}

In [64]:
A | B  # union: in A or in B (== A.union(B))

{'a', 'b', 'c', 'd'}

In [65]:
A & B  # intersection: in A and in B (== A.intersection(B))

{'a', 'c'}

In [66]:
A ^ B  # sym diff: (in A and not in B) and via versa (== A.symmetric_difference(B))

{'b', 'd'}

### `Операции над множествами`

In [67]:
A.add('e')
A

{'a', 'b', 'c', 'e'}

In [68]:
A.update(B)
A

{'a', 'b', 'c', 'd', 'e'}

In [69]:
A.remove('a')
A

{'b', 'c', 'd', 'e'}

In [70]:
'a' in A

False

In [71]:
{'a', 'b'} < A  # is subset (== {'a', 'b'}.issubset(A))

False

In [72]:
# например, вызов какой-либо ф-ии чат сервиса вернул нам список активных в данный момент пользователей в комнате
active_users = ["Александр", "Михаил", "Ольга"]
# вызов другой ф-ии вернул список администраторов чата
admins = ["Ольга", "Мария"]
# нам нужно найти список активных администраторов и послать им какое-либо уведомление
active_admins = set(active_users).intersection(set(admins))
active_admins

{'Ольга'}

In [73]:
# множества могут содержать только hashable объекты
example_set = set()
example_set.add([1, 2, 3])

TypeError: ignored

**Основная задача, очень часто возникающая на практике. Есть список элементов, нужно оставить только уникальные. Это одна строка с использованием множества:**

In [74]:
elements = ["yellow", "yellow", "green", "red", "blue", "blue", "magenta", "orange", "red"]
set(elements)

{'blue', 'green', 'magenta', 'orange', 'red', 'yellow'}

## frozenset

Так как set может содержать только hashable объекты, а иногда нужен сет сетов - существует frozenset

In [75]:
example_set = set()
example_set.add(frozenset([1,2,3]))
print(example_set)
a = frozenset([1,2,3,3])
print(a)

{frozenset({1, 2, 3})}
frozenset({1, 2, 3})


## collections

### `collections.Counter`

In [76]:
from collections import Counter

c = Counter()
for word in ['spam', 'egg', 'spam', 'counter', 'counter', 'counter']:
    c[word] += 1

print(c)
print(c['counter'])
print(c['collections'])

Counter({'counter': 3, 'spam': 2, 'egg': 1})
3
0


In [77]:
c = Counter(a=4, b=2, c=0, d=-2)
list(c.elements())

['a', 'a', 'a', 'a', 'b', 'b']

In [78]:
Counter('abracadabra').most_common(3)

[('a', 5), ('b', 2), ('r', 2)]

In [79]:
c = Counter(a=4, b=2, c=0, d=-2)
d = Counter(a=1, b=2, c=3, d=4)
c.subtract(d)
c

Counter({'a': 3, 'b': 0, 'c': -3, 'd': -6})

In [80]:
c = Counter(a=3, b=1)
d = Counter(a=1, b=2)
print(c + d)
print(c - d)
print(c & d)
print(c | d)

Counter({'a': 4, 'b': 3})
Counter({'a': 2})
Counter({'a': 1, 'b': 1})
Counter({'a': 3, 'b': 2})


### `collections.deque`

collections.deque(iterable, [maxlen]) - создаёт очередь из итерируемого объекта с максимальной длиной maxlen. Очереди очень похожи на списки, за исключением того, что добавлять и удалять элементы можно либо справа, либо слева.

Методы, определённые в deque:

*   append(x) - добавляет x в конец.
*   appendleft(x) - добавляет x в начало.
*   clear() - очищает очередь.
*   count(x) - количество элементов, равных x.
*   extend(iterable) - добавляет в конец все элементы iterable.
*   extendleft(iterable) - добавляет в начало все элементы iterable (начиная с последнего элемента iterable).
*   pop() - удаляет и возвращает последний элемент очереди.
*   popleft() - удаляет и возвращает первый элемент очереди.
*   remove(value) - удаляет первое вхождение value.
*   reverse() - разворачивает очередь.
*   rotate(n) - последовательно переносит n элементов из начала в конец (если n отрицательно, то с конца в начало).

In [81]:
from collections import deque

d = deque([1, 2, 3])
p = d.popleft()        # p = 1, d = deque([2, 3])
d.appendleft(5)        # d = deque([5, 2, 3]) 

d = deque(maxlen=3)  # only holds 3 items
d.append(1)  # deque([1])
d.append(2)  # deque([1, 2])
d.append(3)  # deque([1, 2, 3])
d.append(4)  # deque([2, 3, 4]) (1 is removed because its maxlen is 3)

dl = deque()  # deque([]) creating empty deque

dl = deque([1, 2, 3, 4])  # deque([1, 2, 3, 4])

dl.append(5)  # deque([1, 2, 3, 4, 5])

dl.appendleft(0)  # deque([0, 1, 2, 3, 4, 5])

dl.extend([6, 7])  # deque([0, 1, 2, 3, 4, 5, 6, 7])

dl.extendleft([-2, -1])  # deque([-1, -2, 0, 1, 2, 3, 4, 5, 6, 7])

dl.pop()  # 7 => deque([-1, -2, 0, 1, 2, 3, 4, 5, 6])

dl.popleft()  # -1 deque([-2, 0, 1, 2, 3, 4, 5, 6])

dl.remove(1)  # deque([-2, 0, 2, 3, 4, 5, 6])

dl.reverse()  # deque([6, 5, 4, 3, 2, 0, -2]) 

### `collections.defaultdict`

In [82]:
# somedict = {}
# print(somedict[3]) # KeyError

from collections import defaultdict
someddict = defaultdict(int)
print(someddict[3]) # print int(), thus 0

0


In [83]:
from collections import defaultdict
defdict = defaultdict(list)
print(defdict)
for i in range(5):
    defdict[i].append(i)

print(defdict)

defaultdict(<class 'list'>, {})
defaultdict(<class 'list'>, {0: [0], 1: [1], 2: [2], 3: [3], 4: [4]})


In [84]:
s = 'mississippi'
d = defaultdict(int)
for k in s:
    d[k] += 1

sorted(d.items())

[('i', 4), ('m', 1), ('p', 2), ('s', 4)]

In [85]:
s = [('yellow', 1), ('blue', 2), ('yellow', 3), ('blue', 4), ('red', 1)]
d = defaultdict(list)
for k, v in s:
    d[k].append(v)

sorted(d.items())

[('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]

### `collections.OrderedDict`

In [86]:
from collections import OrderedDict
d = {'banana': 3, 'apple':4, 'pear': 1, 'orange': 2}
print(OrderedDict(sorted(d.items(), key=lambda t: t[0])))
print(OrderedDict(sorted(d.items(), key=lambda t: t[1])))
print(OrderedDict(sorted(d.items(), key=lambda t: len(t[0]))))

OrderedDict([('apple', 4), ('banana', 3), ('orange', 2), ('pear', 1)])
OrderedDict([('pear', 1), ('orange', 2), ('banana', 3), ('apple', 4)])
OrderedDict([('pear', 1), ('apple', 4), ('banana', 3), ('orange', 2)])


### `collections.namedtuple`

In [87]:
from collections import namedtuple
Point = namedtuple('Point', ['x', 'y'])

print(type(Point))

p = Point(x=1, y=2)
p
p.x
p[0]

<class 'type'>


1