# Структуры данных в Python

Разговор здесь пойдет о коллекциях и об их воплощениях в виде списков и кортежей. 

## Списки
Со списками все просто и автору конспекта они хорошо известны. Стоит отметить, что при обращении к списку с выходом за его границы будет выдано исключение, а если мы изначально знаем длину списка, то можно прописать это при его создании:

In [24]:
none_list = [None] * 42
len(none_list)

42

При работе с отдельными элементами списка к ним надо обращаться по индексу. Также полезно помнить, что для получения набора элементов в списках используется нотация `[start:stop:step]`. При получении элементов таким образом формируется новый список:

In [3]:
lst = list(range(10))
even_lst = lst[::2]
even_lst[0] = 42
print(f'lst = {lst}')
print(f'even_lst = lst[::2]')
print(f'even_lst = {even_lst}')

lst = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
even_lst = lst[::2]
even_lst = [42, 2, 4, 6, 8]


Расширять списки очень просто:

In [4]:
lst += even_lst
print(lst)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 42, 2, 4, 6, 8]


Добавлять элементы тоже просто:

In [5]:
lst.append(24)
lst

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 42, 2, 4, 6, 8, 24]

С сортировкой списка надо запомнить один момент: если мы хотим сортировать его in-place, то применяем метод `sort`, иначе - функцию `sorted()`:

In [6]:
sorted_lst = sorted(lst)
print(lst)
print(sorted_lst)
lst.sort()
print(lst)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 42, 2, 4, 6, 8, 24]
[0, 1, 2, 2, 3, 4, 4, 5, 6, 6, 7, 8, 8, 9, 24, 42]
[0, 1, 2, 2, 3, 4, 4, 5, 6, 6, 7, 8, 8, 9, 24, 42]


**Пример работы со списками.** Здесь посчитаем медиану случайного списка случайной длины: 

In [7]:
import random
import statistics

n = random.randint(10, 20)
data = [None] * n
for i in range(n):
    data[i] = random.randint(0, 20)
half_len = n // 2
sorted_data = sorted(data)
median = sorted_data[half_len] if n % 2 == 1 else (sorted_data[half_len-1] + sorted_data[half_len])/2

print(f'n = {n}')
print(f'data = {data}')
print(f'sorted data = {sorted_data}')
print(f'median = {median}')
print(f'control median value = {statistics.median(data)}')

n = 18
data = [13, 10, 3, 1, 10, 5, 16, 13, 9, 16, 9, 15, 15, 19, 12, 12, 5, 19]
sorted data = [1, 3, 5, 5, 9, 9, 10, 10, 12, 12, 13, 13, 15, 15, 16, 16, 19, 19]
median = 12.0
control median value = 12.0


## Кортежи

Кортеж - это по сути своей неизменяемый список. Создается он либо посредством круглых скобок, либо через ключевое слово `tuple()`. К кортежам применима функция `hash()`, т.е. они могут быть ключами в словарях. 

Если хотим создать кортеж из одного элемента, то при его создании надо поставить запятую после этого элемента, иначе выражение в скобках будет иметь тип не кортеж, а тип первого элемента.

Очень интересную надстройку над кортежами являют собой именованные кортежи, к полям которых можно обращаться по их именам:

```python
from collections import namedtuple
CustomType = namedtuple('CustomType', ['prop1', 'prop2'])
customVal1 = CustomType.prop1
customVal2 = CustomType.prop2
```

## Словари

Они представляют собой коллекции в формате "ключ-значение", что логично=). Определить словарь можно двумя способами:

```python
my_dict1 = {}
my_dict2 = dict()
```

Если мы попытаемся получить значение по ключу, которого не существует, то получим ошибку `KeyError`:

In [8]:
my_dict1 = {}
try:
    print(my_dict1['some_key'])
except KeyError:
    print('KeyError has happenned...')

KeyError has happenned...


Если же мы подозреваем, что ключа нет, то лучше использовать метод `get('key_value')` словаря:

In [9]:
my_dict1.get('some_key', 'key not found')

'key not found'

Для проверки наличия ключа в словаре надо использовать оператор `in`:

In [10]:
print('some_key' in my_dict1)

False


Эти ошибки касаются лишь чтения из словаря. При записи значение с нужным ключом сохраняется в словарь:

In [11]:
my_dict1['some_key'] = 'key_val'
print(my_dict1['some_key'])

key_val


Для удаления элемента из словаря надо использовать оператор `del`:

In [12]:
del my_dict1['some_key']
my_dict1.get('some_key', 'key not found')

'key not found'

Если мы хотим удалить ключ из словаря, при этом его прочитав, то нам надо использовать метод `pop`. 
Если хотим итерироваться по словарю, то итерирование будет по ключам. Если хотим итерироваться по парам ключ-значение, то надо использовать метод `.items()`, а если по значениям, то метод `.values()`.

Рассмотренные выше словари никак не отсортированы по ключам. Если хотим отсортированные словари, то надо использовать класс `OrderedDict`.

**Задача по словарям.** Надо посмотреть, какие слова чаще всего встречаются в zen of python.

In [13]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


In [14]:
zen_of_python = """The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!
"""

In [15]:
zen_dict = {}
for word in zen_of_python.split():
    cleaned_word = word.strip('.,!-').lower()
    if cleaned_word not in zen_dict:
        zen_dict[cleaned_word] = 0
    zen_dict[cleaned_word] += 1

In [16]:
from operator import itemgetter

sorted(zen_dict.items(), key=itemgetter(1), reverse=True)[:3]

[('is', 10), ('better', 8), ('than', 8)]

Все это можно сделать существенно проще:

In [17]:
from collections import Counter

cleaned_list = [word.strip('.,!-') for word in zen_of_python.split()]
print(Counter(cleaned_list).most_common(3))

[('is', 10), ('better', 8), ('than', 8)]


## Множества

Для создания сабжа лучше использовать оператор `set()`. Можно еще и фигурными скобками, но тогда обязательно сразу прописывать значения, иначе у нас получится словарь.

In [18]:
x = set()
type(x)

set

Создадим 2 множества: нечетных и четных чисел.

In [19]:
odd_set = set([i for i in range(10) if i % 2 == 1])
even_set = set([i for i in range(10) if i % 2 == 0])
print(odd_set)
print(even_set)

{1, 3, 5, 7, 9}
{0, 2, 4, 6, 8}


Класс множеств поддерживает операции над множествами:

In [20]:
union_set = odd_set | even_set
print(union_set)
intersection_set = odd_set & even_set
print(intersection_set)
difference_set = odd_set - even_set
print(difference_set)
symmetric_difference_set = odd_set ^ even_set
print(symmetric_difference_set)

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
set()
{1, 3, 5, 7, 9}
{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}


Из множества можно удалять конкретные значения (метод `remove`), либо первые по списку значения (метод `pop`).

**Задача на множества.** Через сколько итераций функция `random.randint(1, 10)` выдаст повтор?

In [21]:
from random import randint

data = set()
i = 0
while True:
    i += 1
    x = randint(1, 10)
    if(x not in data):
        data.add(x)
    else:
        print(f'{x} is already in the set over {i} iteration(s)')
        break

1 is already in the set over 6 iteration(s)
